# airbnb crawler **Repository Path**: archerchu/airbnb-crawler ## Basic Information - **Project Name**: airbnb crawler - **Description**: airbnb爱彼迎数据多线程多代理爬虫,自动切换ip代理,以避免网站对ip的封锁 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2019-06-03 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # airbnb crawler #### 介绍 airbnb爱彼迎数据多线程多代理爬虫,自动切换ip代理,以避免网站对ip的封锁; 对爱彼迎的房源按区域搜索,每天定时对房源信息/设施/预订信息/房主信息全面抓取,没有做界面的数据分析; #### 软件架构 独立java执行程序,抓取页面主要用jsoup,数据库操作主要用hutool-db,两个线程池,一个主要负责获取代理ip,另外一个线程通过代理ip用于爬取数据,并自动ip代理切换,容错过滤等等 #### 使用说明 定时服务主要依赖centos的crontab定时执行. #crontab -e 30 23 * * * nohup java -jar /root/airbnb/airbnb-crawler-booking.jar & 0 1 * * * nohup java -jar /root/airbnb/airbnb-crawler-base.jar & 0 2 * * * nohup java -jar /root/airbnb/airbnb-crawler-info.jar &