分布式爬虫,爬取智联招聘的信息,双向爬取。
- scrapy
- python 2.7
- scrapy-redis
- mysqldb
- redis
DBMS随意安装,我是rdm+DataGrip。
zhilian/zhilian/spiders
下运行:
scrapy run zl.py
运行redis,运行mysql,在mysql中运行crawler.sql
zhilian
下运行
python process_item_for_mysql.py
该项目爬取的是大数据相关职业,如果要爬取全部职业,可将process_item_for_mysql.py
中的url_arg1 = "&kw=大数据&sm=1&p=1"
改为url_arg1 =&sm=1&p=1
,即删去此筛选。
同理也可以对其它的职位做相应筛选。
用多台服务器(或PC)爬取的时候,需要将slaver端传输数据的IP地址修改成master主机的IP地址,即修改zhilian/zhilian/settings.py
中的REMOTE_HOST
。