分布式爬虫，爬取智联招聘的信息，双向爬取。

DBMS随意安装，我是rdm+DataGrip。

zhilian/zhilian/spiders下运行：

scrapy run zl.py

运行redis,运行mysql,在mysql中运行crawler.sql

zhilian下运行

python process_item_for_mysql.py

该项目爬取的是大数据相关职业，如果要爬取全部职业，可将process_item_for_mysql.py中的url_arg1 = "&kw=大数据&sm=1&p=1"改为url_arg1 =&sm=1&p=1，即删去此筛选。同理也可以对其它的职位做相应筛选。

用多台服务器（或PC）爬取的时候，需要将slaver端传输数据的IP地址修改成master主机的IP地址，即修改zhilian/zhilian/settings.py中的REMOTE_HOST。

Provide feedback

Saved searches