A crawler using WebCollector getting data from dl.acm.org
数据库连接配置
在 db.properties 中进行配置
结构:Catcher+Dao
Catcher:爬虫具体逻辑层
Dao:数据持久层
在Catcher.java的main方法中配置爬虫参数,包括:
setThreads(int);
start(int);
setResumable(true); 默认为false,每次启动爬虫都会重新爬取,true 从断点处继续爬取。
建议使用intellij idea,同时使用Maven,jdk 1.7+
持续更新