Skip to content

Releases: wuyue92tree/crwy

release-v1.1.1

26 Aug 16:45
1d44fc5
Compare
Choose a tag to compare

2018-08-27

更新cookiemiddlewares;
添加SqlalchemySavePipeline。

release-v1.1.0

24 Aug 15:00
9066873
Compare
Choose a tag to compare

2018-08-24

修复python3中bs4告警问题;
移除打码兔及天马168,添加易码平台;
添加字体解析工具类;
添加cookiemiddleware。

release-v1.0.9

01 Jul 10:56
b1f5b59
Compare
Choose a tag to compare

2018-07-01

set添加srem方法,修改部分说明信息;
添加依赖retrying,imapclient;
添加超级鹰api;
last_insert_id返回调整;
为redis添加单例模式,保证线程内连接池共享;
为sql模块对象添加单例模式支持,实现连接池共享及更名db模块为sqlalchemy;
新增scrapy_plugs自定义常用中间件;
RedisRFPDupeFilter添加SPIDER_NAME检查;
添加有序集合,用于采集时,进行按时间点去重;
添加scrapy_plugs;
添加从consul加载配置文件逻辑。;
添加cls_singleton关键词用于控制单例模式是否生效;
添加zscore;
添加DUPEFILTER_DELAY_DAY选项,若该值大于0,则采用有序集合进行去重,time.time()时间戳作为score;
dict2obj 添加change_dict选项,用于控制是否转换target内部dict为obj;
修复通过zscore判断失效时间时,时间计算错误问题;
添加过滤日志;
添加aby代理下载中间件;
在meta选项中添加对duperliter_delay_day监听,添加DUPEFILTER_DO_HASH选项;
修改代理中间件;
移动redis_m模块到no_sql.

release-v1.0.8

11 May 01:03
fab937b
Compare
Choose a tag to compare

2018-05-11

下载器添加非session支持
download_file添加参数描述,添加file_name用于指定文件保存名称
更改日志文件默认参数
RedisHash添加hlen返回hash长度
更改PyV8模块引入
更新logger默认采用timed_rt_logger, 基本方法添加get_cookie, 添加login_kwargs用于存放登录所需参数
去除IMAPClient依赖
新增装饰器模块,当前包含cls_catch_exception和cls_refresh_cookie
新增exceptions模块
utils中添加common模块 用以包含常用工具方法
暴露self.__db以获取更多原始包功能
utils中common模块 添加datetime2str, str2datetime, dict2obj, obj2dict, conf… …
添加注解
添加mysql_handle
去除部分依赖
添加kafka,mns,import Exception
调整mysql, pg连接池
更改SpiderBase类为BaseSpider,将logger作为可变参数在Spider类初始化时传入
新增CrwyExtendException并应用到dingding_robot/tianma168模块
更新MailReceiver接口
utils模块中, init.py添加逻辑导入
添加 get_redis_client()
通过拦截重写handler的方式传入log_path,实现日志位置修改
Redis改用连接池
修复pg库import问题
添加打马兔api,调整mysql_handle,增加last_insert_id回写
拆分search和fetch的封装,解决邮件过大导致下载失败问题
mysql模块切换为pymysql
修改ImportError提示信息
添加字典kv调换方法
迁移说明文档

release-v1.0.7

14 Nov 06:03
f8b085a
Compare
Choose a tag to compare

2017-11-14

utils工具包中添加extend模块,用于添加第三方调用api;
升级mail包,改用imapclient接收解析邮件。

release-v1.0.6

22 Sep 06:10
Compare
Choose a tag to compare

2017-09-21
日志新增timedRtLogger模板及自定义Logger调用接口
爬虫执行脚本新增thread支持
修改项目创建脚本,配置文件固定在conf目录

release-v1.0.5

22 Sep 00:47
Compare
Choose a tag to compare

2017-06-13
解决pypi版本问题。

release-v1.0.4

22 Sep 00:52
Compare
Choose a tag to compare

2017-06-12
修改默认日志conf模板,RedisSet模块添加返回Set所有内容。

2017-06-01
日志模块/邮件模块关联剥离。

2017-05-19
下载器更换为requests, 并新增打文件下载方式;
新增RedisSet模块充当网页去重过滤器;
新增RedisHash模块,用于存储cookies等需持久化参数;
新增Logger模块,将默认日志集成到spider中,简化templates;
将内置的多进程启动更换为多协程,多进程直接由外部方式实现,框架不再支持;
优化templates。

release-v1.0.3

22 Sep 00:55
Compare
Choose a tag to compare

2017-04-17
修改下载器,支持自定义headers传入。

2017-04-04
加入gevent,实现pycurl与gevent异步调用;
新增async异步模板;
修改HtmlDownloader返回值,返回Response对象。

release-v1.0.2

22 Sep 00:56
Compare
Choose a tag to compare

2017-03-22
docs更新多进程,redis/ssdb队列文档。

2017-02-14
runspider模块新增多进程支持。

2017-02-07
更改RedisQueue模块路径,新增SsdbQueue模块。

2017-01-09
修复模板中的BUG;
去除mysqldb依赖,用户根据自行需求进行安装;
讲utils中的sqlite包名称更改为db,且功能上更新为通用数据链接。