这里有新鲜出炉的精品教程,程序狗速度看过来!
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
此次更新包含几个比较大的Bugfix,以及一些遗留问题的改进。
修复0.7.0引入的RedisScheduler无法使用的bug。#583
注解模式的JsonPath默认会指定source为RawText,不再会出现自动为头尾加了标签导致无法解析的情况。#589
RegexSelector之前版本默认匹配group1,并通过对无捕获组的正则头尾加括号的形式来统一抽取内容。在0.7.1版本改为不再改变正则,而是通过匹配group0还是group1来实现匹配,见#559。新做法可以减少一些特殊用法的出错几率,例如零宽断言(#556)。
重构了ObjectFormatter部分,修复了ObjectFormatter无法初始化参数的bug。 #570
WebMagic 0.5.3 版本发布,Java爬虫框架
WebMagic 0.6.0 版本发布,Java爬虫框架
WebMagic 0.6.1 版本发布,Java 爬虫框架
WebMagic 0.7.0 版本发布,Java 爬虫框架
WebMagic 0.7.1 版本发布,Java 爬虫框架
历史版本 :
来源: http://www.phperz.com/article/17/0604/335931.html