这里有新鲜出炉的精品教程,程序狗速度看过来!
jpaser 0.0.18 发布了,jparser 是 Python 编写的网页正文抽取工具,对于资讯类页面可以自动抽取标题、正文段落和图片地址。
0.0.18 版改进:
1) 修复br标签问题; 2) 提高了title提取的准确性; 3) 图片地址绝对路径处理bug修复; 4) 抽取结果中的杂质打压; 5) 提高正文区域识别准确率;
来源: http://www.phperz.com/article/17/0525/335529.html