每一天, 每一小时, 每一分钟, 每一秒互联网的数据都在不停的发生着变化, 如果爬虫想要获取实时数据, 也要跟随网络节奏不断的进行更新, 那么这里犀牛就为大家说说, 关于网页更新的问题, 爬虫 http://blog.51cto.com/13982207/2342850 是如何应对的?
应对方法第一条, 把以往的数据作为参考
说的文雅一些就是 "历史记录", 依据网页页面过去的历史更新数据,
预测和分析网页页面的变动时机. 通常情况下 , 是通过泊松过程进行建模进行预测.
爬虫怎么应对网页更新问题
应对方法第二条把用户体验作为参考
一般来说, 搜索引擎用户提交查询后, 相关的搜索结果可不是数的过来的, 而用户的耐心最多到前 3 页的查询结果. 用户体验策略就是利用搜索引擎用户的这一个特征来设计更新策略的.
这种更新策略的主导标准就是客户的体验, 就算前 3 页搜索引擎的内容已经是好久之前的了, 但是再不影响客户体验的前提下, 晚一些更新好久之前的网页内容也是可以的. 因此判断一个网页页面什么时候更新好, 这要取决于这些网页页面的内容变化而产生的搜索引擎质量的变化, 影响力越大的网页页面, 更新的越快.
客户体验策略保存网页的多个历史版本, 并依据以往每次内容变化对搜索质量的影响, 算出一个均值, 以此作为判断网络爬虫重抓该网页页面时机的参照依据, 针对影响越厉害的网页页面, 则越优先调度重新爬取.
应对方法第三条聚类抽样原则
以上两种更新原则都需要一个前提: 需要试用历史页面的信息. 那样的前提就出现了 2 个问题, 第一个问题系统要为每一系统储存多个版本的历史信息, 例如网站的改动带来的搜索引擎的重新抓取, 保留原始和更新后的版本, 这样做必将增加了许多的系统负担; 第二个问题, 假设是新站没有网页页面的历史信息, 就没法确定更新策略.
这类策略觉得, 网页页面具有许多属性, 类似属性的网页页面, 都可以认为其更新频率都是类似的. 要测算某一个类别网页的更新频率, 只需要对这一类网页页面抽样, 以它们的更新周期做为整个类别的更新周期.
上文介绍了爬虫怎么应对网页更新问题, 有关实验说明, 聚类抽样策略效果好于前述两种更新策略, 只是对以亿计的网页页面开展聚类, 其难度系数也是非常巨大的.
来源: http://www.bubuko.com/infodetail-2922975.html