"放下你手里的代码, 小心被抓."
最近程序员圈子不乏这样的戏谑调侃.
原因是最近发生的多起涉及爬虫技术的公司被司法部门调查. 近日, 51 信用卡被查, 更是将暴力催收背后非法使用爬虫技术爬取个人隐私数据的丑行, 暴露在阳光之下.
一时间,"爬虫" 成为众矢之的, 一些公司紧急下架了爬虫相关的招聘信息, 给大数据风控, 人工智能从业者带来些许恐慌, 头发又多落了几根.
实际上, 大部分人都听说过爬虫, 认为爬虫就是到人家网站上去爬东西, 偷数据, 有些人甚至认为只要有爬虫, 什么数据都可以搞到.
今天, 我们就打开爬虫这个 "工具箱", 把涉及到的技术盲区放到灯光下, 让大家可以清楚地看下. 下面, 本文就从这个角度来聊聊爬虫这个熟悉而又陌生的技术.
爬虫的技术原理
搜索引擎收集网上信息的主要手段就是网络爬虫(也叫网页蜘蛛, 网络机器人). 它是一种 "自动化浏览网络" 的程序, 按照一定的规则, 自动抓取互联网信息, 比如: 网页, 各类文档, 图片, 音频, 视频等. 搜索引擎通过索引技术组织这些信息, 根据用户的查询, 快速地提供搜索结果.
设想一下, 我们平时浏览网页的时候会怎么做?
一般情况下, 首先, 会用浏览器打开一个网站的主页, 在页面上寻找感兴趣的内容, 然后点击本站或其它网站在该网页上的链接, 跳转到新的网页, 阅读内容, 如此循环往复. 如下图所示:
图中的虚线圆角矩形代表一个网站, 每个实线矩形表示一个网页. 可以看到, 每个网站一般以首页为入口, 该首页链接到几个, 几万个, 甚至上千万个的内部网页. 同时, 这些网页往往又链接了很多外部网站. 例如, 用户从苏宁金融的网页为起点, 浏览发现了 PP 视频的链接, 点击后跳转到了 PP 视频主页, 作为体育爱好者, 在体育频道中找到了相关的新浪微博的内容, 再次点击后又来到微博的页面继续阅读, 从而形成了一条路径. 如果把所有的可能路径呈现出来, 就会看到一个网络结构.
网络爬虫模拟了人们浏览网页的行为, 只是用程序代替了人类的操作, 在广度和深度上遍历网页. 如果把互联网上的网页或网站理解为一个个节点, 大量的网页或网站通过超链接形成网状结构. 爬虫通过遍历网页上的链接, 从一个节点跳转到下一个节点, 就像是在一张巨大的网上爬行, 但是比人类的速度更快, 跳转的节点更全面, 所以被形象地称为网络爬虫或网络蜘蛛.
爬虫的发展历史
网络爬虫最早的用途是服务于搜索引擎的数据收集, 而现代意义上的搜索引擎的鼻祖是 1990 年由加拿大麦吉尔大学 (University of McGill) 学生 Alan Emtage 发明的的 Archie.
人们使用 FTP 服务器共享交流资源, 大量的文件散布在各个 FTP 主机上, 查询起来非常不方便. 因此, 他开发了一个可以按照文件名查找文件的系统, 能定期搜集并分析 FTP 服务器上的文件名信息, 自动索引这些文件. 工作原理与现在的搜索引擎已经非常接近, 依靠脚本程序自动搜索分散在各处 FTP 主机中的文件, 然后对有关信息进行索引, 供使用者以一定的表达式查询.
世界上第一个网络爬虫 "互联网漫游者"("www wanderer")是由麻省理工学院 (MIT) 的学生马休. 格雷 (Matthew Gray) 在 1993 年写成. 刚开始, 它只用来统计互联网上的服务器数量, 后来则发展为能够通过它检索网站域名.
随着互联网的迅速发展, 使得检索所有新出现的网页变得越来越困难, 因此, 在 "互联网漫游者" 基础上, 一些编程者将传统的 "蜘蛛" 程序工作原理作了些改进. 其设想是, 既然所有网页都可能有连向其他网站的链接, 那么从跟踪一个网站的链接开始, 就有可能检索整个互联网.
其后, 无数的搜索引擎促使了爬虫越写越复杂, 并逐渐向多策略, 负载均衡及大规模增量抓取等方向发展. 爬虫的工作成果是搜索引擎能够遍历链接的网页, 甚至被删除的网页也可以通过 "网页快照" 的功能访问.
网络爬虫的礼仪 礼仪一: robots.txt 文件
每个行业都有其 Code of Conduct, 成为行为准则或行为规范. 比如, 你是某个协会中的成员, 那就必须遵守这个协会的行为准则, 破坏了行为准则是要被踢出去的.
最简单的例子, 你加入的很多微信群, 一般群主都会要求不可以私自发广告, 如果未经允许发了广告, 会被立刻踢出群, 但是发红包就没事, 这就是行为准则.
爬虫也有行为准则. 早在 1994 年, 搜索引擎技术刚刚兴起. 那时的初创搜索引擎公司, 比如 AltaVista 和 DogPile, 通过爬虫技术来采集整个互联网的资源, 与 Yahoo 这样的资源分类网站激烈竞争. 随着互联网搜索规模的增长, 爬虫收集信息的能力快速进化, 网站开始考虑对于搜索引擎爬取信息做出限制, 于是 robots.txt 应运而生, 成为爬虫界的 "君子协定".
robots.txt 文件是业内惯用做法, 不是强制性的约束. robots.txt 的形式如下:
在上面这个 robots.txt 例子中, 所有的爬虫都被禁止访问网站的任意内容. 但是 Google 的爬虫机器人, 可以访问除了 private 位置的所有内容. 如果一个网站上没有 robots.txt, 是被认为默许爬虫爬取所有信息. 如果 robots.txt 做了访问的限制, 但是爬虫却没有遵守, 那就不是技术实现这么简单的事情了.
礼仪二: 爬取吞吐量的控制
曾经出现假冒 Google 搜索引擎的爬虫去对网站进行 DDoS 攻击, 让网站瘫痪的事情. 近年来, 恶意爬虫造成的 DDoS 攻击行为有增无减, 给大数据行业蒙上了爬虫的阴影. 因为其背后的恶意攻击者, 往往具备更为复杂和专业的技术, 能绕过各种防御机制, 让防范这样攻击行为难上加难.
礼仪三: 做一个优雅的爬虫
优雅的爬虫背后, 一定站着一个文明人或者一个文明团队. 他们会考虑自己写的爬虫程序是否符合 robots.txt 协议, 是否会对被爬网站的性能造成影响, 如何才能不侵害知识产权所有者的权益以及非常重要的个人隐私数据等问题.
来源: http://www.tuicool.com/articles/byYVJjy