抓取策略
确定目标: 确定抓取哪个网站的哪些页面的哪部分数据. 本实例抓取百度百科 python 词条页面以及 python 相关词条页面的标题和简介.
分析目标: 分析要抓取的 url 的格式, 限定抓取范围. 分析要抓取的数据的格式, 本实例中就要分析标题和简介这两个数据所在的标签的格式. 分析要抓取的页面编码的格式, 在网页解析器部分, 要指定网页编码, 然后才能进行正确的解析.
编写代码: 在网页解析器部分, 要使用到分析目标得到的结果.
执行爬虫: 进行数据抓取.
分析目标
1,url 格式
进入百度百科 python 词条页面, 页面中相关词条的链接比较统一, 大都是 / view/xxx.htm.
来源: http://www.jianshu.com/p/bd8522d53b60