scrapy 框架简介
Scrapy,Python 开发的一个快速, 高层次的屏幕抓取和 web 抓取框架, 用于抓取 web 站点并从页面中提取结构化的数据. Scrapy 用途广泛, 可以用于数据挖掘, 监测和自动化测试.(引用自: 百度百科)
scrapy 官方网站: https://scrapy.org/
scrapy 官方文档: https://doc.scrapy.org/en/latest/
scrapy 框架安装
首先我们安装 scrapy, 使用如下命令
pip install scrapy
此时很多人应该都会遇到如下问题
- error: Microsoft Visual C++ 10.0 is required.
- Get it with "Microsoft Windows SDK 7.1": www.microsoft.com/download/details.aspx?id=8279
这是因为 scrapy 中使用了许多 C++ 的内容, 所以在安装时需要首先有 C++ 10.0 环境. 最直接的解决办法就是下载并安装 Microsoft Visual C++ 10.0. 但为此下一个这么大的环境, 配置又是蛋疼的巨硬风, 实在令人畏惧.
所以笔者建议采用第二种方式, 我们仔细观察到 pip 报错前正在运行
- Running setup.py clean for Twisted
- Failed to build Twisted
也就是说是安装 Twisted 模块时出错了, 那么我们可以选择手动下载 Twisted 模块并安装. python 的各种库有很多下载地, 不少人可能会下载到 Twisted-xx.x.x.tar.bz2 , 解压后进行安装, 发现会出现同样的错误. 此时我们仔细观察之前安装 scrapy 时的信息, 就会发现, pip 指令自动安装时其实也是采用的下载 bz2 文件, 解压, 运行解压出的 setup.py 文件, 所以这与我们上述的手动安装过程并没有任何区别.
笔者推荐一个网站 https://www.lfd.uci.edu/~gohlke/pythonlibs, 此网站中包含几乎所有常用的 python 库. 例如我们此次需要下载 Twisted 库, 那么我们在网页中搜索 Twisted, 然后下载自己对应位数和 python 版本的 Twisted 库. 然后在 Twisted 下载位置运行 cmd, 执行如下命令 (记得替换为自己下载的文件名)
pip install Twisted-xx.x.x-cpxx-cpxxm-win_amd64.whl
然后我们只需要等待其运行完成安装, 至此我们安装好了 scrapy 必须的 Twisted 库, 然后我们重新执行
pip install scrapy
安装成功!
在安装过程中, 我们可以看到它为我们下载了许多辅助库, 这使得 scrapy 成为了一个完整的成体系的爬虫框架, 这些框架极大地简化了我们的编程难度, 降低了学习成本.
scrapy 是基于 requests 库搭建的, 所以我们还需要执行以下命令
pip install requests
至此, 我们已经完成了 scrapy 爬虫框架的安装.
- cd jobboleSpider
- scrapy genspider jobbole http://blog.jobbole.com/all-posts/
来源: http://www.bubuko.com/infodetail-2749161.html