前言
Scrapy 的下载
在终端中输入代码'pip3 install scrapy'.
创建 Scrapy 项目
假设你希望将项目保存至桌面名为 Python 的文件夹中. 可以在终端中输入'cd', 并将 Python 文件夹拖拽至其后. 换行后, 继续输入'scrapy startproject ScrapyProject', 此处的 ScrapyProject 为该项目的名字, 可根据情况自行定义.
定义 items 数据
Scrapy 项目创建成功后, 我们可以在其所在的文件夹里看到 spiders,pipelines.py,middlewares.py,settings.py 等一系列文件. 我们需要做的是在其中找到 items.py, 并对其进行修改. 此处的重点在于定义所需数据的属性, 其中主要会使用到 scrapy.Field().
创建爬虫文件
同样在 ScrapyProject 文件夹内, 找到 spiders 文件夹, 并在内创建一个新的爬虫文件, 如下图的 book.py.(需要与_pychache_及_init_文件同级.)
编辑爬虫文件
此处的爬虫文件为整个 Scrapy 项目的核心, 数据的解析与提取都是在这一步进行的.
运行 Scrapy 程序
在 ScrapyProject 文件夹内, 找到 settings.py 文档, 并更改好 user_agent 相关信息. 之后再在终端输入代码 scrapy crawl book 即可.(book 为此爬虫的名字.)
注: 上述内容皆为 Mac 环境下的操作.
PS: 如有需要 Python 学习资料的小伙伴可以加下方的群去找免费管理员领取
可以免费领取源码, 项目实战视频, PDF 文件等
来源: http://www.bubuko.com/infodetail-3655144.html