Scrapy 笔记

## 安装 scrapy 框架

1 安装 scrapy: 通过 pip install scrapy 即可

2 如果在 windows 下, 还需要安装 pypiwin32

如果不安装, 那么以后运行 scrapy 项目的时候就会报错安装方式: pip install pypiwin32.

3 如果在 ubuntu 下, 还需要安装一些第三方库: sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

## 创建项目和爬虫

1 创建项目: scrapy startproject 爬虫的名字.

2 创建爬虫: 进行项目所在的路径, 执行命令: scrapy genspider 爬虫名字爬虫的域名注意爬虫名字和项目的名字不能一样

## 项目目录结构

1items.py: 用来存放爬虫爬取下来数据的模型

2middlewars.py: 用来存放各种中间件的文件

3pipelines.py: 用来将 items 的模型存储到本地磁盘中

4settings.py : 本爬虫的一些配置信息 (比如请求头多久发送一次请求 ip 代理池)

5scrapy.py: 项目的配置文件

6spiders 包: 以后所有的爬虫, 都是存放到这个里面

来源: http://www.bubuko.com/infodetail-2495757.html

暂无,快来抢沙发吧！