爬虫基本原理

2. 为什么要使用爬虫技术?

- requests 模块底层帮我们封装好了 socket 套接字, 我们只需要关注 http 协议的通信流程;

- 普通用户获取数据:

- 打开浏览器, 输入网址

- 访问目标网站

- 目标网站将数据返回给浏览器

- 浏览器将数据进行渲染

- ctrl + c , ctrl + v

- "爬虫程序" 获取数据:

- 模拟浏览器往目标网站发送请求:

- 请求库

- requests 模块

- selenium 模块

- 获取目标网站返回的响应数据

- 服务端会自动将数据返回, 无需通过代码实现

- 解析并提取有价值的数据

- 解析模块:

- re 正则模块

- BeautifulSoup4 解析库: bs4

- xpath 解析语法: 通过文档树, 查找规则

- selector 属性选择解析库: CSS

- 保存到数据库, 或者本地

- 存储库:

- MySQL
- Redis
- MongoDB
- file

- 爬虫全过程:

- 发送请求

- 获取响应数据

- 解析并提取数据

- 保存数据

- 爬虫三部曲 (*******):

1. 发送请求 (*******)

- 先分析目标网站的 http 协议请求流程

- 再写代码

2. 获取数据

3. 保存数据

- 安装

pip3 install requests

来源: http://www.bubuko.com/infodetail-3362894.html

暂无,快来抢沙发吧！