2. 为什么要使用爬虫技术?
- requests 模块底层帮我们封装好了 socket 套接字, 我们只需要关注 http 协议的通信流程;
- 普通用户获取数据:
- 打开浏览器, 输入网址
- 访问目标网站
- 目标网站将数据返回给浏览器
- 浏览器将数据进行渲染
- ctrl + c , ctrl + v
- "爬虫程序" 获取数据:
- 模拟浏览器往目标网站发送请求:
- 请求库
- requests 模块
- selenium 模块
- 获取目标网站返回的响应数据
- 服务端会自动将数据返回, 无需通过代码实现
- 解析并提取有价值的数据
- 解析模块:
- re 正则模块
- BeautifulSoup4 解析库: bs4
- xpath 解析语法: 通过文档树, 查找规则
- selector 属性选择解析库: CSS
- 保存到数据库, 或者本地
- 存储库:
- - MySQL
- - Redis
- - MongoDB
- - file
- 爬虫全过程:
- 发送请求
- 获取响应数据
- 解析并提取数据
- 保存数据
- 爬虫三部曲 (*******):
1. 发送请求 (*******)
- 先分析目标网站的 http 协议请求流程
- 再写代码
2. 获取数据
3. 保存数据
- 安装
pip3 install requests
来源: http://www.bubuko.com/infodetail-3362894.html