python 自带 urllib,re
requests 用于发送 request 并接受 response
selenium 用于驱动浏览器, 一些 JS 渲染的网页用 requests 不能正常获取, 要用这个来模拟浏览器, 获得渲染后的网页内容.
selenium 需要配合 Chrome driver 或 phantomjs 使用. 前面的会驱动一个 Chrome 浏览器, 后面的是一个无界面浏览器.
lxml 提供了 xpath 解析方式
beautifulsoup4 依赖于 lxml, 也用于网页解析
pymysql 用于操作 MySQL 数据库
pymongo 用于操作 MongoDB 数据库
Redis 用于操作 Redis 数据库
flask 是一个 web 框架, 用于代理信息的获取和存储
django 一个 Web 框架, 用于做一个管理系统, 管理分布式爬虫和主机信息
来源: http://www.jianshu.com/p/7231b531192d