156个Python网络爬虫资源,妈妈再也不用担心你找不到资源
作者:lrong
本列表包含Python网页抓取和数据处理相关的库。
网络相关
网络爬虫框架
文本处理
解析及操作文本的库
特殊格式处理
处理特编辑特殊字符格式的库
自然语言处理
自然语言处理库
浏览器自动化与仿真
多进程并发
异步
异步网络编程库
队列
- celery – 基于分布式消息传递的异步任务队列/作业队列
- huey – 小型多线程任务队列
- mrq – Mr. Queue – 使用redis & Gevent 的Python分布式工作任务队列
- RQ – 基于Redis的轻量级任务队列管理器
- simpleq – 一个简单的,可无限扩展,基于Amazon SQS的队列
- python-gearman – Gearman的Python API
云计算
电子邮件
电子邮件处理库
URL和网络地址操作
URL和网络地址操作库
- URL
- furl – 一个小的Python库,使得操纵URL简单化
- purl – 一个简单的不可改变的URL以及一个干净的用于调试和操作的API
- urllib.parse – 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”(标准库)
- tldextract – 使用公共后缀列表从URL的注册域和子域中准确分离TLD
- 网络地址
- netaddr – 用于显示和操纵网络地址的Python库
网页内容提取
网页内容提取库
WebSocket
用于WebSocket的库
DNS解析
- dnsyo – 在全球超过1500个的DNS服务器上检查你的DNS
- pycares – ic-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库
计算机视觉
- OpenCV – 开源计算机视觉库
- SimpleCV – 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)
- mahotas – 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型
代理服务器
- shadowsocks – 一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目的IP黑名单)
- tproxy – tproxy是一个简单的TCP路由代理(第7层),基于Gevent,用Python进行配置
杂项
- user_agent – 此模块用于生成随机,有效的Web导航器的配置和用户代理HTTP header
其他
End.
来源: http://www.36dsj.com/archives/92833