python 爬虫 4--urllib 请求库之 robotparser 模块

robotparser 模块提供了一个 RobotFileParser 类, 可以方便的判断哪些页面可以抓取, 哪些页面不可以抓取.

首先需创建类: urllib.robotparser.RobotFileParser(url=''), 申明是也可以不传入 url, 用 set_url() 设置.

该类常用方法:

set_url(): 设置 robots.txt 文件的链接;

read(): 读取 robots.txt 文件并进行分析, 该方法不会返回结果, 但对文件进行了读取操作, 这一步必须调用, 如果不调用, 则接下来的判断均为 False;

parser(): 解析 robots.txt 文件;

can_fetch(): 第一个参数为 user_agent, 第二个参数为要抓取的 url, 判断该搜索引擎是否可抓取该 url;

mtime(): 返回上次抓取和分析 robots.txt 协议的时间;

modified(): 将当前时间设置为上次抓取和分析的时间.

代码:

来源: http://www.bubuko.com/infodetail-3363153.html

暂无,快来抢沙发吧！