在进行爬虫访问时, 被访问主机除了会校验访问身份, 还会校验访问者的 ip,
当短时间同 ip 大量访问时, 主机有可能会拒绝 返回, 所以就现需要代理 ip,
百度中可以获取到大量的免费的代理 ip(ps: 注意在访问一些隐私的内容时尽量少用免费代理 ip, 而且部分代理 ip 是无法使用的)
代理 IP 是使用方法如下:
- ,
- from urllib import request
- import random
- import re
- # 反爬虫方法 2
- # 代理 ip 爬取
- proteslist=[
- {"http": "1.197.203.225:9999"},
- {"http": "1.197.203.225:9999"},
- {"http": "1.197.203.225:9999"},
- {"http": "1.197.203.225:9999"},
- ]
- protes=random.choice(proteslist)
- print(protes)
- # 构建代理处理器对象
- protesHandler=request.ProxyHandler(protes)
- # 构建 opener
- opener=request.build_opener(protesHandler)
- url="https://www.cnblogs.com/yongqi-wang/p/python_pachong.html"
- header={
- "user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) ApplewebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
- # 创建模拟浏览器请求对象
- req=request.Request(url,headers=header)
- # 发送请求
- res=opener.open(req)
- print(res.read())
来源: http://www.bubuko.com/infodetail-3166823.html