反爬虫 2(代理 ip)

在进行爬虫访问时, 被访问主机除了会校验访问身份, 还会校验访问者的 ip,

当短时间同 ip 大量访问时, 主机有可能会拒绝返回, 所以就现需要代理 ip,

百度中可以获取到大量的免费的代理 ip(ps: 注意在访问一些隐私的内容时尽量少用免费代理 ip, 而且部分代理 ip 是无法使用的)

代理 IP 是使用方法如下:

,
from urllib import request
import random
import re
# 反爬虫方法 2
# 代理 ip 爬取
proteslist=[
    {"http": "1.197.203.225:9999"},
    {"http": "1.197.203.225:9999"},
    {"http": "1.197.203.225:9999"},
    {"http": "1.197.203.225:9999"},
]
protes=random.choice(proteslist)
print(protes)
# 构建代理处理器对象
protesHandler=request.ProxyHandler(protes)
# 构建 opener
opener=request.build_opener(protesHandler)
url="https://www.cnblogs.com/yongqi-wang/p/python_pachong.html"
header={
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) ApplewebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
# 创建模拟浏览器请求对象
req=request.Request(url,headers=header)
# 发送请求
res=opener.open(req)
print(res.read())

来源: http://www.bubuko.com/infodetail-3166823.html

与本文相关文章

暂无,快来抢沙发吧！