(1) 代理提取失败
停止程序访问, 直接使用 IE 浏览器访问代理 API, 截图看看错误提示:
如果页面访问失败
注意 API 链接是否复制正确; 爬虫服务器是否有防火墙禁止网络访问; 服务器是 Linux 提取 API, 是需要转义,& 符号前面要加 \
页面访问成功, 返回错误信息, 需要看看错误信息内容
您的 IP: 125.69.47.134 没在白名单 ( 125.69.44.227 222.209.8.0 ) 中
原因: ip 白名单不对, 需要添加, 注意看看对方服务器 IP 是不是电信或联通的 IP
修改 IP 白名单太频繁
原因: 1,ip 白名单不对, 需要添加, 注意看看对方服务器 IP 是不是电信或联通的 IP, 同时注意对方是不是开启了 IP 自动更新选项, 如果对方有多个网络出口, 就会导致 ip 自动更新频繁.
False, 没有获取到任何代理, 速率超过限制
原因: 一条代理 API 链接只能按照指定时间间隔进行访问, 注意程序是不是有多个线程访问或一个服务器下有多个软件运行, 超出了代理链接提取速度, 请用浏览器访问代理 API 链接, 看看中文提示错误描述. 如果服务器每秒请求超过一次, 会被判断为 DDOS*** 行为, 直接黑名单处理, 停止该行为一段时间后会自动恢复访问许可.
(2) 代理提取之后, 代理不能访问或访问失败率很高
原因: 提取和使用代理 IP 的机器是不是都绑定了 IP 白名单, 注意看看对方服务器 IP 是不是电信或联通的 IP;
(3) 代理能访问, 偶尔出现访问失败或提取失败
原因: 注意看看对方服务器 IP 是不是电信或联通的 IP, 同时询问对方是不是多个 IP 白名单的情况下, 开启了 IP 自动更新出现了冲突; 对方是否控制了代理 IP 的使用时间, 超出了 2-10 分钟, 导致 IP 失效.
(4) 代理能访问, 出现大量 429
原因: 要求对方控制每个代理 IP 的请求数, 最好一个代理 IP 一个线程, 避免出现阻塞, 同时建议客户增加 IP 提取量
(5) 代理能访问, 出现大量 403,504 或 503
原因: 爬虫程序的采集行为被网站标识并拒绝服务, 求对方控制每个代理 IP 的请求数, 并且增加 IP 提取量.
(6) 提取的代理 IP 都是相同 IP
原因: 部分地区为保证网络速度, 降低网络延迟, 提供 IP 隧道代理, 该代理通过固定 IP + 随机端口, 在一个时间点上随机分配一个外网 IP(又称: 公网 IP), 因此统计代理 IP 的重复率是不准确的.
来源: http://www.bubuko.com/infodetail-2986186.html