爬虫在抓取数据的时候都知道需要使用代理 IP, 不然是无法顺利进行的. 用户在使用了代理 IP 爬虫, 还会出现一些问题, 导致爬虫无法继续. 那么, 用代理 IP 爬虫遇到问题怎么办呢?
1. 分布式爬虫. 使用分布式爬虫的方式在一定程度上可以避免问题, 而且还可以大大提高抓取数据的效果, 提高工作效率.
2. 保存 cookies. 在模拟登陆的时候会比较麻烦, 可以直接在 web 上登陆后取下 cookie 保存, 一起带着爬虫, 但这种方法并不是长久之计, 可能隔一段时间 cookie 就会失效.
3. 解决验证码问题. 爬虫久了会遇到让输入验证码的问题, 这样对方网站已经识别到了你是爬虫程序了. 可以将验证码 down 本地后, 手动输入验证码.
4. 多账号. 很多网站会通过帐号的访问频率来判断, 这样可以测试单账号的抓取阈值, 在阈值切换帐号换代理 IP.
以上是代理 IP 请添加链接描述 http://www.c2c3.com/ 爬虫还会遇到一些问题的简单解决方法, 大家可以根据自己遇到的实际问题来选择. 闪云代理 IP 稳定在线, 随时切换 IP, 还有专业技术人员在线指导.
来源: http://www.bubuko.com/infodetail-3088618.html