好久没有写爬虫了,最近用 Python 的 BeautifulSoup4、Scrapy 分别对以前写的 spider 进行优化,发现 python3.5 后这些库变化了很多,遇到了许多问题,在这里做一下总结。
切换环境:
由于我在 windows 上安装了 Python2.7 和 Python3.5,在 PyCharm 上切换环境时,即使已经在 setting 的 interpreter 里面切换了相应的版本号,但是仍需要重启 PyCharm 才能起作用。
另外,如果不想节外生枝,直接把系统变量 PATH 改掉。
- #如果是python3.5.x,改成C: \Users\Administrator\AppData\Local\Programs\Python\Python35\Scripts\;
- C: \Users\Administrator\AppData\Local\Programs\Python\Python35\;
- C: \Users\Administrator\AppData\Roaming\npm
- #如果是python2.7.x,改成D: \Python27\Scripts\;
- D: \Python27\;
- C: \Users\Administrator\AppData\Roaming\npm
除此之外,如果由于环境变量的切换不完全,使用 pip 安装各种库时,非常容易出错,建议把 "\Lib\site-packages" 中类似 "\beautifulsoup4-4.5.1.dist-info" 的信息数据删除,再重新使用 pip 安装。
忽略信任报错:
以下代码可以解决访问 Https 时不受信任 SSL 证书问题
- import ssl
- ssl._create_default_https_context = ssl._create_unverified_context
这段时间继续深入优化我的爬虫,如果遇到其他问题再总结更新..
来源: