由于最近正在放暑假, 所以就自己开始学习 python 中有关爬虫的技术, 因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑.
一. 相关软件的安装:
1. homebrew:
homebrew 是 Mac os 系统下的包管理器由于功能齐全所以在这里比较推荐大家安装, 安装及使用教程在我的另一篇博客中, 在此附上链接 homebrew 的安装.
2.anaconda:anaconda 是 python 下的包管理器, 支持创建虚拟环境等功能, 个人认为比自带的 pip 好用, 安装 anaconda 可以前往其官网, 链接如下:
https://www.continuum.io/downloads, 选择 python3 版本的安装包下载即可.
二. 请求库的安装
requests: 由于 requests 是第三方库, 所以需要手动安装, 安装过程如下.
1 . 相关链接
- GitHub:https://github.com/requests/requests
- PyPi:https://pypi.python.org/pypi/requests
官方文档: http://www.python-requests.org
中文文档: http://docs.python-requests.org/zh_CN/latest
2. 安装库, 我们使用 conda 指令进行安装, 在终端中输入如下指令即可成功安装 requests 库
conda install requests
Selenium: 是一个自动化的测试工具, 利用它可以驱动浏览器执行特定的动作, 如过页面的数据通过 JavaScript 动态加载则需要使用到它, 其安装过程如下.
1. 相关链接
官方网站: http://www.selenium.org
- GitHub:https://github.com/seleniumHQ/selenium/tree/master/py
- PyPi:https://pypi.python.org/pypi/selenium
官方文档: http://selenium-python.readthdocs.io
中文文档: http://selenium-python-zh.readthedocs.io
2. 安装库, 我们同样使用 conda 指令进行安装, 在终端中输入如下指令即可安装 selenium 库
conda install selenium
ChromeDriver: 应为 selenium 需要浏览器配合使用, 那么如果默认使用的是 Chrome 浏览器, 则需要安装 chromeDrvier 驱动 (版本需要与你使用的 Chrome 的版本兼容), 其安装过程如下.
1. 相关链接
官方网站: http://sites.google.com/a/chromium.org/chromedriver
下载地址: http://chromedriver.storage.googleapis.com/index.html
2. 安装 chromedriver, 由于我们安装了 homebrew 包管理器, 我们就可以直接使用 brew 指令进行安装, 在终端中输入下列代码即可进行安装 chromedriver 了
brew cask install chromedriver
3. 安装好后, 我们可以在程序中进行测试, 代码如下
- from selenium import webdriver
- browser = webdriver.Chrome()
若能正确弹出空白的 Chrome 浏览器, 则证明配置没有问题啦!
三. 解析库安装
lxml: 是 python 的一个解析库, 用于解析 HTML 和 xml 并且对 xpath 表达式提供了支持, 是一个很基础的解析库, 安装方式如下.
1. 相关链接
官方网站: http://lxml.de
- GitHub:https://github.com/lxml/lxml
- PyPI:https://pypi.python.org/pypi/lxml
2. 我们使用 conda 指令进行安装, 只需在终端中输入以下代码安装即可
conda install lxml
BeautifulSoup: 你没看错, 它叫美丽汤, 它可以解析 HTML 和 xml 并支持多种方式操作网页中的标签和属性, 非常强大的解析库并且官方文档也很友好, 安装方式如下.
1. 相关链接
官方文档: https://www.cremmy.com/software/BeautifulSoup/bs4/doc
中文文档: https://www.cremmy.com/software/BeautifulSoup/bs4/doc.zh
2. 我们依旧使用 conda 指令进行安装, 在终端中输入如下代码安装即可
conda install beautifulsoup4
3. 安装好后, 我们可以在程序中测试它的解析功能, 代码如下
- from urllib.request import urlopen
- from bs4 import BeautifulSoup
- if __name__ == "__main__":
- HTML = urlopen("http://www.cnblogs.com") #urlopen 获取 HTML 页面
- bs_obj = BeautifulSoup(HTML) #BeauitfulSoup 解析后返回
- print(bs_obj.get_text) #返回除标签外的纯文本
PyQuery: 也是解析工具, 提供与 jQuery(几年前非常火热的 JavaScript 框架) 类似的语法解析 HTML 同样也支持 CSS 选择器, 安装方式如下.
1. 相关链接
- GitHub:https://github.com/gawel/pyquery
- PyPI:https://pypi.python.org/pypi/pyquery
官方文档: http://pyquery.readthedocs.io
2. 我们仍然使用 conda 指令安装, 但同时也可以使用 pip3 指令安装, 在终端输入如下代码中的一个安装即可
- # 使用 conda 安装
- conda install pyquery
- # 使用 pip3 安装
- pip3 install pyquery
tesserocr: 可以用来识别验证码或者图片的 OCR(光学字符识别) 解析库, 它是对 python API 的封装, 所以安装它需要先安装 tesseract, 它们的安装方式如下
1. 相关链接
- tesserocr GitHub:https://github.com/sirfz/tesserocr
- tesserocr PyPI:https://pypi.python.org/pypi/tesserocr
tesseract 下载地址: http://digi.bib.uni-mannheim.de/tesserocr
tesseract GitHub:https://github.com/tesseract-ocr/tesseract
tesseract 语言包: https://github.com/tesseract-oct/tessdata
tesseract 文档: https://github.com/tesseract-ocr/tesseract/wiki/Documentation
2. 我们现需要使用 brew 指令安装 ImageMagick 和 tesseract 库, 然后再使用 conda 指令安装 tesserocr 库, 在终端中按次序输入以下代码即可
- # 安装 ImageMagick
- brew install ImageMagick
- # 安装 tesseract
- brew install tesseract --all-languages
- # 安装 tesserocr
- conda install tesserocr
3. 安装好后, 我们可以在程序中测试它是否能正确运行, 代码如下
- import tesserocr
- from PTL import Image
- image = Image.open('example.jpeg')
- print(tesserocr.image_to_text(image)) #将图片中的文字转换为字符串
好了至此, 与 python 爬虫相关的基础库已经安装完成了, 本文中并未涉及 scrapy 库的安装. 因为个人认为还是先不要使用框架自己编写爬虫更能提升自己的编码能力, 谢谢大家的阅读!
来源: https://www.cnblogs.com/maoqifansBlog/p/11440173.html