首先添加库
附配环境变量: 安装环境变量 cmd==> 输入指令:
path=%path%;C:\Python(Python 安装路径) 回车
python2.7 版本可能没有 pip 的话可以先到 www.python.org/pypi/ez_setup 下载 ez_setup 0.9 用 文件路径 输入指令: ez_setup.py 安装 Script 到 Python 目录下 在 https://pypi.python.org/pypi/setuptools#windows-simplified 下载, 然后在 DOS 中 运行 python ez_setup.py,(脚本会自动判断 python 脚本) 接下来装 pip 在 https://pypi.python.org/pypi/pip#downloads 下载 pip 然后在 DOS 中 运行 python setup.py install #安装 pip 注意: 配置好环境变量很重要.(可以在计算机右键高级设置中设置系统 PATH, 记得用 python 安装目录, 和下一层 Script 的目录, 添加一个后面记得加分号)
用 DOS 进入 Python/Script 目录 (如果 Python 在 C 盘直接 cd 目录, 如果在其他盘先选盘(例如: f:) 再用 cd ../Python.Script 目录)
运行命令 pip install requests #下载安装 Requests 库
pip install lxml
Requests 和 lxml 库安完以后, 现在把 pycharm 的 interpreter 设置成 System Interpreter(添加路径选你的 Python 安装路径)
好了, 到这里我们的准备工作就做完了, 开始最简单的 Requests 爬虫实战吧~
# -*- coding: utf-8 -*- 防止中文乱码
import requests #引用 requests 库
from lxml import etree #引用 lxml 下的 etree
header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'} #先定义一个 User-Agent 模仿浏览器访问网站
response = requests.get('https://www.douban.com/',headers=header) #这里的网址是目标爬虫网址, 后面修改 headers 模仿浏览器访问
#print(response.content) #获取源代码
selector = etree.html(response.content)
images = selector.xpath("//div[@class='photo_wrap']/a[@class='photolst_photo']/img/@src") # 用 xpath 获取指定 HTML 标签下面的元素, 获取属性值用 @属性名
for image in images:
name = image.split('/')[-1]
print(name)
with open('E:\NewIMG\\'+name, 'wb') as file: #with open(name,mode,encoding) as file: #注意这里会有一个缩进 name 表示路径(包括文件名),mode 分三种 只读, 写入, 追加, encoding: 一般为 utf-8 或者 gbk
file.write(requests.get(image, headers=header).content) #file 表示我们对文件的命名
file.close() #关闭文件
来源: https://www.cnblogs.com/HaoYu-StudyNote/p/8401834.html