Python 简单爬虫 Requests

首先添加库

附配环境变量: 安装环境变量 cmd==> 输入指令:

path=%path%;C:\Python(Python 安装路径) 回车

python2.7 版本可能没有 pip 的话可以先到 www.python.org/pypi/ez_setup 下载 ez_setup 0.9 用文件路径输入指令: ez_setup.py 安装 Script 到 Python 目录下在 https://pypi.python.org/pypi/setuptools#windows-simplified 下载, 然后在 DOS 中运行 python ez_setup.py,(脚本会自动判断 python 脚本) 接下来装 pip 在 https://pypi.python.org/pypi/pip#downloads 下载 pip 然后在 DOS 中运行 python setup.py install #安装 pip 注意: 配置好环境变量很重要.(可以在计算机右键高级设置中设置系统 PATH, 记得用 python 安装目录, 和下一层 Script 的目录, 添加一个后面记得加分号)

用 DOS 进入 Python/Script 目录 (如果 Python 在 C 盘直接 cd 目录, 如果在其他盘先选盘(例如: f:) 再用 cd ../Python.Script 目录)

运行命令 pip install requests #下载安装 Requests 库

pip install lxml

Requests 和 lxml 库安完以后, 现在把 pycharm 的 interpreter 设置成 System Interpreter(添加路径选你的 Python 安装路径)

好了, 到这里我们的准备工作就做完了, 开始最简单的 Requests 爬虫实战吧~

# -*- coding: utf-8 -*-   防止中文乱码
                import requests  #引用 requests 库
                from lxml import etree   #引用 lxml 下的 etree
                header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'}   #先定义一个 User-Agent 模仿浏览器访问网站
                response = requests.get('https://www.douban.com/',headers=header)   #这里的网址是目标爬虫网址, 后面修改 headers 模仿浏览器访问
                #print(response.content) #获取源代码
                selector = etree.html(response.content)
                 images = selector.xpath("//div[@class='photo_wrap']/a[@class='photolst_photo']/img/@src")     # 用 xpath 获取指定 HTML 标签下面的元素, 获取属性值用 @属性名
                 for image in images:
                      name = image.split('/')[-1]
                      print(name)
                      with open('E:\NewIMG\\'+name, 'wb') as file:    #with open(name,mode,encoding) as file: #注意这里会有一个缩进  name 表示路径(包括文件名),mode 分三种 只读, 写入, 追加, encoding: 一般为 utf-8 或者 gbk
                             file.write(requests.get(image, headers=header).content)      #file 表示我们对文件的命名
                             file.close()     #关闭文件

来源: https://www.cnblogs.com/HaoYu-StudyNote/p/8401834.html

与本文相关文章

暂无,快来抢沙发吧！