python 爬虫获取图片

import re
import os
import urllib
# 根据给定的网址来获取网页详细信息, 得到的 html 就是网页的源代码
def getHtml(url):
    page = urllib.request.urlopen(url)
    HTML = page.read()
    return HTML.decode('UTF-8')
def getImg(HTML):
    reg = r'src="(.+?\.jpg)"pic_ext'
    imgre = re.compile(reg)
    imglist = imgre.findall(HTML)# 表示在整个网页中过滤出所有图片的地址, 放在 imglist 中
    x = 0
    path = 'D:\\test'
   # 将图片保存到 D:\\test 文件夹中, 如果没有 test 文件夹则创建
    if not os.path.isdir(path):
        os.makedirs(path)
    paths = path+'\\'      #保存在 test 路径下
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x))  #打开 imglist 中保存的图片网址, 并下载图片保存在本地, format 格式化字符串
        x = x + 1
    return imglist
HTML = getHtml("http://tieba.baidu.com/p/2460150866")# 获取该网址网页详细信息, 得到的 HTML 就是网页的源代码
print (getImg(HTML)) #从网页源代码中分析并下载保存图片

来源: http://www.bubuko.com/infodetail-2898940.html

与本文相关文章

暂无,快来抢沙发吧！