- import re
- import os
- import urllib
- # 根据给定的网址来获取网页详细信息, 得到的 html 就是网页的源代码
- def getHtml(url):
- page = urllib.request.urlopen(url)
- HTML = page.read()
- return HTML.decode('UTF-8')
- def getImg(HTML):
- reg = r'src="(.+?\.jpg)"pic_ext'
- imgre = re.compile(reg)
- imglist = imgre.findall(HTML)# 表示在整个网页中过滤出所有图片的地址, 放在 imglist 中
- x = 0
- path = 'D:\\test'
- # 将图片保存到 D:\\test 文件夹中, 如果没有 test 文件夹则创建
- if not os.path.isdir(path):
- os.makedirs(path)
- paths = path+'\\' #保存在 test 路径下
- for imgurl in imglist:
- urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x)) #打开 imglist 中保存的图片网址, 并下载图片保存在本地, format 格式化字符串
- x = x + 1
- return imglist
- HTML = getHtml("http://tieba.baidu.com/p/2460150866")# 获取该网址网页详细信息, 得到的 HTML 就是网页的源代码
- print (getImg(HTML)) #从网页源代码中分析并下载保存图片
来源: http://www.bubuko.com/infodetail-2898940.html