- #2019-11-22
- import urllib.request #Pthon 自带的网络连接库
- import gzip #解压缩库
- #程序入口
- if __name__=='__main__':
- #url: 我们要爬取的网址
- url='http://www.qq.com/' #腾讯 qq 的网页代码进行了压缩, 而且编码格式为 gbk
- #response: 特定网址返回的数据, response 接收的是一个对象实例
- response=urllib.request.urlopen(url) #发起请求, 百度服务器会有响应
- #1.response #<class 'http.client.HTTPResponse'>
- #2.response.info() 存储响应报文 (可通过 str() 方法转为字符串), #http.client.HTTPMessage, 报文头中无编码, 默认编码为 UTF-8
- #3.response.getcode() 响应码(int 类型), 比如访问成功, 访问码为 200, 无法访问为 404
- #4.response.read() 网页代码, 字节形式, 可用 decode()解码
- print(type(response))
- print(response.info())
- print(type(response.info()))
- print(response.getcode())
- #print(response.read())
- temp=response.read()
- data=gzip.decompress(temp) #zip 解压
- data=data.decode('gbk') #gbk 解码
应一个邻居姐姐的要求, 她做设计需要图片素材,
而素材非常难找有些还要收费, 所以她找上了我,
我想着平时也没空搞, 借着这个机会学习一下 !
来源: http://www.bubuko.com/infodetail-3299490.html