Python 爬虫入门_urllib

#2019-11-22
 import urllib.request #Pthon 自带的网络连接库
 import gzip #解压缩库
 #程序入口
 if __name__=='__main__':
     #url: 我们要爬取的网址
     url='http://www.qq.com/'  #腾讯 qq 的网页代码进行了压缩, 而且编码格式为 gbk
     #response: 特定网址返回的数据, response 接收的是一个对象实例
     response=urllib.request.urlopen(url) #发起请求, 百度服务器会有响应
     #1.response          #<class 'http.client.HTTPResponse'>
     #2.response.info()    存储响应报文 (可通过 str() 方法转为字符串), #http.client.HTTPMessage, 报文头中无编码, 默认编码为 UTF-8
     #3.response.getcode()  响应码(int 类型), 比如访问成功, 访问码为 200, 无法访问为 404
     #4.response.read()   网页代码, 字节形式, 可用 decode()解码
     print(type(response))
     print(response.info())
     print(type(response.info()))
     print(response.getcode())
     #print(response.read())
     temp=response.read()
     data=gzip.decompress(temp) #zip 解压
     data=data.decode('gbk') #gbk 解码

应一个邻居姐姐的要求, 她做设计需要图片素材,

而素材非常难找有些还要收费, 所以她找上了我,

我想着平时也没空搞, 借着这个机会学习一下 !

来源: http://www.bubuko.com/infodetail-3299490.html

与本文相关文章

暂无,快来抢沙发吧！