- # 通过检查或者抓包工具拿到网页真实的处理登录请求的地址
- url = 'http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=Lk4hL'
- data = {
- 'username':'Benson3172',
- 'password':'081524..cyw'
- } # 登录信息, 分析网页源代码, 拿到登录的字段构建字典
- postdata = urllib.parse.urlencode(data).encode('utf8') # 两次编码
- request = urllib.request.Request(url=url, data=postdata, headers=headers)
- import http.cookiejar
- cookie = http.cookiejar.CookieJar() # 创建对象
- p_cookie = urllib.request.HTTPCookieProcessor(cookie) # 创建对象
- opener = urllib.request.build_opener(p_cookie) # 创建 opener 对象
- urllib.request.install_opener(opener) # 创建全局 opener
- file = opener.open(request) # 发送请求, 并且保存 cookie(个人理解)(也就是保存登录信息)
- print(file.read().decode('utf8'))
- url2 = 'http://bbs.chinaunix.net/'
- file2 = opener.open(url2) # 使用 opener(携带 cookie) 爬取
- print(file2.read().decode('utf8'))
来源: http://www.bubuko.com/infodetail-2646636.html