生苦短,我用 Python
最近一段时间因为大数据分析以及 AI 的兴起,所以想着学习一下 Python,刚接触 Python 就被其优雅,简洁,明确的语法和强大的第三方库所吸引.我的理念一直是学习一门语言,必须在实践中去学习,在实践中不断解决问题而熟悉语法以及深刻理解.
第一次爬取得信息是知乎的某一用户所关注的人的公开信息.
因为本人是新手一枚,所以使用 Python 的 IDE-PyCharm.另一原因也因为我之前是用 C# 的,所以对于强大的 IDE 情有独钟.
1,学习任何一门语言,你都必须安装其对应的工作环境,Python 也不例外,在 windows 上安装 Python 很简单,只需要去官方网站下载对应的安装程序: www.python.org/downloads/r… ; 然后运行安装包:
特别注意:一定要勾上 Add Python 3.6 to PATH,然后点 Install Now 就行了
安装完之后打开命令提示符窗口,输入 python 回车,若出现以下信息,则安装成功.
2,安装 Pycharm: PyCharm: Python IDE for Professional Developers by JetBrains ;
3,打开 Pycharm, 新建一个项目,再新建一个 Python 文件,后缀名为. py.
4,打开知乎首页 --> 登陆 --> 搜索到一个大 V,用谷歌浏览器分析点击关注了哪些人后的请求,通过分析:查找他关注的人的请求链接: www.zhihu.com/api/v4/memb… *].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=40&limit=20
通过观察尝试分析后可知:offset=40 是偏移量,通过改变这个值可以实现分页的效果.
知乎是做了反爬虫的措施的,所以我们要想爬取知乎信息,还必须要设置请求头,下面我们来分析请求头:
图片中红箭头所指就是请求必须需要的值,
authorization:是身份认证信息,每个用户登录后都会产生各自的身份认证信息.
User-Agent:是验证请求是来自正常的浏览器访问
最终代码如下:
import requests
import pandas as pd
import time
headers={
'authorization':'',#此处填写你自己的身份验证信息
'User-Agent':''#此处填写你自己浏览器的User-Agent
}
user_data = []
def get_user_data(page):
for i in range(page):#翻页
url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset={}&limit=20'.format(i*20)
response = requests.get(url, headers=headers).json()['data']
user_data.extend(response) #把response数据添加进user_data
print('正在爬取第%s页' % str(i+1))
time.sleep(1) #设置爬取网页的时间间隔为1秒
if __name__ == '__main__':
get_user_data(10)
df = pd.DataFrame.from_dict(user_data)#以字典保存数据
df.to_csv('zhihu.csv',encoding='utf_8_sig')#保存到用户名为zhihu的csv文件中,encoding='utf_8_sig'参数是为了解决中文乱码的问题
print(df)
来源: https://juejin.im/post/5a31d795f265da43085e0990