1. 先看效果图, 随便抓的信息
1.jpg
2.jpg
2. 解析 ,fiddler 抓包工具的配置大家自己百度吧, 教程都很详细
3. 打开 fiddler 和模拟器, 在模拟器打开哔哩哔哩软件, fiddler 我是通过查找分析之后之后过滤的域名
3.jpg
4. 我们通过打开 b 站的相应版块, 然后进行往下翻页之后, fiddler 就会根据我之前选择过滤的域名给我标黑
4.jpg
5. 我们点开其中一条标黑的 url, 然后和 b 站软件的进行对比, 发现我们需要的信息都可以抓取出来
5.jpg
6. 我们可以通过这两条 url 的对比, 查找出不同的地方, 经过我的测试, pn 代表的是页码, 后面红框打叉的地方我们可以不要, 这样我们就可以实现翻页了
6.jpg
7. 需要注意的是我们需要无视 ssl 安全证书, 也就是在 requests 那里加一个 verify=False, 这个很重要, 不加的话就访问不了 url 的, 返回的数据是 JSON 格式, 所以大家都懂怎么操作了
7.jpg
8. 大家想要什么数据自己去找, 当然其中的数据代表什么也需要大家自己去想了
8.PNG
9. 再说一下, 翻页到什么时候就到底了呢, 通过观察我发现, 当到底部的时候, JSON 数据里面的 data 为空, 所以我们只要判断 JSON 里面的 data 是否为空做为判断是否到达底部
9.PNG
完整代码关注公众号 pythonislover, 回复: b 站
来源: https://www.qcloud.com/developer/article/1422143