Python 爬虫入门教程 42-100 爬取儿歌多多 App 数据 - 手机 App 爬虫部分

1. 儿歌多多 App 简单分析

今天是手机 App 数据爬取的第一篇案例博客, 我找到了一个儿歌多多 App, 没有加固, 没有加壳, 没有加密参数, 对新手来说, 比较友好, 咱就拿它练练手, 熟悉一下 Fiddler 和夜神模拟器是如何配合着使用的.

儿歌多多 App 在豌豆荚的下载量还是可以的, 一家做内容的 App.

2. App 安装和使用

App 直接去下载 APK 包就可以了, 拖拽到夜神模拟器就安装成功了. 在模拟器打开出现如下界面, 表示已经可以开始操作了, 非常儿童的 App.

3. 抓包测试

打开 App 同时, 打开 Fiddler, 首先测试一下网络是否正常, 用模拟器自带的浏览器去访问百度, 如果可以访问表示无问题, 否则重新设置代理

运行软件过程中, 注意观察 Fiddler, 如果出现 JSON 类型的 API[接口], 就要注意了, 你想要的数据就在这里

我们点击链接, 看 Fiddler 右侧显示内容, 主要看我标注的 3 处重点

分别是链接, 请求头, 响应内容

4. 提取接口链接

获取到上述地址之后, 你就可以提取接口地址了, 提取到的接口很长, 需要我们进行关键参数的判定

http://bb.ergeduoduo.com/baby/bb.php?type=getvideos&collectid=29&interver=8&page=1&pagesize=30&grade=-1_-1&user=866174010820641&prod=childstory_ar_4.0.5.0&corp=duoduo&source=childstory_ar_4.0.5.0_m360&srcver=story&ver=1&imei=866174010820641&protect=1

经过一系列的测试, 缩短链接如下

http://bb.ergeduoduo.com/baby/bb.php?type=getvideos&collectid=29&page=1&pagesize=30

关键参数

type # 获取内容类型
collectid # 分类
page = 1 # 页码
pagesize = 30 # 每页数据

5. 儿歌多多 App 数据爬虫编写

关键地址拿到之后, 下面的操作就是选择一个你熟悉的爬虫库去进行操作了, 你可以使用 scrapy,pyspider 等, 也可以直接用 requests 直接去爬取, 都是非常简单的, 我就不进行爬虫部分的编写了~

6. 本篇博客重点内容

通过儿歌多多, 希望你可以把 Fiddler 和夜神模拟器之间的配合进行抓包. 工具使用熟练, 只要接口被我们获取到, 关键参数被我们提取到, 我们就可以快速的编写爬虫去获取它内部的数据了.

在爬取的过程中, 还可以直接去下载视频哦

来源: http://www.bubuko.com/infodetail-2970655.html

与本文相关文章

暂无,快来抢沙发吧！