很多做运营的朋友, 经常需要爬取网上数据和资料作为分析的样本资料, 例如需要获取 ASO114 网站上关于学习 app 的权重下载量等相关数据, 通常需要花大量的时间重复复制和黏贴, 这样费时费力, 而且获取数据之后更重要的是分析得到想要的答案, 把时间花在大量复制黏贴上有本末倒置的嫌疑
由于很多运营本身工作繁忙, 没有时间系统学习 python 编程语言以及复杂的火车头采集软件, 于是就给大家推荐一款基于浏览器的采集插件 web
scraper, 我开设了一门专门的课程不用代码, 10 分钟学会微博知乎豆瓣 58 同城等网站数据采集, 里面有非常详细的知识介绍和实操案例
Ok, 今天就以采集 ASO114 网站为例, 具体介绍这款插件在实际采集当中的运用假设我要采集 ASO114 网是关于运营 app 的介绍以及下一页面的下载量数据, 一个一个复制显然是不合理的, 那么我们来看看 web scraper 是如何快速采集的
需要注意的是, 关于插件的安装和设置, 在之前的课程都有相关说明, 有兴趣的朋友可以去看看
一建立一级采集器, 设定选择范围
1 进入采集页面 https://aso114.com/a/运营/, 通过快捷键: 按 F12 键, 选择 Web Scraper 启动插件;
2 新建站点地图: 点击 Create new sitemapCreate Sitemap, 新建抓取任务新建后如下图填写信息, 填写完点击 CreateSitemap 创建:
3 设置一级采集器: 具体如下如所示
有几个设置这里需要注意的是:
(1)type: 这里选择的是 element click, 因为网页页面需要点击下方的加载更加, 才能把全部信息展示出来;
(2)click type: 这里选择的是 click more, 因为需要多次点击加载更多才能展示全部信息;
(3)click element uniqueness: 这里选择的是 unique html, 因为当加载更多不能点击的时候会出现网页代码的改变, 此时就让点击停止;
(4) 勾选 multiple, 因为需要采集的是页面链接以及 app 名字等多种信息;
至此, 一级选择器就设置完成了;
二建立二级采集器, 选取需要的信息元素
1 设置二级选择器: 选择具体的元素, 如下图:
具体操作也很简单, 在一级选择器下新建二级选择器, 就进入如上图页面, 这里和之前的一级选择是一样的, 但是具体设置略有不同:
(1)type: 这里选择 link, 这是因为要选择的是对应的链接
(2) 之后选择 select, 把鼠标移到需要选择的元素上, 点击即可;
(3) 其他就不用设置了, 也不需要勾选 multiple
设置和选择完毕之后, 点击 save selector 即可同理其他的 app 名字的设置也是一样的, 只需要把二级选择器的 type 类型设置为 text 即可
2 实现二级页面的采集
这里的二级页面指的是在上一页面点击后进入的页面, 因此需要的是先采集上一页面的链接, 这一步第三步和第四步已经采集完成, 那么我们需要采集的页面具体指的是:
那么如何批量采集下载量这个维度呢? 其实也特别简单, 只需要在链接下新建立一个三级选择器, 在第三级选择器中把 type 类型设置为 text 即可:
设置地图为:
设置完成后, 选择 scrap 即可, 得到的结果:
所有 500 多条信息, 在不到 10 分钟的时间即可采集完成
如果您想掌握这种采集方法, 我开设了一门不用代码, 10 分钟学会微博豆瓣知乎淘宝数据采集, 用视频教学来让你快速学会数据采集, 详情可以看我简书主页信息
来源: http://www.jianshu.com/p/3bc4b1eb86b3