使用python爬虫工具Scrapy统计简书文章阅读量

突然发现多年来一直断断续续在学习使用的 python，拥有着广泛的使用场景，从开源硬件、服务器运维、自动化测试，到数学计算，人工智能，都有 python 的一席之地，在各个领域 python 有丰富的框架和工具。

听闻 python 的 Scrapy 爬虫已久，最近正好想对去年一年在简书写作的文章做一下统计。作为软件工程师，肯定不能去按计算器，正好找到一个可以使用 scrapy 的场景，直接用爬虫来抓取简书页面，然后提取数据作统计。

工作原理和步骤

分析要抓取的页面结构，找到有价值的信息；
通过发起 http 请求，获得要抓取页面的 html 正文；
设计数据结构和计算规则，进行统计，然后将结果输出

抓取网页的话使用 urllib 库其实就可以完成，CSS 选择器的话，python 也有 pyquery 提供类似 jquery 的功能。剩下就是简单的数据统计了。

使用 Scrapy 动手操作

完整的项目还没有整理好，暂时不提供代码，本身核心业务逻辑的代码量并不多。

安装 python 和 scrapy

#安装pip
apt-get install -y build-essential libffi-dev libxml2-dev libxslt1-dev libevent-dev libssl-dev zlib1g-dev  python-dev python-pip
pip install -U pip
#安装scrapy
pip install scrapy

本次应用中使用 pip 来安装 scrapy，详细安装可以参看官网，安装 pip 的同时，需要安装一些 linux 开发相关的工具。

需要注意的事项有两点，首先如果是在 mac 上安装的话，由于操作系统以来 sis 这个库，而 scrapy 需要更高版本的 sis，无法升级，所以可能有坑，笔者直接使用 docker 搭建的容器进行开发，所以不存在问题；另外一个是 pip 源，在国内可能下载速度会比较慢，可以使用国内的源或者翻墙下载。

import sys
import scrapy
import csv
class MyJianShuSpider(scrapy.Spider):
    name = 'my_jisnshu_spider'
    page = 1
    userid = 'yourid'
    base_url = 'http://www.jianshu.com/u/yourid?order_by=shared_at&page='
    start_urls = ['http://www.jianshu.com/u/yourid?order_by=shared_at&page=1']
    headers = {
      "Host": "www.jianshu.com",
      "User-Agent": "your agent",
      "Accept": "*/*"
    }
    def start_requests(self):
        url = self.base_url + str(self.page)
        yield scrapy.Request(url, headers=self.headers, callback=self.parse)
    def parse(self, response):
        for item in response.css('ul.note-list li'):
            print publishTimeText = item.css('.author .name > .time ::attr(data-shared-at)').extract_first()

Scrapy 基本工作原理

scrapy 提供了

Spider

类，该类通过

start_requests

接口被 scrapy 执行器调用，运行 scrapy 执行器，就会从入口点 start_requests 开始执行爬虫的代码；使用过 javascript 的 es2015 应该会比较容易理解 yield，感觉是 js 也借鉴了很多 python 的理念。

在 Spider 执行过程中，任何时候都可以通过调用

scrapy.Request

来发起一个爬虫抓取操作，callback 参数是抓取的网络请求成功之后的回调函数，url 是请求的链接地址，headers 是 http 协议的头部，可以根据需要设置。

简书页面的相关结构

查看简书列表页面的 document 结构，很容易找到

#list-container

下面的 ul 列表就是包含我们要统计的信息的节点，因此可以直接使用 scrapy 提供的 css 选择器来获取。执行回调函数

response.css('ul.note-list li')

就获取到了一个列表，对列表做循环处理，取出每一个需要的元素。

#发表时间
publishTimeText = item.css('.author .name > .time ::attr(data-shared-at)').extract_first()
# 摘要
abstractText = item.css('p.abstract ::text').extract_first()
# 文章标题
titleText = item.css('a.title ::text').extract_first()
# 文章的链接
articleLink = item.css('a.title ::attr(href)').extract_first()
#统计信息
metaList = item.css('.meta > a ::text').re(r' ([0-9]*)\n')

最后的 metaList 返回的是一个数组，下标 0-2 分别是阅读、评论和点赞的数目。

在实际获取到的列表页面中，页面的文章是通过异步加载，每次获取一页数据的，所以在抓取过程中，需要多次抓取每次抓取一页，直到没有更多文章为止。

简书实际上提供了分页的文章列表页，可以分页获取数据，页面中页可以找到是否还有更多文章的标记。为了不破坏读者探索的乐趣，文章里就不详细介绍了。

文／liuwill（简书作者）

来源: http://www.tuicool.com/articles/iaYJJjm

与本文相关文章

暂无,快来抢沙发吧！