爬虫框架Scrapy之Item Pipeline

Item Pipeline

当 Item 在 Spider 中被收集之后，它将会被传递到 Item Pipeline，这些 Item Pipeline 组件按定义的顺序处理 Item。

每个 Item Pipeline 都是实现了简单方法的 Python 类，比如决定此 Item 是丢弃而存储。以下是 item pipeline 的一些典型应用：

验证爬取的数据 (检查 item 包含某些字段，比如说 name 字段)
查重 (并丢弃)
将爬取结果保存到文件或者数据库中

编写 item pipeline

编写 item pipeline 很简单，item pipiline 组件是一个独立的 Python 类，其中 process_item() 方法必须实现:

import something
class SomethingPipeline(object):
    def __init__(self):    
        # 可选实现，做参数初始化等
        # doing something
    def process_item(self, item, spider):
        # item (Item 对象) – 被爬取的item
        # spider (Spider 对象) – 爬取该item的spider
        # 这个方法必须实现，每个item pipeline组件都需要调用该方法，
        # 这个方法必须返回一个 Item 对象，被丢弃的item将不会被之后的pipeline组件所处理。
        return item
    def open_spider(self, spider):
        # spider (Spider 对象) – 被开启的spider
        # 可选实现，当spider被开启时，这个方法被调用。
    def close_spider(self, spider):
        # spider (Spider 对象) – 被关闭的spider
        # 可选实现，当spider被关闭时，这个方法被调用

完善之前的案例：

item 写入 JSON 文件

以下 pipeline 将所有 (从所有'spider'中) 爬取到的 item，存储到一个独立地 items.json 文件，每行包含一个序列化为'JSON'格式的'item':

import json
class ItcastJsonPipeline(object):
    def __init__(self):
        self.file = open('teacher.json', 'wb')
    def process_item(self, item, spider):
        content = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(content)
        return item
    def close_spider(self, spider):
        self.file.close()

启用一个 Item Pipeline 组件

为了启用 Item Pipeline 组件，必须将它的类添加到 settings.py 文件 ITEM_PIPELINES 配置，就像下面这个例子:

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    #'mySpider.pipelines.SomePipeline': 300,
    "mySpider.pipelines.ItcastJsonPipeline":300
}

分配给每个类的整型值，确定了他们运行的顺序，item 按数字从低到高的顺序，通过 pipeline，通常将这些数字定义在 0-1000 范围内（0-1000 随意设置，数值越低，组件的优先级越高）

重新启动爬虫

将 parse() 方法改为 4.2 中最后思考中的代码，然后执行下面的命令：

scrapy crawl itcast

查看当前目录是否生成 teacher.json

如果报

UnicodeEncodeError: 'ascii' codec can't encode characters

错误，在 itcast.py 文件上添加下面代码指定编码格式：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

来源: http://www.bubuko.com/infodetail-1970597.html

与本文相关文章

暂无,快来抢沙发吧！