Python的爬虫框架scrapy用21行代码写一个爬虫

这里有新鲜出炉的 Python 教程，程序狗速度看过来！

Python 编程语言

Python 是一种面向对象、解释型计算机程序设计语言，由 Guido van Rossum 于 1989 年底发明，第一个公开发行版发行于 1991 年。Python 语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块（尤其是 C/C++）很轻松地联结在一起。

最近在学习 Python 的爬虫框架 scrapy，通过爬取线报网站后发现整个过程还是挺值得学习的，所以下面这篇文章主要就给大家介绍了 Python 的爬虫框架 scrapy 利用 21 行代码写一个爬虫的相关资料，需要的朋友可以参考借鉴，下面来一起看看吧。

开发说明

开发环境: Pycharm 2017.1(目前最新)

开发框架: Scrapy 1.3.3(目前最新)

目标

爬取线报网站, 并把内容保存到 items.json 里

页面分析

根据上图我们可以发现内容都在类为 post 这个 div 里

下面放出 post 的代码

<div class="post">
    <!-- baidu_tc block_begin: {"action": "DELETE"} -->
    <div class="date">
        <span>
            04月
        </span>
        <span class="f">
            07日
        </span>
    </div>
    <!-- baidu_tc block_end -->
    <h2>
        <a href="http://www.abckg.com/193.html" rel="external nofollow" title="4月7日 淘金币淘里程领取京东签到"
        rel="bookmark" target="_blank">
            4月7日 淘金币淘里程领取京东签到
        </a>
        <span>
            已结束
        </span>
    </h2>
    <h6>
        发布日期: 2017-04-07 | 分类:
        <a href="http://www.abckg.com/xunibi" rel="external nofollow">
            虚拟币
        </a>
        | 浏览:125177
    </h6>
    <div class="intro">
        <p>
            淘金币一键领取 http://021.tw/t/ https://www.chaidu.com/App/web/Taobao-Coin/ 【电脑端30金币】
            https://taojinbi.taobao.com/inde ... auto_take=true 【手机端30金币】 http://h5.m.taobao...
        </p>
    </div>
</div>

实现方法

1、定义 items

 
class DemoItem(scrapy.Item):
 id = scrapy.Field()
 title = scrapy.Field()
 href = scrapy.Field()
 content = scrapy.Field()

2、新建一个爬虫名为 test

 
# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request
class TestSpider(scrapy.Spider):
 #定义爬虫的名字和需要爬取的网址
 name = "test"
 allowed_domains = ["www.abckg.com"]
 start_urls = ['http://www.abckg.com/']
 def parse(self, response):
 for resp in response.CSS('.post'):
  #实例化item
  item = DemoItem()
  #把获取到的内容保存到item内
  item['href'] = resp.css('h2 a::attr(href)').extract()
  item['title'] = resp.css('h2 a::text').extract()
  item['content'] = resp.css('.intro p::text').extract()
  yield item
  
 #下面是多页面的爬取方法
 urls = response.css('.pageinfo a::attr(href)').extract()
 for url in urls:
  yield Request(url, callback=self.parse)
 categorys = response.css('.menu li a::attr(href)').extract()
 for ct in categorys:
  yield Request(ct, callback=self.parse)

3、修改 settings.py, 添加以下代码

 
FEED_EXPORT_ENCODING = 'utf-8'

#运行

打开 cmd 输入

 
scrapy crawl test -o items.json

已知 bug

如果多次运行该爬虫, 不会覆盖原有的内容, 而是追加数据 (好像是 scrapy 的 bug)

可拓展内容

1、定时运行爬虫, 当检查到网站更新时获取新数据并发邮件通知

2、检测数据是否重复

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者使用 python 能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对 PHPERZ 的支持。

来源: http://www.phperz.com/article/17/0601/334886.html

与本文相关文章

暂无,快来抢沙发吧！