简单使用scrapy爬虫

1、先在 cmd 中 cd 到想要建立项目的目录

2、输入 scrapy startproject xxxx(xxxx 为自己的项目名)

1 scrapy startproject maopu

4、在 item.py 输入自己想要爬取的字段。（电影名和电影评分）

 import scrapy
 class MaopuItem(scrapy.Item):
     # define the fields for your item here like:
     # name = scrapy.Field()
     movie_name=scrapy.Field()
     movie_score=scrapy.Field()

5、可以手工在根目录下的 spider 建立自己的爬虫. py

 1 import scrapy
 2 from maopu.items import MaopuItem
 3 class MopSpider(scrapy.Spider):
 4     name='myspider'
 5     allowed_domains=['diediao.com']
 6 
 7     start_urls = [
 8         "http://www.diediao.com/movie/",
 9     ]
10 
11     def parse(self, response):
12         for sel in response.xpath('//*[@id="channel-box"]/div/div/ul/li'):
13             item=MaopuItem()
14             item['movie_name']=sel.xpath('a/text()').extract()
15             item['movie_score'] = sel.xpath('span/text()').extract()
16             print(item)
17             yield item

关于 parse，可以先去 shell 里测试测试：（不熟悉 xpath 的可以到 http://www.w3school.com.cn/xpath/index.asp）

cmd 里或者在 pycharm 下面的 terminal 中里输入

scrapy shell "http://www.diediao.com/movie/"

>>> response.xpath('//*[@id="channel-box"]/div/div/ul/li/a/text()').extract()

>>> response.xpath('//*[@id="channel-box"]/div/div/ul/li/span/text()').extract()

测试完后可以输入 quit() 或则 ctrl+z 退出

5、执行 spider：方法 1

cmd 里或者在 pycharm 下面的 terminal 中里输入（需要 cd 到项目根目录）

scrapy crawl mySpider

执行 spider：方法 2

在项目根目录里新建 entrypoint.py，在这执行和命令行是一样的效果

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'mySpider'])

来源:

与本文相关文章

暂无,快来抢沙发吧！