1、先在 cmd 中 cd 到想要建立项目的目录
2、输入 scrapy startproject xxxx(xxxx 为自己的项目名)
- 1 scrapy startproject maopu
4、在 item.py 输入自己想要爬取的字段。(电影名和电影评分)
- import scrapy
- class MaopuItem(scrapy.Item):
- # define the fields for your item here like:
- # name = scrapy.Field()
- movie_name=scrapy.Field()
- movie_score=scrapy.Field()
5、可以手工在根目录下的 spider 建立自己的爬虫. py
- 1 import scrapy
- 2 from maopu.items import MaopuItem
- 3 class MopSpider(scrapy.Spider):
- 4 name='myspider'
- 5 allowed_domains=['diediao.com']
- 6
- 7 start_urls = [
- 8 "http://www.diediao.com/movie/",
- 9 ]
- 10
- 11 def parse(self, response):
- 12 for sel in response.xpath('//*[@id="channel-box"]/div/div/ul/li'):
- 13 item=MaopuItem()
- 14 item['movie_name']=sel.xpath('a/text()').extract()
- 15 item['movie_score'] = sel.xpath('span/text()').extract()
- 16 print(item)
- 17 yield item
关于 parse,可以先去 shell 里测试测试:(不熟悉 xpath 的可以到 http://www.w3school.com.cn/xpath/index.asp)
cmd 里或者在 pycharm 下面的 terminal 中里输入
scrapy shell "http://www.diediao.com/movie/"
>>> response.xpath('//*[@id="channel-box"]/div/div/ul/li/a/text()').extract()
>>> response.xpath('//*[@id="channel-box"]/div/div/ul/li/span/text()').extract()
测试完后可以输入 quit() 或则 ctrl+z 退出
5、执行 spider:方法 1
cmd 里或者在 pycharm 下面的 terminal 中里输入(需要 cd 到项目根目录)
scrapy crawl mySpider
执行 spider:方法 2
在项目根目录里新建 entrypoint.py,在这执行和命令行是一样的效果
- from scrapy.cmdline import execute
- execute(['scrapy', 'crawl', 'mySpider'])
来源: