scrapy 爬取效率提升配置

增加并发:

默认 scrapy 开启的并发线程为 32 个, 可以适当进行增加. 在 settings 配置文件中修改 CONCURRENT_REQUESTS = 100 值为 100, 并发设置成了为 100.

降低日志级别:

在运行 scrapy 时, 会有大量日志信息的输出, 为了减少 CPU 的使用率. 可以设置 log 输出信息为 INFO 或者 ERROR 即可. 在配置文件中编写: LOG_LEVEL = 'INFO'

禁止 cookie:

如果不是真的需要 cookie, 则在 scrapy 爬取数据时可以禁止 cookie 从而减少 CPU 的使用率, 提升爬取效率. 在配置文件中编写: COOKIES_ENABLED = False

禁止重试:

对失败的 HTTP 进行重新请求 (重试) 会减慢爬取速度, 因此可以禁止重试. 在配置文件中编写: RETRY_ENABLED = False

减少下载超时:

如果对一个非常慢的链接进行爬取, 减少下载超时可以能让卡住的链接快速被放弃, 从而提升效率. 在配置文件中进行编写: DOWNLOAD_TIMEOUT = 10 超时时间为 10s

来源: http://www.bubuko.com/infodetail-3150080.html

暂无,快来抢沙发吧！