最终项目上线演示地址: http://search.mtianyan.cn
第一节: 开始我的表演之前, 先讲讲我们会学到什么, 点上面链接看看我们能做一个什么.
Github 地址: https://github.com/mtianyan/ArticleSpider
简介
聚焦 Python 分布式爬虫必学框架 Scrapy 打造搜索引擎
人工智能时代, 数据先行. 围绕着数据可以做的事情越来越多.
mark
比如上面这些领域所需要的数据都是可以通过爬虫来完成收集的.
通过 Scrapy 分布式爬虫爬取数据, 以及结合 elasticsearch 与 Django 搭建搜索引擎.
适用人群: 初学者, 与想进阶的开发者.
收获: 获取想要的数据 && 深入认知网络知识和编程知识.
课程学习流程目录:
环境配置和基础知识铺垫
爬取真实数据: 三个主流网站 (伯乐在线, 知乎, 拉钩网)
scrapy 突破反爬虫技术
scrapy 进阶开发
scrapy redis 分布式爬虫: 可以快速搭建一套分布式爬虫.
elasticsearch django 实现搜索引擎
爬虫基础知识:
正则表达式
深度优先和广度优先遍历算法
url 去重的常见策略
爬取三个网站
介绍完基础知识通过爬取:
技术社区 (伯乐在线), 问答网站 (知乎), 知名招聘网站 (拉钩网) 来介绍 Scrapy 常用功能以及分析网站结构和网络请求.
学会通过 xpath + CSS 提取数据, 爬取时也会使用模拟登录
mark
会对 Scrapy 的 spider item item loader pipeline feed export CrawSpider
都进行学习.
介绍如何突破网站对于爬虫的限制:
mark
scrapy 进阶开发中介绍: scrapy 的原理, 基于 scrapy 的中间件开发.
mark
对于上面这些小的知识点也都进行讲解.
通过 scrapy redis 搭建一套分布式爬虫.
充分利用多台服务器效率. 让爬取速度更快.
通过源码分析: 让大家理解 scrapy-redis 分布式爬虫
集成 bloomfilter 到 scrapy-redis 中
elasticsearch 结合 django 制作搜索引擎
elasticsearch 作为当前最流行的的分布式搜索引擎, 被用到很多大公司. 我们将用它结合 django 做一个搜索引擎.
文章搜索 && 问答搜索 && 职位搜索
下面还会有热门搜索和我的搜索. 输入关键词之后联想输入点击搜索, 进入详情页面.
对搜索关键字进行标红处理, 对于数据进行了统计, 可以收起左侧. 右侧可以看到热门, 和我的记录, 下方有一个分页的效果. 点击某一项会跳转到网站.
课程的收获:
开发爬虫所需要用到的技术以及网站分析技巧
理解 scrapy 的原理和所有组件的使用以及
分布式爬虫 scrapy-redis
的使用和原理.
理解分布式开源搜索引擎 elasticsearch 的使用以及
搜索引擎的原理
体验 django 如何快速搭建网站
来源: http://www.jianshu.com/p/c3de72318a60