2018.2 最新 - Scrapy+elasticSearch+Django 打造搜索引擎直至部署上线 (一)

最终项目上线演示地址: http://search.mtianyan.cn

第一节: 开始我的表演之前, 先讲讲我们会学到什么, 点上面链接看看我们能做一个什么.

Github 地址: https://github.com/mtianyan/ArticleSpider

简介

聚焦 Python 分布式爬虫必学框架 Scrapy 打造搜索引擎

人工智能时代, 数据先行. 围绕着数据可以做的事情越来越多.

mark

比如上面这些领域所需要的数据都是可以通过爬虫来完成收集的.

通过 Scrapy 分布式爬虫爬取数据, 以及结合 elasticsearch 与 Django 搭建搜索引擎.

适用人群: 初学者, 与想进阶的开发者.

收获: 获取想要的数据 && 深入认知网络知识和编程知识.

课程学习流程目录:

环境配置和基础知识铺垫

爬取真实数据: 三个主流网站 (伯乐在线, 知乎, 拉钩网)

scrapy 突破反爬虫技术

scrapy 进阶开发

scrapy redis 分布式爬虫: 可以快速搭建一套分布式爬虫.

elasticsearch django 实现搜索引擎

爬虫基础知识:

正则表达式

深度优先和广度优先遍历算法

url 去重的常见策略

爬取三个网站

介绍完基础知识通过爬取:

技术社区 (伯乐在线), 问答网站 (知乎), 知名招聘网站 (拉钩网) 来介绍 Scrapy 常用功能以及分析网站结构和网络请求.

学会通过 xpath + CSS 提取数据, 爬取时也会使用模拟登录

mark

会对 Scrapy 的 spider item item loader pipeline feed export CrawSpider

都进行学习.

介绍如何突破网站对于爬虫的限制:

mark

scrapy 进阶开发中介绍: scrapy 的原理, 基于 scrapy 的中间件开发.

mark

对于上面这些小的知识点也都进行讲解.

通过 scrapy redis 搭建一套分布式爬虫.

充分利用多台服务器效率. 让爬取速度更快.

通过源码分析: 让大家理解 scrapy-redis 分布式爬虫

集成 bloomfilter 到 scrapy-redis 中

elasticsearch 结合 django 制作搜索引擎

elasticsearch 作为当前最流行的的分布式搜索引擎, 被用到很多大公司. 我们将用它结合 django 做一个搜索引擎.

文章搜索 && 问答搜索 && 职位搜索

下面还会有热门搜索和我的搜索. 输入关键词之后联想输入点击搜索, 进入详情页面.

对搜索关键字进行标红处理, 对于数据进行了统计, 可以收起左侧. 右侧可以看到热门, 和我的记录, 下方有一个分页的效果. 点击某一项会跳转到网站.

课程的收获:

开发爬虫所需要用到的技术以及网站分析技巧

理解 scrapy 的原理和所有组件的使用以及

分布式爬虫 scrapy-redis

的使用和原理.

理解分布式开源搜索引擎 elasticsearch 的使用以及

搜索引擎的原理

体验 django 如何快速搭建网站

来源: http://www.jianshu.com/p/c3de72318a60

与本文相关文章

暂无,快来抢沙发吧！