第一天
2.Hadoop 框架介绍与搜索技术体系介绍
1. | 大数据典型特性与分布式开发难点 < br> |
2. | Hadoop 框架介绍与搜索技术体系介绍 |
3. | Hadoop 版本与特性介绍 |
4. | Hadoop 核心模块之 HDFS 分布式文件系统架构介绍 |
5. | Hadoop 核心模块之 Yarn 操作系统架构介绍 |
6. | Linux 安全禁用设置与 JDK 安装讲解 |
7. | Hadoop 伪分布式环境部署 HDFS 部分 |
8. | Hadoop 伪分布式环境部署 Yarn 和 MR 部分 |
9. | Hadoop 环境使用常见的错误集合 |
10. | Hadoop 环境常规设置与辅助功能讲解 (-) |
11. | Hadoop 环境常规设置与辅助功能讲解 (二) |
12. | Windows 环境下部署 Eclipse 插件注意事项 < br> |
2.Hadoop 框架介绍与搜索技术体系介绍
1.hadoop 介绍
-》官网: http://hadoop.apache.org
-》hadoop 商业三大发行版
-》Apache -》apache
-》cloudera -》CDH
-》hostonwork -》HDP
-》分布式
-》爬虫
-》存储 (加硬盘, 但是单台机器是有限的)& 处理分析
-》快速查询
-》分开计算, 结果合并
-》google-》Mapreduce 论文
-》map
-》reduce
-》HDFS 文件系统和数据库是不一样的
-》HBase
-》搜索引擎的技术体系
-》数据获取
-》(外网, 互联网抓取数据)
-》数据库
-》数据存储 -》HDFS&Hbase
-》yarn 操作系统
-》数据计算
-》sql 实时查询 (消息队列, 监控系统)
-》辅助型框架, 比如 zookeeper
-》生成索引, 搜索的索引 (商品推荐和自己平时搜索的信息有关)
-》返回个前端用户
-》离线系统 -》hadoop 生态圈
-》数据获取
-》(外网, 互联网抓取数据)
-》云存储
-》全量或者增量导入 (同步到 hbase 当中, sql 语句当中)
-》复杂离线处理的过程 (job 运行, 业务的逻辑, 表的 join, 字段的合并)
-》mapreduce(实现全量或者增量数据的更新)
-》其他的框架实现实时数据的更新
这样我整个的数据变化就可以实现秒级的速度 更新到搜索引擎
Hadoop 学习系列 (2.Hadoop 框架介绍与搜索技术体系介绍)
来源: http://www.bubuko.com/infodetail-2479102.html