目录:
什么是大数据
Hadoop 介绍 - HDFS,MR,Hbase
大数据平台应用举例 - 腾讯
公司的大数据平台架构
"就像望远镜让我们能够感受宇宙, 显微镜让我们能够观测微生物一样, 大数据正在改变我们的生活以及理解世界的方式......".
大数据的 4V 特征
公司的 "大数据"
随着公司业务的增长, 大量和流程, 规则相关的非结构化数据也爆发式增长. 比如:
1, 业务系统现在平均每天存储 20 万张图片, 磁盘空间每天消耗 100G;
2, 平均每天产生签约视频文件 6000 个, 每个平均 250M, 磁盘空间每天消耗 1T;
......
三国里的 "大数据"
"草船借箭" 和大数据有什么关系呢? 对天象的观察是基于一种对风, 云, 温度, 湿度, 光照和所处节气的综合分析这些数据来源于多元化的 "非结构" 类型, 并且数据量较大, 只不过这些数据输入到的不是电脑, 而是人脑并最终通过计算分析得出结论.
Google 分布式计算的三驾马车
Google File System 用来解决数据存储的问题, 采用 N 多台廉价的电脑, 使用冗余 (也就是一份文件保存多份在不同的电脑之上) 的方式, 来取得读写速度与数据安全并存的结果.
Map-Reduce 说穿了就是函数式编程, 把所有的操作都分成两类, map 与 reduce,map 用来将数据分成多份, 分开处理, reduce 将处理后的结果进行归并, 得到最终的结果.
BigTable 是在分布式系统上存储结构化数据的一个解决方案, 解决了巨大的 Table 的管理, 负载均衡的问题.
Hadoop 体系架构
Hadoop 核心设计
HDFS 介绍 - 文件读流程
Client 向 NameNode 发起文件读取的请求.
NameNode 返回文件存储的 DataNode 的信息.
Client 读取文件信息.
HDFS 介绍 - 文件写流程
Client 向 NameNode 发起文件写入的请求.
NameNode 根据文件大小和文件块配置情况, 返回给 Client 它所管理部分 DataNode 的信息.
Client 将文件划分为多个 Block, 根据 DataNode 的地址信息, 按顺序写入到每一个 DataNode 块中.
MapReduce-- 映射, 化简编程模型
输入数据 ->Map 分解任务 ->执行并返回结果 ->Reduce 汇总结果 ->输出结果
Hbase-- 分布式数据存储系统
Client: 使用 HBase RPC 机制与 HMaster 和 HRegionServer 进行通信
Zookeeper: 协同服务管理, HMaster 通过 Zookeepe 可以随时感知各个 HRegionServer 的健康状况
HMaster: 管理用户对表的增删改查操作
HRegionServer:HBase 中最核心的模块, 主要负责响应用户 I/O 请求, 向 HDFS 文件系统中读写数据
HRegion:Hbase 中分布式存储的最小单元, 可以理解成一个 Table
HStore:HBase 存储的核心. 由 MemStore 和 StoreFile 组成.
HLog: 每次用户操作写入 Memstore 的同时, 也会写一份数据到 HLog 文件
还有哪些 NoSQL 产品?
为什么要使用 NoSQL?
一个高并发网站的 DB 进化史
关系模型>聚合数据模型的转换 - 基本变换
关系模型>聚合数据模型的转换 - 内嵌变换
关系模型>聚合数据模型的转换 - 分割变换
关系模型>聚合数据模型的转换 - 内联变换
- Hadoop2.0
- MapReduce:
JobTracker: 协调作业的运行.
TaskTracker: 运行作业划分后的任务.
大数据的技术领域
公司数据处理平台的基础架构
公司大数据平台架构图
应用一数据分析
应用二视频存储
应用三离线日志分析
应用五在线数据分析
参考资料: 京东基于 Samza 的流式计算实践
在这里我还是要推荐下我自己建的大数据学习交流 qq 裙: 458345782, 裙 里都是学大数据开发的, 如果你正在学习大数据 , 小编欢迎你加入, 大家都是软件开发党, 不定期分享干货(只有大数据开发相关的), 包括我自己整理的一份最新的大数据进阶资料和高级开发教程, 欢迎进阶中和进想深入大数据的小伙伴.
来源: http://www.jianshu.com/p/5dcda857da49