当前位置：

首页
/
IT
/
详解大数据平台架构

详解大数据平台架构

什么是大数据

Hadoop 介绍 - HDFS,MR,Hbase

大数据平台应用举例 - 腾讯

公司的大数据平台架构

"就像望远镜让我们能够感受宇宙, 显微镜让我们能够观测微生物一样, 大数据正在改变我们的生活以及理解世界的方式......".

大数据的 4V 特征

公司的 "大数据"

随着公司业务的增长, 大量和流程, 规则相关的非结构化数据也爆发式增长. 比如:

1, 业务系统现在平均每天存储 20 万张图片, 磁盘空间每天消耗 100G;

2, 平均每天产生签约视频文件 6000 个, 每个平均 250M, 磁盘空间每天消耗 1T;

......

三国里的 "大数据"

"草船借箭" 和大数据有什么关系呢? 对天象的观察是基于一种对风, 云, 温度, 湿度, 光照和所处节气的综合分析这些数据来源于多元化的 "非结构" 类型, 并且数据量较大, 只不过这些数据输入到的不是电脑, 而是人脑并最终通过计算分析得出结论.

Google 分布式计算的三驾马车

Google File System 用来解决数据存储的问题, 采用 N 多台廉价的电脑, 使用冗余 (也就是一份文件保存多份在不同的电脑之上) 的方式, 来取得读写速度与数据安全并存的结果.

Map-Reduce 说穿了就是函数式编程, 把所有的操作都分成两类, map 与 reduce,map 用来将数据分成多份, 分开处理, reduce 将处理后的结果进行归并, 得到最终的结果.

BigTable 是在分布式系统上存储结构化数据的一个解决方案, 解决了巨大的 Table 的管理, 负载均衡的问题.

Hadoop 体系架构

Hadoop 核心设计

HDFS 介绍 - 文件读流程

Client 向 NameNode 发起文件读取的请求.

NameNode 返回文件存储的 DataNode 的信息.

Client 读取文件信息.

HDFS 介绍 - 文件写流程

Client 向 NameNode 发起文件写入的请求.

NameNode 根据文件大小和文件块配置情况, 返回给 Client 它所管理部分 DataNode 的信息.

Client 将文件划分为多个 Block, 根据 DataNode 的地址信息, 按顺序写入到每一个 DataNode 块中.

MapReduce-- 映射, 化简编程模型

输入数据 ->Map 分解任务 ->执行并返回结果 ->Reduce 汇总结果 ->输出结果

Hbase-- 分布式数据存储系统

Client: 使用 HBase RPC 机制与 HMaster 和 HRegionServer 进行通信

Zookeeper: 协同服务管理, HMaster 通过 Zookeepe 可以随时感知各个 HRegionServer 的健康状况

HMaster: 管理用户对表的增删改查操作

HRegionServer:HBase 中最核心的模块, 主要负责响应用户 I/O 请求, 向 HDFS 文件系统中读写数据

HRegion:Hbase 中分布式存储的最小单元, 可以理解成一个 Table

HStore:HBase 存储的核心. 由 MemStore 和 StoreFile 组成.

HLog: 每次用户操作写入 Memstore 的同时, 也会写一份数据到 HLog 文件

还有哪些 NoSQL 产品?

为什么要使用 NoSQL?

一个高并发网站的 DB 进化史

关系模型>聚合数据模型的转换 - 基本变换

关系模型>聚合数据模型的转换 - 内嵌变换

关系模型>聚合数据模型的转换 - 分割变换

关系模型>聚合数据模型的转换 - 内联变换

Hadoop2.0
MapReduce:

JobTracker: 协调作业的运行.

TaskTracker: 运行作业划分后的任务.

大数据的技术领域

公司数据处理平台的基础架构

公司大数据平台架构图

应用一数据分析

应用二视频存储

应用三离线日志分析

应用五在线数据分析

参考资料: 京东基于 Samza 的流式计算实践

在这里我还是要推荐下我自己建的大数据学习交流 qq 裙: 458345782, 裙里都是学大数据开发的, 如果你正在学习大数据 , 小编欢迎你加入, 大家都是软件开发党, 不定期分享干货(只有大数据开发相关的), 包括我自己整理的一份最新的大数据进阶资料和高级开发教程, 欢迎进阶中和进想深入大数据的小伙伴.

来源: http://www.jianshu.com/p/5dcda857da49

与本文相关文章

大数据监测揭今年的开学季新变化

暂无,快来抢沙发吧！