广义上讲 大数据是时代发展和技术进步的产物. Hadoop 只是一种处理大数据的技术手段.
"大数据" 概念在 1980 年由维克托. 迈尔 - 舍恩伯格及肯尼斯. 库克耶 在《第三次浪潮》首次提出, 由麦肯锡公司 (McKinsey) 最早应用.
image
大数据的特征
1, 容量: 数据的大小决定所考虑的数据的价值和潜在的信息
2, 种类: 数据类型的多样性
3, 速度: 指获得数据的速度
4, 可变性: 妨碍了处理和有效地管理数据的过程
5, 真实性: 数据的质量
6, 复杂性: 数据量巨大, 来源多渠道
7, 价值: 合理运用大数据, 以低成本创造高价值
大数据的发展趋势(摘自百科)
1, 趋势一: 数据的资源化
2, 趋势二: 与云计算的深度结合
3, 趋势三: 科学理论的突破
4, 趋势四: 数据科学和数据联盟的成立
5, 趋势五: 数据泄露泛滥
6, 趋势六: 数据管理成为核心竞争力
7, 趋势七: 数据质量是 BI(商业智能)成功的关键
8, 趋势八: 数据生态系统复合化程度加强
Hadoop 是什么?
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下, 开发分布式程序. 充分利用集群的威力进行高速运算和存储. Hadoop 的框架最核心的设计就是: HDFS 和 MapReduce.HDFS 为海量的数据提供了存储, 而 MapReduce 则为海量的数据提供了计算.
hdfs 架构示意图
hdfs 架构示意图
MapReduce 工作原理图
MapReduce 工作原理图
Hadoop 生态圈
Hadoop 生态圈
大数据需要特殊的技术, 无法用单台计算机进行处理, 必须采用分布式架构. hadoop 只是处理大数据的一种技术. 围绕大数据还有其它的技术
大数据和 hadoop 之间的关系
大数据和 hadoop 之间的关系
最后总结下: 大数据是时代发展的产物, 为了应对大数据环境下新的业务需求, 相关的分布式存储, 分布式计算, 大规模分布式数据库等技术, hadoop 解决了通过 hdfs 实现分布式存储, 通过 mapreduce 实现分布式计算. 围着 hadoop 逐步发展出一个 hadoop 生态圈. hadoop 大数据环境下的一种处理结束.
如果您觉得我用心了, 觉得您有所收获, 麻烦关注下我吧, 您的关注就是我的动力, 因为有你, 我就不是一个人在前行.
来源: http://www.jianshu.com/p/70a86e796b27