万亿级日志与行为数据存储查询技术剖析

写在前面

近些年，大数据背后的价值也开始得到关注和重视，越来越多的企业开始保存和分析数据，希望从中挖掘大数据的价值。大数据产生的根本还是增量数据，单纯的用户数据不足以构成大数据，然而用户的行为或行为相关的日志的数据量，加之随着物联网的发力，产生的增量数据将不可预估，存储和查询增量数据尤为关键。所以，在笔者的工作经历中，本着以下的目标，寻找更优的大数据存储和查询方案：

数据无损：数据分析挖掘都依赖于我们保存的数据，只有做到数据的无损，才有可能任意的定义指标，满足各种业务需求。
保证数据实时性：数据的实时性越来越重要，实时的数据能够更好的运维产品和调整策略，价值更高。单进程每秒接入3.5万数据以上，数据从产生到能够查询到结果这个间隔不会超过5秒。
业务需求快速响应：随着越来越快的业务发展和数据应用要求的提高，数据的查询需要更灵活，快速响应不同且多变的需求。最好是任意定义指标后能够实时查询出结果。
数据灵活探索性：探索性数据分析在对数据进行概括性描述，发现变量之间的相关性以及引导出新的假设。到了大数据时代，海量的无结构、半结构数据从多种渠道源源不断地积累，不受分析模型和研究假设的限制，如何从中找出规律并产生分析模型和研究假设成为新挑战。因此，探索性数据分析成为大数据分析中不可缺少的一步并且走向前台。
超大数据集，统计分析秒级响应：万亿数据量级，千级维度（非稀疏）的统计分析秒级响应。

目前大数据存储查询方案大概可以分为：Hbase系、Dremel系、预聚合系、Lucene系，笔者就自身的使用经验说说这几个系的优缺点，如有纰漏，欢迎一起探讨。

数据查询包括大体可以分为两步，首先根据某一个或几个字段筛选出符合条件的数据，然后根据关联填充其他所需字段信息或者聚合其他字段信息，本文中提到的大数据技术，都将围绕这两方面。

一、Hbase系

【GMTC北京2017】将于 6 月 9～10日在北京·国际会议中心举行。本届大会主题为智能时代的大前端，将带来11+热点专题，涵盖Native动态化、热修复、性能优化、移动AI等热门技术，及web框架实践、移动架构等一手实践，目前最低价6折售票火热进行中，团购更优惠，过期不候哦，请猛戳报名吧！

来源: http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques

与本文相关文章

暂无,快来抢沙发吧！