近些年,大数据背后的价值也开始得到关注和重视,越来越多的企业开始保存和分析数据,希望从中挖掘大数据的价值。大数据产生的根本还是增量数据,单纯的用户数据不足以构成大数据,然而用户的行为或行为相关的日志的数据量,加之随着物联网的发力,产生的增量数据将不可预估,存储和查询增量数据尤为关键。所以,在笔者的工作经历中,本着以下的目标,寻找更优的大数据存储和查询方案:
目前大数据存储查询方案大概可以分为:Hbase系、Dremel系、预聚合系、Lucene系,笔者就自身的使用经验说说这几个系的优缺点,如有纰漏,欢迎一起探讨。
数据查询包括大体可以分为两步,首先根据某一个或几个字段筛选出符合条件的数据,然后根据关联填充其他所需字段信息或者聚合其他字段信息,本文中提到的大数据技术,都将围绕这两方面。
【GMTC北京2017】将于 6 月 9~10日在北京·国际会议中心举行。本届大会主题为智能时代的大前端,将带来11+热点专题,涵盖Native动态化、热修复、性能优化、移动AI等热门技术,及web框架实践、移动架构等一手实践,目前最低价6折售票火热进行中,团购更优惠,过期不候哦,请猛戳报名吧!
来源: http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques