所在 jason 2019-04-23 11:23:10 浏览 86 评论 0
大数据
hbase
性能
数据处理
高可用
数据库
集群
Image
云盘
aliyun
数据同步
云数据库 RDS
云数据库 Redis 版
云数据库 MongoDB 版
摘要: 根据 Gartner 的预计, 全球非关系型数据库 (NoSQL) 在 2020~2022 预计保持在 30% 左右高速增长, 远高于数据库整体市场. 阿里云数据库 HBase 版也是踏着技术发展的节奏, 伴随着 NoSQL 和大数据技术的兴起和发展, 从 2010 年开始研究和发展.
根据 Gartner 的预计, 全球非关系型数据库 (NoSQL) 在 2020~2022 预计保持在 30% 左右高速增长, 远高于数据库整体市场.
阿里云数据库 HBase 版也是踏着技术发展的节奏, 伴随着 NoSQL 和大数据技术的兴起和发展, 从 2010 年开始研究和发展. 时光荏苒, 日月如梭, 转眼九年时间, 在阿里云上直接开放提供服务也有 1 年多时间, 并在去年的 12 月份全新发布 X-Pack, 将单一的 HBase 演进到一个完整的数据处理平台的能力. 我们注意到还有很多同学和客户不清楚 HBase X-Pack 是什么, 什么场景下合适选择 HBase X-Pack.
首先我们先来看下 HBase X-Pack 的定位:
HBase X-Pack 是基于 HBase 及 HBase 生态构建的 低成本一站式数据处理平台.
HBase X-Pack 支持: HBase API(包括 RestServerThriftServer), 关系 Phoenix SQL, 时序 OpenTSDB, 全文 Solr, 时空 GeoMesa, 图 HGraph, 分析 Spark on HBase, 是阿里云首个支持多模式的分布式数据库, 且协议 100% 兼容开源协议.
HBase X-Pack 实现数据从处理, 存储到分析全流程闭环, 让客户用最低成本实现一站式数据处理.
接下来一起来梳理一下阿里云 HBase X-Pack 关键能力, 一起看看选择阿里云 HBase X-Pack 的十个理由.
理由一: 一体化数据处理平台, 提供一站式能力
企业数字化转型时代, 业务越来越复杂, 需要一个平台可以提供一站式处理能力. 传统大数据各个组件非常多, 各个组件分层发展, 给扩展性带来非常大的便利, 但同时也引入了非常高的技术门槛, 云 HBase X-Pack 通过集成 Spark,Solr,HBase, 时序, 时空, 图等组件, 打通各个组件之间的数据同步, 通过数据工作台提供统一一体化交互式的操作体验, 实现计算, 存储, 分析, 检索, 机器学习五位一体的一站式能力, 极大的降低了使用门槛, 轻松上手, 同时提供全托管的服务, 避免各种复杂的运维和技术坑.
云 HBase X-Pack 详细的能力可以访问云 HBase 的帮助, 里面有各个能力详细的介绍:
理由二: 深厚的技术积累
企业决策选择云服务, 最核心的一个因素就是降低 TCO, 最看重的核心因素就是背后的技术力量, 服务能力.
阿里云 HBase X-Pack 经过 9 年的发展, 积累强大的专家团队, 目前拥有国际认证 7 个 committer,4 个 PMC, 拥有国内独一无二的技术实力.
我们拥有集团超过万台的服务经验, 对各种异常场景, 数据可靠性, 可用性, 性能, 数据迁移各个方面有全套的服务和工具.
理由三: 独家企业版本, 以及最新 2.0 版本
阿里云 HBase 提供的版本是经过, 千锤百炼的企业版本, 在稳定性和性能上远胜于开源的版本, 并且全球首家提供最新 2.0 版本. 关于阿里云 HBase 发展历程, 可以看这里详细介绍: https://yq.aliyun.com/articles/601531. 阿里云 HBase 和开源版本的关键区别, 可以查看:
https://help.aliyun.com/document_detail/49502.html.
理由四: 开发效率最高的数据库
Gartner 在 2017 年数据库厂商推荐报告中就明确指出多模是发展趋势阿里云新发布 X-Pack 更是将多模推上新高度, KV 的基础上, 同时支持时序, 时空, 图, 文档等多种数据模型.
我们知道, 大数据时代, 业务多样性是大数据的本质之一, 强制使用单一模型只会降低生产效率, HBase X-Pack 提供 KV,SQL, 时序, 时空, 图丰富的多模多模能力, 帮助客户可以根据不同的业务选择不同的数据处理模型, 支持业务灵活选择, 从而实现最高效率的开发和生产.
理由五: 做成本最低的数据库
HBase 诞生于 Google 的 bigtable 论文, 天然是为了存储海量互联网数据而诞生, 低成本能力是其天然的属性. 云 HBase X-Pack 在继承 HBase 自身能力的同时, 为了给客户节省成本做了很多努力. 体现在内核, 整体方案各个方面, 主要有:
云 HBase 版本的内核是经过优化的, 性能平均高出自建版本 30%~300%:
如果对性能有要求的场景, 就可以节省更少的 CPU 资源, 获取更大的效果, 具体可以参考 https://yq.aliyun.com/articles/198654.
齐全的产品形态, 满足各种业务场景, 提供最高性价比:
HBase X-Pack 支持单节点, 集群版本, 跨可用区 / 跨地域双集群版本, 满足用户从测试, 生产环境, 高可用各种使用环境, 平衡能力和成本, 提供高性价比的选择, 具体可以参考 https://help.aliyun.com/document_detail/71538.html.
提供数据全生命周期管理功能, 数据冷热分离, 存储成本下降 3.5 倍:
很多场景里面, 数据有冷热的需求, 我们提供不同的存储介质, 包括 OSS, 本地盘, 云盘, 高性能云盘, 帮助客户实现最佳的存储成本, 详细的可以看下 https://yq.aliyun.com/articles/646983.
客户基于 ECS 自建, 存储选择云盘, hdfs 副本数天然是 3 副本:
HBase 服务通过和云盘深度集成 2 副本就可以同样的性能和可靠性. 在存储上天然节省 1/3, 详细的可以访问 https://yq.aliyun.com/articles/646983.
全托管服务, 提供代维, 99.9% 的 SLA:
运维在日常数据库工作中占了很大的比重, 而且数据库的稳定性关系到整个系统, 牵一发和动全身, 云 HBase X-Pack 提供全托管的服务, 给客户节省运维费用, 以及极大的避免故障带来的损失.
提供一体化的方案节省成本:
云 HBase X-Pack 通过把各个组件深度集成和融合, 通过组合各个产品之间的能力, 给很多场景带来增效, 解决了性能瓶颈的同时, 带来成本的下降. 这里举 2 个典型的例子:
很多人工智能, 多媒体场景, 在线教育里面, 大量图片, 小视频文件. 传统的使用方法都是存在 OSS 里面, OSS 天然并发和时延处理能力有限, 同时读写都是要收费的, 读写次数越多, 费用越高, 使用 HBase X-Pack 没有这部分的费用, 可以解决性能的瓶颈的同时, 带来综合成本的降低.
碰到非结构化数据查询的诉求时, 大家一般会想起 ES.ES 适合文本查询, 入库会比较差(一般就几百条 / S), 查询函数也有限. HBase X-Pack 通过支持 Solr 完全补齐了文本查询的能力. 同时 Phoneix+Solr 组合结合了 HBase 和搜索的两者的优势, 在吞吐和并发上有优势. 对 SQL 的易用性也有优势. 尤其是在新零售等场景, 一张表中混杂结构化字段和非结构化字段, 可以根据需求, 自动创建索引, 融合两者的优势. 倒排膨胀率很高, 入库会极速下降. 大部分客户只是部分字段有模糊查询的需求, ES 强制所有的用单一技术. Phoneix 非常适合并发高的查询, 条件不多. 搜索技术补充了索引技术, 适合各种条件. 通过结合 phoneix+Solr 成功平滑查询和存储性能, 提高性能的同时, 存储成本也下降几倍, 非常适合结构化 + 非结构化混合的场景.
理由六: 力争做最好用的数据处理平台
HBase 主要提供在线查询能力, 沉淀下来的数据需要使用 Spark 来做复杂分析, HBase X-Pack 中的 Spark 为了让用户更便捷的做数据处理, 产品上面提供了以下能力:
1)数据工作台: 支持交互式, 作业管理, 工作流, 资源管理, 元数据管理, 从测试, 开发, 上线一站式开发体验
2)spark 内置 connector: 一键关联 hbase,mongo,Redis,rds 等集群, 免去调试的烦恼, 更加便捷的分析其他数据库的数据
3)支持多语言: 可以选择习惯的语言进行编程
4)可维护性: 支持小版本升级, 监控, 报警, 免去 Spark 集群维护
5)离线数仓能力: 一键归档在线库 rds,polardb,mongo,hbase,cassandra 数据到 Spark 数仓
6)成本: 集群默认存储为集群版本 HDFS, 同时支持数据存储在 oss 降成本
使用 HBase X-Pack Spark 能够构建业界成熟的一体化数据处理平台, 支撑推荐, 风控, 离线数仓, 实时处理及计算, 大数据运营, 日志分析, 去 oracle 复杂分析等业务场景:
理由七: 数据可靠性作为重中之重
对大多数公司来说数据的安全性以及可靠性是非常重要的, 如何保障数据的安全以及数据的可靠是大多数数据库必须考虑的. 2016 IDC 的报告表示数据的备份 (data-protection) 和数据恢复 (retention) 是 NoSQL 的最基础的需求之一, 阿里云 NoSQL 数据库也一直把怎么保障客户的数据安全放在首位.
以云 HBase 为例, 传统数据库备份恢复的能力都是 TB 级别, 在交易等场景下面是足够的, 但面向大数据场景就捉襟见肘了. 云 HBase 通过垂直整合高压缩, 内核级优化等能力, 将备份恢复的量级成功推高百倍以上, 做到 百 TB 级别甚至更高 , 让客户在大数据量场景下也无后顾之忧.
云 HBase 支持全量 (备份集) 备份, 全量 (备份集) 恢复, 增量 (实时) 备份, 增量 (时间点) 恢复完整备份恢复能力.
理由八: 单集群 3 个 9 高可用, 双集群 4 个 9 高可用
HBase 通过内核加固, 一系列自动运维修复工具, 单集群可以提供 3 个 9 的可用性, 为了满足很多场景下面更高可用性的要求, 云 HBase 支持跨可用区或者跨地域双集群主备同步, 可以让多个 HBase 集群保持同步关系. 在一个集群出现故障的时候, 迅速地将业务切换至另外一个集群从而避免故障. HBase 主备之间数据的同步基于异步链路实现, 遵循最终一致性协议, 典型的主备同步延迟在 200ms 左右.
理由九: 大量场景验证, 久经考验
阿里云 HBase 从 10 年上线以来, 在阿里集团内部久经考验, 超过 12000 台服务器, 单集群超过 2000 台的规模应用.
云 HBase 自发布以来, 通过丰富的能力, 优秀的全托管能力, 全面超越同类产品的技术能力得到金融, 社交, 多媒体, 新零售, 车联网网, 制作业, 政企等等多个行业, 多上千个客户的信赖, 积累了大量的使用经验. 欢迎我们的新老客户访问首页获取更多的信息:
理由十: 提供不停机迁移服务, 让自建迁移无忧
客户已经使用 ECS 自建服务, 想使用云 HBase 服务, 最担心的应该还是迁移过程中对业务的影响, 技术团队充分考虑这一点, 提供免费的不停机迁移服务, 对在线业务 0 影响, 数据迁移一行不丢. 当前业界有能力提供不提供不停机迁移 HBase 服务的仅此一家.
本文简单梳理了阿里云 HBase X-Pack 十大理由, 希望能对大家理解云 HBase 有一个帮助, 另外也给您选型做一个充分的参考. 当能我们还有很多改进的空间, 我们还在成长的路上持续努力, 也欢迎大家联系我们提出宝贵的意见, 最后福利, 欢迎使用云 HBase X-Pack 版本, 针对首次购买的用户推出了云数据库 HBase 单节点独享规格, 欢迎大家申请试用: https://promotion.aliyun.com/ntms/act/hbasefree.html
来源: https://yq.aliyun.com/articles/699489