架构 消息队列 hbase 性能 数据库 集群 同步 云盘 spark 流式计算 云数据库 索引 数据同步 分布式存储 存储
摘要: 2018 数据库直播大讲堂峰会 HBase 专场, 阿里云技术专家陆豪带来云数据库 HBase 产品架构场景解析. 本文主要谈及了云 HBase 产品架构, 进而着重分享了云 HBase 应用场景解析和典型客户案例, 接着介绍了云 HBase 内核优化及特性, 最后对云 HBase 平台运维和稳定性保障作了简要分享.
2018 数据库直播大讲堂峰会 HBase 专场, 阿里云技术专家陆豪带来云数据库 HBase 产品架构场景解析. 本文主要谈及了云 HBase 产品架构, 进而着重分享了云 HBase 应用场景解析和典型客户案例, 接着介绍了云 HBase 内核优化及特性, 最后对云 HBase 平台运维和稳定性保障作了简要分享.
直播视频: https://yq.aliyun.com/video/play/1333
PDF 下载: https://yq.aliyun.com/download/2458
以下是精彩视频内容整理:
云 HBase 产品架构
关系型数据库主要解决中小规模存储需求, 当数据量变大后, 会有分库分表以解决一定容量的需求实现复杂, 业务感知, 当数据量达到海量存储时, 会有分布式存储, 海量存储, 数据库会牺牲一些一致性要求达到千万并发及 QPS.
传统关系型数据库遇到的问题主要包括四个方面:
成本: 一般需要高端存储, 成本较高!
容量: 无法满足 TB,PB 级别的存储.
QPS: 无法满足超高的并发要求, 性能不不能横向扩展.
分析: 缺乏分析的框架及支持.
而 HBase 使用普通磁盘, 其分布式存储可以轻松满足从 GB 到 PB 的需求, 可以自动横向扩展, 满足高达 5000w QPS 需求, Spark on HBase 原生支持分析需求, 通过分析 HFile 可以加速分析性能.
HBase 支持实时更新, 增量导入, 多维删除, 随机查询, 范围查询, 它是高伸缩, 高可用, 高可靠, 高性能, 高适应在线分布式 NOSQL 数据库.
HBase 还解决了其它关系型数据库解决不了的问题, 支持多版本, 动态列, 异构存储等.
ApsaraDB HBase
ApsaraDB HBase 提供安全, 多活, 稳定性和同步等运维体系, 底层基于共享存储做到计算存储分离, 我们使用的 HBase 内核是在阿里 HBase 内部版本, 相比开源版本做了很多改进, 性能方面有一定的提升, HBase 天然支持 KV 方式访问, 在 HBase 之上集成其它组件可以提供更丰富的访问形式, 我们和阿里其它产品做到很好的打通, 可以很好支持流式处理, 批处理和机器学习需求.
ApsaraDB HBase 主要特性包括容量大(200G-10P), 动态扩容, 高并发 / 高吞吐量(1W-5000W), 强大丰富的生态.
ApsaraDB HBase 支持丰富接口, 比如 KV,SQL, 表格存储, 文档类型等.
ApsaraDB HBase 产品形态分为集群版和单节点版本, 单节点版主要满足测试开发的需求, 成本极低. 集群版又分为云盘和本地盘, 云盘特点是存储与计算分离, 可以很方便扩容, 本地盘与用物理机搭建 HBase 一致, 存储与计算不分离, 但存储便宜, 延迟低.
ApsaraDB HBase 与云上许多产品进行了很好的打通, 其中包括支持:
EMR Spark: 包括 Spark 组件, 可以访问 HBase, 分析数据. SparkStreaming 可以实时写入数据到 HBase;
ODPS SQL:HBase 数据可以实时同步到 ODPS,ODPS 可以离线计算, 满足离线数仓需求;
ElasticSearch :HBase 中的字段, 实时检索的需求;
Blink: 流式计算写入到 HBase.
ApsaraDB HBase 与开源 HBase(EMR HBase 或者自建) 的区别如图, 云 HBase 是全托管, 所有运维工作都是阿里云来做, 支持双活, 内核在性能, 主备多个方面进行了优化.
与竞争产品对比, 我们的产品更成熟, 内核性能高出 2~3 倍, 延迟低且稳定性高.
云 HBase 应用场景解析和典型客户案例
HBase 应用场景十分广泛, 从存储类型来看, HBase 支持报表类, 时序类, 日志类, 消息类, 推荐类, 风控类和轨迹类数据等; 从应用行业来说, 电子商务, 物联网, 聊天软件, 金融, 广告商, 新闻, 电信等在使用. 阿里内部拥有数百个集群, 数百个业务, 总计 10000 + 节点, PB + 数据, 1 亿 + TPS, 主要支撑日志, 聊天, 监控, 订单, IOT, 风控和搜索等业务, 阿里, 京东, 小米, 腾讯, 网易, 360, 知乎, 中国人寿, 电信等都在使用 HBase.
某车联网企业
某车联网企业使用 HBase 架构如图所示, 数据通过阿里 IOT 套件经过流计算清洗写入到 HBase, 将存储汽车轨迹数据和传感器数据进行分析计算.
Rowkey 设计是用 Sub(Hash(车辆 ID),5) + 车辆 ID + 时间, 每辆车 10s 上传一次, 每次 1KB. 使用 GeoHash 存放轨迹信息, 100 万台车 1 年数据存储 3P, 读写请求达 100w+.
白骑士 (大数据风控公司)
用户行为数据是高度非结构化的, 数据有不同的来源, 每种来源结构不一样, HBase 能够很好支撑各种不同结构数据存储. 爬虫和 APP 收集到的原始数据信息会用 Spark 做一些算法训练, 算法结果会回写到 HBase 里面, 使用 Spark SQL 来生成一些报表, 会有 ECS 实时查询返回结果, 数据量达到 200T+.
Soul 社交
社交消息是 feed 流模式消息推进, feed 流需要根据时间, 兴趣等维度从数据库中做查询, 对于系统可用性要求非常高. 我们做了双集群保障, SLA 要求达到 99.99, 单集群读写高峰 QPS 1000w+, 数据量达 30T.
某金融公司 (历史数据实时查询)
金融公司需要保留很长时间的历史数据且实时查询, HBase 在该场景下有很大优势, ODPS 批量加载到 HBase 中, HBase 使用 Phoenix 实现 SQL 实时查询, 单表 10000 亿数据, 建立了很多二级索引, 多个索引字段, 数据量达 100T.
数据流
阿里云经过多年沉淀积累的 HBase 数据流大图如图, 可以看到, 数据源可以是 ECS 服务, 传感器等, 中间经过消息队列通过流式计算方式写入到 HBase 中, 也可以在 ECS 上直接写入, 也支持从消息队列直接写入 HBase. 此外, 也可以通过数据同步批量写入其它数据源的数据. 数据出口通过 ECS 实时读取分析, 也可以实时索引同步 ES 等.
众多客户信任 ApsaraDB HBase, 包括大搜车, 千寻位置, 天虹基金, 蚂蚁金服, 亿方云, 南华期货, 白骑士等.
云 HBase 内核优化及特性
阿里对云 HBase 内核进行了数百项优化及功能改进, 经历天猫双十一历练, 服务阿里集团, 数百个集群, 10000+ 机器, QPS 10 亿, 最大集群 2000 台, 在集团各个业务有广泛的应用, 有 2 HBase PMC,3 Committer, 数十位内核贡献者贡献 200+ patch.
HBase 性能优化包括更高的 QPS, 随机读最高提升 200% 以上, 随机写提升 50%, 还有更高的压缩比, 以及更平稳的读写延迟.
云 HBase 还具备以下特性:
云 HBase 提供增量导出功能, 把增量数据实时写入到消息中间件中, 再把数据同步到 ODPS 中做离线分析, 或同步到 ES 做全文索引, 原始数据存放 HBase, 检索字段存放 ES.
云 HBase 还支持企业安全, 使用用户名密码登录 HBase, 这样可以有安全白名单, 还会进行数据加密.
云 HBase 支持公网访问, 在自己的开发机器上即可访问, 方便用户在线下部署开发测试环境, 方便线下 HBase 集群上云.
云 HBase 平台运维和稳定性保障
我们的数据可靠性可以达到 9 个 9, 几乎不会丢数据, 我们的服务可用性单集群 99.9%, 双集群 99.99%.
ApsaraDB HBase 提供了很多保障, 包括运维自动化, 自动守护服务, 在线扩容节点 / 磁盘, 内核在线升级, 可用性检测 / 容量报警, 15 分钟快速交付, 指标可视化和专家在线 24 小时在线服务.
在稳定性运维处理方面, 我们会做热点检测并自动迁移, MajorCompaction 分阶段处理, 读写分离, 大 Scan 报警, HDFS 定时自动均衡, 更多的参数在线生效. ApsaraDB HBase 双活保障可用性, 切换时间 20S 以内.
本文由云栖志愿小组毛鹤整理, 编辑百见
本文为云栖社区原创内容, 未经允许不得转载, 如需转载请发送邮件至 yqeditor@list.alibaba-inc.com; 如果您发现本社区中有涉嫌抄袭的内容, 欢迎发送邮件至: yqgroup@service.aliyun.com 进行举报, 并提供相关证据, 一经查实, 本社区将立刻删除涉嫌侵权内容.
用云栖社区 APP, 舒服~
[云栖快讯] 新年大招! 云栖社区为在读大学生 / 研究生准备了一份学 (huan) 习(zhuang)攻略, 发布博文即有机会赢得 iPad mini 4 等大奖, 学习换装两不误! 欢迎报名参与~ 详情请点击
评论文章 (0) (0) (0)
来源: https://yq.aliyun.com/articles/411296