关于袋鼠云数据中台专栏 V2.0
数据中台如何定义? 企业数据化与数据中台的关系是什么? 数据中台如何支撑企业战略转型? 袋鼠云近两年来, 先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务, 积累了大量的实战经验, 同时也在为客户服务的过程中, 不断完善和升华自身的数据中台理论体系和实践方法论. 希望通过后续文章的分享, 与诸位读者交流, 共同加快企业全面数据化进程. 本专栏每周更新 1-2 篇, 敬请期待~
数据中台之数据集成
1
在现代企业中, 由于使用场景, 业务形态, 技术选型, 开发架构的差异, 往往有多个异构的, 基于不同的软硬件平台上的信息系统同时运行, 这些系统的数据源彼此独立, 相互封闭, 使得数据难以在系统之间交流, 共享和融合, 从而形成了「信息孤岛」. 随着信息化应用的不断深入, 企业内部, 企业与外部信息交互的需求日益强烈, 急切需要对已有的信息进行整合, 联通 "信息孤岛", 共享信息.
在企业构建数据数据中台来解决数据互通和共享的要求下,「数据集成」是打通信息系统和数据中台的管道和桥梁, 是构成数据中台全, 统, 通的重要基础.
数据中台 全 统 通
本文所讲的数据集成, 主要指的是从不同的数据存放介质将数据同步至数据中台的环节, 在某些场景下, 也可以称作「数据采集」,「数据同步」,「数据上云」.
2 准备工作
在数据集成实施开发前, 我们一般要进行以下调研和准备工作:
数据源分类: 见上一期的 数据中台之数据源, 确定数据源种类, 并根据数据及时性要求, 确定采集的技术组件
- 网络和环境: 确定数据源的网络和环境信息, 根据实施集成方案, 对现有的网络和环境进行必要的改造和优化
数据内容: 调研数据的全量大小, 增量大小, 分布情况
数据质量: 调研数据的增量标记, 索引, 主键信息等
数据范围: 调研需要集成的数据范围, 筛选出需要集成到数据中台的相关数据, 一般以支撑业务流程或带业务属性的数据为主
3 业务架构
针对采集的业务内容, 以及常见的同步分类, 我们将数据集成的业务架构整理如下:
数据集成的业务架构
4 集成流程
以下通过几个典型的数据同步场景案例, 来介绍数据同步流程.
4.1 关系型数据库离线同步流程
4.2 API 类数据同步
4.3 实时类数据同步
5 袋鼠云数栈 DTinsight - 数据同步模块
数据同步模块是在各个存储单元之间执行数据交换的管道.
为了在「DTinsightIDE」进行大规模数据集的挖掘与计算, 通常的做法是在任务执行前将数据传输至 DTinsightIDE, 并在任务执行结束后将计算结果传输至外部存储单元(例如 MySQL 等应用数据库).
数据集成的作用如下图所示:
袋鼠云数栈 - 数据同步模块
袋鼠云数栈 - 数据同步模块的具有以下特性:
丰富的数据源支持
数据同步模块可对 MySQL,Oracle,SQLServer,PostgreSQL,HDFS,Hive,HBase,FTP,Elasticsearch,ODPS,Elasticsearch,Redis,MongoDB 等数据源, 支持对这些数据源进行读取或写入数据. 使用时仅需配置数据源的连接信息(例如填写 Oracle 数据库的 JDBC URL, 用户名, 密码等信息), 再配置对应的数据同步任务即可.
分布式系统架构
数据同步模块在系统架构上采用先进的分布式系统架构(FlinkX[1]), 可实现多个节点并发读取, 写入数据, 可极大的提升数据同步的吞吐量, 相比 Sqoop,Kettle 等开源数据同步方案, 数据吞吐能力更高, 配套功能.
可视化配置
用户在使用数据同步模块时, 可快速通过可视化配置的方式完成同步任务的创建与配置, 主要包括同步任务选择源库源表, 目标库目标表, 配置字段映射, 配置同步速度等.
全量 / 增量同步
从业务系统读取数据的过程中, 为了最小化对业务系统的影响, 通常需要进行数据的增量同步. 在源数据库表中具备数据变更时间字段的情况下, 支持对关系型数据库进行增量数据同步, 用户仅需输入相应的数据过滤语句即可实现.
同步速度的控制
支持数据同步速度控制, 通过设置同步速率上限来调整, 此参数需根据硬件配置和数据量来调整, 用户根据业务需求选择设定的值.
脏数据管理
支持对脏数据是否需要记录进行配置, 可指定脏数据的存储表名, 生命周期, 同时可配置当脏数据量超过一定数量或一定比例时任务置为失败, 提示用户及时排查脏数据问题, 并生成分析报告.
更多精彩
关于袋鼠云数据中台系列专栏 V2.0
企业数据化认知: 数据就是生产力!
企业三界: 业务界面, 应用界面, 数据界面
企业数字化建设三范式
企业数字化 (数据界面) 整体架构
数据中台综述: 三个维度看数据中台
数据中台之数据源
关于袋鼠云
袋鼠云是企业数据化整体解决方案提供商, 是数据中台架构倡导者, 引领者, 通过打通数据供应链, 构建企业数据化驱动引擎, 加速企业数据化进程, 让数据成为企业核心竞争力. DTSTACK.COM
数据智能, 让未来变成现在
来源: https://yq.aliyun.com/articles/704530