概述
ETL(Extract-Transform-Load 的缩写, 即数据抽取, 转换, 装载的过程), 对于企业或行业应用来说, 我们经常会遇到各种数据的处理, 转换, 迁移, 所以了解并掌握一种 etl 工具的使用, 必不可少. 最近用 kettle 做数据处理比较多, 所以也就介绍下这方面内容, 这里先对比下几款主流的 ETL 工具.
1,DataPipeline
Data Pipeline 是一家为企业用户提供数据基础架构服务的科技公司, DataPipeline 数据质量平台整合了数据质量分析, 质量校验, 质量监控等多方面特性, 以保证数据质量的完整性, 一致性, 准确性及唯一性, 彻底解决数据孤岛和数据定义进化的问题.
2,Kettle
Kettle 是一款国外开源的 ETL 工具, 纯 java 编写, 可以在 Windows,Linux,Unix 上运行, 数据抽取高效稳定. Kettle 中文名称叫水壶, 该项目的主程序员 MATT 希望把各种数据放到一个壶里, 然后以一种指定的格式流出.
Kettle 家族目前包括 4 个产品: Spoon,Pan,Chef,Kitchen.
SPOON 允许你通过图形界面来设计 ETL 转换过程(Transformation).
PAN 允许你批量运行由 Spoon 设计的 ETL 转换 (例如使用一个时间调度器).Pan 是一个后台执行的程序, 没有图形界面.
Chef 允许你创建任务(Job). 任务通过允许每个转换, 任务, 脚本等等, 更有利于自动化更新数据仓库的复杂工作. 任务通过允许每个转换, 任务, 脚本等等. 任务将会被检查, 看看是否正确地运行了.
KITCHEN 允许你批量使用由 Chef 设计的任务 (例如使用一个时间调度器).KITCHEN 也是一个后台运行的程序.
3,Talend
Talend, 是一家专业的开源集成软件公司, 为企业提供开源的中间件解决方案, 从而让企业能够在他们的应用, 系统以及数据库中赢取更大的价值. 在传统软件公司提供封闭, 私有的解决方案的领域 Talend 系列软件以开源的形式进行开发. Talend, 可运行于 Hadoop 集群之间, 直接生成 MapReduce 代码供 Hadoop 运行, 从而可以降低部署难度和成本, 加快分析速度. 而且 Talend 还支持可进行并发事务处理的 Hadoop2.0.
4,Informatica
Informatica 是全球领先的数据管理软件提供商. 在如下 Gartner 魔力象限位于领导者地位: 数据集成工具魔力象限, 数据质量工具魔力象限 , 元数据管理解决方案魔力象限 , 主数据管理解决方案魔力象限 , 企业级集成平台即服务 (EiPaaS) 魔力象限.
Informatica Enterprise Data Integration 包括 Informatica PowerCenter 和 Informatica PowerExchange 两大产品, 凭借其高性能, 可充分扩展的平台, 可以解决几乎所有数据集成项目和企业集成方案.
. Informatica PowerCenter 用于访问和集成几乎任何业务系统, 任何格式的数据, 它可以按任意速度在企业内交付数据, 具有高性能, 高可扩展性, 高可用性的特点. Informatica PowerCenter 包括 4 个不同版本, 即: 标准版, 实时版, 高级版, 云计算版. 同时, 它还提供了多个可选的组件, 以扩展 Informatica PowerCenter 的核心数据集成功能, 这些组件包括: 数据清洗和匹配, 数据屏蔽, 数据验证, Teradata 双负载, 企业网格, 元数据交换, 下推优化(Pushdown Optimization), 团队开发和非结构化数据等.
. Informatica PowerExchange 是一系列的数据访问产品, 它确保 IT 机构能够根据需要随时随地访问并在整个企业内传递关键数据. 凭该能力, IT 机构可以优化有限的资源和数据的业务价值. Informatica PowerExchange 支持多种不同的数据源和各类应用, 包括企业应用程序, 数据库和数据仓库, 大型机, 中型系统, 消息传递系统和技术标准.
5,Datax
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具 / 平台, 实现包括 MySQL,Oracle,SqlServer,Postgre,HDFS,Hive,ADS,HBase,TableStore(OTS),MaxCompute(ODPS),DRDS 等各种异构数据源之间高效的数据同步功能.
开源地址: https://github.com/alibaba/DataX
6,Oracle Goldengate
GoldenGate 软件是一种基于日志的结构化数据复制软件. GoldenGate 能够实现大量交易数据的实时捕捉, 变换和投递, 实现源数据库与目标数据库的数据同步, 保持亚秒级的数据延迟.
源端通过抽取进程提取 redo log 或 archive log 日志内容, 通过 pump 进程 (TCP/IP 协议) 发送到目标端, 最后目标端的 rep 进程接收日志, 解析并应用到目标端, 进而完成数据同步.
7,ETL 工具对比
整理成表格如下:
来源: http://developer.51cto.com/art/201910/605033.htm