精简版
0
0
0
云栖社区 > 数据中台 > 博客 > 正文
伴弋 2019-10-23 13:07:28 浏览 70
分布式
大数据
消息队列
- hbase
- hdfs
- hadoop
日志
Apache
数据处理
数据库
数据仓库
spark
Solr
离线计算
存储
展开阅读全文
作者: 向师富 转自: 阿里巴巴数据中台官网 https://dp.alibaba.com/
采集 & 传输层
Sqoop
Hadoop, 关系型数据库之间传输数据的工具. 传输时, 会启动多个 MR 作业并发的传输数据
DataX
阿里巴巴开源的数据同步工具, 用来在各种异构数据源之间同步数据. 比如 RDBMS<->Hadoop/MaxCompute,RDBMS<->hbase/ftp 等等. 部署, 运维非常简单, 将 DataX 的 jar 包 copy 到 Linux 系统中即可运行
Flume
分布式的高可用的数据收集, 聚集的工具. 通常用于从其他系统搜集数据, 如 web 服务器产生的日志, 结合 Kafka 的消息队列功能, 实现实时日志处理, 离线日志投递. 典型的使用方案是:
离线计算: 应用系统日志 -> flume -> kafka ->
来源: https://yq.aliyun.com/articles/721953