其他 eclips 数据集成 规范 数据模型 影响 构建 有变 历史数据
最近在数据库库领域新设置的职位 elt 工程师,大家想多了解下么?
ETL(数据仓库技术)
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract),转换(transform),加载(load)至目的端的过程.ETL 一词较常用在数据仓库,但其对象并不限于数据仓库.
ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗, 最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去.
ETL 工具的典型代表有: Informatica,Datastage,OWB,微软 DTS,Beeload,Kettle,久其 ETL......
开源的工具有 eclipse 的 etl 插件: cloveretl
数据集成:快速实现 ETL
ETL 的质量问题具体表现为正确性,完整性,一致性,完备性,有效性,时效性和可获取性等几个特性.而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括: 业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营,人事,财务,办公系统等相关信息的不一致;遗留系统和新业务,管理系统数据集成不完备带来的不一致性.
实现 ETL,首先要实现 ETL 转换的过程.体现为以下几个方面:
1,空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库.
2,规范化数据格式:可实现字段格式约束定义,对于数据源中时间,数值,字符等数据,可自定义加载格式.
3,拆分数据:依据业务需求对字段可进行分解.例,主叫号 861082585313-8148,可进行区域码和电话号码分解.
4,验证数据正确性:可利用 Lookup 及拆分功能进行数据验证.例如,主叫号 861082585313-8148,进行区域码和电话号码分解后,可利用 Lookup 返回主叫网关或交换机记载的主叫地区,进行数据验证.
5,数据替换:对于因业务因素,可实现无效数据,缺失数据的替换.
6,Lookup:查获丢失数据 Lookup 实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性.
7,建立 ETL 过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载.
数据挖掘工程师 etl
来源: http://www.bubuko.com/infodetail-2471606.html