超详细的六款主流ETL工具介绍及功能对比

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

超详细的六款主流ETL⼯具介绍及功能对⽐
概述
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或⾏业应⽤来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握⼀种etl⼯具的使⽤,必不可少。

最近⽤kettle做数据处理⽐较多,所以也就介绍下这⽅⾯内容,这⾥先对⽐下⼏款主流的ETL⼯具。

1、DataPipeline
Data Pipeline是⼀家为企业⽤户提供数据基础架构服务的科技公司,DataPipeline数据质量平台整合了数据质量分析、质量校验、质量监控等多⽅⾯特性,以保证数据质量的完整性、⼀致性、准确性及唯⼀性,彻底解决数据孤岛和数据定义进化的问题。

2、Kettle
Kettle是⼀款国外开源的ETL⼯具,纯java编写,可以在Windows、Linux、Unix上运⾏,数据抽取⾼效稳定。

Kettle 中⽂名称叫⽔壶,该项⽬的主程序员MATT 希望把各种数据放到⼀个壶⾥,然后以⼀种指定的格式流出。

Kettle家族⽬前包括4个产品:Spoon、Pan、CHEF、Kitchen。

SPOON 允许你通过图形界⾯来设计ETL转换过程(Transformation)。

PAN 允许你批量运⾏由Spoon设计的ETL转换 (例如使⽤⼀个时间调度器)。

Pan是⼀个后台执⾏的程序,没有图形界⾯。

CHEF 允许你创建任务(Job)。

任务通过允许每个转换,任务,脚本等等,更有利于⾃动化更新数据仓库的复杂⼯作。

任务通过允许每个转换,任务,脚本等等。

任务将会被检查,看看是否正确地运⾏了。

KITCHEN 允许你批量使⽤由Chef设计的任务 (例如使⽤⼀个时间调度器)。

KITCHEN也是⼀个后台运⾏的程序。

3、Talend
Talend,是⼀家专业的开源集成软件公司,为企业提供开源的中间件解决⽅案,从⽽让企业能够在他们的应⽤,系统以及数据库中赢取更⼤的价值。

在传统软件公司提供封闭、私有的解决⽅案的领域Talend系列软件以开源的形式进⾏开发。

Talend,可运⾏于 Hadoop 集群之间,直接⽣成 MapReduce 代码供 Hadoop 运⾏,从⽽可以降低部署难度和成本,加快分析速度。

⽽且 Talend 还⽀持可进⾏并发事务处理的Hadoop2.0。

4、Informatica
Informatica是全球领先的数据管理软件提供商。

在如下Gartner魔⼒象限位于领导者地位:数据集成⼯具魔⼒象限、数据质量⼯具魔⼒象限、元数据管理解决⽅案魔⼒象限、主数据管理解决⽅案魔⼒象限、企业级集成平台即服务(EiPaaS)魔⼒象限。

Informatica Enterprise Data Integration包括Informatica PowerCenter和Informatica PowerExchange 两⼤产品,凭借其⾼性能、可充分扩展的平台,可以解决⼏乎所有数据集成项⽬和企业集成⽅案。

· Informatica PowerCenter⽤于访问和集成⼏乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有⾼性能、⾼可扩展性、⾼可⽤性的特点。

Informatica PowerCenter包括4个不同版本,即:标准版,实时版,⾼级版,云计算版。

同时,它还提供了多个可选的组件,以扩展Informatica PowerCenter的核⼼数据集成功能,这些组件包括:数据清洗和匹配、数据屏蔽、数据验证、Teradata双负载、企业⽹格、元数据交换、下推优化(Pushdown Optimization)、团队开发和⾮结构化数据等。

· Informatica PowerExchange 是⼀系列的数据访问产品,它确保 IT 机构能够根据需要随时随地访问并在整个企业内传递关键数据。

凭该能⼒,IT机构可以优化有限的资源和数据的业务价值。

Informatica PowerExchange⽀持多种不同的数据源和各类应⽤,包括企业应⽤程序、数据库和数据仓库、⼤型机、中型系统、消息传递系统和技术标准。

5、Datax
DataX 是离线数据同步⼯具/平台,实现包括、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间⾼效的数据同步功能。

6、Oracle Goldengate
GoldenGate软件是⼀种基于⽇志的结构化数据复制软件。

GoldenGate 能够实现⼤量交易数据的实时捕捉、变换和投递,实现源数据库与⽬标数据库的数据同步,保持亚秒级的数据延迟。

源端通过抽取进程提取redo log或archive log⽇志内容,通过pump进程(TCP/IP协议)发送到⽬标端,最后⽬标端的rep进程接收⽇志、解析并应⽤到⽬标端,进⽽完成数据同步。

7、ETL⼯具对⽐
数据仓库ETL⼯具有哪些?
ETL过程我们简单介绍了⼀下,接下来我们来了解市⾯上数据仓库解决⽅案。

以下五种ETL⼯具是我基本接触过的产品,个⼈根据产品对应官⽹以及提供的资料总结,对⽐的五种ETL ⼯具(SEDWA、kettle、OracleGoldengate、informatica、talend)的⽐较,⽬前对于这些⼯具也是初步了解,后续根据实际的体验学习后再来进⼀步总结丰富对⽐维度信息。

注意⼯具排名不分先后,个⼈认为技术没有绝对的好坏,关键是看⼤家使⽤的场景。

实际⼯作中选购满⾜公司需要的产品即可。

相关文档
最新文档