Kettle开源ETL平台_安装配置及使用说明v1.1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
KETTLE 开源ETL软件】【安装配置与使用说明】
2015 年09 月
修订记录
目录
修订记录 (2)
1.安装与配置 (4)
1.1ETL 与K ETTLE概述 (4)
1.2K ETTLE的下载与安装 (7)
1.2.1Windows下安装配置 ............................................ Kettle 8
1.2.2Linux 下安装配置.................................................. Kettle
10
1.2.3Kettle 下安装..................................................... JDBC数据库驱动15
1.2.4下配置资源库连接 (15)
1.2.5Kettle 下 Hadoop Plugin 插件配置 (17)
2.KETTLE组件介绍与使用 (19)
2.1K ETTLE SPOON使用 (19)
2.1.1组件树介绍 (20)
2.1.2使用示例.......................................................... 1 23
2.1.3使用示例.......................................................... 2 37
2.1.4使用Kettle 装载数据到..................................... HDFS
48
2.1.5使用Kettle 装载数据到 (iv)
52
2.1.6使用 Kettle 进行 hadoop的 mapreduce图形化开发 (52)
2.2K ETTLE PAN的使用 (63)
2.3K ETTLE KITECHEN的使用 (64)
2.4C ARTE添加新的ETL执行引擎 (65)
2.5E NCR加密工具 (68)
1.安装与配置
2015年下半年公司承接了江苏电信电子渠道中心数据分析项目,项目实现计划使用
大数据应用与分析相关的开源组件与技术来实现;针对数据的抽取与清理,需要使用ETL
工具;针对不同的数据源的数据整合需求,考虑到项目投资与开发成本,项目组初步计
划采用开源ETL工具;ETL ( Extract ,Transformation ,Load)工具是构建数据仓库、
进行数据整合工作所必须使用的工具。目前市面有多种商业ETL 工具,如Informatica
PowerCenter,IBM Datastage 等。目前市场上开源且实用的ETL 工具比较少,Kettle 就
是为数不多的优秀开源ETL 工具之一。经过比较与分析,选择了K ettle 作为本项目使
用的ETL工具。
1.1E TL 与Kettle 概述
ETL( Extract 、Transform 、Load,抽取、转换、装载) ,它是BI 项目中最常见、基
础的数据加工行为。构建数据仓库期间,各类业务系统的数据需要经过严格的ETL过程,
才能够进入到数据仓库中,进而为后续的数据展现、分析提供支撑。通常,由于企业的
各业务系统数据口径不一致,比如不同应用存储性别的方式存在差异性、银行应用中不
同币种的统一、零售应用中商品计价方式的统一等,使得BI 项目必须实施ETL工作,否
则在含糊、不准确的数据上进行各种数据行为是徒劳的、没有意义的。
在另外一些场合,企业往往需要对TB级别的数据进行各种数据聚合、粗和精加工。
比如,在制作即席报表期间,用户希望这些报表的运行时间越短越好,然而如果报表使
用到的数据粒度很细、数据量很大,则要控制好报表的运行时间估计够呛。此时,我们
往往需要对数据进行各种层次的聚合操作,比如可以将“日”级别存储的数据预先聚合
成按周、月、季度的数据。将来,运行报表的时间将得到有效控制,毕竟
RDBMS能够更
快速响应客户提交的SQL请求。设计并运行良好的ETL 过程可以很好地完成上述任务。
Kettle 是一款国外开源的ETL 工具,纯Java 编写,可以在
Window、Linux 、Unix
等不同的操作系统平台上运行,数据抽取高效稳定。
Kettle 这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形
化的用户环境来描述用户想做什么,而不是用户想怎么做。
在Kettle ETL解决方案中,主要存在两种ETL工件:转换(
Transformation )和作
业(Job)。ETL转换,专注于数据加工本身,比如装卸数操作、数据编码转换;ETL作业,
专注于流程控制,比如执行若干ETL转换、将加工后的文件借助S SH2传输出去等。通常,
ETL作业会包含若干ETL转换,并控制它们的执行,而且作业会以一定周期执行,比如每
周二执行、每隔 3 小时执行等。
Kettle 家族目前包括4个产品:SPOO、NPAN、CART、E KITCHEN。
SPOON允许你通过图形界面来设计ETL转换过程(
Transformation )。
PAN允许你批量运行由Spoon设计的ETL转换
(例如使用一个时间调度器)。Pan 是
一个后台执行的程序,没有图形界面。
CARTE类似于P entaho 管理控制台,它们都宿主在Jetty Web 容器中,但各自承担
的使命不同。Carte 用于远程执行Kettle ETL 转换和作业。
KITCHEN允许你批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN
也是一个后台运行的程序。
Kettle 基于Eclipse RCP 框架开发,针对运行环境只需要GUI图形用户界面和以上
的JVM环境支持即可,Kettle 程序运行时典型demo显示截图如下: