(完整版)kettle使用规范(修改版)

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Kettle使用规范

1、Kettle概念

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

2、下载和部署

下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可

3、Kettle环境配置

3.1 安装JDK(略)

3.2 测试JDK安装成功(略)

3.3 kettle的java环境变量

以win7为例:【开始】->【计算机】->【属性】->【高级系统属性】->【高级】->【环境变量】->【新建】,创建用户变量。变量名输入:PENTAHO_JAVA_HOME;变量值输入刚才jdk的安装路径。

3.4 运行Kettle

Windows下找到$KETTLE_HOME/spoon.dat,双击运行

欢迎界面如下图所示:

4、KETTLE组件介绍与使用

4.1 Kettle使用

Kettle提供了资源库的方式来整合所有的工作,即所建立的transformation和job及其运行日志将被保存在数据库中,否则将以文件的形式存储在本地。

1)创建一个新的transformation,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为Trans,kettle默认transformation文件保存后后缀名为ktr;

2)创建一个新的job,点击保存到本地路径,例如保存到D:/etltest下,保存文件名为Job,kettle默认job文件保存后后缀名为kjb;

4.2 组件树介绍

4.2.1Transformation的主对象树和核心对象分别如下图:

Transformation中的节点介绍如下:

Main Tree:菜单列出的是一个transformation中基本的属性,可以通过各个节点来查看。DB连接:显示当前transformation中的数据库连接,每一个transformation的数据库连接都需要单独配置。

Steps:一个transformation中应用到的环节列表

Hops:一个transformation中应用到的节点连接列表

核心对象菜单列出的是transformation中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加:

Input:输入环节

Output:输出环节

Lookup:查询环节

Transform:转化环节

Joins:连接环节

Scripting:脚本环节

4.2.2 Job的主对象树和核心对象分别如下图:

Main Tree菜单列出的是一个Job中基本的属性,可以通过各个节点来查看。

DB连接:显示当前Job中的数据库连接,每一个Job的数据库连接都需要单独配置。

Job entries/作业项目:一个Job中引用的环节列表

核心对象菜单列出的是Job中可以调用的环节列表,可以通过鼠标拖动的方式对环节进行添加。

每一个环节可以通过鼠标拖动来将环节添加到主窗口中。

并可通过shift+鼠标拖动,实现环节之间的连接。

4.3使用举例1

4.3.1建立Transformation

选中列表中的的“表输入”、“表输出”、“插入/更新”,拖拽到右侧工作区。鼠标选中节点键盘按shift键,拖拽即可连线。下图是一个转换,有两个动作,一是直接从数据源表同步数据到目标表,一是检查源表的插入和更新,同步到目标表。

黑色线为生效,灰色线为失效,节点和连接可双击进行编辑。

可预览数据是否正确。

双击编辑表输出动作。

操作的数据库名要获取的字段设置如下所示:

点击“Enter field mapping/输入字段映射”进行字段选择。

选择要用的字段后点确定,注意字段的约束条件。

编辑好后点击上面的执行即可。

左侧参数暂不说明,执行完成后可以观看下方的日志。

双击编辑“插入/更新”动作。

然后点击运行。

执行前,在源库里加条新纪录。确定作业执行正常后可以保存作业,如保存路径到本地磁盘地址C:\etl2.ktr。

4.3.2建立Job

建立JOB的前提是有可以完整执行的作业,上面步骤定制的作业进行保存。

从左侧列表拖拽“START”,“Success”,“转换”,“发送邮件”到工作区并连接,如下图。

然后双击“START”动作进行编辑。

然后双击编辑“Transformation”活动。转换文件名选择上一步编辑好的.ktr文件

双击发送邮件,参数设置如下:

编辑完成后直接点击运行即可。

运行后查看日志。

当任务执行以后可以查看相对应的日志,也可自行配置日志。

4.4使用举例2

本例是完成读取目录下的.log文件,找出其中包含错误代码的行,并统计个数4.4.1新建Transformation

本例所用到的步骤和组件如下图所示:

连接图如下所示:

a)获取文件名设置如下:

其中已选择的文件名称的变量都需要手写输入,可以点击显示文件名和预览记录检查是否配置正确。

相关文档
最新文档