Kettle用户操作手册1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kettle用户操作手册
1.kettle介绍
1.1 什么是kettle
Kettle是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;它的名字起源正如该项目的主程序员MATT所说:希望把各种数据放到一个壶里然后以一种指定的格式流出。
Spoon是一个图形用户界面,它允许你运行转换或者任务。
1.2 Kettle 的安装
要运行此工具你必须安装 Sun 公司的JAVA 运行环境1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载,Kettle 的下载可以到/取得最新版本。
1.3运行SPOON
下面是在不同的平台上运行Spoon 所支持的脚本:
Spoon.bat: 在windows 平台运行Spoon。
Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。1.4 资源库
一个Kettle资源库可以包含那些转换信息,这意味着为了从数据库资源中加载一个转换就必须连接相应的资源库。在启动SPOON的时候,可以在资源库中定义一个数据库连接,利用启动spoon时弹出的资源库对话框来定义,如图所示:单击加号便可新增;
关于资源库的信息存储在文件“reposityries.xml”中,它位于你的缺省home 目录的隐藏目录“.kettle”中。如果是windows 系统,这个路径就是c:\Documents andSettings\
如果你不想每次在Spoon 启动的时候都显示这个对话框,你可以在“编辑/选项”菜单下面禁用它。admin 用户的缺省密码也是admin。如果你创建了资源库,你可以在“资源库/编辑用户”菜单下面修改缺省密码。
1.5 定义
1.5.1 转换
主要用来完成数据的转换处理。转换步骤,可以理解为将一个或者多个不同的数据源组装成一条数据流水线。然后最终输出到某一个地方,文件或者数据库等。
Step:转换步骤,数据流中的处理步骤,对数据进行处理
Hop:节点连接,一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着一个步骤的输出流和一个步骤的输入流。
1.5.2 作业
完成整个工作流的控制,执行数据处理任务,由一个或多个任务条目(Job Entries)组成,一个任务条目也可以引用一个转换,也可以执行一些文件处理(比较,删除等),还可以ftp上传,下载文件,发送邮件,执行shell命令等。
1.5.3 变量(Variables)
试用变量的方法可以如下制定:
${ Variable}(unix)
%%Variable%% (windows)
1.6 基本操作
1.6.1 拖拽对象
按住左键“拖拽”对象到工作区,如下图将表输入拖拽到右侧工作区。
1.6.2 右键编辑功能
如图点击“表输入”右键,选择“编辑步骤”编辑表输入属性设置(或双击)。
如果语句中有变量,就要在上图中“替换SQL语句里的变量”打勾;变量在Parameters中设置如下图所示:点击工作区空白处,编
辑“转换”的属性设置,如下图:
1.6.3 连接线
1)按住shift功能键后左键按住要连接的起始对象指向终止对象。2)在连接线上右键可以删除节点连接。
如下图,按住shift功能键后左键按住“表输入”后指向“表输出”:
1.6.4 执行、调试、停止
如图所示:
○2转换实例(Transformation)
2.1数据转移(库—库)
a.文件—新建—转换
b.从左侧的核心对象中拖动你想要的步骤至右侧的空白区(此例
中只需拖入表输入与表输出即可),并用节点连接。
** 在左侧的核心对象常用的步骤有:输入、输出、转换、连接、
查询和脚本。
c.双击表输入--数据库连接—新建—填写你要连接的数据库信息—Test—ok
d.根据需要编写你的sql语句确定
rownum表示输出的语句的条数,设置如下:在空白处点击右键
e.表输出设置
数据库连接:同表输入,根据需要将生成的表导入到相同或不同的数据库;
目标表:即生成的表的名字
Sepecify database files 要打勾,当要在 Database files里要获得字段就可以点击Get files就可以获得字段,可以根据自己的需要是否删掉不想要的字段。Enter field mapping是设置流里与生成表里的字段的映射关系;如下图所示:
@Sream field 是表的输入流,也就是输入表的字段,Table field 是输出表的字段,可以根据自己的需要,起字段名称。
@当字段添加完成后,要执行Sql,在数据库空中就创建了表及表的结构。
@最后,我们就可以点击运行按钮了
如果执行成功,就可以到数据库查看你所生成的表了。
2.2值映射
a.界面设计
b.值映射
如图所示:值映射即把某一字段的源值改变成目标值或者将某一字段名更改成目标字段名并给其赋值。
2.3去除重复记录
a.界面设计
b.去除重复记录
如图所示:选择某一个或某些字段将字段中的重复值去掉;当用来比较的字段是多个时,他们之间是and的关系
@增加计数器到输出:如果你想知道多少重复行被去掉,就选择此选项。
2.4增加常量
如图所示:给表中增加字段,并可以给其赋值。
2.5字段选择