Kettle4.4配置使用文档说明

合集下载

Kettle使用文档

1.Kettle简介Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

Kettle主要由资源库、数据库、作业（job）、转换、步骤五部分组成，资源库是用来存储用户所编写的作业和转换（即kjb文件和ktr文件）一般是在数据库中存储，方便用户的查找和使用。

数据库就是处理数据是需要的数据库。

作业是用来确定一个工程中需要使用的转换和转换的执行顺序。

转换是数据在ktr文件中的具体转换过程，类似于Java的一个方法，而作业就类似于java的一个类，它可以调用各种不同的方法（转换）。

2.Kettle框架搭建（1）下载安装可以从下载最新版的Kettle软件，同时，Kettle 是绿色软件，下载后，解压到任意目录即可。

（2）配置环境变量使用Kettle前提是配置好Java的环境变量,因为Kettle是java编写，需要本地的JVM的运行环境。

配置Java环境变量可参考:/zzq900503/article/details/9770237配置Kettle环境变量步骤：一、在系统的环境变量中添加KETTLE_HOME变量，目录指向kettle的安装目录：D:kettledata-integration（具体以安装路径为准）二、新建系统变量：KETTLE_HOME变量值：D:kettledata-integration（具体以安装路径为准，Kettle的解压路径，直到Kettle.exe所在目录）三、选择PATH添加环境变量：变量名：PATH变量值：%KETTLE_HOME%;（3）Kettle工具的运行在Windows系统下运行，只需要解压kettle文件后，双击data-integration文件夹中的Spoon.bat文件在Linux下运行则双击data-integration文件夹中的Spoon.sh文件3.Kettle的基本概念（1）作业（job）负责将【转换】组织在一起进而完成某一块工作，通常我们需要把一个大的任务分解成几个逻辑上隔离的作业，当这几个作业都完成了，也就说明这项任务完成了。

(全)Kettle产品部署文档

安装.netframework步骤1、运行安装包文件NDP461-KB3102436-x86-x64-AllOS-ENU.exe，如下图准备开始安装2、准备过程完成后，出现下图界面，选择同意许可，并点击“确定”按钮开始安装3、开始验证并安装软件，如下图4、安装完成，点击“完成”按钮。

5、重新启动计算机以完成安装。

安装JDK步骤1、运行安装包文件jdk-8u181-windows-x64.exe，选择“下一步”按钮开始安装，如下图2、选择合适的安装路径（建议安装到C盘目录），之后选择“下一步”按钮继续，如下图3、开始安装，如下图4、继续安装，点击“确定”按钮，如下图5、选择jre目录，并选择“下一步”继续，如下图6、等待安装，如下图7、完成安装，选择“关闭”按钮结束安装，如下图JDK环境变量配置步骤1、右键计算机，选择“系统属性”项，如下图2、选择“高级系统设置”，如下图3、选择“环境变量”，如下图4、在“系统变量”栏中（注意，不是“用户变量”），选择“新建”按钮，如下图5、输入新建的环境变量的变量名和变量值变量名：JAVA_HOME变量值：C:\Program Files\Java\jdk1.8.0_181（即JDK的安装目录）之后点击“确定”按钮，如下图6、按照步骤4，再新建一个系统环境变量，并输入变量名和变量值变量名：CLASSPATH变量值：.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;（注意最开始的点不能省略）之后点击“确定”按钮，如下图7、在“系统变量”栏中，选择变量名为“Path”的项，并选择“编辑”按钮修改Path环境变量的值，在Path变量值的最前面添加：%JAVA_HOME%\bin;（注意分号必须要），之后点击“确定”按钮，如下图8、所有内容设置完成后，点击“确定”按钮保存设置，如下图9、在系统属性中点击“确定”按钮，保存所设置的系统属性，如下图10、按组合键Ctrl + R，再打开的运行窗口中输入cmd，进入命令行操作，如下图11、在弹出的命令行窗口中输入javac，并回车，出现下图内容，则表示设置成功。

Kettle 4.4.0 教程

kettle4.4.0教程1.Kettle介绍1.1.什么是kettleKettle 也叫PDI，在2006年Kettle 加入了开源的BI 组织Pentaho, 正式命名为PDI，英文全称为Pentaho Data Integeration。

Kettle 是“Kettle E.T.T.L. Envirnonment”只取首字母的缩写，这意味着它被设计用来帮助你实现你的ETTL 需要：抽取、转换、装入和加载数据；翻译成中文名称应该叫水壶，名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样：希望把各种数据放到一个壶里然后以一种指定的格式流出。

Spoon是一个图形用户界面，它允许你运行转换或者任务，其中转换是用Pan 工具来运行，任务是用Kitchen来运行。

Pan是一个数据转换引擎，它可以执行很多功能，例如：从不同的数据源读取、操作和写入数据。

Kitchen是一个可以运行利用XML或数据资源库描述的任务。

通常任务是在规定的时间间隔内用批处理的模式自动运行。

1.2.Kettle的安装要运行kettle工具必须安装Sun公司的JAVA运行环境，kettle 4.3.0需要运行java 1.6或者更高版本，Kettle的下载可以到/取得最新版本。

kettle不需要安装，安装好java环境后，在操作系统环境变量path中配置jre 路径，把kettle工具压缩包解压后可直接使用。

1.3.运行Spoon下面是在不同的平台上运行Spoon所支持的脚本：spoon.bat：在windows 平台运行Spoon。

Spoon.sh：在Linux、Apple OSX、Solaris 平台运行Spoon。

1.4.使用介绍双击spoon.bat之后依次出现以下界面Kettle提供了资源库方式的方式来整合所有的工作，但是因为资源库移植不方便，所以我们选择没有资源库，取消选项，点击按钮。

1.5.Transformation转换介绍文件->新建->转换，创建一个新的transformation，点击保存到本地路径。

kettle操作文档

Kettle操作文档1.Kettle介绍。

(2)2. Kettle下载。

(2)3.使用规范和注意事项。

(3)3.1.配置数据库的全局变量。

(3)3.2.文件命名规范（不要用汉字）。

(3)3.3.文件存放位置。

(3)3.4.配置启动任务文件。

(3)3.5.注意事项。

(4)4. Kettle部署使用。

(4)4.1.启动kettle。

(4)4.2.创建转换文件。

(5)4.2.1.使用标识字段实现新增数据。

(5)4.2.2.使用时间戳实现新增或修改数据。

(11)4.2.3.使用时间比较实现新增或修改数据。

(14)4.2.4.使用对某一数据值比较实现新增或修改数据。

(17)4.3.创建任务文件。

(19)4.4.命令行启动任务。

(20)1.Kettle介绍。

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于政府部门来说，经常会遇到大数据量的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少。

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高效稳定,提供了图形化界面，使用很方便。

Kettle中有两种脚本文件，transformation和job，transformation 完成针对数据的基础转换，job则完成整个工作流的控制。

2.Kettle下载。

Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包，因kettle为绿色软件，解压即可使用。

这个压缩包，公司加了一些功能，跟官网下载的不太一样，建议使用公司论坛上的压缩包。

资料网站：/。

注：解压路径尽量不要有中文。

.kettle:存放kettle的一些环境变量信息，资源库的信息。

jre6:存放java运行库文件（1.6版本）。

launcher：存放启动的文件以及启动的配置信息。

lib：存放kettle的库文件。

Kettle配置使用说明

Kettle配置使用说明Kettle配置使用说明1.文件结构1.1 kettle4.0.1该文件夹存放的是kettle4.0.1的桌面应用程序,/kettle4.0.1/Spoon.bat是运行软件的一个批处理文件,双击运行。

1.2 workspace该文件夹存放的是以各个警种总队全拼命名的分别存放.ktr文件和.job文件的文件夹。

Start.job是一个启动总纲。

1.3 script该文件夹是存放的数据库建库脚本,目前是oracle10g版本1.4 model存放的是powerDesign的cdm概念模型文件用于根据需要生成pdm和script。

2.文件路径配置本系统使用的都是系统所在路径的相对路径,不管处于什么目录下都请将kettle4.0.1和workspace的文件夹放在同一目录之下。

当然你可以随意改变文件夹的名称。

3.运行环境配置先运行一次/kettle4.0.1/Spoon.bat,Linux就不说了,如果你用的是windows系统,那么你可以在/${userhome}/.kettle下找到一个.kettle的文件夹主要说下：Response.xml－记录资源库信息（自己去勾）Kettle.property－这是好东西,可以让你在软件中任何可以使用到环境变量的地方使用到里面的配置信息(键-值对配置),类似全局变量。

当然是有利有弊,配置点什么数据库连接和一些常用的东西之外别把那里当仓库,想下全局变量定义的多了会给系统带来什么风险。

A_fileInput=file:///E:/Test_Server/srcFile/A_fileOutput=file:///E:/Test_Server/errFile/这2个属性是配置读取的Excel文件和输出错误的Excel文件用到的路径配置。

由于文件名命名的差异和存放位置的不同需要使用者自行配置。

有在系统内修改文件路径的风险,当然这是没有办法避免的,只能在项目初期和用户有这方面的约定俗成。

KETTLE简单使用说明文档

KETTLE简单使用说明文档1. 下载和安装要运行此工具你必须安装SUN 公司的JAVA 运行环境 1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载。

设置JAVA 运行环境变量,JAVA_HOME 和PATHKETTLE 的下载可以到/取得最新版本,下载后解压,就可以直接运行。

2.kettle主要有两部分组成，主对象树，核心对象，3.新建一个kettle文件(数据库之间做处理)1)转换右键点击新建，如图所示2) 设置数据库连接,上图DB连接右键新建(支持多库连接): 如图:3）核心对象里面有很多组件，通过拖拽来供给我们做操作，如图4）添加一个源输入，打开输入文件夹，可以看到各种输入类型，支持文件，数据库等。

如图5）这里通过数据库操作，那我们这里拖拽一个表输入组件6）双击打开，可以看到你可以选择上面连接的数据库，然后通过获取sql语句来选择你要输入的源表进行操作。

并且sql语句支持传递变量参数和占位符参数，以及多表关联sql。

如下图7）输入表已经OK，那输出表呢，那我看下输出组件。

如图8）选中两个组件，右键新建节点连接。

如下图9）双击打开表输出，选择输出的数据库，以及目标表和输入表与目标表的字段映射10）映射选择以及匹配11）点击箭头弹出启动界面，点击启动，该kettle文件即可执行数据的迁移了12）上面是一个简单的数据库转换操作。

在表输入和表输出直接可以加不同组件对数据进行筛选过滤。

通过转换文件夹下的组件。

如图转换可以处理中文乱码，字段数字的计算，值的转换，序列的生成等等脚本可以用java代码，javascript,sql脚本等等查询支持调用存储过程，两个表直接关联查询等等以上只是针对kettle工具的简单实用介绍。

KETTLE使用说明

KETTLE使用说明在本使用说明中，我们将详细介绍如何使用KETTLE完成一些常见的数据处理任务。

第一步：安装和启动KETTLE在Windows中，双击运行Spoon.bat文件来启动KETTLE。

在Linux 和Mac OS中，打开终端，进入KETTLE目录，输入"./spoon.sh"命令来启动KETTLE。

第二步：创建一个新的数据流程启动KETTLE后，您将看到一个图形化界面。

在左上角的工具栏中，有一个新建按钮，点击它来创建一个新的数据流程。

在创建数据流程时，您需要为其指定一个名称。

完成后，点击确定按钮。

第三步：添加数据源在左侧的工具箱中，您可以找到各种组件，如输入步骤、输出步骤、转换步骤等。

为了演示，我们先添加一个输入步骤。

在工具箱中，找到输入步骤，并将其拖放到主界面中。

然后，双击该步骤，在弹出的对话框中配置数据源。

在配置对话框中，您需要指定数据源的类型，如文本文件、Excel文件、数据库等。

根据不同的类型，您可能需要提供相应的连接信息。

完成配置后，点击确定按钮。

在数据流程中，您可以使用转换步骤对数据进行处理。

为了演示，我们使用一个简单的转换步骤来删除重复的数据。

在工具箱中，找到去重复步骤，并将其拖放到已添加的输入步骤的下方。

然后，双击该步骤，在弹出的对话框中配置参数。

在配置对话框中，您需要指定要去重的字段。

您可以选择多个字段以进行复合去重。

完成配置后，点击确定按钮。

第五步：添加输出在数据流程中，您也需要指定一个输出步骤来保存处理后的数据。

在工具箱中，找到输出步骤，并将其拖放到已添加的去重复步骤的下方。

然后，双击该步骤，在弹出的对话框中配置输出格式和目标文件。

在配置对话框中，您需要指定输出的格式，如文本文件、Excel文件、数据库等。

根据不同的格式，您可能需要提供相应的连接信息。

完成配置后，点击确定按钮。

第六步：保存和运行数据流程完成对数据流程的配置后，点击工具栏中的保存按钮来保存数据流程。

Kettle使用手册及测试案例

一、【kettle】window安装与配置1、下载kettle包，并解压2、安装jdk，并配置java环境a).打开我的电脑--属性--高级--环境变量b).新建系统变量JA V A_HOME和CLASSPATH变量名：JA V A_HOME变量值：C:\Program Files\Java\jdk1.7.0[具体路径以自己本机安装目录为准]变量名：CLASSPATH变量值：.;%JA V A_HOME%\lib\dt.jar;%JA V A_HOME%\lib\tools.jar;c). 选择“系统变量”中变量名为“Path”的环境变量，双击该变量，把JDK安装路径中bin目录的绝对路径，添加到Path变量的值中，并使用半角的分号和已有的路径进行分隔。

变量名：Path变量值：%JA V A_HOME%\bin;%JA V A_HOME%\jre\bin;3、配置kettle环境在系统的环境变量中添加KETTLE_HOME变量，目录指向kettle的安装目录：D:\kettle\data-integration4、启动spoonWindows直接双击批处理文件Spoon.bat具体路径为：kettle\data-integration\Spoon.batLinux 则是执行spoon.sh,具体路径为：~/kettle/data-integration/spoon.sh二、使用Kettle同步数据同步数据常见的应用场景包括以下4个种类型：➢ 只增加、无更新、无删除➢ 只更新、无增加、无删除➢ 增加+更新、无删除➢ 增加+更新+删除只增加、无更新、无删除对于这种只增加数据的情况，可细分为以下2种类型：1) 基表存在更新字段。

通过获取目标表上最大的更新时间或最大ID，在“表输入”步骤中加入条件限制只读取新增的数据。

2) 基表不存在更新字段。

通过“插入/更新”步骤进行插入。

插入/更新步骤选项：只更新、无增加、无删除通过“更新”步骤进行更新。

KETTLE使用说明及带输入参数JAVA调用

ETL工具——kettle使用说明1简介ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），Kettle是一款国外开源的etl工具，纯java编写，数据抽取高效稳定。

2运行环境：OS：Window、Linux、Unix均可Jdk1.4以上3开始使用：Kettle可以在/网站下载。

下载kettle压缩包，因kettle为绿色软件，解压缩到任意本地路径即可。

（本文着重介绍kettle3.2.0稳定版）Spoon是一个图形用户界面，在不同平台上运行Spoon需要不同的脚本：Spoon.bat:在windows平台运行Spoon（或直接点击Kettle.exe）。

Spoon.sh:在Linux、Apple OSX、Solaris平台运行Spoon。

登陆一般选择没有资源库：Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

4转换（Transformation）新建一个转换kettle默认transformation文件保存后后缀名为ktr新建数据库连接（此链接也可在用到的节点处配置）填写数据源配置内容点击Test测试连接成功：核心对象切换到核心对象，菜单列出的是Transformation中可以调用的环节列表，可以通过鼠标拖动的方式对环节进行添加。

并且可通过shift+鼠标拖动，实现环节之间的连接。

常用节点介绍（红色节点后面逐一演示）类别环节名称功能说明输入文本文件输入从本地文本文件输入数据表输入从数据库表中输入数据获取系统信息读取系统信息输入数据输出文本文件输出将处理结果输出到文本文件表输出将处理结果输出到数据库表插入/更新根据处理结果对数据库表机型插入更新，如果数据库中不存在相关记录则插入，否则为更新。

会根据查询条件中字段进行判断更新根据处理结果对数据库进行更新，若需要更新的数据在数据库表中无记录，则会报错停止删除根据处理结果对数据库记录进行删除，若需要删除的数据在数据库表中无记录，则会报错停止查询数据库查询根据设定的查询条件，对目标表进行查询，返回需要的结果字段流查询将目标表读取到内存，通过查询条件对内存中数据集进行查询调用DB存储过程调用数据库存储过程转换字段选择选择需要的字段，过滤掉不要的字段，也可做数据库字段对应过滤记录根据条件对记录进行分类排序记录将数据根据某以条件，进行排序空操作无操作增加常量增加需要的常量字段脚本Modified Java扩展功能，编写JavaScript脚本，对数据进行相应处理Script Value映射映射（子转换）数据映射作业Sat Variables设置环境变量Get Variables获取环境变量表输入双击拖动到工作面板上的表输入结点，选择（或者新建）所需要的数据库连接，点击获取SQL查询语句或自行编辑SQL。

KETTLE使用说明(中文版)

5.4 输出：插入/更新

插入/更新:若流里的数据在目标表中不存在，执行插入，否则执行更新，数据量不大的情况下，一般采用插入/更新操作。
5.5 输出：更新

这个步骤类似于插入/更新步骤，除了对数据不作插入操作之外。它仅仅执行更新操作。
5.6 输出：删除

这个步骤类似于更新步骤，除了不更新操作之外，其他的行均被删除。

选择表输入, excel 输出，建立节点连接。右击连接线，可编辑连线属性。
5.1常用输入：

表输入 Excel 输入文本文件输入 XML 文件输入 CUBE 输入(多维数据集) 获取系统信息
5.2输入：表输入

选择表输入，点击鼠标右键，选择编辑步骤。步骤名称可以更改，一般更改为和输入表相关的名称。数据库连接：选择一个已建好的数据库连接，也可以新建一个。点击”获取SQL查询语句”,可弹出数据库浏览器，选择自己需要的表或视图。选择好表或视图后，SQL 区域会显示相应的SQL，如选择在SQL里包含字段名，你所选择的表的所有字段均会显示. 在SQL区域用户可手动修改SQL语句。
7.3 Flow ：Blocking Step（被冻结的步骤）

这是一个非常简单的步骤，它冻结所有的输出，直到从上一个步骤来的最后一行数据到达，最后一行数据将发送到下一步。你可以使用这个步骤触发常用插件、存储过程和js等等。
8.0 连接：Merge Join(合并排序)

这个步骤将来自两个不同的步骤输入的数据执行一个高效的合并。合并选项包括INNER ，LEFT OUTER , RIGHT OUTER, FULL OUTER. 这个步骤将输入的行按照指定的字段存储被合并的两个步骤，必须按照相同的段进行排序。

KETTLE使用说明(中文版)

7.0 Flow ：空操作(什么也不做)
这个操作说明都不做，它的主要作用是，在你想做测试的时候，充当一个占位符。
7.1 Flow ：过滤记录
这个步骤根据条件和比较符来过滤记录。发送true数据给步骤：指定条件返回true的数据将发送到此步骤发送false数据给步骤：指定条件返回false 的数据将发送到此步骤。 True 和false 步骤必须指定。
1.2 安装kettle 要运行Kettle ,必须按安装java 环境1.4或以上版本，kettle下载可以到: 取得最新版本。(pdi-ce-4.0.1-stable.zip) 1.3 运行spoon 下面是不同平台上运行spoon 所支持的脚本： spoon.bat windows 平台运行Spoon. Spoon.sh linux 平台运行Spoon. 1.4 资源库一个Kettle 资源库可以包含那些转换信息，这意味着为了从数据资源中加载一个转换，你必须连接相应的资源库。
连接名称：选择数据库序列存在的连接名称序列名称：数据库序列的名称使用计数器来计算序列：如果想使用kettle生成的序列，使用此项。
计数器名称（可选）：如果一个转换中多个步
骤生成同样的值名称，这个选项允许你指定计数器的名称，避免按照先后顺序通过多个步骤。起始值：序列的起始值增量：序列的增量最大值：序列的最大值，如果超过，将重新开始
1.6.2 任务 1. Job Entry : 一个一个Job Entry 是一个任务的一部分，它执行某些内容。是一个任务的一部分，它执行某些内容。 2. Hop: 一个一个Hop 代表两个步骤之间的一个或者多个数据流。一个代表两个步骤之间的一个或者多个数据流。一个Hop总是代总是代表着两个Job Entry 之间的连接，并且能够被原始的之间的连接，并且能够被原始的Job Entry设置，无设置，表着两个设置条件的执行下一个JobEntry,直到执行成功或者失败。直到执行成功或者失败。条件的执行下一个直到执行成功或者失败

kettle使用文档

kettle使用文档Kette目录1、输入 (2)1．1 文本输入 (2)1.2 表输入 (3)2、输出 (3)2.1 文本输出 (3)2.2)输出表 (3)3、连接 (5)3. 1 “Merge” (5)3.2 Sorted Merge (5)3.3 合并记录 (7)3.4 (8)4、转换 (10)4.1)split field to rows (10)4.2)去掉重复记录 (11)4.3 增加常量 (11)4.4 增加序列 (12)4.5 字段选择 (12)4.6)拆分字段 (13)4.7 排序记录 (14)4.8 换转列 (14)4.9)计算器 (15)4.10)值映射 (16)4.11)number range (17)5、flow (19)5.1)switch/case (19)5.2)过滤记录 (20)6、statistics (21)6.1)分组 (21)7、Uitlity (22)7.1)If field value is null (22)7.2)Null if... .. (24)8、查询 (25)8.1)Check if a column exists (25)8.2 File exists (26)8.3)Table exists (27)8.4 数据库查询 (28)8.5 数据库连接 (30)8.6 流查询 (31)9、脚本 (33)9.1) Modified Java Script Value (33)9.2)执行SQL脚本 (34)9.3 Regex Evaluation (35)1、输入1．1 文本输入：就是程序读取文本文件里边的东西，我现在用到的是自己到处去的文件。

给拉出来的文本起名文件卡里边先浏览选着自己用到的文本，点击添加，选中的文件会到“选中的文件”框里边图中的“1”就是我选中的文件之后点击“字段卡”在下边有个“”点击它会出现你导出时候的字段名称，下边有“”可以查看里边的记录1.2 表输入“编辑”就是选着数据库“获得sql查询语句”就是得到数据，下边可以预览然后会出现在你可以对语句进行编辑，去掉你不要的字段，或者加条件去掉的字段不会在导出的文件中出现，2、输出2.1 文本输出“步骤名称”是给选着的文本文件的加名字的“文件卡”中的“浏览”中是选着文本输出的地方和起名字的“字段卡”点击这个你会看见下边有“获取字段”这个是得到输出的字段的名称，默认的是全部输出2.2)输出表“步骤名称”kettle起名用的“数据库连接”是选着数据库“编辑”是修该数据库“目标表”是选着存入的表“Specify datebase fileds”挑勾它说明说上说选没说为什么“Datebase fileds卡”中点击“enter filed mapping”第一个文本框是读进来的表的字段第二个文本框是写数据库中的字段第三个是他们的对应关系在这你可以选择自己要的字段然后点add（注意数据库表的字段类型一定要一样，要不报错，你也可以选择guess ，这个是根据字段的名字去猜，如果你的字段类型不一样，报错，出现在第三个文本框中的才是写如表的字段3、连接3. 1 “Merge”“第一个步骤”选择导入的“输入表”或“输入文件”“第二个步骤”选择导入的“输入表”或“输入文件”“连接类型”是内连接外连接做连接有连接。

kettle操作文档.doc

Kettle 操作文档1.Kettle 介绍。

(2)2. Kettle 下载。

(2)3.使用规范和注意事项。

(3)3.1. 配置数据库的全局变量。

(3)3.2. 文件命名规范（不要用汉字）。

(3)3.3. 文件存放位置。

(3)3.4. 配置启动任务文件。

(3)3.5. 注意事项。

(4)4. Kettle 部署使用。

(4)4.1. 启动 kettle 。

(4)4.2. 创建转换文件。

(5)4.2.1. 使用标识字段实现新增数据。

(5)4.2.2. 使用时间戳实现新增或修改数据。

(11)4.2.3. 使用时间比较实现新增或修改数据。

(14)4.2.4. 使用对某一数据值比较实现新增或修改数据。

(17)4.3. 创建任务文件。

(19)4.4. 命令行启动任务。

(20)1.Kettle介绍。

ETL （ Extract-Transform-Load 的缩写，即数据抽取、转换、装载的过程）门来说，经常会遇到大数据量的处理，转换，迁移，所以了解并掌握一种etl，对于政府部工具的使用，必不可少。

Kettle 是一款国外开源的etl 工具，纯 java 编写，绿色无需安装，数据抽取高效稳定,提供了图形化界面，使用很方便。

Kettle 中有两种脚本文件， transformation 和 job，transformation 完成针对数据的基础转换， job 则完成整个工作流的控制。

2.Kettle下载。

Kettle 可以在网站下载 kettle 压缩包，因 kettle 为绿色软件，解压即可使用。

这个压缩包，公司加了一些功能，跟官网下载的不太一样，建议使用公司论坛上的压缩包。

资料网站：。

注：解压路径尽量不要有中文。

.kettle: 存放 kettle 的一些环境变量信息，资源库的信息。

jre6:存放 java 运行库文件（ 1.6 版本）。

launcher：存放启动的文件以及启动的配置信息。

kettle使用方法说明文档课案

Kettle 使用方法说明文档1.安装程序解压到随意盘符，解压后点击根目录下Spoon.bat以下列图所示。

点击 cancel2.创立表到表直接抽取本实例演示的是在 Oracle 数据库 zhwater 下的 zh 用户里面表sys_user变换到当地 Oracle 数据库 orcl 下的 zw 用户下的表 sys_user。

演示过程是成立transform 将数据从 zh.sys_user抽取到 zw. sys_user 里面。

两个表构造同样。

a)成立变换进入系统后以下列图所示，双击变换。

b)创立源和目标数据库连结c)成立变换步骤点开【输入】—— >【表输入】将表输入拉到右边。

双击右边的表输入，以下列图，配置点开【输出】—— >【插入 /更新】将其拉到右边。

按住 shift 先后左键点击表输入和插入/更新的图标。

双击插入 /更新图标，点击【获得字段】和【获得和更新字段】用来查问的重点字保存主键USERID ，其余删掉。

点击确立保存，点击上方考证无错误后，点击履行，以下列图。

数据库中能够看到数据已从zh.sys_user抽取到 zw.sys_userD）保存文件保存文件的文件名不可以是中文，文件路径不可以包括中文3.创立带数据聚合的表到表抽取本实例演示的是在数据库SG186ND 下的 basic_data用户里面的两个表 sc_work_ticket 和 t_sc_work_ticket。

演示过程是成立transform 将数据从 sc_work_ticket 抽取到 t_sc_work_ticket 里面。

即模拟基础表到主题表抽取过程。

a)源数据获得变换和链接创立过程见上节说明。

将表输入 step 拉入图中双击表输入，配置源连结。

b)数据分组将【 Memory Group by】拖入图中，并按住shift 连结表输入和Memory Group by。

点开【 Memory Group by 】，将基础表中波及维度的字段加入分组内。

kettle使用说明(简版)

Kettl e使用说明简版1、文档说明本文档主要介绍我们实际应用中使用Kettle工具来开发ETL过程的相关说明,内部文档,仅供参考.2、ETL流程图3、关键操作介绍3.1创建资源库[对象位置]：登陆界面[实现功能]：配置存储相关转换、任务及相关附属信息的数据库[操作说明]：1）进入登陆界面：2）点击新建按钮，进入配置界面，填写相关信息3）填写完毕，可测试是否成功，成功后，进入如下界面，点创建或更新4）创建完毕可用资源库用户登录Kettle,默认用户名，密码：admin/admin[备注]：我们一般建立一个独立的数据库用户，专门存储Kettle相关信息，资源库就连接在这个数据库用户上3.2创建转换[对象位置]：文件〉〉新建〉〉转换[实现功能]：将库A的表A1中的数据经过一定转换，插入到库B的表B1[操作说明]：1)新建一个转换2)将“核心对象〉〉输入〉〉表输入”拖到转换设置面板3)双击“表输入”，进入脚本编辑界面：本界面可以设置数据库连接，点“新建”可以创建一个新的数据库连接，点“编辑”更改数据库连接，然后编辑好相关提取语句：4)将“核心对象〉〉输出〉〉表输出”拖到转换设置面板5)双击“表输出”，进入脚本编辑界面：本界面需要选择数据转入目标表的数据库连接，以及目标表的表名称，如果数据量比较大的话，可以设置每次提交的数据量6)将表输入和表输出连接：按住shift,鼠标从“表输入”拖到“表输出”，如图：7)该转换编辑成功，可以保存并执行测试［保存］：［执行］：8)执行成功后便可以编辑其它转换，过程类似[备注]：１）编写的ＳＱＬ语句的字段别名要与数据转入的目标表的字段名称一致；２）语句最后不能有标点；３）若ＳＱＬ中有参数的话，需要将“替换ＳＱＬ语句中的变量”选中；４）转换前可以执行一些脚本比如：将“脚本〉〉执行ＳＱＬ脚本”拖入，并连接即可，双击可编辑ＳＱＬ(需要有分号，若更新库则需要提交)3.3创建任务[对象位置]：文件〉〉新建〉〉任务[实现功能]：将多个操作串行合并，形成一个整体任务，其中的操作可以是转换、任务、脚本等等[使用说明]：1)新建一个任务2)拖入几个任务对象，可以是转换、任务、脚本等，并连接，如图：3)双击相关对象进行编辑，需要选择已经建立好的转换（任务名称）名称4)所有中间步骤的对象都已设定好以后，保存任务，执行测试任务[备注]：任务中各对象执行，以前一对象成功执行为前提，若任务里，包含多个子任务，如果各任务之间相互独立，可以在子任务中拖入“success”对象，否则当母任务中某一对象执行失败，则任务停止。

2024版kettle使用教程(超详细)

介绍Kettle的集群架构，包括主节点、从节点和作业服务器的角色和职责。
分布式计算原理
阐述Kettle分布式计算的原理，如何利用集群资源进行并行处理和任务调度。
01 02 03 04
集群配置与部署
详细讲解Kettle集群的配置步骤，包括环境准备、节点配置、网络设置等。
集群监控与管理
介绍Kettle提供的集群监控和管理工具，方便用户实时了解集群状态和作业执行情况。
03
实战演练
以一个具体的实时数据处理任务为例，介绍如何使用Kettle设计实时数据处理流程。
案例四：Kettle在数据挖掘中应用
数据挖掘概念介绍
01
数据挖掘是指从大量数据中提取出有用的信息和知识的
过程，包括分类、聚类、关联规则挖掘等任务。
Kettle在数据挖掘中的应用
02
Kettle提供了丰富的数据处理和转换功能，可以方便地
Chapter
案例一：ETL过程自动化实现
ETL概念介绍
ETL即Extract, Transform, Load，是数据仓库技术中重要环节，包括数据抽取、清洗、转换和加载等步骤。
Kettle实现ETL过程
通过Kettle的图形化界面，可以方便地设计ETL流程，实现数据的自动化抽取、转换和加载。
作业项配置
对作业项进行详细配置，包括数据源、目标库、字段映射等。
作业项管理
支持作业项的复制、粘贴、删除等操作，方便快速构建作业。
定时任务设置与执行
定时任务设置
支持基于Cron表达式的定时任务设置，实现周期性自动执行。
立即执行
支持手动触发作业执行，满足即时数据处理需求。
执行日志查看

Kettle使用手册及测试案例

一、【kettle】window安装与配置1、下载kettle包，并解压/projects/data-integration/2、安装jdk，并配置java环境a).打开我的电脑--属性--高级--环境变量b).新建系统变量JA V A_HOME和CLASSPATH变量名：JA V A_HOME变量值：C:\Program Files\Java\jdk1.7.0[具体路径以自己本机安装目录为准]变量名：CLASSPATH变量值：.;%JA V A_HOME%\lib\dt.jar;%JA V A_HOME%\lib\tools.jar;c). 选择“系统变量”中变量名为“Path”的环境变量，双击该变量，把JDK安装路径中bin目录的绝对路径，添加到Path变量的值中，并使用半角的分号和已有的路径进行分隔。

通过获取目标表上最大的更新时间或最大ID，在“表输入”步骤中加入条件限制只读取新增的数据。

2) 基表不存在更新字段。

通过“插入/更新”步骤进行插入。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Kettle配置使用文档说明一、安装配置Kettle系统环境1.安装前准备JAVA安装文件下载地址：/technetwork/java/javase/downloads/java-archive-downloa ds-javase6-419409.html1.Windows下安装JDK1.6，并配置环境变量##下载Jdk1.6.exe直接执行安装程序2.Linux下配置JDK1.6，并配置环境变量###下载JDK1.6到目录/usr/java/###更改JDK可执行权限chmod +755 jdk1.6.xx.bin###执行安装./jdk1.6.xx.bin###配置JAVA环境变量vi /etc/profile# java 1.6 setupJAVA_HOME=/usr/java/jdk1.6.0_43PATH=$JAVA_HOME/bin:$PATHCLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/libexport JAVA_HOME PATH CLASSPATH###应用环境变量source /etc/profile###查看JAVA版本信息java -version2.Kettle下载解压到指定目录,下载kettle标准版工具包:/project/pentaho/Data%20Integration/4.4.0-stable/p di-ce-4.4.0-stable.zip解压到目录: D:\data-integration (目录可根据实际情况自定义)二、Kettle基本操作过程数据库操作说明:生产数据库: 10.176.0.221 DB : e2tms4 用户名: e2tms4 密码:1234567本地文本文件: D:\Db_file\outfile.txtKettle数据仓库: 10.176.0.221 DB : kettledb用户名: kettle 密码:12345671.启动Kettlet应用程序,打开D:\data-integration\下面的Kettle.exe或Spoon.bat，出现Kettle的欢迎界面之后出现用户登录界面,先不加载配置,点击”没有资源库”,打开程序主界面,2.kettle界面显示3.Kettle配置说明新建transformation文件,双击左边转换将创建一个新的transformation(也可以通过菜单里面的文件-新建-转换方式新建文件)，点击另存为，保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestTrans，kettle默认transformation，文件保存后后缀名为ktr。

4.创建数据库连接池.在transformation页面下，点击左边的”主对象树”，右键”DB连接”选择”新建”，配置数据库连接,配置写成后点击”Test”查看数据库连接情况,如下提示表示正常,点击OK确认保存配置.使用以上方式,创建以下数据连接池.生产数据库master-data1: 10.176.0.221 DB : data1 用户名: data1 密码:1234567 生产数据库master-data2: 10.176.0.221 DB : data2 用户名: data2 密码:1234567 Kettle数据仓库kettledb: 10.176.0.221 DB : kettledb用户名: kettle 密码:1234567 配置完成后显示以下列表:5.导入测试数据,(现实数据库中不需要以下操作)生产数据库1: 10.176.0.221 DB : data1 用户名: data1 密码:1234567USE data1;CREATE TABLE userInfo (id int(11) NOT NULL,name varchar(20) DEFAULT NULL,age int(11) NOT NULL,address varchar(20) DEFAULT NULL,PRIMARY KEY (`id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;INSERT INTO userInfo(id,NAME,age,address) VALUES(1,'aaa',22,'成都市二环路'); INSERT INTO userInfo(id,NAME,age,address) VALUES(2,'东方红',25,'中国北京'); INSERT INTO userInfo(id,NAME,age,address) VALUES(3,'123',19,'广州白云区');生产数据库2: 10.176.0.221 DB : data2 用户名: data2 密码:1234567 Use data2;CREATE TABLE `login` (`id` int(11) NOT NULL,`realname` varchar(20) DEFAULT NULL,`username` varchar(20) DEFAULT NULL,`password` varchar(20) NOT NULL,`active` int(11) DEFAULT '0',PRIMARY KEY (`id`),UNIQUE KEY `realname` (`realname`),UNIQUE KEY `username` (`username`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;insert into login values(1,'aaa','admin','admin',0);insert into login values(2,'东方红','test','test',1);insert into login values(3,'123','xxx123','123456',1);本地文本文件: D:\Db_file\dbfile.txt 文件内容:sid; sname; teacher34; 123;徐老师78;aaa ;李老师152; 东方红;Mr Wu三、使用Kettle抽取、转换、装载数据1.表输入:在EtltestTrans页面下，点击左侧的【核心对象】，点击【输入】，选中【表输入】，拖动到主窗口释放鼠标。

双击工作区中【表输入】图标，数据库连接选择刚刚创建好的连接名为Oracle的数据库连接，在主窗口写入对应的查询语句：SELECT ID, NAME, AGE, ADDRESSFROM `userInfo`ORDER BY NAME同上所述,将master-data2生产数据库2也加入到表输入界面中.SELECT Id, realname, username, password, activeFROM loginORDER BY realname2.表连接查询在EtltestTrans页面下，点击左侧的【核心对象】，点击【连接】，选中【Merge Join】，拖动到主窗口释放鼠标：点击表输入，按住shift键，再拖动鼠标到Merge Join，这时就实现了在两个组建之间的连线。

如图：3.第一次连接查询双击工作区中的Merge Join，在出现的窗口里：步骤名称命名为：表连接查询第一个步骤选择：master-data1表输入第二个步骤选择：master-data1表输入连接类型选择：FULL OUTER在连接字段里，第一个步骤写：NAME，第二个步骤写：realname(或者自动获得连接字段后将多余字段删除)4.文本文件输入数据在EtltestTrans页面下，点击左侧的【核心对象】，点击【输入】，选中【文本文件输入】，拖动到主窗口释放鼠标。

双击这个图标，进入编辑窗口：在文件或目录中选择输入的文件,点击增加.打开字段选项,点击获取字段,显示出文本文件中所有字段信息,删除多余空白字段,点击预览记录,显示文本文件中取数据条数信息后显示出文本文件数据内容.5.第二次连接查询再次拖入一个表连接查询图标，将上次的查询结果与文本文件相连，再进行一次表连接查询。

6.插入/更新在EtltestTrans页面下，点击左侧的【核心对象】，点击【输出】，选中【插入/更新】，拖动到主窗口释放鼠标。

将它与第三次表连接查询进行连线。

7.将数据导入指定kettledb数据仓库双击”插入/更新”图标，进入编辑窗口。

数据库连接选择数据仓库的kettledb数据库，目标表选择对应的datatable表，在查询关键字里，表字段写name(表示仓库表里的字段)，流里的字段1里写入NAME(即上一个步骤输入的内容里的NAME)。

比较符用”=”号。

第一次向数据仓库导入数据时,点击SQL选项,查看创建表语句结构,点击Execute执行创建..8.执行工作流,进行数据导出导入.点击运行，测试创建的transformation是否成功。

点击这个按钮，就会执行ETL过程，这时我们可以查看数据仓库的表，如果有数据，并符合我们的要求，那么说明我们的transformation成功了。

四、创建job工作流过程,Job就是把一个或多个transformation按照一定的顺序组合起来，形成一个流程。

1.创建job文件,通过菜单里的“文件-新建-作业”就可以创建一个job文件，点击另存为D:\etltest\jobtest.kjb。

2.创建工作作业流程拖入图标并连线,在EtlscriptJob页面，点击【核心对象】，点击【通用】，选中【START】拖动到主窗口释放鼠标，再选中一个【Transformation】，拖动到主窗口释放鼠标，建立【START】与【Transformation】之间的连接。

3. 编辑”开始”流程双击”START”图标，就进入编辑窗口,可根据实际需求更改定时时间操作。

4. 编辑transformation流程双击”transformation”图标，就进入编辑窗口。

输入job名称：如Etl-testpro，点击转换文件名后面的按钮，浏览我们我们要转换的文件，并选中。

其他的选项可以根据实际需要再进行配置。

点击确定按钮，退出编辑窗口。

图中各选项,根据实际情况进行选择使用.5.运行JOB工作流点击按钮，就可以运行这个job,运行情况会在界面下显示,job跟上面的转换其实是完成了同样的工作，job可以把多个transformation放在一起组成一个流程，什么时候用job 或transformation，是根据需要来定的，比如只有一个transformation时，就可以直接用transformation,但如果这个转换需要定时，那么就必须用job了。