kettle操作文档
Kettle使用文档
1.Kettle简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle主要由资源库、数据库、作业(job)、转换、步骤五部分组成,资源库是用来存储用户所编写的作业和转换(即kjb文件和ktr文件)一般是在数据库中存储,方便用户的查找和使用。
数据库就是处理数据是需要的数据库。
作业是用来确定一个工程中需要使用的转换和转换的执行顺序。
转换是数据在ktr文件中的具体转换过程,类似于Java的一个方法,而作业就类似于java的一个类,它可以调用各种不同的方法(转换)。
2.Kettle框架搭建(1)下载安装可以从下载最新版的Kettle软件,同时,Kettle 是绿色软件,下载后,解压到任意目录即可。
(2)配置环境变量使用Kettle前提是配置好Java的环境变量,因为Kettle是java编写,需要本地的JVM的运行环境。
配置Java环境变量可参考:/zzq900503/article/details/9770237配置Kettle环境变量步骤:一、在系统的环境变量中添加KETTLE_HOME变量,目录指向kettle的安装目录:D:kettledata-integration(具体以安装路径为准)二、新建系统变量:KETTLE_HOME变量值:D:kettledata-integration(具体以安装路径为准,Kettle的解压路径,直到Kettle.exe所在目录)三、选择PATH添加环境变量:变量名:PATH变量值:%KETTLE_HOME%;(3)Kettle工具的运行在Windows系统下运行,只需要解压kettle文件后,双击data-integration文件夹中的Spoon.bat文件在Linux下运行则双击data-integration文件夹中的Spoon.sh文件3.Kettle的基本概念(1)作业(job)负责将【转换】组织在一起进而完成某一块工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的作业,当这几个作业都完成了,也就说明这项任务完成了。
kettle使用手册
kettle使用手册Kettle使用手册一、Kettle简介1.1 Kettle概述Kettle(也被称为Pentaho Data Integration)是一款开源的ETL(Extract, Transform, Load)工具,它能够从各种数据源中提取数据,并进行各种转换和加工,最后将数据加载到指定的目的地中。
Kettle具有强大的数据处理功能和友好的图形化界面,使得数据集成和转换变得简单而高效。
1.2 功能特点- 数据抽取:从多种数据源中提取数据,包括关系型数据库、文件、Web服务等。
- 数据转换:支持多种数据转换操作,如字段映射、类型转换、数据清洗等。
- 数据加载:将转换后的数据加载到不同的目的地,如数据库表、文件、Web服务等。
- 调度管理:支持定时调度和监控,可自动执行数据集成任务。
二、安装与配置2.1 系统要求在安装Kettle之前,请确保满足以下系统要求: - 操作系统:Windows、Linux、Unix等。
- Java版本:JDK 1.8及以上。
- 内存:建议至少4GB的可用内存。
2.2 安装Kettle最新版本的Kettle安装包,并按照安装向导进行安装。
根据系统要求和个人需求进行相应的配置选项,完成安装过程。
2.3 配置Kettle在安装完成后,需要进行一些配置以确保Kettle正常运行。
具体配置步骤如下:- 打开Kettle安装目录下的kettle.properties文件。
- 根据实际需要修改配置项,如数据库连接、日志路径、内存分配等。
- 保存修改并重启Kettle。
三、Kettle基础操作3.1 数据抽取3.1.1 创建数据源连接打开Kettle,左上角的“新建连接”按钮,在弹出的窗口中选择待抽取的数据源类型(如MySQL、Oracle等),填写相关参数并测试连接。
3.1.2 设计数据抽取作业- 打开Kettle中的“转换”视图。
- 从左侧的工具栏中选择适当的输入组件(如“表输入”或“文件输入”),将其拖拽到设计区域中。
KETTLE使用说明(中文版)
KETTLE
1.1 什么是kettle
Kettle 是”kettle E.T.T.L Envirnonment”首字母缩写,这意味着设计实现ETL需要 :
3.2 SQL 编辑器(SQL Editor)
1. 描述 Spoon 提供简单SQL 编辑器 ,可以实现 创建表,删除索引或者修改字段。大多数的 DDL,例如: create / alter table ,create index , create sequence 命令都可以通过 SQL编辑器窗口运行。(新建转换,输出是 表输出时,可打开SQL 编辑器)
值不同
“new” : 引用流中没有找到关键字 “deleted”: 比较流中没有找到关键字。 比较流中的数据进入下一步骤,除非在”删除”的 情况。
9.0 作业 核心对象
1. 通用 (1). START : start是任务执行的入口,首先必须是任务可以执行。只有无条件的任务条目可以从
2. 局限性 这只是一个简单的SQL 编辑器,它不可能完 全知道超过20种它所支持的数据库的方言。 这意味着创建存储过程,触发器或者其他的 数据库对象可能带来很多问题。在这种情况 下,应考虑使用数据库自带的工具。
4.数据库浏览器
1. 描述 数据库浏览器只显示可用的表,视图或者目 录
5.新建一个转换
start 入口连接。
(2) job : 另外一个Job. (3) Success (4) Transformation : 选择一个已经存在的 .ktr文件。 (5) dummy : (6) set variables
kettle操作手册
1.什么Kettle?Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。
按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。
Kettle包括三大块:Spoon——转换/工作(transform/job)设计工具(GUI方式)Kitchen——工作(job)执行器(命令行方式)Span——转换(trasform)执行器(命令行方式)Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle简单例子2.1下载及安装Kettle下载地址:/projects/pentaho/files现在最新的版本是 3.6,为了统一版本,建议下载 3.2,即下载这个文件pdi-ce-3.2.0-stable.zip。
解压下载下来的文件,把它放在D:\下面。
在D:\data-integration文件夹里,我们就可以看到Kettle的启动文件Kettle.exe或Spoon.bat。
2.2 启动Kettle点击D:\data-integration\下面的Kettle.exe或Spoon.bat,过一会儿,就会出现Kettle的欢迎界面:稍等几秒,就会出现Kettle的主界面:2.3 创建kettle后台管理点击【新建】,新建资源库信息这里我们选择KETTLE 后台管理数据库的类型,以及配置JDBC设置完成后,点击【创建或更新】,将会在指定的数据库里面新建KETTLE的后台管理数据表。
再设置【名称】,点击【确定】。
回到登陆界面,选择新建的【资源库】,输入用户账号密码(默认账号:admin,密码:admin)进入KTETTLE 的开发界面2.4 kettle说明主对象树:转换(任务),作业(JOB)核心对象:主对象中可用的组件2.5 值映射组件使用的字段名:源字段目标字段名:目标字段源值:源数据的值目标值:替换的值注:最好先将源值去空格,再进行替换2.6 增加常量组件名称:映射字段类型:字段类型格式:数据格式长度:值:常量的值2.7计算器组件新字段:映射字段计算:计算类型字段A,B,C:需计算的字段值类型:数据的类型2.8获取系统信息组件名称:显示的名称类型:显示的类型(系统时间,IP,指令等等)2.9增加序列组件值的名称:映射值的名称起始值:序列的初始值增加值:设置增加的值最大值:设置最大值2.10 表输出组件数据库连接:设置数据库目标表:设置目标的表提交记录数量:设置提交数量忽略插入错误:跳过错误,继续执行指定库字段:数据库字段:选择插入的字段2.11 多路选择(Switch/Case) 组件更多路选择的字段:设置Switch的字段分支值的数据类型:设置值的类型分支值:值:设置case的值目标步骤:跳过的操作步骤缺省的目标步骤:未通过的操作步骤2.12 Null if... 组件名称:选择替换的字段需要转换成NULL的值:需要转换成NULL的值2.12 执行SQL脚本组件数据库连接:选择数据库SQL script :输入要执行的SQL语句参数:设置要替换的参数字段2.13 Modified Java Script Value 组件Java Script:脚本的输入:输入字段:输出字段字段名称:定义的字段名改成为:新的字段名类型:字段类型Replace Value:是否替换的值2.14 合并记录组件旧数据源:输入数据源新数据源:输入数据源匹配关键字段:匹配关键字段数据字段:数据字段2.15 记录关联(笛卡尔输出) 组件条件:输入关联的条件2.16 Merge Join 组件第一个步骤:第一个操作的步骤第二个步骤:第二个操作的步骤步骤选择的字段:步骤关联的字段2.17 行转列组件关键字:选择表的关键字分组字段:分组的字段目标字段:选择目标在字段VALUE:值字段名称关键字值:关键字值类型:数据类型2.18 生成随机值组件名称:新生成字段名类型:随机数的类型2.19 去除重复行组件字段名称:关键字的字段忽略大小写:是否忽略大小写注意:去掉重复行需先排序2.20 插入/ 更新组件数据库连接:选择数据库目标表:选择目标表不执行任何更新:是否执行更新操作查询的关键字:关键字更新字段:选择要插入更新的字段2.21 表输入组件数据库连接:选择数据库SQL:输入SQL语句预览:数据预览获得SQL查询语句:获得SQL查询语句2.22 排序记录组件字段名称:选择排序的字段名称升序:是否升序大小写敏感:是否区分大小写2.23 XML输出组件文件名称:输出文件的名称跟路径扩展:扩展名2.24 文本文件输出组件文件名称:输出文件的名称跟路径扩展:扩展名2.25 Write to log 组件日志级别:选择日志级别字段:选择打印的字段2.26 过滤记录组件条件:输入条件发送True给的步骤:返回True的步骤发送false给的步骤:返回false的步骤2.27 JOB定时组件重复:是否重复类型:选择类型2.28 转换组件转换文件名:选择执行转换的文件指定日志文件:输出日志文件2.5 命令行运行ktr和kjb在上面的过程中,我们都是在IDE工具中,直接点击按钮进行运行文件的,但在实际中,我们需要脱离IDE,进行单独的运行,这时就必须用到命令行来运行文件了。
Kettle的使用说明
KETTLE使用说明简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle可以在/网站下载到。
注:ETL,是英文Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。
ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。
下载和安装首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。
下载网址:/projects/pentaho/files/Data%20Integration/然后,解压下载的软件压缩包:pdi-ce-5.2.0.0-209.zip,解压后会在当前目录下上传一个目录,名为data-integration。
由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。
žKettle可以在/网站下载ž 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。
运行Kettle进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat 或Kettle.exe文件。
Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:# chmod +x spoon.sh# nohup ./spoon.sh & 后台运行脚本这样就可以打开配置Kettle脚本的UI界面。
Kettle用户操作手册1(汇编)
Kettle⽤户操作⼿册1(汇编)Kettle⽤户操作⼿册1.kettle介绍1.1 什么是kettleKettle是“Kettle E.T.T.L. Envirnonment”只取⾸字母的缩写,这意味着它被设计⽤来帮助你实现你的ETTL 需要:抽取、转换、装⼊和加载数据;它的名字起源正如该项⽬的主程序员MATT所说:希望把各种数据放到⼀个壶⾥然后以⼀种指定的格式流出。
Spoon是⼀个图形⽤户界⾯,它允许你运⾏转换或者任务。
1.2 Kettle 的安装要运⾏此⼯具你必须安装 Sun 公司的JAVA 运⾏环境1.4 或者更⾼版本,相关资源你可以到⽹络上搜索JDK 进⾏下载,Kettle 的下载可以到/doc/769264091.html/取得最新版本。
1.3 运⾏SPOON下⾯是在不同的平台上运⾏Spoon 所⽀持的脚本:Spoon.bat: 在windows 平台运⾏Spoon。
Spoon.sh: 在Linux、Apple OSX、Solaris 平台运⾏Spoon。
1.4 资源库⼀个Kettle资源库可以包含那些转换信息,这意味着为了从数据库资源中加载⼀个转换就必须连接相应的资源库。
在启动SPOON的时候,可以在资源库中定义⼀个数据库连接,利⽤启动spoon时弹出的资源库对话框来定义,如图所⽰:单击加号便可新增;关于资源库的信息存储在⽂件“reposityries.xml”中,它位于你的缺省home ⽬录的隐藏⽬录“.kettle”中。
如果是windows 系统,这个路径就是c:\Documents and Settings\\.kettle。
如果你不想每次在Spoon 启动的时候都显⽰这个对话框,你可以在“编辑/选项”菜单下⾯禁⽤它。
admin ⽤户的缺省密码也是admin。
如果你创建了资源库,你可以在“资源库/编辑⽤户”菜单下⾯修改缺省密码。
1.5 定义1.5.1 转换主要⽤来完成数据的转换处理。
Kettle使用培训文档
Kettle使用-作业
说明:
表名 TRADE_ALL 字段名 Tradeid Acctno Amt Custno Custname Custid Custtype_cn Value_ 交易流水号 帐号 交易金额 客户号 客户姓名 客户证件号 客户类别(对公/对私) 交易说明(如果是对公客户发生 的交易,填写“这是一笔对公客 户发生的交易”,对私相同) 说明 关系
Kettle使用-下载&部署
Kettle可以在/网 站下载 下载kettle压缩包,因kettle为绿色软件, 解压缩到任意本地路径即可
Kettle使用-运行
进入到Kettle目录,如果Kettle部署在 windows环境下,双击运行spoon.bat文 件,出现如下界面
Kettle使用-transformation
菜单介绍
Main Tree菜单列出的是一个 transformation中基本的属性,可以 通过各个节点来查看。
DB连接 连接:显示当前transformation中的 连接 数据库连接,每一个transformation的 数据库连接都需要单独配置。 Steps:一个transformation中应用到的 环节列表 Hops:一个transformation中应用到的 节点连接列表
Kettle使用-作业
作业: 作业:
根据客户,帐户,交易表中的数据,生成对应的数 据文件,将数据文件可以导入到对应表中,并且可 以用job来调用整个流程。
成果:
1,提交对应的Kettle文件 2,Kettle流程可以正确执行,不报错 3,对应的数据文件生成并格式无误,对应表中有 数据并格式无误
Kettle使用-作业
Job entries菜单列出的是Job 中可以调用的环节列表,可 以通过鼠标拖动的方式对环 节进行添加。 每一个环节可以通过鼠标拖 动来将环节添加到主窗口中。 并可通过shift+鼠标拖动,实 现环节之间的连接。
kettle操作文档
Kettle操作文档1.Kettle介绍。
(2)2. Kettle下载。
(2)3.使用规范和注意事项。
(3)3.1.配置数据库的全局变量。
(3)3.2.文件命名规范(不要用汉字)。
(3)3.3.文件存放位置。
(3)3.4.配置启动任务文件。
(3)3.5.注意事项。
(4)4. Kettle部署使用。
(4)4.1.启动kettle。
(4)4.2.创建转换文件。
(5)4.2.1.使用标识字段实现新增数据。
(5)4.2.2.使用时间戳实现新增或修改数据。
(11)4.2.3.使用时间比较实现新增或修改数据。
(14)4.2.4.使用对某一数据值比较实现新增或修改数据。
(17)4.3.创建任务文件。
(19)4.4.命令行启动任务。
(20)1.Kettle介绍。
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。
Kettle中有两种脚本文件,transformation和job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle下载。
Kettle可以在网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。
这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。
资料网站:。
注:解压路径尽量不要有中文。
.kettle:存放kettle的一些环境变量信息,资源库的信息。
jre6:存放java运行库文件(1.6版本)。
launcher:存放启动的文件以及启动的配置信息。
lib:存放kettle的库文件。
libext:存放用到的外部库文件。
libswt:存放用到的界面库文件。
KETTLE简单使用说明文档
KETTLE简单使用说明文档1. 下载和安装要运行此工具你必须安装SUN 公司的JAVA 运行环境 1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载。
设置JAVA 运行环境变量,JAVA_HOME 和PATHKETTLE 的下载可以到/取得最新版本,下载后解压,就可以直接运行。
2.kettle主要有两部分组成,主对象树,核心对象,3.新建一个kettle文件(数据库之间做处理)1)转换右键点击新建,如图所示2) 设置数据库连接,上图DB连接右键新建(支持多库连接): 如图:3)核心对象里面有很多组件,通过拖拽来供给我们做操作,如图4)添加一个源输入,打开输入文件夹,可以看到各种输入类型,支持文件,数据库等。
如图5)这里通过数据库操作,那我们这里拖拽一个表输入组件6)双击打开,可以看到你可以选择上面连接的数据库,然后通过获取sql语句来选择你要输入的源表进行操作。
并且sql语句支持传递变量参数和占位符参数,以及多表关联sql。
如下图7)输入表已经OK,那输出表呢,那我看下输出组件。
如图8)选中两个组件,右键新建节点连接。
如下图9)双击打开表输出,选择输出的数据库,以及目标表和输入表与目标表的字段映射10)映射选择以及匹配11)点击箭头弹出启动界面,点击启动,该kettle文件即可执行数据的迁移了12)上面是一个简单的数据库转换操作。
在表输入和表输出直接可以加不同组件对数据进行筛选过滤。
通过转换文件夹下的组件。
如图转换可以处理中文乱码,字段数字的计算,值的转换,序列的生成等等脚本可以用java代码,javascript,sql脚本等等查询支持调用存储过程,两个表直接关联查询等等以上只是针对kettle工具的简单实用介绍。
KETTLE使用说明
KETTLE使用说明在本使用说明中,我们将详细介绍如何使用KETTLE完成一些常见的数据处理任务。
第一步:安装和启动KETTLE在Windows中,双击运行Spoon.bat文件来启动KETTLE。
在Linux 和Mac OS中,打开终端,进入KETTLE目录,输入"./spoon.sh"命令来启动KETTLE。
第二步:创建一个新的数据流程启动KETTLE后,您将看到一个图形化界面。
在左上角的工具栏中,有一个新建按钮,点击它来创建一个新的数据流程。
在创建数据流程时,您需要为其指定一个名称。
完成后,点击确定按钮。
第三步:添加数据源在左侧的工具箱中,您可以找到各种组件,如输入步骤、输出步骤、转换步骤等。
为了演示,我们先添加一个输入步骤。
在工具箱中,找到输入步骤,并将其拖放到主界面中。
然后,双击该步骤,在弹出的对话框中配置数据源。
在配置对话框中,您需要指定数据源的类型,如文本文件、Excel文件、数据库等。
根据不同的类型,您可能需要提供相应的连接信息。
完成配置后,点击确定按钮。
在数据流程中,您可以使用转换步骤对数据进行处理。
为了演示,我们使用一个简单的转换步骤来删除重复的数据。
在工具箱中,找到去重复步骤,并将其拖放到已添加的输入步骤的下方。
然后,双击该步骤,在弹出的对话框中配置参数。
在配置对话框中,您需要指定要去重的字段。
您可以选择多个字段以进行复合去重。
完成配置后,点击确定按钮。
第五步:添加输出在数据流程中,您也需要指定一个输出步骤来保存处理后的数据。
在工具箱中,找到输出步骤,并将其拖放到已添加的去重复步骤的下方。
然后,双击该步骤,在弹出的对话框中配置输出格式和目标文件。
在配置对话框中,您需要指定输出的格式,如文本文件、Excel文件、数据库等。
根据不同的格式,您可能需要提供相应的连接信息。
完成配置后,点击确定按钮。
第六步:保存和运行数据流程完成对数据流程的配置后,点击工具栏中的保存按钮来保存数据流程。
kettle使用教程(超详细)
01
3. 运行Kettle启动脚本(spoon.sh或 spoon.bat),启动Kettle图形化界面。
03
02
2. 配置Java环境变量,确保系统中已安装Java 并正确配置了JAVA_HOME环境变量。
04
4. 在Kettle界面中,配置数据源和数据目标 连接信息。
5. 创建ETL任务,拖拽组件进行连接和配置。
实战演练
以一个具体的数据迁移任务为例,详细介绍如 何使用Kettle实现ETL过程的自动化。
案例二:数据仓库建设实践
数据仓库概念介绍
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支 持管理决策。
Kettle在数据仓库建设中的应用
Kettle提供了丰富的数据转换和处理功能,可以方便地实现数据仓库的建模、数据抽取、 清洗和加载等任务。
它支持多种数据源和数据目标,包括关系型数据库、文 件、API等。
Kettle提供了图形化界面和易用的组件,使得用户可以方 便地进行数据集成和处理。
Kettle特点与优势
图形化界面
Kettle提供了直观的图形化界 面,使得用户可以轻松地构建 ETL任务。
灵活性
Kettle支持自定义组件和插件, 用户可以根据自己的需求进行 扩展。
03
实战演练
以一个具体的实时数据处理任务为例, 介绍如何使用Kettle设计实时数据处理 流程。
案例四:Kettle在数据挖掘中应用
数据挖掘概念介绍
01
数据挖掘是指从大量数据中提取出有用的信息和知识的
过程,包括分类、聚类、关联规则挖掘等任务。
Kettle在数据挖掘中的应用
02
Kettle提供了丰富的数据处理和转换功能,可以方便地
kettle操作步骤
目录一、Kettle简介 (1)二、Kettle的使用 (1)2.1启动kettle (1)2.2创建转换(transformation) (2)2.3表输入详解: (6)2.4插入/更新详解: (10)三、创建作业(job) (11)一、Kettle简介Kettle是一款开源纯java编写的数据抽取工具,高效稳定、绿色无需安装,可以在Window、Linux、Unix上运行。
二、Kettle的使用2.1启动kettle无需安装,直接双击pdi_kettle中的“Kettle.exe”即可;如果提示输入用户名密码,可以直接点击“没有资源库”按钮,等稍后再建立资源库;如下次打开不希望启动此欢迎页面可将“启动时显示这个对话框”前的勾选去掉2.2创建转换(transformation)1、如下图,先创建一个转换,名称默认为“转换1”,可以在保存时选择保存路径并修改其名称2、选择输入,最常用的输入是“表输入”、“文本文件输入”和“Excel输入”;直接将需要的输入拖拽到右侧的转换中3、选择输出,常用的输出有“插入/更新”、“文本文件输出”、“表输出”和“Excel Output”,同样是以拖拽的方式将选择的输出放到右侧合适的位置4、建立节点连接(hops)可以同时按着shift和鼠标左键在图形界面上拖拉,也可以同时选中需要建立连接的两个步骤右键新建连接、确定即可5、异常处理,有时候在执行某些步骤如插入、删除操作时会出错,这时候需要异常处理;一般会选择调用存储过程来记录异常定义过“错误处理”后可以进行“调用DB存储过程”所需要连的数据库、调用的存储过程、参数以及返回值的设置注意:参数的顺序必须与调用的存储过程或函数的顺序一致2.3表输入详解:至此一个简单的转换已经搭起来了,其中表输入是用来从数据库中抽取数据的,里面主要是查询数据的SQL,尽量给每个字段取别名,别名与将要插入的表中的字段名对应。
由于要读取数据库所以首先要与资源库建立连接1、如下图所示,创建资源库连接:在主对象树中双击DB连接,根据具体情况选择合适的数据库和连接方式并填写连接名、IP、端口、用户名、密码等信息2、表输入,注意事项如下图所示3、给表输入的SQL传参,可用输入中的“文本文件输入”或“生成记录”进行传参“文本文件输入”需要将参数和值写入文本文档中,然后通过浏览找到该文档并增加到选中的文件中;文本文件输入一定不要忘了获取字段另外有时候还要对内容进行设置,比如是否包含头部等下面是包含头部时文本的写法“生成记录”可直接将需要的参数作为字段填入其中,注意”限制”可理解为”字段”的重复使用次数(待确认)2.4插入/更新详解:插入/更新,顾名思义,就是用来执行插入或更新操作的,我们可以通过设置来只执行插入或执行插入和更新,由于只更新有单独的一个控件可以完成,故这个控件无此功能。
kettle使用文档
Kette目录1、输入 (2)1.1 文本输入 (2)1.2 表输入 (3)2、输出 (3)2.1 文本输出 (3)2.2)输出表 (3)3、连接 (5)3. 1 “Merge” (5)3.2 Sorted Merge (5)3.3 合并记录 (7)3.4 (8)4、转换 (10)4.1)split field to rows (10)4.2)去掉重复记录 (11)4.3 增加常量 (11)4.4 增加序列 (12)4.5 字段选择 (12)4.6)拆分字段 (13)4.7 排序记录 (14)4.8 换转列 (14)4.9)计算器 (15)4.10)值映射 (16)4.11)number range (17)5、flow (19)5.1)switch/case (19)5.2)过滤记录 (20)6、statistics (21)6.1)分组 (21)7、Uitlity (22)7.1)If field value is null (22)7.2)Null if... .. (24)8、查询 (25)8.1)Check if a column exists (25)8.2 File exists (26)8.3)Table exists (27)8.4 数据库查询 (28)8.5 数据库连接 (30)8.6 流查询 (31)9、脚本 (33)9.1) Modified Java Script Value (33)9.2)执行SQL脚本 (34)9.3 Regex Evaluation (35)1、输入1.1 文本输入:就是程序读取文本文件里边的东西,我现在用到的是自己到处去的文件。
给拉出来的文本起名文件卡里边先浏览选着自己用到的文本,点击添加,选中的文件会到“选中的文件”框里边图中的“1”就是我选中的文件之后点击“字段卡”在下边有个“”点击它会出现你导出时候的字段名称,下边有“”可以查看里边的记录1.2 表输入“编辑”就是选着数据库“获得sql查询语句”就是得到数据,下边可以预览然后会出现在你可以对语句进行编辑,去掉你不要的字段,或者加条件去掉的字段不会在导出的文件中出现,2、输出2.1 文本输出“步骤名称”是给选着的文本文件的加名字的“文件卡”中的“浏览”中是选着文本输出的地方和起名字的“字段卡”点击这个你会看见下边有“获取字段”这个是得到输出的字段的名称,默认的是全部输出2.2)输出表“步骤名称”kettle起名用的“数据库连接”是选着数据库“编辑”是修该数据库“目标表”是选着存入的表“Specify datebase fileds”挑勾它说明说上说选没说为什么“Datebase fileds卡”中点击“enter filed mapping”第一个文本框是读进来的表的字段第二个文本框是写数据库中的字段第三个是他们的对应关系在这你可以选择自己要的字段然后点add(注意数据库表的字段类型一定要一样,要不报错,你也可以选择guess ,这个是根据字段的名字去猜,如果你的字段类型不一样,报错,出现在第三个文本框中的才是写如表的字段3、连接3. 1 “Merge”“第一个步骤”选择导入的“输入表”或“输入文件”“第二个步骤”选择导入的“输入表”或“输入文件”“连接类型”是内连接外连接做连接有连接。
kettle操作文档.doc
Kettle 操作文档1.Kettle 介绍。
(2)2. Kettle 下载。
(2)3.使用规范和注意事项。
(3)3.1. 配置数据库的全局变量。
(3)3.2. 文件命名规范(不要用汉字)。
(3)3.3. 文件存放位置。
(3)3.4. 配置启动任务文件。
(3)3.5. 注意事项。
(4)4. Kettle 部署使用。
(4)4.1. 启动 kettle 。
(4)4.2. 创建转换文件。
(5)4.2.1. 使用标识字段实现新增数据。
(5)4.2.2. 使用时间戳实现新增或修改数据。
(11)4.2.3. 使用时间比较实现新增或修改数据。
(14)4.2.4. 使用对某一数据值比较实现新增或修改数据。
(17)4.3. 创建任务文件。
(19)4.4. 命令行启动任务。
(20)1.Kettle介绍。
ETL ( Extract-Transform-Load 的缩写,即数据抽取、转换、装载的过程)门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl,对于政府部工具的使用,必不可少。
Kettle 是一款国外开源的etl 工具,纯 java 编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。
Kettle 中有两种脚本文件, transformation 和 job,transformation 完成针对数据的基础转换, job 则完成整个工作流的控制。
2.Kettle下载。
Kettle 可以在网站下载 kettle 压缩包,因 kettle 为绿色软件,解压即可使用。
这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。
资料网站:。
注:解压路径尽量不要有中文。
.kettle: 存放 kettle 的一些环境变量信息,资源库的信息。
jre6:存放 java 运行库文件( 1.6 版本)。
launcher:存放启动的文件以及启动的配置信息。
Kettle插表操作说明文档V11.12
kettle插表操作说明1.配置Java环境变量安装JDK后,然后配置Java环境变量。
新建系统变量变量名:JAVA_HOME变量值:C:\Program Files\Java\jdk1.5.0_17(该目录为JDK安装的目录)编辑CLASSPATH,如果没有该变量则新建变量名:CLASSPATH变量值:%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;编辑PATH,如果没有则新建变量名:PATH变量值:.;%JAVA_HOME%\bin; (注:该变量值置于PATH前面,如果你只有一个JDK 版本,可以不用编辑PATH,如果为了区别版本,那还是配置PATH变量值)。
2.编写QueryQuery分为Query的定义、Execute、Fetch、Close四部分,其中定义和Execute部分需要根据具体需要编写和拟定,Fetch和Close部分为固定结构,只需要和Query的定义对应即可。
[详见Query示例.txt,其中以取科室字典信息为例]3.Spoon工具的使用3.1 建资源库资源库可以看做是Kettle使用和运行的环境和缓存库,Kettle的资源库可以用数据库来充当,也可以用文件夹来充当,我们这里推荐使用后者。
所以,下图中,选择第二个类型的资源库进行新建。
当然,需要首先先新建个文件夹来供其使用。
浏览选定相应的文件夹即可,ID和名称可以自定义。
3.2 新建转换3.3在转换中新建数据库连接并测试数据库连接,保证连接正确。
下一步,共享这个转换里面的数据库连接,保证其他以后新建的转换也可以共用。
3.4 在转换中新建单元实现功能在“核心对象”页签中有Kettle提供的输入输出以及其他操作单元,可以根据具体需要拖拽到转换的空白处使用。
主要的流程分为:“表输入”---[数据转换操作]---“表输出”这三大部分。
表输入和表输出需要用到我们前面建好的数据库连接,用来指明调用的哪个库哪个Query程序、以及插入哪个库的哪张表。
kettle使用方法说明文档课案
Kettle 使用方法说明文档1.安装程序解压到随意盘符,解压后点击根目录下Spoon.bat以下列图所示。
点击 cancel2.创立表到表直接抽取本实例演示的是在 Oracle 数据库 zhwater 下的 zh 用户里面表sys_user变换到当地 Oracle 数据库 orcl 下的 zw 用户下的表 sys_user。
演示过程是成立transform 将数据从 zh.sys_user抽取到 zw. sys_user 里面。
两个表构造同样。
a)成立变换进入系统后以下列图所示,双击变换。
b)创立源和目标数据库连结c)成立变换步骤点开【输入】—— >【表输入】将表输入拉到右边。
双击右边的表输入,以下列图,配置点开【输出】—— >【插入 /更新】将其拉到右边。
按住 shift 先后左键点击表输入和插入/更新的图标。
双击插入 /更新图标,点击【获得字段】和【获得和更新字段】用来查问的重点字保存主键USERID ,其余删掉。
点击确立保存,点击上方考证无错误后,点击履行,以下列图。
数据库中能够看到数据已从zh.sys_user抽取到 zw.sys_userD)保存文件保存文件的文件名不可以是中文,文件路径不可以包括中文3.创立带数据聚合的表到表抽取本实例演示的是在数据库SG186ND 下的 basic_data用户里面的两个表 sc_work_ticket 和 t_sc_work_ticket。
演示过程是成立transform 将数据从 sc_work_ticket 抽取到 t_sc_work_ticket 里面。
即模拟基础表到主题表抽取过程。
a)源数据获得变换和链接创立过程见上节说明。
将表输入 step 拉入图中双击表输入,配置源连结。
b)数据分组将【 Memory Group by】拖入图中,并按住shift 连结表输入和Memory Group by。
点开【 Memory Group by 】,将基础表中波及维度的字段加入分组内。
kettle使用说明(简版)
Kettl e使用说明简版1、文档说明本文档主要介绍我们实际应用中使用Kettle工具来开发ETL过程的相关说明,内部文档,仅供参考.2、ETL流程图3、关键操作介绍3.1创建资源库[对象位置]:登陆界面[实现功能]:配置存储相关转换、任务及相关附属信息的数据库[操作说明]:1)进入登陆界面:2)点击新建按钮,进入配置界面,填写相关信息3)填写完毕,可测试是否成功,成功后,进入如下界面,点创建或更新4)创建完毕可用资源库用户登录Kettle,默认用户名,密码:admin/admin[备注]:我们一般建立一个独立的数据库用户,专门存储Kettle相关信息,资源库就连接在这个数据库用户上3.2创建转换[对象位置]:文件〉〉新建〉〉转换[实现功能]:将库A的表A1中的数据经过一定转换,插入到库B的表B1[操作说明]:1)新建一个转换2)将“核心对象〉〉输入〉〉表输入”拖到转换设置面板3)双击“表输入”,进入脚本编辑界面:本界面可以设置数据库连接,点“新建”可以创建一个新的数据库连接,点“编辑”更改数据库连接,然后编辑好相关提取语句:4)将“核心对象〉〉输出〉〉表输出”拖到转换设置面板5)双击“表输出”,进入脚本编辑界面:本界面需要选择数据转入目标表的数据库连接,以及目标表的表名称,如果数据量比较大的话,可以设置每次提交的数据量6)将表输入和表输出连接:按住shift,鼠标从“表输入”拖到“表输出”,如图:7)该转换编辑成功,可以保存并执行测试[保存]:[执行]:8)执行成功后便可以编辑其它转换,过程类似[备注]:1)编写的SQL语句的字段别名要与数据转入的目标表的字段名称一致;2)语句最后不能有标点;3)若SQL中有参数的话,需要将“替换SQL语句中的变量”选中;4)转换前可以执行一些脚本比如:将“脚本〉〉执行SQL脚本”拖入,并连接即可,双击可编辑SQL(需要有分号,若更新库则需要提交)3.3创建任务[对象位置]:文件〉〉新建〉〉任务[实现功能]:将多个操作串行合并,形成一个整体任务,其中的操作可以是转换、任务、脚本等等[使用说明]:1)新建一个任务2)拖入几个任务对象,可以是转换、任务、脚本等,并连接,如图:3)双击相关对象进行编辑,需要选择已经建立好的转换(任务名称)名称4)所有中间步骤的对象都已设定好以后,保存任务,执行测试任务[备注]:任务中各对象执行,以前一对象成功执行为前提,若任务里,包含多个子任务,如果各任务之间相互独立,可以在子任务中拖入“success”对象,否则当母任务中某一对象执行失败,则任务停止。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kettle操作文档1.Kettle介绍。
(2)2. Kettle下载。
(2)3.使用规范和注意事项。
(3)3.1.配置数据库的全局变量。
(3)3.2.文件命名规范(不要用汉字)。
(3)3.3.文件存放位置。
(3)3.4.配置启动任务文件。
(3)3.5.注意事项。
(4)4. Kettle部署使用。
(4)4.1.启动kettle。
(4)4.2.创建转换文件。
(5)4.2.1.使用标识字段实现新增数据。
(5)4.2.2.使用时间戳实现新增或修改数据。
(11)4.2.3.使用时间比较实现新增或修改数据。
(14)4.2.4.使用对某一数据值比较实现新增或修改数据。
(17)4.3.创建任务文件。
(19)4.4.命令行启动任务。
(20)1.Kettle介绍。
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。
Kettle中有两种脚本文件,transformation和job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle下载。
Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。
这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。
资料网站:/。
注:解压路径尽量不要有中文。
.kettle:存放kettle的一些环境变量信息,资源库的信息。
jre6:存放java运行库文件(1.6版本)。
launcher:存放启动的文件以及启动的配置信息。
lib:存放kettle的库文件。
libext:存放用到的外部库文件。
libswt:存放用到的界面库文件。
plugins:存放插件文件。
resources:存放编写的转换和任务文件,以及日志和任务配置信息。
ui:存放用到的的图片和配置信息。
Kitchen.bat:任务文件执行器(命令行模式)。
Pan.bat:转换文件执行器(命令行模式)。
set-pentaho-env.bat:设置kettle运行的环境变量。
Spoon.bat:打开设计工具(界面方式)。
Spoon.ico,spoon.png:工具的图标。
start.bat:启动存放在resources目录下的任务配置文件。
说明.txt:使用的规范和注意事项。
3.使用规范和注意事项。
3.1.配置数据库的全局变量。
在.kettle目录下的kettle.properties文件配置数据库全局变量。
属性:HostName,DatabaseName,PortNumber,UserName,Password。
规则:地市名+数据库名+属性名=值,且命名时第一个单词以小写字母作为开头,后面的单词则用大写字母开头。
如:昆山的ebcmks数据库,配置如下:ksEbcmksHostName=2.2.2.7ksEbcmksDatabaseName=ebcmksksEbcmksPortNumber=1433ksEbcmksUserName=saksEbcmksPassword=powerdata在工具中使用方法为:${ksEbcmksHostName}。
3.2.文件命名规范(不要用汉字)。
转换文件用操作数据库的表名(大写中文首字母)。
任务文件用项目名。
配置启动任务文件用项目名。
日志文件用“kettlelog_项目名.log”。
3.3.文件存放位置。
文件统一放到resources目录下。
存放规则:项目名目录->(transformations目录,jobs目录),config目录,logs目录;其中transformations目录主要存放转换文件,jobs目录存放任务文件,config目录存放配置启动任务文件(需要执行的任务文件配置信息)。
如昆山:项目名目录为:ks,转换文件目录:transformations,任务文件目录:jobs,配置文件目录:config,日志文件目录:logs。
3.4.配置启动任务文件。
配置文件统一放到:项目名目录->config目录下。
文件后缀名为:bat(批处理文件)。
编写规则:Kitchen.bat -file=%cd%\resources\任务文件(从项目名目录开始)-level=日志等级-log=resources\logs\日志文件(以工具主目录为起始目录),之间用空格分割;如:Kitchen.bat -file=%cd%\resources\ks\jobs\ebcmks.kjb -level=Basic -log=resources\logs\kettlelog_ebcmks.log,其中level等级包括(Basic, Detailed, Debug, Rowlevel, Error, Nothing)。
如下:3.5.注意事项。
1):路径和文件名称不要使用中文。
2):在只进行新增操作时,如果两边的表字段数量不一样,应把“表输出”的specify database 选中。
3):启动任务只需执行主目录下的start.bat文件。
4):在任务中选择一个交换时的目录应使用相对路径,如:应把“D:\kettle\kettle4.2.0\resources\ks\transformations\T_WORKFLOW_GZLCSL.ktr”修改为:“${KETTLE_HOME}\resources\ks\transformations\T_WORKFLOW_GZLCSL.ktr”,使用${KETTLE_HOME}全局变量。
5):在表里面新增字段后,如果在别的控件(如“表输入”)中没有找到新增的字段,此时应操作菜单Tool->Database->Clear Cache,把缓存清除掉。
6):在预览数据时,如果数据量比较大的情况下可能会报错,此时应把“表输入”的“记录数量限制”修改为100,正式转换时应把值修改为0。
4.Kettle部署使用。
4.1.启动kettle。
把下载的压缩文件压缩到D盘根目录。
双击kettle4.2.0目录下的Spoon.bat文件,出现kettle欢迎界面如图1。
图1进入主界面如图2。
题24.2.创建转换文件。
4.2.1.使用标识字段实现新增数据。
如:传输人员的轨迹信息。
单击菜单项的文件->新建->转换,创建一个转换文件;保存文件名为:WZXX路径为主目录下的resources\ks\transformations\WZXX.ktr;右键选择“转换设置”,把转换名字修改为:轨迹信息;如图3.图3把左边菜单“输入”下的“表输入”,通过鼠标左键拖到主界面中,并双击“表输入”,如图4。
图4单击图4界面中的“新建”按钮,创建源数据连接信息,弹出框如图5。
Connection Name:ebcmks。
(连接库的名称)Connection Type:MS Sql Server。
(数据库类型)Host Name:通过Ctrl+Alt+Space(空格),选择ksEbcmksHostName(也可直接输入)。
(数据库的服务器IP地址)Database Name:${ksEbcmksDatabaseName}。
(数据库名称)Port Number:${ksEbcmksPortNumber}。
(数据库端口号)User Name:${ksEbcmksUserName}。
(数据库用户名)Password:${ksEbcmksPassword}。
(数据库密码)说明:使用${value}表示的value值,都是在kettle.properties文件中配置的变量名。
配置格式为:ksEbcmksDatabaseName=ebcmks。
配置好上面的信息之后,可以用“Test”按钮进行测试,如果连接成功,单击“OK”按钮。
图5在图4中的Sql面板中输入“select* from t_emop_wzxx where isNUll(flag,'0')<>'1'”可以通过“预览”按钮,查看数据,如果数据量比较大的情况下可能会报错,此时应把“表输入”的“记录数量限制”修改为100,正式转换时应把值修改为0,单击“OK”。
与“表输入”同理,把左边菜单中的“表输出”用鼠标拖到主界面中,按住Shift键,用鼠标把“表输入”与“表输出”连接起来,如图5。
图5“表输出”的功能就是往表里面新增数据,在图5中双击“表输出”,在弹出的窗口中单击“新建”按钮,创建目标数据连接信息(与源目标连接信息同理),配置信息如下,如图6:Connection Name:datacenter_ks。
Connection Type:MS Sql Server。
Host Name:通过Ctrl+Alt+Space(空格),选择ksDatacenter_ksHostName(也可直接输入)。
Database Name:${ksDatacenter_ksDatabaseName}。
Port Number:${ksDatacenter_ksPortNumber}。
User Name:${ksDatacenter_ksUserName}。
Password:${ksDatacenter_ksPassword}。
图6表输出配置信息如下(图7):数据库连接选为:datacenter_ks。
目标表选择:t_emop_wzxx。
Specify database fileds前面的勾打上。
图7单击图7中的Database fileds选项卡,如图8,单击Enter filed mapping,在弹出框中单击“猜一猜”,会把相同的字段匹配上,单击“确定”。
图8把左边菜单中的“脚本”下的“执行SQL脚本”拖到主界面中,并通过鼠标把“表输出”与“执行SQL脚本”连接起来,如图9。
图9“执行SQL脚本”的功能就是执行里面写sql语句,双击“执行SQL脚本”,配置如下信息(图10):数据库连接:ebcmks。
Sql面板中输入:update t_emop_wzxx set flag='1'where uuid='?'。
“执行每一行”前面的勾打上。
“变量替换”前面的勾打上。
参数中:选中UUID。
运行该转换文件,单击左上角的按钮启动,此时下面会显示执行结果信息,如图11。
图114.2.2.使用时间戳实现新增或修改数据。