kettle操作文档
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kettle操作文档
1.Kettle介绍。 (2)
2. Kettle下载。 (2)
3.使用规范和注意事项。 (3)
3.1.配置数据库的全局变量。 (3)
3.2.文件命名规范(不要用汉字)。 (3)
3.3.文件存放位置。 (3)
3.4.配置启动任务文件。 (3)
3.5.注意事项。 (4)
4. Kettle部署使用。 (4)
4.1.启动kettle。 (4)
4.2.创建转换文件。 (5)
4.2.1.使用标识字段实现新增数据。 (5)
4.2.2.使用时间戳实现新增或修改数据。 (11)
4.2.3.使用时间比较实现新增或修改数据。 (14)
4.2.4.使用对某一数据值比较实现新增或修改数据。 (17)
4.3.创建任务文件。 (19)
4.4.命令行启动任务。 (20)
1.Kettle介绍。
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。
Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。Kettle中有两种脚本文件,transformation和job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制。
2.Kettle下载。
Kettle可以在http://2.2.2.240/bbs/网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。
资料网站:/。
注:解压路径尽量不要有中文。
.kettle:存放kettle的一些环境变量信息,资源库的信息。
jre6:存放java运行库文件(1.6版本)。
launcher:存放启动的文件以及启动的配置信息。
lib:存放kettle的库文件。
libext:存放用到的外部库文件。
libswt:存放用到的界面库文件。
plugins:存放插件文件。
resources:存放编写的转换和任务文件,以及日志和任务
配置信息。
ui:存放用到的的图片和配置信息。
Kitchen.bat:任务文件执行器(命令行模式)。
Pan.bat:转换文件执行器(命令行模式)。
set-pentaho-env.bat:设置kettle运行的环境变量。
Spoon.bat:打开设计工具(界面方式)。
Spoon.ico,spoon.png:工具的图标。
start.bat:启动存放在resources目录下的任务配置文件。
说明.txt:使用的规范和注意事项。
3.使用规范和注意事项。
3.1.配置数据库的全局变量。
在.kettle目录下的kettle.properties文件配置数据库全局变量。
属性:HostName,DatabaseName,PortNumber,UserName,Password。
规则:地市名+数据库名+属性名=值,且命名时第一个单词以小写字母作为开头,后面的单词则用大写字母开头。
如:昆山的ebcmks数据库,配置如下:
ksEbcmksHostName=2.2.2.7
ksEbcmksDatabaseName=ebcmks
ksEbcmksPortNumber=1433
ksEbcmksUserName=sa
ksEbcmksPassword=powerdata
在工具中使用方法为:${ksEbcmksHostName}。
3.2.文件命名规范(不要用汉字)。
转换文件用操作数据库的表名(大写中文首字母)。
任务文件用项目名。
配置启动任务文件用项目名。
日志文件用“kettlelog_项目名.log”。
3.3.文件存放位置。
文件统一放到resources目录下。
存放规则:项目名目录->(transformations目录,jobs目录),config目录,logs目录;
其中transformations目录主要存放转换文件,jobs目录存放任务文件,config目录存放配置启动任务文件(需要执行的任务文件配置信息)。
如昆山:项目名目录为:ks,转换文件目录:transformations,任务文件目录:jobs,配置文件目录:config,日志文件目录:logs。
3.4.配置启动任务文件。
配置文件统一放到:项目名目录->config目录下。
文件后缀名为:bat(批处理文件)。
编写规则:Kitchen.bat -file=%cd%\resources\任务文件(从项目名目录开始)-level=日志等级-log=resources\logs\日志文件(以工具主目录为起始目录),之间用空格分割;
如:Kitchen.bat -file=%cd%\resources\ks\jobs\ebcmks.kjb -level=Basic -log=resources\logs\kettlelog_ebcmks.log,
其中level等级包括(Basic, Detailed, Debug, Rowlevel, Error, Nothing)。
如下:
3.5.注意事项。
1):路径和文件名称不要使用中文。
2):在只进行新增操作时,如果两边的表字段数量不一样,应把“表输出”的specify database 选中。
3):启动任务只需执行主目录下的start.bat文件。
4):在任务中选择一个交换时的目录应使用相对路径,如:应把“D:\kettle\kettle4.2.0\resources\ks\transformations\T_WORKFLOW_GZLCSL.ktr”修改为:“${KETTLE_HOME}\resources\ks\transformations\T_WORKFLOW_GZLCSL.ktr”,使用${KETTLE_HOME}全局变量。
5):在表里面新增字段后,如果在别的控件(如“表输入”)中没有找到新增的字段,此时应操作菜单Tool->Database->Clear Cache,把缓存清除掉。
6):在预览数据时,如果数据量比较大的情况下可能会报错,
此时应把“表输入”的“记录数量限制”修改为100,正式转换时应把值修改为0。
4.Kettle部署使用。
4.1.启动kettle。
把下载的压缩文件压缩到D盘根目录。
双击kettle4.2.0目录下的Spoon.bat文件,出现kettle欢迎界面如图1。