ETL数据整合与处理(Kettle)第二章 源数据获取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 单击的 按钮,展开名称为“demodbConn”的数据库,若列出【模式】【表】【视图】【同义词 (Synonyms)】等对象,则说明成功地创建了“demodbConn”数据库连接,如图所示。
16
建立共享/停止共享数据库连接
➢ 为了避免反复创建相同的数据库连接,在多 个不同的转换工程或作业任务中共用相同的 数据库,可以考虑建立共享的数据库连接。
10
设置参数
➢ 在【集群】参数设置中,勾选【使用集群】选项后,才能在【命名参数】表中设置集群参数。【分区ID】 参数是指用不同的ID名称标识各个数据库,可以是英文字母、数字、中文等字符或组合,而【主机名称】 【端口】【数据库名称】【用户】【密码】等参数的说明如前文表中所示。
11
设Fra Baidu bibliotek参数
➢ 在本机上,有两个名称分别为“demoDB”“testDB”的MySQL数据库,参考【一般】参数设置,在 【命名参数】表中,进行参数设置,结果如图所示。
18
测试和浏览数据库连接结果
源数据获取(1)
目录
1
创建数据库连接
2
表输入
3
CSV文件输入
4
Excel输入
2
任务描述
➢ 抽取数据库数据,第一步是创建数据库连接,为数据操作提供桥梁。 ➢ 为了方便抽取MySQL的“demodb”数据库中的数据表,需要创建一个数据库连接,访问“demodb”
数据库。
3
任务分析
(1) 建立数据库连接。 (2) 设置数据库连接参数。 (3) 测试和预览数据库连接。 (4) 建立共享/停止共享数据库连接。
➢ 测试成功时,将显示参数中的每一个数据 库已正确连接;若测试出错,则会提示是 哪一个数据库出错。“demoDB”和 “testDB”两个数据库均正确连接的测试 信息如图所示。
14
测试和浏览数据库连接结果
➢ 测试正确连接后,单击【浏览】按钮,弹出【数据库浏览器】对话框,如图所示。
15
测试和浏览数据库连接结果
7
设置参数
参数名称 设置
说明
表示数据库设置的参数项。连接类型、连接方式的不同,参数项就不同,以连接类型为 MySQL为例,介绍常用参数设置 使用【Native (JDBC)】连接方式的参数如下 1. 主机名称:数据库所在的计算机名称。既可以是本机,也可以是局域网和能远程访问到的
计算机,一般用IP地址表示,可以用localhost,或127.0.0.1表示本机 2. 数据库名称:要连接的数据库名称 3. 端口号:读取数据库的端口号,默认值为3306(不同的数据库使用的默认端口号不同) 4. 用户名:访问数据库的用户名称 5. 密码:访问数据库的用户密码 使用【ODBC】连接方式的参数如下 1. ODBC DSN源名称:通过ODBC访问数据的DSN源名称 2. 用户名:访问数据库的用户名 3. 密码:访问数据库的用户密码 说明:选用连接类型为OACLE时,还要输入数据表空间名称、索引表空间名称 use result streaming cursor:表示是否使用结果流游标,默认值为空
5
设置参数
➢ 单击【新建】选项,弹出创建【数据库连接】对话 框,如图所示。
➢ 数据库连接参数包含【一般】【高级】【选项】 【连接池】和【集群】5类参数。
➢ 其中,【一般】参数是必填项,多数情况只需进行 【一般】参数设置,即可完成创建数据库连接,其 他4项是可选项。
➢ 由于【高级】【选项】【连接池】绝大多数情况下 采用默认值,一般不需要再设置其参数,本小节主 要介绍【一般】参数和【集群】参数的设置。
说明
表示数据库连接的名称,不能为空,且在单个转换工程中,名称必须唯一。默认值为空
表示连接的数据库类型。类型包括Oracle、MS SQLserver、IBM DB2、InformiX、 MySQL、PostgresSQL、Sybase等,默认值为Oracle 表 示 数 据 库 连 接 方 式 。 常 用 的 有 JDBC 、 ODBC 、 JNDI 等 选 项 连 接 方 式 , 默 认 值 为 Native(JDBC)
6
设置参数
1. 【一般】参数
➢ 【一般】参数分为【连接名称】【连接类型】【连接方式】【设置】4部分参数设置。因为【连接类型】 参数设置不同,【连接方式】【设置】参数设置也会有所不同,所以必须按照【连接类型】【连接方式】 【设置】的顺序进行参数设置。【一般】参数的说明如表所示。
参数名称 连接名称 连接类型 连接方式
➢ 在建立好的【demodb数据库连接】转换工 程中,单击【主对象树】选项卡,展开【转 换】对象树,单击 按钮,展开【DB连 接】对象,右键单击“demodbConn”数 据库连接名称,弹出快捷菜单,如图所示。
17
测试和浏览数据库连接结果
➢ 单击【共享】选项,数据库连接 “demodbConn”共享成功,其他转换工程或 任务工程即可共享使用。值的注意的是,共享 后的数据库连接名称用粗体字显示,如图所示。
12
测试和浏览数据库连接结果
➢ 单击【测试】按钮,弹出数据库连接测试是 否成功的对话框,若正确,则显示正确连接 到数据库信息,如图所示;若错误,则显示 错误连接数据库的信息,需要重新设置正确 的参数。
13
测试和浏览数据库连接结果
➢ 如果使用了【集群】参数,那么【测试】 按钮,在弹出的数据库连接测试对话框中, 其显示的信息与仅设置了【一般】参数的 测试信息略有不同。
8
设置参数
➢ 在【数据库连接】对话框中,对本机的MySQL数据库demodb的连接参数进行设置,如图 2 3所示,此 时完成创建“demodbConn”数据库连接。
9
设置参数
2. 【集群】参数
➢ 集群是指单个数据库连接能够连接抽取多个数据库的数据,单击【集群】参数项,进行【集群】参数设置, 如图所示。
4
建立数据库连接
➢ 数据库连接必须在转换工程或任务工程中才能创建,使用Ctrl+N快捷键,首先创建【demodb数据库连 接】转换工程。
➢ 在【demodb数据库连接】转换工程中,单击【主对象树】选项卡,展开【转换】对象树( 按钮表示收 起状态, 按钮表示展开状态),右键单击【demodb数据库连接】下的【DB连接】对象,弹出快捷菜单, 如图所示。
16
建立共享/停止共享数据库连接
➢ 为了避免反复创建相同的数据库连接,在多 个不同的转换工程或作业任务中共用相同的 数据库,可以考虑建立共享的数据库连接。
10
设置参数
➢ 在【集群】参数设置中,勾选【使用集群】选项后,才能在【命名参数】表中设置集群参数。【分区ID】 参数是指用不同的ID名称标识各个数据库,可以是英文字母、数字、中文等字符或组合,而【主机名称】 【端口】【数据库名称】【用户】【密码】等参数的说明如前文表中所示。
11
设Fra Baidu bibliotek参数
➢ 在本机上,有两个名称分别为“demoDB”“testDB”的MySQL数据库,参考【一般】参数设置,在 【命名参数】表中,进行参数设置,结果如图所示。
18
测试和浏览数据库连接结果
源数据获取(1)
目录
1
创建数据库连接
2
表输入
3
CSV文件输入
4
Excel输入
2
任务描述
➢ 抽取数据库数据,第一步是创建数据库连接,为数据操作提供桥梁。 ➢ 为了方便抽取MySQL的“demodb”数据库中的数据表,需要创建一个数据库连接,访问“demodb”
数据库。
3
任务分析
(1) 建立数据库连接。 (2) 设置数据库连接参数。 (3) 测试和预览数据库连接。 (4) 建立共享/停止共享数据库连接。
➢ 测试成功时,将显示参数中的每一个数据 库已正确连接;若测试出错,则会提示是 哪一个数据库出错。“demoDB”和 “testDB”两个数据库均正确连接的测试 信息如图所示。
14
测试和浏览数据库连接结果
➢ 测试正确连接后,单击【浏览】按钮,弹出【数据库浏览器】对话框,如图所示。
15
测试和浏览数据库连接结果
7
设置参数
参数名称 设置
说明
表示数据库设置的参数项。连接类型、连接方式的不同,参数项就不同,以连接类型为 MySQL为例,介绍常用参数设置 使用【Native (JDBC)】连接方式的参数如下 1. 主机名称:数据库所在的计算机名称。既可以是本机,也可以是局域网和能远程访问到的
计算机,一般用IP地址表示,可以用localhost,或127.0.0.1表示本机 2. 数据库名称:要连接的数据库名称 3. 端口号:读取数据库的端口号,默认值为3306(不同的数据库使用的默认端口号不同) 4. 用户名:访问数据库的用户名称 5. 密码:访问数据库的用户密码 使用【ODBC】连接方式的参数如下 1. ODBC DSN源名称:通过ODBC访问数据的DSN源名称 2. 用户名:访问数据库的用户名 3. 密码:访问数据库的用户密码 说明:选用连接类型为OACLE时,还要输入数据表空间名称、索引表空间名称 use result streaming cursor:表示是否使用结果流游标,默认值为空
5
设置参数
➢ 单击【新建】选项,弹出创建【数据库连接】对话 框,如图所示。
➢ 数据库连接参数包含【一般】【高级】【选项】 【连接池】和【集群】5类参数。
➢ 其中,【一般】参数是必填项,多数情况只需进行 【一般】参数设置,即可完成创建数据库连接,其 他4项是可选项。
➢ 由于【高级】【选项】【连接池】绝大多数情况下 采用默认值,一般不需要再设置其参数,本小节主 要介绍【一般】参数和【集群】参数的设置。
说明
表示数据库连接的名称,不能为空,且在单个转换工程中,名称必须唯一。默认值为空
表示连接的数据库类型。类型包括Oracle、MS SQLserver、IBM DB2、InformiX、 MySQL、PostgresSQL、Sybase等,默认值为Oracle 表 示 数 据 库 连 接 方 式 。 常 用 的 有 JDBC 、 ODBC 、 JNDI 等 选 项 连 接 方 式 , 默 认 值 为 Native(JDBC)
6
设置参数
1. 【一般】参数
➢ 【一般】参数分为【连接名称】【连接类型】【连接方式】【设置】4部分参数设置。因为【连接类型】 参数设置不同,【连接方式】【设置】参数设置也会有所不同,所以必须按照【连接类型】【连接方式】 【设置】的顺序进行参数设置。【一般】参数的说明如表所示。
参数名称 连接名称 连接类型 连接方式
➢ 在建立好的【demodb数据库连接】转换工 程中,单击【主对象树】选项卡,展开【转 换】对象树,单击 按钮,展开【DB连 接】对象,右键单击“demodbConn”数 据库连接名称,弹出快捷菜单,如图所示。
17
测试和浏览数据库连接结果
➢ 单击【共享】选项,数据库连接 “demodbConn”共享成功,其他转换工程或 任务工程即可共享使用。值的注意的是,共享 后的数据库连接名称用粗体字显示,如图所示。
12
测试和浏览数据库连接结果
➢ 单击【测试】按钮,弹出数据库连接测试是 否成功的对话框,若正确,则显示正确连接 到数据库信息,如图所示;若错误,则显示 错误连接数据库的信息,需要重新设置正确 的参数。
13
测试和浏览数据库连接结果
➢ 如果使用了【集群】参数,那么【测试】 按钮,在弹出的数据库连接测试对话框中, 其显示的信息与仅设置了【一般】参数的 测试信息略有不同。
8
设置参数
➢ 在【数据库连接】对话框中,对本机的MySQL数据库demodb的连接参数进行设置,如图 2 3所示,此 时完成创建“demodbConn”数据库连接。
9
设置参数
2. 【集群】参数
➢ 集群是指单个数据库连接能够连接抽取多个数据库的数据,单击【集群】参数项,进行【集群】参数设置, 如图所示。
4
建立数据库连接
➢ 数据库连接必须在转换工程或任务工程中才能创建,使用Ctrl+N快捷键,首先创建【demodb数据库连 接】转换工程。
➢ 在【demodb数据库连接】转换工程中,单击【主对象树】选项卡,展开【转换】对象树( 按钮表示收 起状态, 按钮表示展开状态),右键单击【demodb数据库连接】下的【DB连接】对象,弹出快捷菜单, 如图所示。