DATASTAGE的介绍及基本操作
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DATASTAGE 介绍及基本操作
内容提要:
• 一、datastage 介绍 • 二、如何安装datastage • 三、配置datastage 工程 • 四、设计并运行datastage的job • 五、操作元数据 • 六、操作关联数据 • 七、操作约束条件及数据来源 • 八、定义查找使用的哈希文件 • 九、聚合数据 • 十、job的运行及调试 • 十一、创建Basic表达式
• 使用DataStage中的Manager来存储和管理Job的元 数据,使之可以在DataStage中的Designer中再度 被使用。
• 元数据包括表单和文件结构和导出数据的Routines 的转换等等。
• Manager是DataStage存储的一个重要的部分,可 以用来加入表单和文件的结构,在左侧分支树中显 示Routines、Transforms和Jobs。
• DS Manager
允许编辑和查看在ds中存储的内容。主要用于项目 管理或job的导入、导出、备份。
DataStage中的Administrator
默认使用Administator来指定常规的服务端,用来增加 或删除DataStage工程,并且可以设置工wk.baidu.com的属性。 Administator也对于总库提供命令接口。
本,datastage的很多版本都支持unix。
• DS Administrator
在服务端管理ds的项目和服务端操作。主要用于工 程的参数调整,变量设置,及command操作。
• DS Designer
建立ds的job并且编译执行的程序。主要用于job的 开发及编译。
• DS Director
运行和监控ds的job。主要用于job调试。
和监控job。
• 1、定义工程的属性——在Administrator中。 • 2、打开工程。 • 3、导入元数据,在job中定义格式、读入或写入——在
Manager中。 • 4、设计job——在Designer中。
a) 定义数据的抽取(读取)。 b) 定义数据流程。 c) 定义数据的集合。 d) 定义数据的转换。 e) 定义数据的约束条件。 f ) 定义数据的加载(写入)。 g) 定义数据的聚合。 • 5、编译和调试job——在Designer中。 • 6、运行和监控job——在Director中。
• Designer提供一个数据流程的模式,轻松将设置和Job的设计有 机的组成。
• 使用Designer,可以: 1、指定数据如何抽取。
• 2、指定数据的转换规则和进行转换。
• 3、使用参考性质的LookUp到数据集市中编辑数据。
• a)例如,如果销售的记录集包括CustomerID,可以在 CustomerMaster表中使用LookUp查找到Customer的名称。
一,datastage的介绍
本章主要讲解ETL的概念,datastage的 介绍、组成及主要功能。
ETL概要
ETL包括数据抽取(Extract)、数据转换( Transform)以及数据加载(Load)3个阶 段。
一般而言,这三个过程中有二次落地( 生成中间文件)。
DS介绍:
• Ascential DataStage 是一套专门对多种操作数据源 的数据抽取、转换和维护过程进行简化和自动化, 并将其输入数据集市或数据仓库目标数据库的集成 工具。
可以针对job 的运行查看运行的聚合统计情况 。
在Datastage中进行开发
• 在Administrator中定义全局的和项目属性。 • 在Datastage中的Manager里导入定义源的
元数据和目标的元数据。 • 在Datastage中的Designer中验证和编译job
。 • 在Datastage中的Director中验证、运行、
4、在‘Schedule’ 页框中, 设置调度时运行Job所用到 的用户名和口令。
5、在‘Tunables’页框中,指定Hash文件Stage的读写 的缓存大小。
在DataStage中的Administrator设置常用服务器的默认值:
1、改变Licence信息。
2、设置服务端连接超时时间。
DataStage中的Manager
Datastage的组成:
Datastage的服务器端和客户端
Datastage是C/S软件,服务器端存储所有 的ds项目和元数据,由关系型数据库(RDBMS )组成。客户端具有同服务端一样的软件接口
。
客户端运行于windows95或更高版本,服 务端可运行于windowsNT4.0或windows2000 版
使用Administator的‘Project Propertities’ 工程属性的 窗口,可以进行
1、在‘General’页框中,设置Job监控的一些限制信息 和Director中的其他信息。
2、在‘Permission’页框中,设置并分配开发人员组的 权限 。
3、在‘Tracing’ 页框中, 设置或取消服务端进行跟踪 。
• 自定义的Routines和Transforms也在DataStage中 的Manager里创建。
DataStage中的Designer
• DataStage中的Designer允许使用熟练地拖拽图标和连线的方式 来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导 入数据仓库的表单之中。
• DataStage 能够处理多种数据源的数据,包括主机 系统的大型数据库、开放系统上的关系数据库和普 通的文件系统 。包括Oracle,Sybase,DB2,SQL Server,Teradata, FTP文件系统,文本文件等等。
• 数据清洗、转换、加载都可以在图形化工具里完成 ,同样可以灵活的被外部系统调度,提供专门的设 计工具来设计转换规则和清洗规则等,实现了增量 抽取、任务调度等多种复杂而实用的功能 。
• b)当需要连接数据集市并使用查询,可以快速的进行访问。
• 4、对数据进行整合。
• 5、在定义的约束条件中将基础数据分割成为多个输出的连接。
• 在Tools菜单中可以轻松的于Director,Designer和Manager之间 切换。
DataStage中的Director
• 使用Datastage的Director可以对设计的job进 行验证、运行、任务调度和监控的工作。也
内容提要:
• 一、datastage 介绍 • 二、如何安装datastage • 三、配置datastage 工程 • 四、设计并运行datastage的job • 五、操作元数据 • 六、操作关联数据 • 七、操作约束条件及数据来源 • 八、定义查找使用的哈希文件 • 九、聚合数据 • 十、job的运行及调试 • 十一、创建Basic表达式
• 使用DataStage中的Manager来存储和管理Job的元 数据,使之可以在DataStage中的Designer中再度 被使用。
• 元数据包括表单和文件结构和导出数据的Routines 的转换等等。
• Manager是DataStage存储的一个重要的部分,可 以用来加入表单和文件的结构,在左侧分支树中显 示Routines、Transforms和Jobs。
• DS Manager
允许编辑和查看在ds中存储的内容。主要用于项目 管理或job的导入、导出、备份。
DataStage中的Administrator
默认使用Administator来指定常规的服务端,用来增加 或删除DataStage工程,并且可以设置工wk.baidu.com的属性。 Administator也对于总库提供命令接口。
本,datastage的很多版本都支持unix。
• DS Administrator
在服务端管理ds的项目和服务端操作。主要用于工 程的参数调整,变量设置,及command操作。
• DS Designer
建立ds的job并且编译执行的程序。主要用于job的 开发及编译。
• DS Director
运行和监控ds的job。主要用于job调试。
和监控job。
• 1、定义工程的属性——在Administrator中。 • 2、打开工程。 • 3、导入元数据,在job中定义格式、读入或写入——在
Manager中。 • 4、设计job——在Designer中。
a) 定义数据的抽取(读取)。 b) 定义数据流程。 c) 定义数据的集合。 d) 定义数据的转换。 e) 定义数据的约束条件。 f ) 定义数据的加载(写入)。 g) 定义数据的聚合。 • 5、编译和调试job——在Designer中。 • 6、运行和监控job——在Director中。
• Designer提供一个数据流程的模式,轻松将设置和Job的设计有 机的组成。
• 使用Designer,可以: 1、指定数据如何抽取。
• 2、指定数据的转换规则和进行转换。
• 3、使用参考性质的LookUp到数据集市中编辑数据。
• a)例如,如果销售的记录集包括CustomerID,可以在 CustomerMaster表中使用LookUp查找到Customer的名称。
一,datastage的介绍
本章主要讲解ETL的概念,datastage的 介绍、组成及主要功能。
ETL概要
ETL包括数据抽取(Extract)、数据转换( Transform)以及数据加载(Load)3个阶 段。
一般而言,这三个过程中有二次落地( 生成中间文件)。
DS介绍:
• Ascential DataStage 是一套专门对多种操作数据源 的数据抽取、转换和维护过程进行简化和自动化, 并将其输入数据集市或数据仓库目标数据库的集成 工具。
可以针对job 的运行查看运行的聚合统计情况 。
在Datastage中进行开发
• 在Administrator中定义全局的和项目属性。 • 在Datastage中的Manager里导入定义源的
元数据和目标的元数据。 • 在Datastage中的Designer中验证和编译job
。 • 在Datastage中的Director中验证、运行、
4、在‘Schedule’ 页框中, 设置调度时运行Job所用到 的用户名和口令。
5、在‘Tunables’页框中,指定Hash文件Stage的读写 的缓存大小。
在DataStage中的Administrator设置常用服务器的默认值:
1、改变Licence信息。
2、设置服务端连接超时时间。
DataStage中的Manager
Datastage的组成:
Datastage的服务器端和客户端
Datastage是C/S软件,服务器端存储所有 的ds项目和元数据,由关系型数据库(RDBMS )组成。客户端具有同服务端一样的软件接口
。
客户端运行于windows95或更高版本,服 务端可运行于windowsNT4.0或windows2000 版
使用Administator的‘Project Propertities’ 工程属性的 窗口,可以进行
1、在‘General’页框中,设置Job监控的一些限制信息 和Director中的其他信息。
2、在‘Permission’页框中,设置并分配开发人员组的 权限 。
3、在‘Tracing’ 页框中, 设置或取消服务端进行跟踪 。
• 自定义的Routines和Transforms也在DataStage中 的Manager里创建。
DataStage中的Designer
• DataStage中的Designer允许使用熟练地拖拽图标和连线的方式 来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导 入数据仓库的表单之中。
• DataStage 能够处理多种数据源的数据,包括主机 系统的大型数据库、开放系统上的关系数据库和普 通的文件系统 。包括Oracle,Sybase,DB2,SQL Server,Teradata, FTP文件系统,文本文件等等。
• 数据清洗、转换、加载都可以在图形化工具里完成 ,同样可以灵活的被外部系统调度,提供专门的设 计工具来设计转换规则和清洗规则等,实现了增量 抽取、任务调度等多种复杂而实用的功能 。
• b)当需要连接数据集市并使用查询,可以快速的进行访问。
• 4、对数据进行整合。
• 5、在定义的约束条件中将基础数据分割成为多个输出的连接。
• 在Tools菜单中可以轻松的于Director,Designer和Manager之间 切换。
DataStage中的Director
• 使用Datastage的Director可以对设计的job进 行验证、运行、任务调度和监控的工作。也