新教材DATASTAGE的介绍及基本操作.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 在Windows系统中安装Datastage服务端。 • 建立一个Datastage的工程。 • 安装Datastage的客户端。
课件
Datastage 的服务端要首先安装,之后才 可以安装Datastage 客户端,服务端能都安 装在WinNT、Windows2000或者UNIX系统中, 这个模块将介绍在Windows环境下进行安装。
• 自定义的Routines和Transforms也在DataStage中的
Manager里创建。
课件
DataStage中的Designer
课件
• DataStage中的Designer允许使用熟练地拖拽图标和连线的方式
来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导 入数据仓库的表单之中。
课件
Datastage测试
• 问题一:
Datastage的Designer是用来建立和编译job、用来进行数据 的抽取、转换和加载即ETL。(Yes/No) 答案一: Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage) 拖拽到设计区域中,经过建立和编译,Job就可以执行,用 来进行数据的抽取、转换和加载。
WinXP上。
• Datastage产品的许可用于安装Datastage的
客户端。
• Datastage的操作许可只能用于安装Director
和Administrator。
课件
Datastage的客户端必须在Datastage的服 务端安装过后才可以进行安装,客户端能够 安装在Windows95、Windows98、 WindowsNT、Windows2000以及WindowsXP 操作系统上。
• 数据清洗、转换、加载都可以在图形化工具里完成,
同样可以灵活的被外部系统调度,提供专门的设计 工具来设计转换规则和清洗规则等,实现了增量抽 取、任务调度等多种复杂而实用的功能 。
课件
Datastage的组成:
Datastage的服务器端和客户端
课件
Datastage是C/S软件,服务器端存储所有 的ds项目和元数据,由关系型数据库(RDBMS) 组成。客户端具有同服务端一样的软件接口。
课件
一,datastage的介绍 本章主要讲解ETL的概念,datastage的 介绍、组成及主要功能。
课件
ETL概要
ETL包括数据抽取(Extract)、数据转换 (Transform)以及数据加载(Load)3个 阶段。
一般而言,这三个过程中有二次落地 (生成中间文件)。
课件
DS介绍:
• Ascential DataStage 是一套专门对多种操作数据源
DATASTAGE 介绍及基本操作
课件
内容提要:
• 一、datastage 介绍 • 二、如何安装datastage • 三、配置datastage 工程 • 四、设计并运行datastage的job • 五、操作元数据 • 六、操作关联数据 • 七、操作约束条件及数据来源 • 八、定义查找使用的哈希文件 • 九、聚合数据 • 十、job的运行及调试 • 十一、创建Basic表达式
这里有俩个版本的Datastage: 1,开发版本的Datastage,包含了解所有的客
户端应用程序。
2,操作员版本的Datastage只包含了需要用到 的运行和监控Job的应用程序,即Director和 Administrator。
课件
安装开发版本的Datastage,需要有Datastage开 发版的许可。
一个工程关联着一个目录,这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个 工程,即登录这个工程。
工程是自包含的很多的工程可以在同一时间被打开,在 各自单独的环境打开。可以在它们之间导入或导出项目。
多用户可以在同一时间使用一个工程中工作,但是 Datastage禁止在同一时间由多个用户访问同一个job。
系统的具体配置依赖于所要安装的 Datastage 版本,在安装盘上找到最接近的 系统需求配置。
安装Datastage 服务端需要有哪些安装盘 和服务端的许可,这个许可包含以下信息:
课件
• 1,注册号(序列号)。 • 2,工程数量。
在Datastage服务端可以建立的最大工程 数量。包括新建的工程,也包括对先前建立 的工程进行加上升级。
• 问题四:
Datastage的Administrator是用来定义全局变量和设 置工程属性的。(Yes/No) 答案四: Yes,可以在Administrator中设置工程中使用的全局 变量和必要属性,如连接数据库超时,登录者权限 等等。
课件
第二章 如何安装Datastage
下面的讲解中,将可以了解到:
• 3,到期时间。 • 4,授权代码。
在许可信息中,这个信息必须被正确输入 的。
课件
安装向导会指导通过以下步骤进行:
• 1,输入许可信息。 • 2,指定服务器的路径。 • 3,选择程序的文件夹。 • 4,创建一个新的工程或升级已经存在的工
程。
课件
安装Datastage
课件
首先安装Datastage Server端,鼠标点击 软件会自动源自文库装,安装过
• Designer提供一个数据流程的模式,轻松将设置和Job的设计有
机的组成。
• 使用Designer,可以:
1、指定数据如何抽取。
• 2、指定数据的转换规则和进行转换。 • 3、使用参考性质的LookUp到数据集市中编辑数据。 • a)例如,如果销售的记录集包括CustomerID,可以在
CustomerMaster表中使用LookUp查找到Customer的名称。
使用Administator的‘Project Propertities’ 工程属性的 窗口,可以进行
1、在‘General’页框中,设置Job监控的一些限制信息 和Director中的其他信息。
2、在‘Permission’页框中,设置并分配开发人员组的 权限 。
3、在‘Tracing’ 页框中, 设置或取消服务端进行跟踪。
在Windows2000的控制面板中打开 Datastage的控制面板,可以启动或停止全部 的Datastage服务。
点击可以启动全部的服务或者停止全部的 服务。
在安装或重新安装Datastage的时候,这 些服务一定要全部停止。
课件
安装Datastage客户端
• 在安装Datastage服务端之后。 • 可以安装在WinNT,Windows2000以及
安装操作员版本的Datastage,需要有Datastage 的Director的许可。
课件
• 安装有Datastage服务端的机器,必须运行
着。
• 需要运行Datastage的客户端。 • 打开Datastage的控制面板,来停止或启动
服务端。
• 当再次安装Datastage的时候,会停止服务
端。
课件
为了保证Datastage客户端程序的正常运 行,必须保证Datastage的服务器保持运行状 态。
课件
• 使用DataStage中的Manager来存储和管理Job的元
数据,使之可以在DataStage中的Designer中再度被 使用。
• 元数据包括表单和文件结构和导出数据的Routines
的转换等等。
• Manager是DataStage存储的一个重要的部分,可以
用来加入表单和文件的结构,在左侧分支树中显示 Routines、Transforms和Jobs。
• 5、编译和调试job——在Designer中。 • 6、运行和监控job——在Director中。
课件
Datastage的工程管理
• 所有的工作都在一个工程中。 • 在安装过后,需要建立一个工程,这是安
装必选的项目。
• 在使用它工作之前,要登录这个工程。 • 可以在工程间进行导入和导出Datastage的
4、在‘Schedule’ 页框中, 设置调度时运行Job所用到 的用户名和口令。
5、在‘Tunables’页框中,指定Hash文件Stage的读写 的缓存大小。
在DataStage中的Administrator设置常用服务器的默认值:
1、改变Licence信息。
2、设置服务端连接超时时间。课件
DataStage中的Manager
• 问题二:
Datastage的Manager用来执行编译通过的Jobs。(Yes/No) 答案二: No, Datastage的Manager是用来管理元数据的,如表单结 构,内置和自定义Routines等的,使Datastage用来管理资源 存储的。
课件
• 问题三:
Datastage的Director用来执行编译通过的Jobs。 (Yes/No) 答案三: Yes,使用Director来对编译通过的job进行验证或者 运行,也可以在jobs运行过程中对其进行监控。
客户端运行于windows95或更高版本,服 务端可运行于windowsNT4.0或windows2000 版 本,datastage的很多版本都支持unix。
课件
• DS Administrator
在服务端管理ds的项目和服务端操作。主要用于工 程的参数调整,变量设置,及command操作。
• DS Designer
项目内容。
• 多个用户可以在同一时间使用同一工程,
但是不能同时编辑同一个项目。
课件
所有的工作都在Datastage的工程里进行。在做任何事 之前,那些具有同样管理权限的人,都要先打开一个工程, 即进行登录。
在安装过程中,工程就要求创建,这是必须做的事情。 可以在安装之后,在Administrator中的Project页框中另增加 其它工程。
的数据抽取、转换和维护过程进行简化和自动化, 并将其输入数据集市或数据仓库目标数据库的集成 工具。
• DataStage 能够处理多种数据源的数据,包括主机
系统的大型数据库、开放系统上的关系数据库和普 通的文件系统 。包括Oracle,Sybase,DB2,SQL Server,Teradata, FTP文件系统,文本文件等等。
建立ds的job并且编译执行的程序。主要用于job的 开发及编译。
• DS Director
运行和监控ds的job。主要用于job调试。
• DS Manager
允许编辑和查看在ds中存储的内容。主要用于项目 管理或job的导入、导出、备份。
课件
DataStage中的Administrator
课件
默认使用Administator来指定常规的服务端,用来增加 或删除DataStage工程,并且可以设置工程的属性。 Administator也对于总库提供命令接口。
行验证、运行、任务调度和监控的工作。也 可以针对job 的运行查看运行的聚合统计情况。
课件
在Datastage中进行开发
• 在Administrator中定义全局的和项目属性。 • 在Datastage中的Manager里导入定义源的
元数据和目标的元数据。
• 在Datastage中的Designer中验证和编译job。 • 在Datastage中的Director中验证、运行、和
监控job。
课件
• 1、定义工程的属性——在Administrator中。 • 2、打开工程。 • 3、导入元数据,在job中定义格式、读入或写入——在
Manager中。
• 4、设计job——在Designer中。
a) 定义数据的抽取(读取)。 b) 定义数据流程。 c) 定义数据的集合。 d) 定义数据的转换。 e) 定义数据的约束条件。 f ) 定义数据的加载(写入)。 g) 定义数据的聚合。
程中系统提示使用者选择安装路径和输入产 品序列号。
在Datastage Server安装的过程中会提示 用户建立一个工程。
在安装Datastage Server端以后,需要安 装Datastage Client端,鼠标点击 软件会自动进行安装,安装过程中系统提示 使用者选择安装路径和输入产品序列号。
• b)当需要连接数据集市并使用查询,可以快速的进行访问。 • 4、对数据进行整合。 • 5、在定义的约束条件中将基础数据分割成为多个输出的连接。 • 在Tools菜单中可以轻松的于Director,Designer和Manager之间
切换。
课件
DataStage中的Director
课件
• 使用Datastage的Director可以对设计的job进
课件
Datastage 的服务端要首先安装,之后才 可以安装Datastage 客户端,服务端能都安 装在WinNT、Windows2000或者UNIX系统中, 这个模块将介绍在Windows环境下进行安装。
• 自定义的Routines和Transforms也在DataStage中的
Manager里创建。
课件
DataStage中的Designer
课件
• DataStage中的Designer允许使用熟练地拖拽图标和连线的方式
来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导 入数据仓库的表单之中。
课件
Datastage测试
• 问题一:
Datastage的Designer是用来建立和编译job、用来进行数据 的抽取、转换和加载即ETL。(Yes/No) 答案一: Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage) 拖拽到设计区域中,经过建立和编译,Job就可以执行,用 来进行数据的抽取、转换和加载。
WinXP上。
• Datastage产品的许可用于安装Datastage的
客户端。
• Datastage的操作许可只能用于安装Director
和Administrator。
课件
Datastage的客户端必须在Datastage的服 务端安装过后才可以进行安装,客户端能够 安装在Windows95、Windows98、 WindowsNT、Windows2000以及WindowsXP 操作系统上。
• 数据清洗、转换、加载都可以在图形化工具里完成,
同样可以灵活的被外部系统调度,提供专门的设计 工具来设计转换规则和清洗规则等,实现了增量抽 取、任务调度等多种复杂而实用的功能 。
课件
Datastage的组成:
Datastage的服务器端和客户端
课件
Datastage是C/S软件,服务器端存储所有 的ds项目和元数据,由关系型数据库(RDBMS) 组成。客户端具有同服务端一样的软件接口。
课件
一,datastage的介绍 本章主要讲解ETL的概念,datastage的 介绍、组成及主要功能。
课件
ETL概要
ETL包括数据抽取(Extract)、数据转换 (Transform)以及数据加载(Load)3个 阶段。
一般而言,这三个过程中有二次落地 (生成中间文件)。
课件
DS介绍:
• Ascential DataStage 是一套专门对多种操作数据源
DATASTAGE 介绍及基本操作
课件
内容提要:
• 一、datastage 介绍 • 二、如何安装datastage • 三、配置datastage 工程 • 四、设计并运行datastage的job • 五、操作元数据 • 六、操作关联数据 • 七、操作约束条件及数据来源 • 八、定义查找使用的哈希文件 • 九、聚合数据 • 十、job的运行及调试 • 十一、创建Basic表达式
这里有俩个版本的Datastage: 1,开发版本的Datastage,包含了解所有的客
户端应用程序。
2,操作员版本的Datastage只包含了需要用到 的运行和监控Job的应用程序,即Director和 Administrator。
课件
安装开发版本的Datastage,需要有Datastage开 发版的许可。
一个工程关联着一个目录,这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个 工程,即登录这个工程。
工程是自包含的很多的工程可以在同一时间被打开,在 各自单独的环境打开。可以在它们之间导入或导出项目。
多用户可以在同一时间使用一个工程中工作,但是 Datastage禁止在同一时间由多个用户访问同一个job。
系统的具体配置依赖于所要安装的 Datastage 版本,在安装盘上找到最接近的 系统需求配置。
安装Datastage 服务端需要有哪些安装盘 和服务端的许可,这个许可包含以下信息:
课件
• 1,注册号(序列号)。 • 2,工程数量。
在Datastage服务端可以建立的最大工程 数量。包括新建的工程,也包括对先前建立 的工程进行加上升级。
• 问题四:
Datastage的Administrator是用来定义全局变量和设 置工程属性的。(Yes/No) 答案四: Yes,可以在Administrator中设置工程中使用的全局 变量和必要属性,如连接数据库超时,登录者权限 等等。
课件
第二章 如何安装Datastage
下面的讲解中,将可以了解到:
• 3,到期时间。 • 4,授权代码。
在许可信息中,这个信息必须被正确输入 的。
课件
安装向导会指导通过以下步骤进行:
• 1,输入许可信息。 • 2,指定服务器的路径。 • 3,选择程序的文件夹。 • 4,创建一个新的工程或升级已经存在的工
程。
课件
安装Datastage
课件
首先安装Datastage Server端,鼠标点击 软件会自动源自文库装,安装过
• Designer提供一个数据流程的模式,轻松将设置和Job的设计有
机的组成。
• 使用Designer,可以:
1、指定数据如何抽取。
• 2、指定数据的转换规则和进行转换。 • 3、使用参考性质的LookUp到数据集市中编辑数据。 • a)例如,如果销售的记录集包括CustomerID,可以在
CustomerMaster表中使用LookUp查找到Customer的名称。
使用Administator的‘Project Propertities’ 工程属性的 窗口,可以进行
1、在‘General’页框中,设置Job监控的一些限制信息 和Director中的其他信息。
2、在‘Permission’页框中,设置并分配开发人员组的 权限 。
3、在‘Tracing’ 页框中, 设置或取消服务端进行跟踪。
在Windows2000的控制面板中打开 Datastage的控制面板,可以启动或停止全部 的Datastage服务。
点击可以启动全部的服务或者停止全部的 服务。
在安装或重新安装Datastage的时候,这 些服务一定要全部停止。
课件
安装Datastage客户端
• 在安装Datastage服务端之后。 • 可以安装在WinNT,Windows2000以及
安装操作员版本的Datastage,需要有Datastage 的Director的许可。
课件
• 安装有Datastage服务端的机器,必须运行
着。
• 需要运行Datastage的客户端。 • 打开Datastage的控制面板,来停止或启动
服务端。
• 当再次安装Datastage的时候,会停止服务
端。
课件
为了保证Datastage客户端程序的正常运 行,必须保证Datastage的服务器保持运行状 态。
课件
• 使用DataStage中的Manager来存储和管理Job的元
数据,使之可以在DataStage中的Designer中再度被 使用。
• 元数据包括表单和文件结构和导出数据的Routines
的转换等等。
• Manager是DataStage存储的一个重要的部分,可以
用来加入表单和文件的结构,在左侧分支树中显示 Routines、Transforms和Jobs。
• 5、编译和调试job——在Designer中。 • 6、运行和监控job——在Director中。
课件
Datastage的工程管理
• 所有的工作都在一个工程中。 • 在安装过后,需要建立一个工程,这是安
装必选的项目。
• 在使用它工作之前,要登录这个工程。 • 可以在工程间进行导入和导出Datastage的
4、在‘Schedule’ 页框中, 设置调度时运行Job所用到 的用户名和口令。
5、在‘Tunables’页框中,指定Hash文件Stage的读写 的缓存大小。
在DataStage中的Administrator设置常用服务器的默认值:
1、改变Licence信息。
2、设置服务端连接超时时间。课件
DataStage中的Manager
• 问题二:
Datastage的Manager用来执行编译通过的Jobs。(Yes/No) 答案二: No, Datastage的Manager是用来管理元数据的,如表单结 构,内置和自定义Routines等的,使Datastage用来管理资源 存储的。
课件
• 问题三:
Datastage的Director用来执行编译通过的Jobs。 (Yes/No) 答案三: Yes,使用Director来对编译通过的job进行验证或者 运行,也可以在jobs运行过程中对其进行监控。
客户端运行于windows95或更高版本,服 务端可运行于windowsNT4.0或windows2000 版 本,datastage的很多版本都支持unix。
课件
• DS Administrator
在服务端管理ds的项目和服务端操作。主要用于工 程的参数调整,变量设置,及command操作。
• DS Designer
项目内容。
• 多个用户可以在同一时间使用同一工程,
但是不能同时编辑同一个项目。
课件
所有的工作都在Datastage的工程里进行。在做任何事 之前,那些具有同样管理权限的人,都要先打开一个工程, 即进行登录。
在安装过程中,工程就要求创建,这是必须做的事情。 可以在安装之后,在Administrator中的Project页框中另增加 其它工程。
的数据抽取、转换和维护过程进行简化和自动化, 并将其输入数据集市或数据仓库目标数据库的集成 工具。
• DataStage 能够处理多种数据源的数据,包括主机
系统的大型数据库、开放系统上的关系数据库和普 通的文件系统 。包括Oracle,Sybase,DB2,SQL Server,Teradata, FTP文件系统,文本文件等等。
建立ds的job并且编译执行的程序。主要用于job的 开发及编译。
• DS Director
运行和监控ds的job。主要用于job调试。
• DS Manager
允许编辑和查看在ds中存储的内容。主要用于项目 管理或job的导入、导出、备份。
课件
DataStage中的Administrator
课件
默认使用Administator来指定常规的服务端,用来增加 或删除DataStage工程,并且可以设置工程的属性。 Administator也对于总库提供命令接口。
行验证、运行、任务调度和监控的工作。也 可以针对job 的运行查看运行的聚合统计情况。
课件
在Datastage中进行开发
• 在Administrator中定义全局的和项目属性。 • 在Datastage中的Manager里导入定义源的
元数据和目标的元数据。
• 在Datastage中的Designer中验证和编译job。 • 在Datastage中的Director中验证、运行、和
监控job。
课件
• 1、定义工程的属性——在Administrator中。 • 2、打开工程。 • 3、导入元数据,在job中定义格式、读入或写入——在
Manager中。
• 4、设计job——在Designer中。
a) 定义数据的抽取(读取)。 b) 定义数据流程。 c) 定义数据的集合。 d) 定义数据的转换。 e) 定义数据的约束条件。 f ) 定义数据的加载(写入)。 g) 定义数据的聚合。
程中系统提示使用者选择安装路径和输入产 品序列号。
在Datastage Server安装的过程中会提示 用户建立一个工程。
在安装Datastage Server端以后,需要安 装Datastage Client端,鼠标点击 软件会自动进行安装,安装过程中系统提示 使用者选择安装路径和输入产品序列号。
• b)当需要连接数据集市并使用查询,可以快速的进行访问。 • 4、对数据进行整合。 • 5、在定义的约束条件中将基础数据分割成为多个输出的连接。 • 在Tools菜单中可以轻松的于Director,Designer和Manager之间
切换。
课件
DataStage中的Director
课件
• 使用Datastage的Director可以对设计的job进