DATASTAGE技术培训-经典收藏
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DataStage Designer常用STAGE
l Sequential file q 功能特点:适用于一般顺序文件(定长或不定长),可识别文本文件
或IBM大机ebcdic文件。
DataStage Designer常用STAGE
修改文件属性,文件名称,reject方式等
DataStage Designer常用STAGE
对每个工程的各个单元,包括库表定义、集中的转换程序 和元数据连接等对象进行分类和组织。
DataStage Client部件简介
n Director 为启动、停止和监视作业提供交互式控制。
n Administrator 在服务器端管理Datastage的工程和使用者权限的分配。
DataStage服务器
单的设置,点击对我们的JOB进行编译,就可以运行了(我们 一般在Director运行JOB)。 u Designer的主要功能编译和设计JOB,编写函数、子程序、脚 本等。
我们将在下面以一个例子介绍Designer的用法。
DataStage功能组件-- Director
双击: 编辑的JOB。
进入Director登录界面,注意选择自己想进入
n 服务器 是数据集成的主要设备。在服务器上,你可以在运行时间
内对几个并行的处理过程进行控制,以便在多个不同的数据源 和数据目标之间发送数据。服务器可以安装在NT或UNIX、 LINUX环境中,同时通过调节来有效地利用多处理器和内存的 优势。通过使用Datstage中包括的许多富有效率的功能,企业 可以缩短学习周期、简化管理过程、最大限度地开发资源,从 而缩短数据集成应用程序的开发和维护周期。
DATASTAGE技术培训
ETL简介
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、 装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂, 能够按照统一的规则集成并提高数据的价值,是负责完成数据 从数据源向目标数据仓库转化的过程,是实施数据仓库的关键 步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数 据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中 最难部分是用户需求分析和模型设计,而ETL规则设计和实施 则是工作量最大的,约占整个项目的60%~80%,这是国内外 从众多实践中得到的普遍共识。
DataStage Designer常用STAGE
l LookUp Stage 和 Join Stage的区别
LookUp Stage将数据读入到内存中,所以效率很高,但是占 用了较多的物理内存。所以当reference data比较小的时候,我 们推荐用LookUp Stage;当reference data比较大的时候,我们 推荐用Join Stage。
目前,ETL工具的典型代表有:Informatica、Datastage、 OWB、微软DTS……
2
DataStage简介
Datastage是一个ETL工具,是当今世界最全面的数据集成 产品。它可以从多个不同的业务系统中,从多个平台的数据源 中抽取数据,完成转换和清洗,装载到各种系统里面。其中每 步都可以在图形化工具里完成,同样可以灵活的被外部系统调 度,提供专门的设计工具来设计转换规则和清洗规则等,实现 了增量抽取、任务调度等多种复杂而实用的功能。
DataStage功能组件- Administrator
其他设置:
DataStage功能组件- Administrator
其他设置:
DataStage功能组件--Manager
双击:
进入Manager登录界面,注意选择自己想进
入编辑的JOB。
DataStage功能组件--Manager
第一行是菜单栏,下面是一些快捷图标,再下面的左边部 分可以管理各种资源,右边是左边文件夹下的资源列表。
DataStage Designer常用STAGE
l Constraint及Derivation的区别
q Constraint通过限定条件使符合条件的数据输出到这个output link。
q Derivation通过定义表达式来转换字段值。 q 在Constraint及Derivation中可以使用Job parameters及Stage
Manager还能够对工程进行备份,还能进行元数据导入,包 括:表结构、函数、JOB备份等。
DataStage功能组件--Manager
项目导出(备份):
DataStage功能组件--Manager
可以根据需要进行选择;可以导出单个JOB ,也可以导出整 个文件夹或者整个文件夹或者整个工程;可以导成DSX文件, 也可以导成XML文件;等等,如下图示。
DataStage功能组件- Administrator
双击:
进入Administrator登录界面
DataStage功能组件- Administrator
一般只在PROJECTS页面的PROPERTIES选项对工程的 属性进行设置:
DataStage功能组件- Administrator
如图:可以设置相关选项
l Sort Stage
q 功能说明:只能有一个输入及一个输出,按照指定的Key值进 行排列。可以选择升序还是降序,是否去除重复的数据等等。
DataStage Designer常用STAGE
Option具体说明
q Allow Duplicates :是否去除重复数据。为False时,只选取一条数据,当 Stable Sort为True时,选取第一条数据。当Sort Unility为UNIX时此选项无效 。
DataStage Designer常用STAGE
DataStage Designer常用STAGE
具体用法:
Inputs Page: q 向数据库中写数据,关键是对Properties的配置
DataStage Designer常用STAGE
l Aggregator Stage
Stage类型:Processing Stage 功能说明: 将输入的数据分组,计算各组数据的总和或者按
输出。根据不同的筛选条件,可以将数据输出到不同的 output link。
DataStage Designer常用STAGE
l Transformer Stage
功能说明:一个功能极为强大的Stage。有一个input link,多 个output link,可以将字段进行转换,也可以通过条件来指定数据 输出到那个output link。在开发过程中可以使用拖拽。
修改文件格式,比如记录结束符是什么,字段分隔符,字 符串是用什么区别等
DataStage Designer常用STAGE
输入此文件字段内容
DataStage Designer常用STAGE
l Copy Stage
功能说明:Copy Stage可以有一个输入,多个输出。它可以 在输出时改变字段的顺序,但是不能改变字段类型。
clusterKeyChange。当Sort Key Mode为Don’t Sort(Previously Sorted) 或 Don’t Sort (Previously Grouped)时,对于第一条记录该字段被设置为1,其余 的记录设置为0。 q Create Key Change Column:是否为每一条记录创建一个新的字段 KeyChange。
DataStage Designer常用STAGE
l Oracle Enterprise Stage
功能说明:从Oracle数据库中读取数据或者写数据到Oracle数据库中 通常完成的操作: q 使用INSERT或UPDATWE命令更新数据库表 q 装入数据库表 q 读取数据库表 q 从数据库表中删除行 q 在库表中直接执行查询操作 q 将库表装入内存,然后执行查询操作
Third Party Applications
Ascential Data Management Components
Ascential Data Analysis
Components
Transformer, BuildOp
Components
Third Party Components
DataStage Parallel Application Framework and Runtime System
DataStage功能组件-- Director
可以看到我们刚刚设计的JOB-test1,选中他,点击 即 可运行我们的JOB。
DataStage功能组件-- Director
在弹出的提示页面中选择在50个警告后终止JOB,点击 RUN执行。
DataStage功能组件-- Director
如果JOB的运行出现问题或者我们想查看JOB的运行情况, 我们可以点击 查看日志。或者双击该JOB,即可通过点击 NEXT,PREVIOUS查看JOB的情况。
Variables。
注意:Transformer Stage功能强大,但在运行过程 中是以牺牲速度为代价的。在只有简单的变换,拷贝等 操作时,最好用Modify Stage,Copy Stage,Filter Stage等来替换Transformer Stage。
DataStage Designer常用STAGE
DataStage功能组件--Designer
双击:
进入Designer登录界面,注意选择自己想进
入编辑的JOB。
DHale Waihona Puke taStage功能组件--Designer
u 图片的左栏,可以看到设计JOB所要使用的各种资源; u 如图的右栏,可以看到设计JOB所要使用的各种组件; u 如上图,我们设计一个简单的JOB,添加上述组件后,进行简
UNIX Operating System / Networking Parallel Hardware (SMP, Cluster, MPP)
DataStage Client端架构
DataStage Client部件简介
n Designer 通过提供“拖放”界面设计平台,以此实现在创建执行数
据集成任务“JOB”的同时,对数据流和转换过程创建一个可视 化的演示。 n Manager
DataStage Designer常用STAGE
注意:当只有一个输入及一个输出时最好将Force设置为 True,这样可以在Designer里看到运行结束,否则将无法标识 运行结束,但不会影响运行结果数据。
DataStage Designer常用STAGE
l Filter Stage 功能说明:Filter Stage只有一个输入,可以有多个
DataStage Designer常用STAGE
l LookUp Stage
功能说明:LookUp Stage把数据读入内存执行查询操作,将 匹配的字段输出,或者在在符合条件的记录中修改或加入新的字段 。
DataStage Designer常用STAGE
l Join Stage
功能说明:将多个表连接后输出
q Sort Utility:选择排序时执行应用程序,可以选择DataStage内建的命令或者 Unix的Sort命令
q Output Statistics:是否输出排序统计信息到job日志 q Stable Sort: 是否对数据进行二次整理 q Create Cluster Key Change Column:是否为每条记录创建一个新的字段:
Datastage简单的数据转换可以通过在界面上拖拉操作和调 用一些DataStage 预定义转换函数来实现,复杂转换可以通过 编写脚本或结合其他语言的扩展来实现,并且DataStage 提供 调试环境,可以极大提高开发和调试抽取、转换程序的效率。
DataStage整体架构
Ascential Applications (Data Stage Client)
DataStage功能组件- Administrator
环境变量的设置:
DataStage功能组件- Administrator
如果设置某一环境变量的值,则直接在相应的一栏中填入 值即可。如果要新增一变量,先选择面板左边的“User Defined”项,然后在右边的空白栏(一般在最下方)直接填入 变量等一系列信息。下图是自定义变量的例子: