datastage教程

合集下载

DataStage官方培训教程10

DataStage官方培训教程10

DataStage官方培训教程10DataStage是一个ETL工具,它提供了广泛的数据连接选项以及数据转换和清理功能,以帮助企业完成数据仓库构建和管理。

由于数据驱动的世界越来越重要,数据管理和ETL应用程序的需求也变得越来越迫切。

DataStage官方培训教程10涵盖了DataStage常见的任务和操作,为学习DataStage用户提供了完整的指导。

在本文中,我们将对DataStage官方培训教程10进行分析和实践,以帮助读者更好地了解和掌握DataStage。

DataStage官方培训教程10的结构和内容DataStage官方培训教程10是一本基于DataStage 11.7版本的官方培训教材。

该教材共包含15个单元,分为4个部分。

第一部分介绍了DataStage概述和安装过程,包括DataStage架构、组件、工作流程等。

第二部分介绍了DataStage的数据源定义、数据移动和数据变换。

第三部分主要介绍了DataStage的错误处理和调试,包括日志、报告、来源和目标检查等。

第四部分介绍了高级主题,如DataStage管理、性能调整、共享资源和集成JDBC驱动程序等。

DataStage官方培训教程10的学习方法和技巧DataStage官方培训教程10是一本详细的教材,需要耐心和时间来学习。

以下是一些学习方法和技巧,可以帮助读者更好地掌握DataStage。

1.按照教材结构进行学习按照各个部分和单元的结构进行学习,以便逐步深入理解每个主题。

特别是,在学习前两部分时需要仔细阅读和理解数据源定义、数据移动和数据变换的概念和操作指南,掌握其重要性和影响关系。

2.完整地跟随实例进行演示教材中提供了许多实例来示范DataStage的各个方面,读者可以用自己的DataStage环境进行实操,加深对DataStage的理解和熟练度。

值得注意的是,在学习高级主题时需要一定的实践经验和技能,否则可能会花费更多的时间和精力。

Datastage控件使用指南

Datastage控件使用指南

目录1. 引言 (1)2. 常用STAGE使用说明 (1)2.1.S EQUENTIAL F ILE S TAGE (1)2.2.A NNOTATION (4)2.3.C OLUMN E XPORT S TAGE (5)2.4.C HANGE C APTURE S TAGE (7)2.5.C OPY S TAGE (9)2.6.F ILTER S TAGE (10)2.7.F UNNEL S TAGE (11)2.8.T ANSFORMER S TAGE (12)2.9.S ORT S TAGE (13)2.10.L OOK U P S TAGE (14)2.11.J OIN S TAGE (14)2.12.M ERGE S TAGE (16)2.13.M ODIFY S TAGE (17)2.14.D ATA S ET S TAGE (18)2.15.F ILE S ET S TAGE (19)2.16.L OOKUP F ILE S ET S TAGE (21)2.17.O RACLE E NTERPRISE S TAGE (23)2.18.A GGREGATOR S TAGE (24)2.19.R EMOVE D UPLICATES S TAGE (26)2.20.C OMPRESS S TAGE (27)2.21.E XPAND S TAGE (28)2.22.D IFFERENCE S TAGE (29)2.23.C OMPARE S TAGE (31)2.24.S WITCH S TAGE (32)2.25.C OLUMN I MPORT S TAGE (33)3. DATASTAGE MANAGER使用 (35)3.1.导入导出J OB及其它组件 (35)3.2.管理配置文件 (37)4. DATASTAGE ADMINISTRATOR常用配置 (39)4.1.设置T IME O UT时间 (39)4.2.设置P ROJECT的属性 (40)4.3.更新D ATA S TAGE S ERVER的L ICENSE和本地C LIENT的L ICENSE (41)5. DATASTAGE DIRECTOR使用 (41)5.1.察看J OB的状态,运行已经编译好的J OB (41)5.2.将编译好的J OB加入计划任务 (44)5.3.监控J OB的运行情况 (45)1.引言DataStage EE的开发主要由DataStage Designer完成。

Datastager入门应用开发(详细示例)

Datastager入门应用开发(详细示例)

Datastage应用开发1 Datastage 简介Datastage包含四大部件:Administrator、Manager、Designer、Director。

1.用DataStage Administrator 新建或者删除项目,设置项目的公共属性,比如权限。

2.用DataStage Designer 连接到指定的项目上进行Job的设计;3.用DataStage Director 负责job的运行,监控等。

例如设置设计好的job的调度时间。

4.用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标:将源表中数据调度到目标表中去。

1 数据库:posuser/posuser@WHORADB , ip: 192.168.100.882 源表:a_test_from3 目标表:a_test_to两者表结构一样,代码参考:create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE);alter table A_TEST_FROMadd constraint TEST primary key (ID);4. 示例数据:insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务:打开datastage designer,连接datastage服务器1.双击桌面datastage designer图标。

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作
DATASTAGE 介绍及基本操作
内容提要:
• 一、datastage 介绍 • 二、如何安装datastage • 三、配置datastage 工程 • 四、设计并运行datastage的job • 五、操作元数据 • 六、操作关联数据 • 七、操作约束条件及数据来源 • 八、定义查找使用的哈希文件 • 九、聚合数据 • 十、job的运行及调试 • 十一、创建Basic表达式
• 使用DataStage中的Manager来存储和管理Job的元
数据,使之可以在DataStage中的Designer中再度被 使用。
• 元数据包括表单和文件结构和导出数据的Routines
的转换等等。
• Manager是DataStage存储的一个重要的部分,可以
用来加入表单和文件的结构,在左侧分支树中显示 Routines、Transforms和Jobs。
• 问题二:
Datastage的Manager用来执行编译通过的Jobs。(Yes/No)
答案二:
No, Datastage的Manager是用来管理元数据的,如表单结 构,内置和自定义Routines等的,使Datastage用来管理资源 存储的。
• 问题三:
Datastage的Director用来执行编译通过的Jobs。 (Yes/No) 答案三:
程中系统提示使用者选择安装路径和输入产 品序列号。
在Datastage Server安装的过程中会提示 用户建立一个工程。
在安装Datastage Server端以后,需要安 装Datastage Client端,鼠标点击
软件会自动进行安装,安装过程中系统提示 使用者选择安装路径和输入产品序列号。
• 安装有Datastage服务端的机器,必须运行

DataStage基础培训教程ppt课件

DataStage基础培训教程ppt课件

全局变量与Job变量
• 全局变量 -- 生命周期:整个Project -- 在Administrator中定义
• Job变量 -- 生命周期:一个Job -- 在Designer、Manager中定义
演示:定义一个Job变量 在Designer中定义参数
Meta data definition
Debug and Tuning
• View Status and Logs - status, log, detail等多种视图 - 配合Monitor来查错、调优
Job Status
• Not Compiled • Compiled • Reset • Running • Finished • Finished (with warning) • Abort
演示:生成事实表
明细表
关联
聚合
事实表
Hash File
• 用途: -- 左连接时用作副表 -- 多次被访问的数据集 -- 存储其他临时数据
• 关键点: -- 必须指定key -- output的position必须与input一致
Transformer
• 用途: -- 提供丰富的运算符和函数 -- 数据清洗、转换 -- 关联多个数据源
DataStage基础培训
Jerry 2006.03
议程
• Hello World • DataStage Components • Define Parameter & Table • Hash File、Transformer、Aggregator • Director & Monitor • Administrator & Manager • Routine & Control

DataStage系列教程(Pivot_Enterprise行列转换)

DataStage系列教程(Pivot_Enterprise行列转换)

DataStage系列教程(Pivot_Enterprise⾏列转换)有⼈提到Pivot_Enterprise这个组件,之前没有⽤过,今天捣腾了会,写下来供以后参考,如果有什么不对的,还请多指出,谢谢!Pivot_Enterprise主要⽤来进⾏⾏列转换。

1 ⽰例如下两表数据的相互转换。

2 操作在接下来的例⼦都是⽤到三个组件,源⽂件、pivot_Enterprise、⽬标⽂件,如Figure 1所⽰。

Figure 1 所⽤到的组件2.1 列转⾏即从A->B。

这⾥主要是Pivot_Enterprise的配置。

Stage选项卡中Properties选项卡的Pivot Type设置为Horizontal。

Properties中添加⼀⾏,⾃定义个列名,设置好精度等。

双击Derivation,选择需要列转⾏的列。

Figure 2 ⽔平转换Pivot设置输出映射。

选择ID和合并的那⼀列,这样最终结果就是2列了。

Figure 3 ⽔平转换结果映射2.2 ⾏转列设置与之前的类似。

执⾏的结果类似与sql中的groupby,select后⾯可以使⽤聚合函数。

如Figure 4就添加了⼀个平均值的列。

值得注意的是图中标红的位置,我们需要根据数据的情况设置Array Size的⼤⼩。

根据最开始展⽰的B的数据,我们看到ID为a的记录有3条,所以设置为3。

Figure 4 ⾏转列Pivot设置设置Array Size⼤⼩为3之后,在【输出】【映射】选项卡中,就会⾃动⽣成3列。

我们⼀⼀映射到⽬标即可。

Figure 5 垂直转换映射⾄此,⾏列转换就完成了。

本⽂链接:。

DATASTAGE使用实用指南

DATASTAGE使用实用指南

DATESTAGE 使用实用指南1.DataStage官方文档学习笔记1.1通过右键添加link鼠标右键点击起始stage,按住右键移动鼠标到目标stage。

还有一种方法就是把鼠标放在起始stage的边缘等到变为一个小圆圈里面有一个叉的时候拖动鼠标到目标stage。

1.2DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用null(ASCII 0)字符来填充剩余长度。

联系到前面做的一个parallel job,当目标是变长时(当时源也是变长,但是好像源的精度要小些),但是字符串实际的长度没有指定的变长那么长的话,系统会自动用空格(ASCII 20)来填充(具体在哪个stage 填充的不知),而且环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII 20)。

2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII 0)。

注:联系上面两点,感觉文档讲的与实际不符,难道我们项目的administrator改变了该环境变量的默认值?3 有个PadString 函数可以用来用指定的字符来填充一个变长的字符串到指定的长度。

这个函数的参数不能使固定长度字符串,如果是固定长度的先转化为变长。

1.3Copy Stage作为占位符在job开发中,当你暂时不知道该使用哪个stage时,可以使用copy stage作为占位符,注意不要把Force 属性设为True,在不把Force设为True时,复制将在运行时进行优化。

使用Schema file来指定meta data1 可以通过列定义和schema file两种方式来指定meta data,值得注意的一点是Note that, if you usea schema file, you should ensure that runtime column propagation is turned on. Otherwise the column definitions specified in the stage editor will always override any schema file.即,如果想通过schema file来指定meta data,必须勾上runtime column propagation,否则总是使用列定义来作为meta data。

datastage入门教程

datastage入门教程

DATASTAGE总结一、安装datastageA、安装服务端安装虚拟机(注册码在文件中)---解压datastage安装包redhat3__Datastage----点击解压文件中Red Hat Enterprise Linux 3---安装---在虚拟机启动---查看虚拟机IP地址,在dos窗口验证是否可以连接---打开secureCRT,连接虚拟机---进入/app/oracle/product/10.2/network/admin/tnsnames.ora中---按E键,再按i 进入编辑状态---将IP地址设为本机Ip地址,数据库实例名自己设置---按ESC、W、Q、:键退出---完成B、安装客户端解压datastage客户端安装包Datastageclient---点击解压文件datastage7.5.3\datastage client---安装---注册码在datastage7.5.1下载地址及license中----完成二、DATASTAGE主键1、transforme r(oracle----transformer---file)数据源oracle设置properties\source\readmethod=auto-generated sqlproperties\source\table=要导入的表名点击connection,出现remote server=数据库实例名,user=Scott,password=tigerColumns下将length设置合适---load---oracleI9--选定导入的表名---ok注意:若不知道导入表的格式Columns下将length设置合适---load---import---plug-in meda data definitions---oracleI9--ok---数据库实例名,用户名、密码---ok--选择Scott用户下---选表--- 导入Transformer设置:将需要显示的字段拖拽过去---ok目标文件file设置:properties下file--填入保存路径first line is columns name=trueFomat下点击record level 添加record delimiter 属性为UNIX newline点击field defaults 添加 null field value 属性为0 Quote=noneColumns下将length设置合适----ok以下主键数据源或目标文件为oracle/file的设置同上transformer的设置方法2、转存(file---transformer---file)Transformer设置:将需要显示的字段拖拽过去---ok3、导入(file---transformer---oracle)Transformer设置:将需要显示的字段拖拽过去---ok4、copy(file--copy--多file):一个输入,多个输出Copy设置:stage当只有一个输入及一个输出时最好将Force设置为TrueOutput下将需要显示的字段拖拽过去---ok5、filter(file--filter---多file):只有一个输入,可以有多个输出Filter设置:stage下properties\where clause=过滤条件--点击whereclause出现output link=slink值(在link orderingzhong看对应值) Output下将需要显示的字段拖拽过去---ok6、join(多oracle---join---file):多表连接Join设置:stage下properties\join keys\key=关联字段,options\join type=连接类型(内、全、左、右连接)Output下将需要显示的字段拖拽过去---ok7、look up(多oracle---look up--file):数据的查询Look up设置:将关联字段连接,再将需要显示的字段拖拽过去8、merge(多file---merge---file):相同数据的合并Merge设置:stage下properties\merge keys\key=字段,sort order=排序Options下unmatched masters mode=保留/删除Output下将需要显示的字段拖拽过去---ok9、funnel(多file---funnel---file):数据的合并Funnel设置:stage下properties\options\funnel type=选择合并方式Output下将需要显示的字段拖拽过去---ok10、aggregator(oracle---aggregator---file):数据的分类、汇总Aggregator设置:stage下properties\grouping keys\group=分组字段点击aggregations\aggregation type出现column for calculation=聚合字段及合方式,可以取最大值,最小值, Sum值,count值等多种聚合方式。

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作DataStage的基本操作包括设计和开发数据集成任务、管理数据集成任务的执行、监控任务的运行状态和性能等。

下面将分别介绍DataStage 的设计和开发、任务管理和监控等方面的基本操作。

1.设计和开发数据集成任务:- 创建项目:在DataStage中创建一个新的项目,并指定项目的名称和存储位置。

-创建作业流:在项目中创建一个新的作业流,并指定作业流的名称和描述。

-添加源和目标:将源数据和目标数据的连接器添加到作业流中,并配置其连接属性。

-设计转换:使用图形化工具将数据转换逻辑以节点的方式添加到作业流中。

可以使用预定义的转换函数、过滤器和聚合函数,并自定义转换规则。

-配置作业参数:为作业流设置参数,例如源数据的路径、目标数据的路径等。

-配置作业调度:定义作业流的调度规则,例如每日、每周或每月执行一次。

2.任务管理:- 启动任务:在DataStage的用户界面中选择要执行的作业流,并单击启动按钮来启动任务。

-监控任务状态:查看任务的运行状态,例如正在运行、已完成或已失败。

-管理调度:可以根据需要修改任务的调度规则,例如修改任务的执行时间或频率。

-管理依赖关系:设置任务之间的依赖关系,例如一个任务的输出作为另一个任务的输入,确保任务按照正确的顺序执行。

3.监控任务:- 实时监控:在DataStage的用户界面中查看任务的实时执行情况,包括输入/输出数据的数量、处理速度、错误记录等。

-查看日志:查看任务执行的详细日志,包括每个节点的执行情况、输入/输出数据的详细信息、转换规则的执行结果等。

-分析性能:分析任务的性能指标,例如任务的执行时间、内存使用情况、CPU利用率等,以优化任务的运行效率。

DataStage还提供了其他高级功能,例如数据质量检查、数据变化捕获和增量加载等。

此外,DataStage与其他数据集成工具和平台的集成也是可能的,例如与大数据处理框架Hadoop、数据仓库工具Teradata等的集成。

datastage入门教程

datastage入门教程

简介DataStage 使用了Client-Server 架构,服务器端存储所有的项目和元数据,客户端DataStage Designer 为整个ETL 过程提供了一个图形化的开发环境,用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。

Datastage 的可运行单元是Datastage Job ,用户在Designer 中对Datastage Job 的进行设计和开发。

Datastage 中的Job 分为Server Job, Parallel Job 和Mainframe Job ,其中Mainframe Job 专供大型机上用,常用到的Job 为Server Job 和Parallel Job 。

本文将介绍如何使用Server Job 和Parallel Job 进行ETL 开发。

Server Job一个Job 就是一个Datastage 的可运行单元。

Server Job 是最简单常用的Job 类型,它使用拖拽的方式将基本的设计单元-Stage 拖拽到工作区中,并通过连线的方式代表数据的流向。

通过Server Job,可以实现以下功能。

1.定义数据如何抽取2.定义数据流程3.定义数据的集合4.定义数据的转换5.定义数据的约束条件6.定义数据的聚载7.定义数据的写入Parallel JobServer Job 简单而强大,适合快速开发ETL 流程。

Parallel Job 与Server Job 的不同点在于其提供了并行机制,在支持多节点的情况下可以迅速提高数据处理效率。

Parallel Job 中包含更多的Stage 并用于不同的需求,每种Stage 使用上的限制也往往大于Server Job。

Sequence JobSequence Job 用于Job 之间的协同控制,使用图形化的方式来将多个Job 汇集在一起,并指定了Job 之间的执行顺序,逻辑关系和出错处理等。

数据源的连接DataStage 能够直接连接非常多的数据源,应用范围非常大,可连接的数据源包括:∙文本文件∙XML 文件∙企业应用程序,比如SAP 、PeopleSoft 、Siebel 、Oracle Application∙几乎所有的数据库系统,比如DB2 、Oracle 、SQL Server 、Sybase ASE/IQ 、Teradata 、Informix 以及可通过ODBC 连接的数据库等∙Web Services∙SAS 、WebSphere MQServer JobServer Job 中的Stage 综述Stage 是构成Datastage Job 的基本元素,在Server Job 中,Stage 可分为以下五种:1.General2.Database3.File4.Processing5.Real Time本节中将介绍如何使用Datastage 开发一个Server Job。

Datastage虚拟机配置指南

Datastage虚拟机配置指南

Datastage虚拟机配置指南Datastage配置文档由于Datastage是个C/S架构的,如下图所示:因此首先要通过本机客户端(Client)连接服务器(Server),然后再通过服务器(Server)连接数据库(Database)。

本文档主要介绍如何通过配置虚拟机的连接方式,从而连接本机客户端(Client),虚拟机上的服务器(Server)及其本机的数据库(Database)。

具体方式如下:1.打开VMware Workstation,依次点击File ->Open。

2.找到服务器虚拟机存放路径,并打开Red Hat Enterprise Linux 4.vmx(或者直接进入Red Hat 4文件夹,双击打开Red Hat Enterprise Linux 4.vmx)。

3.启动服务器虚拟机,点击红圈所示。

4.对弹出的对话框全部点OK。

5.等待服务器虚拟机启动完毕,使用Username:dsadm及其Password:dsadm登录。

6.修改虚拟机连接方式为NAT,依次点击VMware Workstation 右下角的网络连接设置(图中红圈所示)-> Setting并在弹出的对话框中选择NAT,然后点击OK。

7.打开虚拟机的网卡配置。

在虚拟机中依次点击左上角的Applications -> SystemTools -> Network Device Control.8.然后选择Configure。

此时会提示输入Root密码,在这里输入:wangli,然后点OK。

9.配置网卡,选择所要配置的网卡,然后点击Edit。

10.设置虚拟机IP。

Address: 192.168.92.X(和Dafault gateway address 相对应。

X可以随便写,范围2-253),Subnet mask:255.255.255.0Dafault gateway address:192.168.92.1(注意,此处填写的是本机中虚拟网卡VMnet8的IP地址,比如说我的机器为192.168.92.1。

DataStage8.5安装手册

DataStage8.5安装手册

DataStage8.5安装手册DataStage 8.5 安装文档 1. 服务器安装前提要求,DataStage 的服务器推荐使用一台全新的干净服务器,全新安装的 SUSE Linux Enterprise Server 11,或者 Redhat AS 5.4,没有预装任何 DB2 和 WAS 软件。

rpm -Uvh compat-libstdc++-33-*.rpm rpm -Uvh libXp-1*.rpm rpm -Uvh libXmu-1.0.2-5.x86_64.rpm rpm -Uvh libXmu-1.0.2-5.i386.rpm cat "Add for DataStage" cat "kernel.sem = 250 256000 32 1024" >> /etc/sysctl.conf cat "kernel.msgmni = 1024" >> /etc/sysctl.conf sysctl -p安装步骤如下:DataStage 8.5 的安装介质为InfoSvr_v8.5_Linux64.tar.gz,解压后得到目录 is-suite。

在is-suite 下执行./setup,安装程序将启动一个Web 服务,URL 为 http://机器 IP:8080/ISInstall在浏览器(IE 或者 Fixforx)中打开上述 URL,例如,待安装的服务器IP 为192.168.5.170,则在浏览器栏输入http://192.168.5.170:8080/ISInstall。

缺省安装界面语言为英文(English),也可以选择中文。

本文档以英文为安装语言。

进入安装界面后,第一个界面选择 Next 按钮。

第二个界面如下图所示选择接受License 协议(I accept the terms in the license agreement),然后下一步(Next)。

DataStage开发指南

DataStage开发指南

DataStage开发指南DataStage开发指南DataStage EE开发指南目录目录 ..................................................................... . (I)1. 引言 ..................................................................... .........................................................................1 1.1 编写目的 ..................................................................... ............................................................ 1 1.2 帮助使用 ..................................................................... ............................................................ 1 2. 产品概述 ..................................................................... .................................................................. 2 3. 常规应用 ..................................................................... .................................................................. 3 3.1 常用组件使用方法 ..................................................................... ............................................. 3 3.1.1 Sequentialfile ................................................................... ................................................. 3 3.1.2Annotation ............................................................. ............................................................ 7 3.1.3 Change CaptureStage .................................................................. ...................................... 8 3.1.4 CopyStage .................................................................. .................................................... 10 3.1.5 Filter Stage .................................................................. .................................................... 11 3.1.6 Funnel Stage .................................................................. .................................................. 12 3.1.7 Tansformer Stage .................................................................. ........................................... 13 3.1.8 SortStage .................................................................. ...................................................... 14 3.1.9 LookUp Stage .................................................................. ................................................ 15 3.1.10 JoinStage .................................................................. .................................................... 16 3.1.11 LookUp Stage 和 Join Stage的区别...................................................................... ........ 17 3.1.12 MergeStage .................................................................. ................................................. 18 3.1.13 Modify Stage .................................................................. ............................................... 19 3.1.14 Data Set Stage .................................................................. .............................................. 20 3.1.15 File SetStage .................................................................. ............................................... 22 3.1.16 Lookup File SetStage .................................................................. .................................. 23 3.1.17 Oracle EnterpriseStage .................................................................. ................................ 26 3.1.18 Aggregator Stage................................................................... ......................................... 28 3.1.19 Remove Duplicates Stage .................................................................. ............................. 30 3.1.20 CompressStage .................................................................. ............................................ 31 3.1.21 ExpandStage .................................................................. ............................................... 32 3.1.22 Difference Stage............................................................................................................. 33 3.1.23 CompareStage .................................................................. ............................................. 36 3.1.24 SwitchStage .................................................................. ................................................ 37 3.1.25 Column Import Stage .................................................................. ................................... 39 3.1.26 Column ExportStage .................................................................. ................................... 41 3.1.27 Teradata EnterpriseStage .................................................................. ............................. 43 3.2 常用数据库的连接 ..................................................................... ........................................... 45 3.2.1 Informix数据库连接 ..................................................................... ................................... 45 3.2.2 Oracle数据库连接 ..................................................................... ...................................... 46 4. 高级应用 ..................................................................... ................................................................ 48 4.1 DATASTAGE BASIC接口 ..................................................................... ................................... 48 4.2 自定义STAGETYPE ................................................................... ............................................. 49 4.2.1 WrappedStage .................................................................. ............................................... 49 4.2.2 BuildStage .................................................................. .................................................... 49 4.2.3 Custom Stage .................................................................. ................................................. 49 4.3 性能调优 ..................................................................... .......................................................... 49 4.3.1 优化策略 ..................................................................... ................................................... 49 4.3.2 关键问题分析 ..................................................................... ........................................... 54 4.3.3 并行度 ..................................................................... . (54)DataStage EE开发指南4.3.4 处理建议 ..................................................................... ................................................... 55 4.3.5 其它...................................................................... .......................................................... 56 4.3.6 机器的对称性 ..................................................................... ........................................... 56 4.3.7 并行调度测试说明: .................................................................... ................................. 56 5. 开发经验技巧汇总 ..................................................................... .............. 错误~未定义书签。

datastage教程

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。

针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。

DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。

其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。

Datastage 配置操作步骤

Datastage  配置操作步骤

1部署软件环境DB服务器:22.4.8.7DB客户端:22.4.8.10,22.4.8.11,22.4.8.12,22.4.8.13DataStage主服务器:22.4.8.11DataStage备份服务器:22.4.8.13DataStage节点:22.5.8.10,22.5.8.122创建用户为每台机器创建dstage组和dsadm用户运行smit命令,启动管理界面在安装机器上创建dstage组设置ADMINISTRA TIVE USER 选项为true设置GID设为300创建用户dsadm设置主属为dstage,设置ADMINISTRA TIVE USER 选项为true;设置UID设为300;设置Primary GROUP,Group SET,ADMINISTRATIVE GROUPS:均为dstage;设置Soft FILE size [-1] (无限制)设置Hard FILE size [-1] (无限制)3修改系统参数调整每台机器的最大进程数查看用户进程最大数目:lsattr -El sys0|grep maxuproc如:修改用户进程最大数目:注意:要调整每个Datastage节点的最大进程数用root用户登陆,键入即可。

chdev -l sys0 -a maxuproc=40964DataStage安装4.1上传DataStage介质到服务器上将介质拷贝到终端上,然后ftp到22.4.8.11和22.4.8.13上,将介质放在/Ascential.media 目录下,并赋上所有权限:chmod -R 777 /Ascential.media4.2安装DataStage4.2.1进入/Ascential.media,运行sh ./install.sh –admin dsadm,中间安装过程请参考上线文档,在安装过程中创建工程ETL_ODS.4.2.2配置dsadm用户.profile环境变量,增加如下内容22.4.8.11:# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefi#ds envexport ETLPLUS_HOME=/home/dsadmexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2HOME=/home/db2inst1/sqllibexportPATH=$PATH:$DSHOME/bin:$DB2HOME/include:/home/dsadm/Ascential/DataStage/PX Engine.753.1/libexportLIBPATH=$LIBPA TH:$DSHOME/lib:$APT_ORCHHOME/lib:/home/dsadm/Ascential/Dat aStage/PXEngine.753.1/lib. $DSHOME/dsenv22.4.8.13:# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefi#ds envexport ETLPLUS_HOME=/home/dsadmexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2HOME=/home/db2inst1/sqllibexportPATH=$PATH:$DSHOME/bin:$DB2HOME/include:/home/dsadm/Ascential/DataStage/PX Engine.753.1/libexportLIBPATH=$LIBPA TH:$DSHOME/lib:$APT_ORCHHOME/lib:/home/dsadm/Ascential/Dat aStage/PXEngine.753.1/lib. $DSHOME/dsenv22.4.8.10:export DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/lib export ETLPLUS_HOME=/home/dsadm22.4.8.12:export DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/libexport ETLPLUS_HOME=/home/dsadm22.4.8.7:# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefiexport ETLPLUS_HOME=/progexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/libexport DateInfoPath=/gpfsf/DateInfoPath5配置rsh环境。

DataStage官方培训教程7

DataStage官方培训教程7
©2003 Ascential Software Corporation. All Rights Reserved Reproduction and/or Redistribution Is Prohibited.
What is a Hashed File?
A DataStage file written to the file system Most use a hashing algorithm based on key
What percentage of file capacity to create a new group
Similar to dropping a table
Which type of file to create
How large the groups will be
What percentage of file capacity to remove a group
column values Files can be cataloged in the project’s VOC file for
easy retrieval
©2003 Ascential Software Corporation. All Rights Reserved Reproduction and/or Redistribution Is Prohibited.
Hashing Algorithm
Group 1 Group 2 Group 3 Group 4 Group 5
©2003 Ascential Software Corporation. All Rights Reserved Reproduction and/or Redistribution Is Prohibited.

DataStage8.5服务器安装教程

DataStage8.5服务器安装教程

DataStage8.5服务器安装教程小燕资料铺2021-11-17目录1.文档介绍 (4)2.安装DataStage服务器 (4)2.1.操作系统补丁及其他要求 (4)2.2.Linux主机资源要求 (4)2.3.操作系统磁盘空间要求 (4)2.4.检查安装环境 (5)3.安装步骤 (5)3.1.Orace数据库的安装 (5)3.2.DataStage服务器安装 (7)4.DataStage服务器配置步骤 (26)5.配置字符集 (32)6.DataStage服务器FIXPATCH1更新步骤 (34)7.Oracle Connector配置步骤 (35)7.1.修改dsenv文件 (35)7.2.配置完成后重启DATASTAE、WAS (36)8.安装问题诊断 (37)1.文档介绍本文档内容为安装Datastage8.5的服务器内容,安装内容包括DataStage、WAS、Metadata Repository,其中元数据库安装在Oracle11g上。

2.安装DataStage服务器2.1.操作系统补丁及其他要求系统要求Rhel5.464-bit系统包Rhel5.464-bitC++编译器libgcc-4.1.2-42.el5compat-gcc-c++-7.3.2.96.122compat-libstdc++-7.3-2.96.1222.2.Linux主机资源要求安装DataStage服务器的主机资源至少为为4C、16G。

2.3.操作系统磁盘空间要求2.4.检查安装环境检查C++编译器【root用户】:运行命令:#rpm–qa|grep package_name。

逐个检查需要的补丁包是否安装。

3.安装步骤3.1.Orace数据库的安装以下操作用【root用户】1,关闭防火墙.关闭:chkconfig iptables off查看:chkconfig--list|grep iptables重启生效2,关闭selinux:vi/etc/selinux/config设置selinux=disabledvi/etc/sysconfig/selinux设置selinux=disabled重启生效。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。

针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。

DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。

其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。

2、【第二章】datastage安装配置EE 版在AIX unix 安装先决条件建立dsadm 用户使用如下命令:useradd -d /home/dsadm dsadm准备好必备文件*.tar.z解压缩文件先使用命令:gzip -d *.Z将*.Z 的文件解压缩为*.tar 的文件在使用命令:tar -xvf *.tar将*.tar 的文件解压缩为含有install.sh 的一组文件开始安装运行命令./install.sh进入图1 所示画面:图1 提示安装程序检测是否是新安装DataStage, 输入y,继续安装过程,进入图2 所示画面: 图2 所示画面提示是root 安装还是non-root 安装,输入y 进入图3 所示画面:图3 所示画面提示版权信息,输入n 进入图4 所示画面: 图4 所示画面提示版本信息,输入n 进入图5 所示画面图5 所示画面提示License Agreement, 输入y 进入图6 所示画面图6 所示画面提示选择安装文件中压缩包解压缩的临时路径,目标文件夹必须要有600M 以上的空间,默认unpack,改变输入c,输入n 则进入图7 所示画面:图7 所示画面输入DataStage licence,包括序列号,CPU 个数,有效日期,授权码等信息。

输入完成后按面:图8 所示画面提示输入RTI,SAS,IMS 相关授权码,此项为可选项,视情况输入,也可不输直接按n 进入图图9 所示画面提示输入DataStage 的安装路径,按c 可进行改动,按n 则进入图10 所示画面:图10 所示画面提示选择安装语言的种类,默认为英语,我们需要将其变换为简体中文。

输入c,然后选择5图11 所示,确认选中简体中文后,按n 进入图12 所示画面:图12 提示需要安装的插件,若安装全部,输入a,如图13 所示:在图13 所示画面上,按n, 并输入新建立的工程的名称,SGMEDWPRITP,如图14 所示画面: 在图14 所示画面上,按回车键进入图15 所示画面:在图15 所示画面上,选择新建立工程的存放路径,选择默认路径直接回车进入图16 所示画面:图16 所示画面提示建立的Project 是否是保护的,输入U 则不保护。

进入图17 所示画面:结束新建,直接输入回车,进入图18 所示画面:在图18 所示画面上,输入n 进入图19 所示画面:在图19 所示画面上提示PXEngine 的安装路径,选择默认路径,按n 进入图20 所示画面:在图20 所示画面上提示输入ORACLE 的安装路径,按n 进入图21 所示画面:在图21 所示画面上提示输入SAS 的安装路径,按n 进入图22 所示画面:在图22 所示画面上提示输入DB2 的安装路径,按n 进入图23 所示画面:在图23 所示画面上提示DataStage 的安装路径和相关信息,按n 进入图24所示画面:(系统自动安装ge 安装过程中陆续出现的。

当图35 所示画面出现时,表示DataStage 安装结束。

3、【第三章】DatastageEE版ForAIX 的基础操作前边章节已经做过相应的阐述,在aix 上安装使用的用户是 dsadm用户。

Datastage 默认安装的目录在/home/dsadm/Ascential下边 linux/unix 系统中进行datastage Server 端的所有维护基本上在用户dsadm 下边进行。

下边将会列举一下常用的维护命令在了解一些基本命令前先清除一下安装后的几个目录和文件的含义/home/dsadm/Ascential/DataStage/DSEngine/bin 是datastage 的常用维护命令和系统运行所需的一些命令/home/dsadm/Ascential/DataStage/DSEngine 存放着user 和系统注册的一些信息/home/dsadm/Ascential/DataStage/projects 系统默认创建注册的开发工程几个Datastage 重要文件含义1.Dsenv :datastage 运行的环境配置下边给出一个dsenv 的例子其中含有配置连接 Oracle db2,sap 部分使用su – dsadm 可以切换到该用户下边进行一些维护调试工作。

Uv – admin start 是启动ee 服务Uv – admin stop 停止服务4、【第四章】我的第一个Server Job工程DataStage Designer 是整个的开发环境其中按照新建的JOB 不同。

内置Stage 组件也不同Job 类型分为a) New Job Sequence :Job工作序b) New MainFrame job:主应用 Jobc) New Parallel Job 并行执行jobd) New Parallel Shared Container 并行共享容器e) New Server Job 标准server Jobf) New Server Shared Container server 共享容器从ODBC Stage 名字上来看。

顾名思义就是使用odbc 数据管道为数据源的stage 只要是存在odbc 驱动的数据源以及aim 都可以进行连接给出一个最简单的例子看一下soruce 跟aim 源是如何设置设置好后可以进行字段的导入了转换到outputs 页上GeneralColumnsSelectionView SqlTransaction Handing首先设置General 作为数据源的表名字如果在字段列表中没有使用到的字段列表需要通过下列方式导出红线标出的即时导出要使用的表使用Load 功能把字段导入近来,注意:此处一个小技巧。

在进行多 job 开发式时如果只是使用Load 功能把字段连接上,但是在前边设置的数据源连接可能出现问题。

最好的方式使用view Data 功能显示一下数据。

在建立了多个job 后如果出现设置错误问题。

可能出现莫名其妙的问题。

这样方便调试最后一页的设置方法是同样的:主要是事物的设置,在多Job工作在同一个数据源上或者似乎table 上时必须选择目标stage 也是使用同样的设置方式设置完成后进行对交换的字段进行设置上图体现的部分就DSink21 是数据源的字段列表DSLink22 是目标的字段列表如果源字段与目标字段相同就可以直接使用自动匹配连接,反之使用手工连接连接好以后直接确定,确定后就基本上完成了,可以进行编译脚本文件。

如果编译没有错误。

如下图所示可以运行至此察看日志,这个job 基本运行完毕5、【第五章】DataStage 程序介绍安装完毕datastage,会在系统注册三个系统进程服务,可以在控制面板中看到一组控制服务datastage Control panel 管理器。

也可以在我电脑右键管理中,系统服务看到这三个服务1. datastage Engine Resourece Sever2. Datastage Telnet Service3. DSRPC ServiceDataStage Administrator用来执行管理任务,如建立DataStage 用户、建立和删除工程并且建立清洗标准。

注意:在Host system 中填写datastage server 安装的计算机。

如果是本地请使用localhost,如果使用127.0.0.1 需要在datastage 安装目录配置文件+影射关系连接datastage 版本7.5ee版以下的datastage Administrator 说明以7.5ee 版进行输入用户名密码后登陆的界面如下在该tab 上有三页:1。

General :进行版本NLS、Inactivity timeout do not timeout 三个选项的设置2. projects :第二页是工程部分的设置。

此部分是重点,跟该工程相关所有设置都在此处进行3.Licensing5.2【第五章第二节】DataStage Director这个是 datastage directory 的登陆界面Datastage directory 是一个job 的管理、调试log 追踪的综合管理工具上图是dat astagedirectory 的管理登陆界面上图看到的是登陆以后的情况。

显而易见左边是datastage directory 的综合工程目录层次显示。

右边是该详细的显示一些job 的运行时信息其中用的最多的是菜单中的job 和tool 2 个菜单中的内容Datastage director 的详细使用会在后变项目中做详细介绍5.3【第五章第三节】DataStage DesignerDataStage Stage 介绍DataStage Design 环境介绍(Server Job 部分)DataStage Designer 是整个的开发环境其中按照新建的JOB 不同。

相关文档
最新文档