DataStage常见的开发工作

合集下载

DataStage BASIC 语言开发实践

DataStage BASIC 语言开发实践

本文着重介绍了如何使用 DataStage BASIC 语言开发一个用户自定义的功能函数,并且以一个完整的 Server Job 实例为读者讲解在 Transformer Stage 中如何使用内置的和自定义的函数来转化数据。

文章的最后介绍了如何重用自定义的功能函数。

读者定位为具有一定 DataStage 使用经验的开发人员。

DataStage 概述IBM WebSphere DataStage是一个图形化的进行数据整合的开发环境,可以用来实现数据抽取,转化,净化,加载到目标数据库或者数据仓库中, 即ETL过程(Extract, Transform, Cleansing, Load)。

DataStage使用Stage实现对数据的操作。

在整个操作数据的过程中,需要创建从不同的数据源抽取数据的Stage,以及用来转化和净化数据的Stage,还需要一些Stage将数据加载到目标数据库中,一个ETL job就是一些被连线连接在一起的Stages,数据则是从一个Stage 流向下一个Stage。

关于DataStage的基本使用方法,读者可以参考发表在developWorks中国网站上的《用 IBM WebSphere DataStage 进行数据整合》系列文章。

回页首Transformer Stage 介绍在数据整合的整个过程中,很重要的一步就是对抽取数据的格式或者内容进行必要的转化。

用户可以在Transformer Stage中,对传入的数据进行任何必要的处理,再把处理好的数据传给下一个Stage。

图1就是一个正在被编辑的Transformer Stage,窗口的上半部分显示了输入与输出的字段之间的对应关系,其中DSLink13是输入的连线名称,DSLink4是输出的连线名称。

而窗口下半部分详细说明了每一个输入或者输出字段的定义。

图1.一个Transformer Stage的实例如果仅仅是把输入与输出的字段对应起来,那并不能体现出Transformer Stage 的作用。

DATASTAGE----DATASTAGE经验积累

DATASTAGE----DATASTAGE经验积累

DATASTAGE——一DATASTAGE经验积累一、JOB的分类与作用1、Server JOB:最为常用的Job类型,Job可以组合使用,Server Job是Job的最小单位。

原文档:If you have the Web Services pack installed an additional check box, Web Service Enabled, appears. Select it to indicate the job can be made available as a web service.2、Parallel JOB:3、Mainframe JOB:运行于大型机的JOB。

4、JOB Sequences:Job Sequence主要用于Job间的协作工作控制,如各Job的实行流程,出错处理,文件监控等。

二、jobstatus的用法jobstatus-jobstatus waits for the job to complete, then returns an exit code derived from the job status.命令格式为:dsjob –run[ –mode [ NORMAL | RESET | VALIDATE ] ][ –param name=value ][ –warn n ][ –rows n ][ –wait ][ –stop ][ –jobstatus][–userstatus][-local]project job三、判断NULL值 实例STAGE :JOIN STAGE设置:LEFT JOIN左输入语句:SELECT * FROM PMP_Insured_Amount右输入语句:SELECT COL_ID,TAB_NAME,WORK_DATE,REF_COLUMN1 AS UNIQUE_ID_IN_SRC_SYS,REF_COLUMN2,ROW_ID,HASHCODE AS B_HASHCODE,ANCHOR_ID,PARTITION_KEY,IS_DUPLICATED,'A' AS MARK --用以判断结果集右边是否为空FROM ETL_FOR_INC_TMP2SQL语句:SELECT A.*,B.*FROM PMP_Insured_Amount ALEFT JOIN ETL_FRO_INC_TMP2 BON A.UNIQUE_ID_IN_SRC_SYS = B.UNIQUE_ID_IN_SRC_SYS 功能:判断来自A表的所有记录,哪些能够B表关联,哪些不能与B表关联。

DataStage官方培训教程10

DataStage官方培训教程10

DataStage官方培训教程10DataStage是一个ETL工具,它提供了广泛的数据连接选项以及数据转换和清理功能,以帮助企业完成数据仓库构建和管理。

由于数据驱动的世界越来越重要,数据管理和ETL应用程序的需求也变得越来越迫切。

DataStage官方培训教程10涵盖了DataStage常见的任务和操作,为学习DataStage用户提供了完整的指导。

在本文中,我们将对DataStage官方培训教程10进行分析和实践,以帮助读者更好地了解和掌握DataStage。

DataStage官方培训教程10的结构和内容DataStage官方培训教程10是一本基于DataStage 11.7版本的官方培训教材。

该教材共包含15个单元,分为4个部分。

第一部分介绍了DataStage概述和安装过程,包括DataStage架构、组件、工作流程等。

第二部分介绍了DataStage的数据源定义、数据移动和数据变换。

第三部分主要介绍了DataStage的错误处理和调试,包括日志、报告、来源和目标检查等。

第四部分介绍了高级主题,如DataStage管理、性能调整、共享资源和集成JDBC驱动程序等。

DataStage官方培训教程10的学习方法和技巧DataStage官方培训教程10是一本详细的教材,需要耐心和时间来学习。

以下是一些学习方法和技巧,可以帮助读者更好地掌握DataStage。

1.按照教材结构进行学习按照各个部分和单元的结构进行学习,以便逐步深入理解每个主题。

特别是,在学习前两部分时需要仔细阅读和理解数据源定义、数据移动和数据变换的概念和操作指南,掌握其重要性和影响关系。

2.完整地跟随实例进行演示教材中提供了许多实例来示范DataStage的各个方面,读者可以用自己的DataStage环境进行实操,加深对DataStage的理解和熟练度。

值得注意的是,在学习高级主题时需要一定的实践经验和技能,否则可能会花费更多的时间和精力。

Datastager入门应用开发(详细示例)

Datastager入门应用开发(详细示例)

Datastage应用开发1 Datastage 简介Datastage包含四大部件:Administrator、Manager、Designer、Director。

1.用DataStage Administrator 新建或者删除项目,设置项目的公共属性,比如权限。

2.用DataStage Designer 连接到指定的项目上进行Job的设计;3.用DataStage Director 负责job的运行,监控等。

例如设置设计好的job的调度时间。

4.用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标:将源表中数据调度到目标表中去。

1 数据库:posuser/posuser@WHORADB , ip: 192.168.100.882 源表:a_test_from3 目标表:a_test_to两者表结构一样,代码参考:create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE);alter table A_TEST_FROMadd constraint TEST primary key (ID);4. 示例数据:insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务:打开datastage designer,连接datastage服务器1.双击桌面datastage designer图标。

datastage入门教程

datastage入门教程

简介DataStage 使用了Client-Server 架构,服务器端存储所有的项目和元数据,客户端DataStage Designer 为整个ETL 过程提供了一个图形化的开发环境,用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。

Datastage 的可运行单元是Datastage Job ,用户在Designer 中对Datastage Job 的进行设计和开发。

Datastage 中的Job 分为Server Job, Parallel Job 和Mainframe Job ,其中Mainframe Job 专供大型机上用,常用到的Job 为Server Job 和Parallel Job 。

本文将介绍如何使用Server Job 和Parallel Job 进行ETL 开发。

Server Job一个Job 就是一个Datastage 的可运行单元。

Server Job 是最简单常用的Job 类型,它使用拖拽的方式将基本的设计单元-Stage 拖拽到工作区中,并通过连线的方式代表数据的流向。

通过Server Job,可以实现以下功能。

1.定义数据如何抽取2.定义数据流程3.定义数据的集合4.定义数据的转换5.定义数据的约束条件6.定义数据的聚载7.定义数据的写入Parallel JobServer Job 简单而强大,适合快速开发ETL 流程。

Parallel Job 与Server Job 的不同点在于其提供了并行机制,在支持多节点的情况下可以迅速提高数据处理效率。

Parallel Job 中包含更多的Stage 并用于不同的需求,每种Stage 使用上的限制也往往大于Server Job。

Sequence JobSequence Job 用于Job 之间的协同控制,使用图形化的方式来将多个Job 汇集在一起,并指定了Job 之间的执行顺序,逻辑关系和出错处理等。

数据源的连接DataStage 能够直接连接非常多的数据源,应用范围非常大,可连接的数据源包括:•文本文件•XML 文件•企业应用程序,比如SAP 、PeopleSoft 、Siebel 、Oracle Application•几乎所有的数据库系统,比如DB2 、Oracle 、SQL Server 、Sybase ASE/IQ 、Teradata 、Informix 以及可通过ODBC 连接的数据库等•Web Services•SAS 、WebSphere MQServer JobServer Job 中的Stage 综述Stage 是构成Datastage Job 的基本元素,在Server Job 中,Stage 可分为以下五种:1.General2.Database3.File4.Processing5.Real Time本节中将介绍如何使用Datastage 开发一个Server Job。

Datastage介绍及示例

Datastage介绍及示例

Datastage介绍及示例1 Datastage 简介Datastage包含四大部件:Administrator、Manager、Designer、Director。

1.用DataStage Administrator 新建或者删除项目,设置项目的公共属性,比如权限。

2.用DataStage Designer 连接到指定的项目上进行Job的设计;3.用DataStage Director 负责job的运行,监控等。

例如设置设计好的job的调度时间。

4.用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标:将源表中数据调度到目标表中去。

1 数据库:posuser/posuser@WHORADB , ip: 192.168.100.882 源表:a_test_from3 目标表:a_test_to两者表结构一样,代码参考:create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE);alter table A_TEST_FROMadd constraint TEST primary key (ID);4. 示例数据:insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务:打开datastage designer,连接datastage服务器1.双击桌面datastage designer图标。

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作DataStage的基本操作包括设计和开发数据集成任务、管理数据集成任务的执行、监控任务的运行状态和性能等。

下面将分别介绍DataStage 的设计和开发、任务管理和监控等方面的基本操作。

1.设计和开发数据集成任务:- 创建项目:在DataStage中创建一个新的项目,并指定项目的名称和存储位置。

-创建作业流:在项目中创建一个新的作业流,并指定作业流的名称和描述。

-添加源和目标:将源数据和目标数据的连接器添加到作业流中,并配置其连接属性。

-设计转换:使用图形化工具将数据转换逻辑以节点的方式添加到作业流中。

可以使用预定义的转换函数、过滤器和聚合函数,并自定义转换规则。

-配置作业参数:为作业流设置参数,例如源数据的路径、目标数据的路径等。

-配置作业调度:定义作业流的调度规则,例如每日、每周或每月执行一次。

2.任务管理:- 启动任务:在DataStage的用户界面中选择要执行的作业流,并单击启动按钮来启动任务。

-监控任务状态:查看任务的运行状态,例如正在运行、已完成或已失败。

-管理调度:可以根据需要修改任务的调度规则,例如修改任务的执行时间或频率。

-管理依赖关系:设置任务之间的依赖关系,例如一个任务的输出作为另一个任务的输入,确保任务按照正确的顺序执行。

3.监控任务:- 实时监控:在DataStage的用户界面中查看任务的实时执行情况,包括输入/输出数据的数量、处理速度、错误记录等。

-查看日志:查看任务执行的详细日志,包括每个节点的执行情况、输入/输出数据的详细信息、转换规则的执行结果等。

-分析性能:分析任务的性能指标,例如任务的执行时间、内存使用情况、CPU利用率等,以优化任务的运行效率。

DataStage还提供了其他高级功能,例如数据质量检查、数据变化捕获和增量加载等。

此外,DataStage与其他数据集成工具和平台的集成也是可能的,例如与大数据处理框架Hadoop、数据仓库工具Teradata等的集成。

DataStage简介

DataStage简介

DataStage简单介绍:一、DataStage的特性:DataStage是在构建数据仓库过程中进行数据清洗、数据转换的一套工具。

它的工作流程如下图所示:DataStage包括设计、开发、编译、运行及管理等整套工具。

通过运用DataStage 能够对来自一个或多个不同数据源中的数据进行析取、转换,再将结果装载到一个或多个目的库中。

通过DataStage的处理,最终用户可以得到分析和决策支持所需要的及时而准确的数据及相关信息。

DataStage支持不同种类的数据源和目的库,它既可以直接从Oracle、Sybase 等各种数据库中存取数据,也可以通过ODBC接口访问各种数据库,还支持Sequential file类型的数据源。

这一特性使得多个数据源与目标的连接变得非常简单,可以在单个任务中对多个甚至是无限个数据源和目标进行连接。

DataStage自带了超过300个的预定义库函数和转换,即便是非常复杂的数据转换也可以很轻松的完成。

它的图形化设计工具可以控制任务执行而无须任何脚本。

二、DataStage的架构:DataStage采用C/S模式工作,其结构如下:DatastageServerProjectManager Designer DirectorDataStage 支持多种平台,其Server 端可运行于以下平台:Windows 2000、Windows NT 、COMPAQ Tru64、HP-UX 、IBM AIX 、Sun Solaris ;Client 端支持以下平台:Win95、Win98、Winme 、Windows NT 、Windows 2000;三、功能介绍DataStage 的Server 端由Repository 、DataStage Server 及DataStage Package Installer 三部分组成,Client 端则由DataStage Manager 、DataStage Designer 、DataStage Driect 及DataStage Administrator 四部分组成。

Datastage产品开发使用指南

Datastage产品开发使用指南

Datastage产品开发使用指南目录目录 (I)1. 引言 (1)2. 常用STAGE使用说明 (1)2.1.S EQUENTIAL F ILE S TAGE (1)2.2.A NNOTATION (4)2.3.C HANGE C APTURE S TAGE (5)2.4.C OPY S TAGE (7)2.5.F ILTER S TAGE (8)2.6.F UNNEL S TAGE (9)2.7.T ANSFORMER S TAGE (10)2.8.S ORT S TAGE (11)2.9.L OOK U P S TAGE (12)2.10.J OIN S TAGE (12)2.11.M ERGE S TAGE (14)2.12.M ODIFY S TAGE (15)2.13.D ATA S ET S TAGE (16)2.14.F ILE S ET S TAGE (17)2.15.L OOKUP F ILE S ET S TAGE (19)2.16.O RACLE E NTERPRISE S TAGE (21)2.17.A GGREGATOR S TAGE (22)2.18.R EMOVE D UPLICATES S TAGE (24)2.19.C OMPRESS S TAGE (25)2.20.E XPAND S TAGE (26)2.21.D IFFERENCE S TAGE (27)2.22.C OMPARE S TAGE (29)2.23.S WITCH S TAGE (30)2.24.C OLUMN I MPORT S TAGE (31)2.25.C OLUMN E XPORT S TAGE (33)3. DATASTAGE ADMINISTRATOR常用配置 (35)3.1.设置T IME O UT时间 (35)3.2.设置P ROJECT的属性 (36)3.3.更新D ATA S TAGE S ERVER的L ICENSE和本地C LIENT的L ICENSE (37)4. DATASTAGE MANAGER使用 (37)4.1.导入导出J OB及其它组件 (37)4.2.管理配置文件 (39)5. DATASTAGE DIRECTOR使用 (40)5.1.察看J OB的状态,运行已经编译好的J OB (40)5.2.将编译好的J OB加入计划任务 (43)5.3.监控J OB的运行情况 (44)1.引言DataStage EE的开发主要由DataStage Designer完成。

DataStage基础及开发实践

DataStage基础及开发实践

DataStage基础及开发实践InfoSphere DataStage是IBM统一数据集成平台InfoSphere Information Server(IIS) 的重要组件,是业界主流的 ETL(Extract, Transform, Load) 工具。

DataStage执行从源系统到目标系统的批量和实时的数据转换和移动,它广泛支持各种异构平台的数据源和各种类型的数据格式(结构化、半结构化和非结构化数据);通过简单易用的图形化设计方式,并内置丰富的功能组件,从而支持从简单到高度复杂的数据结构中,对大量数据进行收集、清洗、整合和转换,具有满足最苛刻的数据集成需求所需的功能性、灵活性和可伸缩性。

本课程主要介绍InfoSphere DataStage的基本架构和产品特点,并基于实战案例详细讲解DataStage 的安装、配置、开发以及最佳实践。

课程大纲:第一课 IBM数据集成与治理方案简介第二课 Infosphere Datastage 架构、安装与配置第三课 Infosphere Datastage 管理与开发部署流程第四课 Infosphere Datastage 数据连接组件使用第五课 Infosphere Datastage 数据合并、排序与聚合组件使用第六课 Infosphere Datastage 数据转换组件使用第七课 Infosphere Datastage 自定义公共组件与过程第八课 Infosphere Datastage 作业序列和作业控制第九课 Infosphere Datastage 作业调试、调度与监控第十课 Infosphere Datastage 数据血源分析第十一课 Infosphere Datastage 性能调优和最佳实践第十二课 Infosphere Datastage 实战案例分享授课对象:本课程由浅入深,循序渐进地介绍DataStage的基本原理和开发实践,主要面向DataStage 的初学者以及基础开发运维人员。

DataStage开发指南

DataStage开发指南

DataStage开发指南DataStage开发指南DataStage EE开发指南目录目录 ..................................................................... . (I)1. 引言 ..................................................................... .........................................................................1 1.1 编写目的 ..................................................................... ............................................................ 1 1.2 帮助使用 ..................................................................... ............................................................ 1 2. 产品概述 ..................................................................... .................................................................. 2 3. 常规应用 ..................................................................... .................................................................. 3 3.1 常用组件使用方法 ..................................................................... ............................................. 3 3.1.1 Sequentialfile ................................................................... ................................................. 3 3.1.2Annotation ............................................................. ............................................................ 7 3.1.3 Change CaptureStage .................................................................. ...................................... 8 3.1.4 CopyStage .................................................................. .................................................... 10 3.1.5 Filter Stage .................................................................. .................................................... 11 3.1.6 Funnel Stage .................................................................. .................................................. 12 3.1.7 Tansformer Stage .................................................................. ........................................... 13 3.1.8 SortStage .................................................................. ...................................................... 14 3.1.9 LookUp Stage .................................................................. ................................................ 15 3.1.10 JoinStage .................................................................. .................................................... 16 3.1.11 LookUp Stage 和 Join Stage的区别...................................................................... ........ 17 3.1.12 MergeStage .................................................................. ................................................. 18 3.1.13 Modify Stage .................................................................. ............................................... 19 3.1.14 Data Set Stage .................................................................. .............................................. 20 3.1.15 File SetStage .................................................................. ............................................... 22 3.1.16 Lookup File SetStage .................................................................. .................................. 23 3.1.17 Oracle EnterpriseStage .................................................................. ................................ 26 3.1.18 Aggregator Stage................................................................... ......................................... 28 3.1.19 Remove Duplicates Stage .................................................................. ............................. 30 3.1.20 CompressStage .................................................................. ............................................ 31 3.1.21 ExpandStage .................................................................. ............................................... 32 3.1.22 Difference Stage............................................................................................................. 33 3.1.23 CompareStage .................................................................. ............................................. 36 3.1.24 SwitchStage .................................................................. ................................................ 37 3.1.25 Column Import Stage .................................................................. ................................... 39 3.1.26 Column ExportStage .................................................................. ................................... 41 3.1.27 Teradata EnterpriseStage .................................................................. ............................. 43 3.2 常用数据库的连接 ..................................................................... ........................................... 45 3.2.1 Informix数据库连接 ..................................................................... ................................... 45 3.2.2 Oracle数据库连接 ..................................................................... ...................................... 46 4. 高级应用 ..................................................................... ................................................................ 48 4.1 DATASTAGE BASIC接口 ..................................................................... ................................... 48 4.2 自定义STAGETYPE ................................................................... ............................................. 49 4.2.1 WrappedStage .................................................................. ............................................... 49 4.2.2 BuildStage .................................................................. .................................................... 49 4.2.3 Custom Stage .................................................................. ................................................. 49 4.3 性能调优 ..................................................................... .......................................................... 49 4.3.1 优化策略 ..................................................................... ................................................... 49 4.3.2 关键问题分析 ..................................................................... ........................................... 54 4.3.3 并行度 ..................................................................... . (54)DataStage EE开发指南4.3.4 处理建议 ..................................................................... ................................................... 55 4.3.5 其它...................................................................... .......................................................... 56 4.3.6 机器的对称性 ..................................................................... ........................................... 56 4.3.7 并行调度测试说明: .................................................................... ................................. 56 5. 开发经验技巧汇总 ..................................................................... .............. 错误~未定义书签。

DataStage作业开发规范-V2.3

DataStage作业开发规范-V2.3
业务系统包括:CBS、PBS、CMMS、ATMP
属性包括:ADD、ALL
文件操作,参见上面的文件命名规范
Systemname为源系统的名称
Table为操作文件数据的表名称
增量全量标志为 All:全量
Add增量,
del-删除文件。
如果存在跨系统的生成的目标文件,源系统名填写输入主表对应的系统
Hashfile
单主要输入输出,如下图:
多主要输入输出如下图:
2.
作业的头上须表明作业加工的档名,下方须表明作业加工逻辑,
所有的属性中须注名作业的作者,及设计思路。
对设计的流程做适当的说明以便让人更易理解,如上图。
3.
注意事项:
Stage的命名全部使用英文,参数注释也必须使用英文。
Job中使用Annotationstage来做模块说明可以使用中文注释。
内容规范:
<?xml version="1.0" encoding="ISO8859-1" ?>
<transmit-content>
<file>
<filename>FF1010_0001_XXX_20060121_000.dat</filename>
<filesize>2344560</filesize>
说明:
LK为link的简称,所有的link命名都使用LK作为头。
如Sequential file的link指向一个look up。则link命名为LK_description
注意:
1.如果一个stage只有一个link的输入,则不需要填写Description,只需要填写link的序号。

Datastage 培训资料详述

Datastage 培训资料详述

Datastage培训1.什么是Datastage?➢设计jobs 抽取(Extraction)、转换(Transformation)、装载(Loading)即ETL ➢数据整合项目工具,如数据仓库、数据集市和系统移植。

DataStage的框架,如图-1:图-1在开发过程中是通过DataStage的四个客户端(DataStage Administrator如图-2, DataStage Manager如图-3, DataStage Designer如图-4, DataStage Director如图-5)来进行工作的。

图-2 图-3 图-4 图-5➢DataStage的基本开发流程:1.在Administrator中新建工程、定义全局和工程属性2.在Manager中导入元数据3.在Designer中定义job4.在Designer中编译job5. 在Director中验证,运行,监控job2.DataStage Administrator介绍主要功能:对server进行一些常规的设置、用来执行管理任务,如建立DataStage用户、新建和删除工程,设置工程的属性。

2.1.登陆登陆后的界面:在General标签中、可以看到当前server的版本是7.5.1.A,你也可以点击”NLS…”选择Client端的默认字符集。

2.2.新建工程选择Projects标签,在这里你可以选择Add按钮来新建一个工程“sjzh”如图:该工程存放的目录为“/home/dsadm/Ascential/DataStage/Projects/sjzh”在这里我们选择系统的默认路径。

选择“OK”就新建了一个工程,如图:2.3.更改“Licensing”选择“Licensing”标签,如图:在这里可以对Server和Client端的License进行更改。

比如当软件License过期时,要在不重新安装的情况下改变License就要使用这个功能。

datastage教程

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。

针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。

DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。

其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。

Datastage开发技能介绍

Datastage开发技能介绍
产品开发部联动开发技能培训
--数据加载与DataStage开发
DataStage开发学习内容
Ascential DataStage背景介绍
数据加载的设计思路
DataStage Server and Clients
基于模版的JOB开发案例
Ascential DataStage 背景介绍
关于Ascential DataStage
Meta Data Meta Data Repository
Meta Data
元数据就是描述数据的数据。表定义是我们常见 的元数据之一。
导入和导出DataStage对象
有关导入和导出
在Manager中的所有对象都可以导出为一 个文件; 可以导出整个项目; 可以用来备份; 有些场合用来做版本控制; 可以用在DataStage项目间移动或者复制 Datastage对象; 用来在开发人员间共享代码;
Compile
Run
Show/hide metadata markers
Job properties
Designer –创建JOB
使用Palette拖动Stages 和Links
设置Teradata Source Stage
设置ODBC Target Stage
Copy Stage
定义列关系对应表
Exercises
练习环境参数值 SQL Server: 连接串:SQL_ETLDB 用户名/密码:spdb/spdb TERADATA: 连接串: SPDBTST 用户名/密码:DW_DSETL/DW_DSETL 数据库名:SDATA 文本文件路径:
/etldata/STU/20080529/adkmx.txt
选中要导入的表 后,点击Import

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作
• 数据清洗、转换、加载都可以在图形化工具里完成,
同样可以灵活的被外部系统调度,提供专门的设计 工具来设计转换规则和清洗规则等,实现了增量抽 取、任务调度等多种复杂而实用的功能 。
Datastage的组成:
Datastage的服务器端和客户端
Datastage是C/S软件,服务器端存储所有 的ds项目和元数据,由关系型数据库(RDBMS) 组成。客户端具有同服务端一样的软件接口。
第二章 如何安装Datastage
下面的讲解中,将可以了解到:
• 在Windows系统中安装Datastage服务端。 • 建立一个Datastage的工程。 • 安装Datastage的客户端。
Datastage 的服务端要首先安装,之后才 可以安装Datastage 客户端,服务端能都安 装在WinNT、Windows2000或者UNIX系统中, 这个模块将介绍在Windows环境下进行安装。
• 使用DataStage中的Manager来存储和管理Job的元
数据,使之可以在DataStage中的Designer中再度被 使用。
• 元数据包括表单和文件结构和导出数据的Routines
的转换等等。
• Manager是DataStage存储的一个重要的部分,可以
用来加入表单和文件的结构,在左侧分支树中显示 Routines、Transforms和Jobs。
行验证、运行、任务调度和监控的工作。也
可以针对job 的运行查看运行的聚合统计情况。
在Datastage中进行开发
• 在Administrator中定义全局的和项目属性。 • 在Datastage中的Manager里导入定义源的
元数据和目标的元数据。
• 在Datastage中的Designer中验证和编译job。 • 在Datastage中的Director中验证、运行、和

DataStage简介

DataStage简介
Director(控制器):为启动,停止,监视作业提 供交互式控制
Administrator(管理器):在服务器端管理 DataStage的项目和使用者权限的分配
Thank you!
DataStage用来做什么
DataStage可以从多个不同的业务系统,从多个平 台的数据源中抽取数据,完成转换和清洗,装载到其它 系统里面。其中每步都可以在图形化工具里完成,同样 可以灵活地被外部系统调度,提供专门的设计工具来设 计转换规则和清洗规则等,实现了增量抽取、任务调度 等多种复杂而实用的功能。其中简单的数据转换可以通 过在界面上拖拉操作和调用预定义转换函数来实现,复 杂转换可以通过编写代码或结合其他程序的扩展来实现 ,并且DataStage提供调试环境,可以极大提高开发和 调试抽取、转换程序的效率。
DataStage简介及工作原理
为什么要使用DataStage
数据仓库中的数据来自于多种业务数据源,这些数 据源可能来自于不同硬件平台,使用不同的操作系统, 数据模型也相差很远,因而数据以不同的方式存在于不 同的数据库中。
如何获取并向数据仓库加载这些数据量大、种类多 的数据,已成为建立数据仓库所面临的一个关键问题。
DataStage工具介绍
DataStage是基于客户机/服务器的数据集成架构, 优化数据收集,转换和巩固的过程。它提供了一套图形 化的客户工具,包括:
DataStage工具介绍
Designer(设计器):创建执行数据集成任务Job的同 时,对数据流和转换过程创建一个可视化的演示,并对 每个工程的各个单元,包括库表定义,集中的数据转换 ,元数据连接等对象进行分类和组织
业务系统数据源
SAP BW
SAP ERP (rev. R/3)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本文档涉及到的处理方式有:数据类型转换,表的连接,计算。

工作需求:从给定的文本中读取数据,经过数据类型的转化,并计算后写入给定文本文件或者数据库中。

例1:数据源:Staff.txt
要求:求不同的工作种类的总工资和平均工资。

1.源数据分析,数据如下:
所要分析的内容有:分隔符(delimiter),是空格,单引号,双引号等等。

是否存在空值,如下图中YEARS和COMM字段中存在下划线。

字段中记录的最大长度,如下图中共有七个字段,要记录每个字段的最大长度是多少。

2.需求分析:最终的需求是不同工作种类的平均工资和总工资。

从源数据可以看出,
共有3种JOB:Sales、Clerk、Mgr。

另外需要的字段就是SALARY,其他字段都是多余的。

由此可以确定使用Sequential File Stage 读取数据后,即可使用Copy Stage 过滤掉多余的字段。

因为源数据在文本形式下都是字符型,我们用Varchar 型来读取数据,需要转换成实际的类型。

如SALARY的类型,应该是Decimal 类型。

或者是Int 型,double型的。

故接下来的转换会用到T ransformer Stage 进行数据类型的转换。

假设已经转换成功,接下来要做的是分组和计算了。

故需要使用Aggegator Stage ,在使用
Aggegator Stage时就能够分组并计算出总的工资,但是要算平均工资的时候,需要分组计算出每种JOB共有人,即分组计算不同JOB下的记录数。

同样是使用Aggegator Stage,但是没有办法在同一个里面实现,故采用两个Aggegator Stage。

之后使用Lookup Stage做连接。


再使用T ransformer Stage,求平均工资。

最后写入文本或者数据库中。

详细设计如下图:
顺便赘述一下,源数据的文本文件是预先存放在DS的服务器上的,所以我们才能读取。

详细开发步骤如下:
1.编辑(1)Output > Properties中有一点要注意,当源数据的第一行是列名时选择:True
Output >Format
要注意选择
Output >Column
这里的字段及类型长度都是自己填进去的,因为表结构是不存在的,无法通过DataStage Manger加载进来。

通过这个例子我们可以明白,无论是通过Load,还是手写,都只是给一个表结构给源数据。

View 一下源数据:可见数据已成功加载进来。

3.copy stage作用:过滤掉多余的字段。

4.Transformer Stage ,我们需要的Salary的类型应该是数值型的故要把String型转换成
Decimal型。

简单多拽后,右击选择Function-→Type Conversion -→ StringToDecimal.
4.上面的那个Aggregator Stage(JobSalary)功能:分组后,对Salary进行求和。

Stage->Properties 的设置如下:
Output –> Mapping
5下面的Aggregator Stage (CountRows)功能:分组并计算JOB的记录数。

Stage->Properties 的设置如下:Count Output Column中的值是自己写入的。

命名是自己起的。

Output –> Mapping
6.Lookup Stage 功能:将两个表做连接。

此处我们在求平均工资的时候,需要用到按照JOB
分组后的总工资/总的记录数。

详细设置如下:
7.后一个Transformer Stage 功能:将经过Lookup Stage 连接好的表,计算平均工资,并
给字段改名字。

再赘述一下:字段名SumSalary和A verage,是自己改写的。

8.Sequential File Stage (TargetS) 功能:将最后的结果写入文本文件。

此处也可以写入数据库。

作为目标文件只要做如下设置即可:指定文件的写入路径。

关于Input ->Format 一栏是没有必要像读取源数据时那样的设置,默认时,每行记录的最后
文件的分隔符为:end
每个字段之间分隔符为逗号,每个字段的值带有双引号。

在运行后可以打开生成的文件:
当然如果最后的需求要求我们更改,那就按照要求改动。

到此一个完整的JOB已经开发完成,接下来我们在DataStage Desinger中编译并执行这个JOB
编译通过并运行成功,看一下目标数据:
具体的运行日志可以在DataStage Director 当中看到,我们可以查看JOB的运行情况,看到有警告报出,根据警告的信息进行调试。

其中一个警告的详细信息为:
根据信息可以看出,由于字段可以为空,但是没有进行为空时候的处理。

做如下处理:
在此编译并运行JOB,并在DataStage Director查看日志
刚才的警告消失了。

并可以根据其他的警告信息,处理。

一般来说,出现的警告并不影响大局。

当然警告的数目不能太多。

工作需求:从两个文本文件中读取数据,做关联后保留以下
字段:name(firstname+lastname),department name, sex, age
并输入到数据文件中。

源数据:employee.txt和department.txt 1.源数据分析:employee.txt
department.txt
2.用DataStage Designer 设计如下的JOB
3.详细的流程,在此不再重复赘述,在此重点介绍Transformer Stage 中的设置。

在这个需求中要求将first name 和last name 合并成Name 输出。

合并的处理比较简单,只要用英文的冒号将两个字段连接就行了:T oTransform.FIRSTNME:ToT STNAME
还要计算出age 这里的思路是:先将String型,转化成date型,再用函数Y earFromDate(CurrentDate())-Y earFromDate(变量) 计算年龄。

首先打开T ransformer Stage的Stage Properties,点击Variables,在里面写入变量名,并指
定类型和长度。

点击OK后就能在Stage V ariables 看到写入的变量名Birthday了。

再将BIRTHDATE拖到Stage V ariables中,双击打开Derivation 属性,
右击选择Function→ Type Conversion→StringToDate, 写成如下形式:StringToDate(ToTransform.BIRTHDATE,"%mm-%dd-%yyyy"),这里年月日的格式取决于源数据中的年月日格式。

第三,在EmpLookup的Column name中写入AGE,则在Mapping 表中会出现AGE
一栏,双击AGE 左边后,右击选择Function—>Date&Time →YearFromDate,
具体内容为:Y earFromDate(CurrentDate())- Y earFromDate(Birthday)
4.Lookup Stage中的情况比较简单,只要按照WORKDEPT 和DEPTNO 做等值连接即可。

5.因为Lookup Stage接了一个Reject Link 在Lookup Stage要稍作改动。

意思是
在匹配不成功的情况下将结果输出到Reject Link中。

6.编译运行后如图:
7.查看目标数据文件中的数据
8 查看Reject Link 中的数据。

相关文档
最新文档