DataStage作业开发规范-V2.3

合集下载

DataStage 日志记录使用规范

DataStage 日志记录使用规范

DATASTAGE日志记录使用规范一、设计目的在以往的datastage开发过程中,通过oracle enterprise stage 进行数据入库的时候,因为是使用的datastage的入库技术,即直接使用insert语句插入数据,所以无法在数据库中记录插入的记录条数和reject的记录条数.在这种情况下,为了能够统计加载资料量,我们使用先调用shell命令统计job日志中的加载记录条数,再通过调用存储过程把记录条数记载入数据库的日志表的方式来实现统计加载记录条数的目的二、相关程序a)命令行程序名称:sp_log.sh功能:查询job日志中对应sequence下所有job的插入目标表的记录条数,并通过调用oracle存储过程把统计出的记录条数加加载数据库日志表;输入参数: DSPROJECT datastage项目名称DSJOBNAME datastage sequence job 名称WORKDA TE 加载日期,用于插入日志表WORK_DATE列DBNAME 加载数据库连接名称DBUSER 加载数据库用户名称DBPWD 加载数据库用户密码输出参数: OUTPUT 加载成功失败标志b)存储过程名称:sp_log功能:使用输入参数插入stat_error_log表,保存日志记录输入参数: in_work_date 加载日期,插入日志表WORK_DATE列in_proc_name 加载程序名称,插入日志表PROC_NAME列in_table_name 加载目标表名称,插入日志表TABLE_NAME列in_proc_type 加载程序类型,插入日志表PROC_TYPE列,0为存储过程,1为ds jobin_row_num 加载记录条数,插入日志表ROW_NUM列in_sql_code 加载SQL_CODE,插入日志表SQL_CODE列,本处只插入空值in_sql_errm 加载SQL_ERRM,插入日志表SQL_ERRM列,本处只插入空值in_execute_flag 加载标志,插入日志表EXECUGTE_FLAG列,0为成功,1为失败in_stat_time 加载结束日期,插入日志表STAT_TIME列in_begin_time 加载开始日期,插入日志表BEGIN_TIME列in_info 加载信息,插入日志表INFO列,本处插入执行周期和拒绝记录条数输出参数: out_sqlcode 加载标志,0为成功,非0值为失败out_sqlmsg 加载信息,记录正确结束信息或失败错误原因及出错位置三、使用规范a)封装sequence程序调整在原有job封装sequence程序的尾部添加一个Execute Command Stage,用这个Stage调用shell命令,如图:b)参数传递在Execute Command Stage 中,我们需要填写调用命令行的一些信息,如下: Command:/EDWETL/SH/sp_log.shParameters:P05_EDW test_ec #WORKDATE# #DBNAME# #DBUSER# #DBPWD#其中,Command字段填写的是命令行保持不变,除非开发规范发生变化;Parameters字段填写必须按照project名称+空格+seq名称+空格+#WORKDATE#+空格+#DBNAME#+空格+#DBUSER#+空格+#DBPWD#的方式填写,如图:c)运行前核查表i.确认sp_log.sh在/EDWETL/SH/下ii.确认该文件有执行权限iii.确认datastage执行用户具有/EDWETL/TMP文件夹的读写权限iv.确认目标数据库用户下有sp_log的存储过程,该过程有效并有执行权限d)范例程序具体的可执行范例程序在:10.201.64.13的P05_EDW\TMP下,SEQUENCE名称为test_ec。

DataStage

DataStage

数据仓库中的数据来自于多种业务数据源,这些数据源可能来自不同的硬件平台,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在于数据库中。

如何获取并向数据仓库中加载这些数据量大,种类多的数据,已成为建立数据仓库所面临的一个关键问题。

针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,强烈推荐使用专业的数据抽取、转换和装载工具--DataStage数据仓库:Data Warehouse,简写DW或DWH.是决策支持系统和联机分析数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

数据仓库的特征在于面向主题、集成性、稳定、和时变性。

数据源:整个系统的数据源泉,数据仓库的基础。

数据的存储与管理:是整个数据仓库系统的核心。

数据仓库数据库:是整个数据仓库的核心,是数据存放的地方和提供对数据检索的支持。

6101,7111,7115,4111,5107,3141DataStage是IBM开发的,是一套专门针对多种操作数据源的数据抽取,转换,和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据源的集成工具。

3 安装于初始化?reject 方式是什么?Continue,Output,Fail(后面有)Inputs、Outputs Stage 怎么添加自动化数据库连接Sequential File 中的View Data?View Data 不了?参数配置Save,Load分别什么作用,区别?Table 的格指什么??Lookup Stage???,怎么匹配???????Modify Stage怎么修改的表结构?2012-4-26Administrator的使用,如建立清洗标准?ViewData中value值是从数据库查询出来?DB2 Stage中#$SRC_INSTANCE#,#是临时表?什么意思?TestDemo is being accessed by another user?锁表已解决(有文档):两种方式Copy Stage的作用?仅仅是交换字段输出怎么保存文件?自动保存2012-4-27DataStage Director中:Permission denied ?将多个字段相同的数据文件合并为一个单独的文件输出 ???输入的相同的字段合并输出到一个字段 ???2012-4-28Transformer 字段的转换是将字段名和数据类型都转换?????Administrator:用来执行管理任务,如建立DataStage用户,建立和删除工程并且建立清洗标准。

经验总结_DataStage

经验总结_DataStage

经验总结_DataStage本资料仅供内部使用!经验总结_DataStage2010年09月29日目录1.D A TA S TAGE怎么调用存储过程 (2)2.D A TA S TAGE调度设计 (3)1. DataStage怎么调用存储过程1)打开Desinger2)拉入DB2 Connector控件3)填写参数4)在“Insert statement”属性中输入:call DCDW.SP_ODS2DW_DIRECTOR 5)总体情况如下图:6)编译1)新建“序列作业”2)加入Job Activity控件3)编辑Job Activity控件内容4)调度时间的设置3. DataStage8.5作业日志入库1)原理:新建一个Before/After subroutine,名为RoutineJobInfo,每个JOB运行完后执行一个这个routine,用于将每个job执行完后的相关日志信息写到一个文件里,然后通过一个shell程序runjobinfo将每个job运行的日志信息写入数据表LOG_DATASTAGE中。

每天通过检查LOG_DA TASTAGE表中每个job的状态信息来检查job是否运行失败。

2)步骤第一步,打开Designer 客户机,进入如下界面,找到左边的Routines目录第二步第三步RoutineJobInfo_code.txt 第四步第五步输入参数0;/dcdata/etl/runjobinfo/,在/dcdata/etl/runjobinfo/目录下产生每个JOB运行后的日志信息,文件名为job名称.txt。

3)建立日志表(DCDW.LOG_DATASTAGE)4)Shell程序etl_runjobinfo.sh读取/dcdata/etl/runjobinfo/下产生的每个JOB日志信息,产生JOB运行清单jobfilename.tmp记录运行job名称,将相关信息插入DCDW.LOG_DATASTAGE表。

Datastager入门应用开发(详细示例)

Datastager入门应用开发(详细示例)

Datastage应用开发1 Datastage 简介Datastage包含四大部件:Administrator、Manager、Designer、Director。

1.用DataStage Administrator 新建或者删除项目,设置项目的公共属性,比如权限。

2.用DataStage Designer 连接到指定的项目上进行Job的设计;3.用DataStage Director 负责job的运行,监控等。

例如设置设计好的job的调度时间。

4.用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标:将源表中数据调度到目标表中去。

1 数据库:posuser/posuser@WHORADB , ip: 192.168.100.882 源表:a_test_from3 目标表:a_test_to两者表结构一样,代码参考:create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE);alter table A_TEST_FROMadd constraint TEST primary key (ID);4. 示例数据:insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务:打开datastage designer,连接datastage服务器1.双击桌面datastage designer图标。

DATASTAGE使用实用指南

DATASTAGE使用实用指南

DATESTAGE 使用实用指南1.DataStage官方文档学习笔记1.1通过右键添加link鼠标右键点击起始stage,按住右键移动鼠标到目标stage。

还有一种方法就是把鼠标放在起始stage的边缘等到变为一个小圆圈里面有一个叉的时候拖动鼠标到目标stage。

1.2DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用null(ASCII 0)字符来填充剩余长度。

联系到前面做的一个parallel job,当目标是变长时(当时源也是变长,但是好像源的精度要小些),但是字符串实际的长度没有指定的变长那么长的话,系统会自动用空格(ASCII 20)来填充(具体在哪个stage 填充的不知),而且环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII 20)。

2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII 0)。

注:联系上面两点,感觉文档讲的与实际不符,难道我们项目的administrator改变了该环境变量的默认值?3 有个PadString 函数可以用来用指定的字符来填充一个变长的字符串到指定的长度。

这个函数的参数不能使固定长度字符串,如果是固定长度的先转化为变长。

1.3Copy Stage作为占位符在job开发中,当你暂时不知道该使用哪个stage时,可以使用copy stage作为占位符,注意不要把Force 属性设为True,在不把Force设为True时,复制将在运行时进行优化。

使用Schema file来指定meta data1 可以通过列定义和schema file两种方式来指定meta data,值得注意的一点是Note that, if you usea schema file, you should ensure that runtime column propagation is turned on. Otherwise the column definitions specified in the stage editor will always override any schema file.即,如果想通过schema file来指定meta data,必须勾上runtime column propagation,否则总是使用列定义来作为meta data。

datastage入门教程

datastage入门教程

简介DataStage 使用了Client-Server 架构,服务器端存储所有的项目和元数据,客户端DataStage Designer 为整个ETL 过程提供了一个图形化的开发环境,用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。

Datastage 的可运行单元是Datastage Job ,用户在Designer 中对Datastage Job 的进行设计和开发。

Datastage 中的Job 分为Server Job, Parallel Job 和Mainframe Job ,其中Mainframe Job 专供大型机上用,常用到的Job 为Server Job 和Parallel Job 。

本文将介绍如何使用Server Job 和Parallel Job 进行ETL 开发。

Server Job一个Job 就是一个Datastage 的可运行单元。

Server Job 是最简单常用的Job 类型,它使用拖拽的方式将基本的设计单元-Stage 拖拽到工作区中,并通过连线的方式代表数据的流向。

通过Server Job,可以实现以下功能。

1.定义数据如何抽取2.定义数据流程3.定义数据的集合4.定义数据的转换5.定义数据的约束条件6.定义数据的聚载7.定义数据的写入Parallel JobServer Job 简单而强大,适合快速开发ETL 流程。

Parallel Job 与Server Job 的不同点在于其提供了并行机制,在支持多节点的情况下可以迅速提高数据处理效率。

Parallel Job 中包含更多的Stage 并用于不同的需求,每种Stage 使用上的限制也往往大于Server Job。

Sequence JobSequence Job 用于Job 之间的协同控制,使用图形化的方式来将多个Job 汇集在一起,并指定了Job 之间的执行顺序,逻辑关系和出错处理等。

数据源的连接DataStage 能够直接连接非常多的数据源,应用范围非常大,可连接的数据源包括:•文本文件•XML 文件•企业应用程序,比如SAP 、PeopleSoft 、Siebel 、Oracle Application•几乎所有的数据库系统,比如DB2 、Oracle 、SQL Server 、Sybase ASE/IQ 、Teradata 、Informix 以及可通过ODBC 连接的数据库等•Web Services•SAS 、WebSphere MQServer JobServer Job 中的Stage 综述Stage 是构成Datastage Job 的基本元素,在Server Job 中,Stage 可分为以下五种:1.General2.Database3.File4.Processing5.Real Time本节中将介绍如何使用Datastage 开发一个Server Job。

DataStage技术文档

DataStage技术文档

南海农信社ODS 南海ODS项目DataStage技术文档文档信息批复信息文件控制目录1.引言 (1)1.1编写目的 (1)1.2背景 (1)1.3参考资料 (1)1.4术语定义及说明 (1)2.Data Stage概述 (1)1.5Asciential 企业版数据集成平台架构 (2)1.6DS7.5.2企业版CS结构 (2)3.DataStage各部件介绍 (3)1.7Administrator (3)1.7.1总体说明 (3)1.7.2主要功能 (3)1.7.3功能详解 (3)1.7.4经验总结 (6)1.8Manager (8)1.8.1总体说明 (8)1.8.2主要功能 (9)1.8.3功能详解 (9)1.8.4经验总结 (10)1.9Designer (11)1.9.1总体说明 (11)1.9.2概念解释 (11)1.9.3主要功能 (11)1.9.4功能详解 (11)1.9.5例子 (11)1.9.6经验总结 (13)1.10Director (13)1.10.1总体说明 (13)1.10.2主要功能 (13)1.10.3功能详解 (14)1.10.4经验总结 (16)4.Datastage基础 (16)1.11数据类型 (16)1.12变量 (17)1.12.1总体说明 (17)1.12.2例子 (17)1.12.3经验总结 (19)1.13字符集编码 (19)1.14Job的类型 (20)1.15Stage 类型 (21)1.16Routine (49)1.16.1Server Routine (49)1.16.2Parrallel Routine (51)5.DataStage企业版的核心技术 (53)1.17扩展性和底层 (53)1.18数据处理方式 (53)1.18.1传统的批处理 (53)1.18.2管道多处理 (54)1.18.3数据分区 (54)1.18.4管道多处理和数据分区结合 (54)1.19数据分区详解 (55)1.19.1数据分区和数据聚合关系 (55)1.19.2数据重分区 (55)1.19.3数据分区方法 (56)1.20服务器的参数配置 (56)1.20.1物理架构 (56)1.20.2配置文件 (57)1.20.3经验总结 (58)1.21缓存机制 (58)6.性能调优 (59)1.22总体说明 (59)1.23调试的方法 (59)1.24经验总结 (60)1.24.1Transformer Stage使用说明 (60)1.24.2文件读写 (60)1.24.3磁盘I/O (60)1.24.4内存限制 (60)1.24.5并行度 (60)1.24.6并行调度测试 (61)1.24.7数据排序 (61)1.24.8表结构的简化 (61)1.24.9VARCHAR的定义 (61)1.24.10类型的转换 (61)1.24.11环境变量的设置 (62)1.24.12NULL值的处理 (62)7.作业调度 (62)1.24.13Sequence job调度 (62)1.24.14Job control调度 (64)8.问题集合 (65)1.25输出字段变多了 (65)1.26加载数据时,索引出错 (65)1.27数据加载到Oracle出错 (65)1.28文本数据导入出错 (65)1.29不可见字符导致出错 (65)1.30日期转换出错 (65)1.31全角空格引起的问题 (66)1.32字段中混合中英文字符“、[]”等,不能写入数据库 (66)1.33NULL值导入出错 (66)1.34使用封装Stage出错 (66)1. 引言1.1编写目的为DataStage开发者提供一个全面的技术资料学习和参考,对于初学者,提供了一些基础的知识,对于有一定经验的技术人员,也可以在本文档中找到一些高级的技术参考,更多情况下是给出大体的指引或思路,更多的技术细节资料还需要进行一步查阅官方文档。

datastage教程

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。

针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。

DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。

其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。

DataStage(ETL工具)

DataStage(ETL工具)

1. DataStage(ETL工具)要求:5用户数2.技术要求ETL过程必须有图形化的开发、管理和监控界面;ETL处理过程支持各种字符集的转换;ETL处理过程具有完整的日志管理功能、完善的数据审计功能。

并且有相关的监控预警机制,保证ETL正常进行,不影响数据源系统和经营分析系统的正常工作;ETL处理过程可以定义外部数据记录的错误限制,如发现最多1000条错误数据记录时停止进行处理,同时将发生错误的数据记录加到相应的错误表中; 支持多种操作系统平台,如UNIX、Windows NT/2000/2003、Linux等;支持Oracle、DB2、Sybase、SQL Server等业界主流数据库软件平台;采用高性能的数据抽取接口,比如:专用数据库驱动接口、JDBC、ODBC接口等;数据转换模块可进行二次开发,并通过对内嵌脚本语言、存储过程、插件及外部程序的支持来处理复杂的处理,提供调试、跟踪功能;丰富的数据加载功能:可以利用关系型数据库引擎私有的装载功能(native load)进行数据装载;ETL工具必须支持一定的数据转换功能,支持ETL过程中数据转换环节执行顺序、支持的数据平滑化、规范化、聚类等转换操作;ETL工具必须提供自动文档生成功能;ETL工具作业开发支持过程驱动方法和自顶向下的设计,提供设计模板;ETL工具提供灵活的作业开发的参数支持;ETL处理过程必须包括有统一调度、监控和管理的功能。

具有元数据提取和存储的功能,通过元数据管理实现数据冲突分析、血统分析功能。

具有基于Web上的系统管理、作业调度和元数据展现。

ETL工具处理过程应能够支持并行(集群)处理,并能支持多服务器组成网格进行并行处理。

3. 实施要求3.1实施计划投标方需要在标书中提出项目实施计划的草案,内容包括:1)投标方必须给出切实可行的项目实施时间进度表。

2)所有可交付的开发成果、服务及交付时间和方式。

3)可交付的开发成果及服务之间的依赖关系。

datastage介绍(中文)讲述

datastage介绍(中文)讲述

DataStage SERVER CLIENT
DataStage Designer
DataStage Director
DataStage Manager
DataStage Administrator
DataStage的功能
r 定义project的属性; 使用Manager进行元数据管理; 使用Designer : . 定义数据抽取规则; . 定义数据流; . 进行数据整合; . 进行数据转换; . 加入相关的约束条件; . 装载数据到目标; . 进行数据聚合; 使用Designer进行作业开发和调试; 使用Director执行作业,并且进行监控;
DataStage的特点
图形化操作,简单易学; 参数化作业设计,利于数据从不同地点的同构数据库 整合到一个目标数据中; 作业调试,跟踪功能比较强; 作业运行的监控和定时,检查; 作业导出导入方便; 多数据库支持; 提供可扩展接口,可编程实现扩展功能;

datastage介绍mis项目组2004年6月pamisico什么是datastage?datastage是一个能够简单快捷进行数据仓库和数据集市创建和维护的强有力的工具
DATASTAGE介绍
mis项目组
2004年6月
什么是DATASTAGE




DataStage是一个能够简单快捷进行数据仓库和数据集市创建和 维护的强有力的工具。它为您提供了创建,管理数据仓库所必须 的工具,并且您还可以对这些工具加以扩展。借助于DataStage, 你可以快速建立数据仓库解决方案并且提供给用户所需要的数据 和报告。 使用DataStage您可以做到 : 为您的数据仓库和数据集市设计对于数据进行抽取,整合,聚集, 装载,转换的相关作业; 创建和重用原数据和作业组件; . 执行,监控和定时运行作业; 管理开发和生产环境。

DataStage开发指南

DataStage开发指南

DataStage开发指南DataStage开发指南DataStage EE开发指南目录目录 ..................................................................... . (I)1. 引言 ..................................................................... .........................................................................1 1.1 编写目的 ..................................................................... ............................................................ 1 1.2 帮助使用 ..................................................................... ............................................................ 1 2. 产品概述 ..................................................................... .................................................................. 2 3. 常规应用 ..................................................................... .................................................................. 3 3.1 常用组件使用方法 ..................................................................... ............................................. 3 3.1.1 Sequentialfile ................................................................... ................................................. 3 3.1.2Annotation ............................................................. ............................................................ 7 3.1.3 Change CaptureStage .................................................................. ...................................... 8 3.1.4 CopyStage .................................................................. .................................................... 10 3.1.5 Filter Stage .................................................................. .................................................... 11 3.1.6 Funnel Stage .................................................................. .................................................. 12 3.1.7 Tansformer Stage .................................................................. ........................................... 13 3.1.8 SortStage .................................................................. ...................................................... 14 3.1.9 LookUp Stage .................................................................. ................................................ 15 3.1.10 JoinStage .................................................................. .................................................... 16 3.1.11 LookUp Stage 和 Join Stage的区别...................................................................... ........ 17 3.1.12 MergeStage .................................................................. ................................................. 18 3.1.13 Modify Stage .................................................................. ............................................... 19 3.1.14 Data Set Stage .................................................................. .............................................. 20 3.1.15 File SetStage .................................................................. ............................................... 22 3.1.16 Lookup File SetStage .................................................................. .................................. 23 3.1.17 Oracle EnterpriseStage .................................................................. ................................ 26 3.1.18 Aggregator Stage................................................................... ......................................... 28 3.1.19 Remove Duplicates Stage .................................................................. ............................. 30 3.1.20 CompressStage .................................................................. ............................................ 31 3.1.21 ExpandStage .................................................................. ............................................... 32 3.1.22 Difference Stage............................................................................................................. 33 3.1.23 CompareStage .................................................................. ............................................. 36 3.1.24 SwitchStage .................................................................. ................................................ 37 3.1.25 Column Import Stage .................................................................. ................................... 39 3.1.26 Column ExportStage .................................................................. ................................... 41 3.1.27 Teradata EnterpriseStage .................................................................. ............................. 43 3.2 常用数据库的连接 ..................................................................... ........................................... 45 3.2.1 Informix数据库连接 ..................................................................... ................................... 45 3.2.2 Oracle数据库连接 ..................................................................... ...................................... 46 4. 高级应用 ..................................................................... ................................................................ 48 4.1 DATASTAGE BASIC接口 ..................................................................... ................................... 48 4.2 自定义STAGETYPE ................................................................... ............................................. 49 4.2.1 WrappedStage .................................................................. ............................................... 49 4.2.2 BuildStage .................................................................. .................................................... 49 4.2.3 Custom Stage .................................................................. ................................................. 49 4.3 性能调优 ..................................................................... .......................................................... 49 4.3.1 优化策略 ..................................................................... ................................................... 49 4.3.2 关键问题分析 ..................................................................... ........................................... 54 4.3.3 并行度 ..................................................................... . (54)DataStage EE开发指南4.3.4 处理建议 ..................................................................... ................................................... 55 4.3.5 其它...................................................................... .......................................................... 56 4.3.6 机器的对称性 ..................................................................... ........................................... 56 4.3.7 并行调度测试说明: .................................................................... ................................. 56 5. 开发经验技巧汇总 ..................................................................... .............. 错误~未定义书签。

dataStage job开发流程

dataStage job开发流程
1.对字段类型为字符集的字段编码用Unicode,字符集用utf-8,字段长度为字段在数据库长度的两倍;
传统的数据整合方式需要大量的手工编码,而采用 IBM WebSphere DataStage 进行数据整合可以大大的减少手工编码的数量,而且更加容易维护。数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的ETL过程。IBM WebSphere DataStage 为整个 ETL 过程提供了一个图形化的开发环境。本文将从以下几个方面来介绍 IBM WebSphere DataStage:
DataStage Client 有四种客户端工具。分别是 DataStage Administrator、DataStage Designer、DataStage Manager、DataStage Director。接下来首先介绍这几种客户端工具在 DataStage 架构中所处的位置以及它们如何协同工作来开发 ETL Job 的,接着再分别详细介绍每个工具的功能。
正是因为这么好的连接能力,IBM WebSphere DataStage 使用户能够专注于数据转换的逻辑而不用太担心数据的抽取和加载。
完备的开发环境
IBM WebSphere DataStage 的开发环境是基于 C/S 模式的,通过 DataStage Client 连接到DataStage Server 上进行开发。这里有一点需要注意,DataStage Client 只能安装在 Windows 平台上面。而 DataStage Server 则支持多种平台,比如 Windows、Redhat Linux、AIX、HP-UNIX。
打开dsenv文件,在文件的最后加上如下内容:

DataStage Stage使用

DataStage Stage使用

Funnel阶段Funnel阶段是一个处理阶段。

它将多个输入数据集复制到单个数据集,该操作对于将单独数据集合并到单个大型数据集而言非常有用。

该阶段可以有众多输入链接和一个输出链接Funnel阶段能够以下列三种方式之一运行:1、连续传送以不可保证顺序合并输入数据的记录。

它依次从每个输入链接获取一条记录。

如果输入链接上的数据不可用,那么该阶段会跳至下一个链接,而不是等待。

2、排序传送按照一个或多个键列的值定义的顺序合并输入记录,输出记录的顺序由这绡排序键确定。

3、顺序将第一个输入数据集中的所有记录复制到输出数据集,然后将第二个输入数据集中的所有记录复制到输出数据集,依此类推。

对于所有方法,所有数据数据集的元数据都必须椒相同的。

排序传送方法对于其输入数据有一些特定要求。

所有输入数据集都必须根据Funnel操作的键列进行排序。

通常,排序传送操作的所有输入数据集在排序之前都是散列分区的(选择自动分区方法将确保完成这一操作).散列分区可确保具有相同键列值的所有记录都位于同一分区中,以便在同一个节点上处理。

如果在Funnel阶段之前在单独的阶段上执行排序和分区,那么必须保留该分区排序传送操作允许您设置一个主键和多个辅键以确定将输出的记录的顺序。

Funnel阶段:快速路径InfoSphere DataStage有许多缺省设置,这表示您能够载作业中轻松包含Funnel阶段。

本部分指定了要使Funnel阶段运行所需的最少步骤。

InfoSphere DataStage提供了多样化的用户界面,且提供了许多快捷方式供您达到特定目标,本部分描述了基本方法。

要使用Funnel阶段:1、在“阶段”页面的属性选项卡中,指定“传送类型”。

“连续传送”为缺省值,但也可以选择“顺序”或“排序传送”。

如果选择使用“排序传送”方法,则还需要指定对数据进行排序所依据的键。

可以重复使用键属性来指定组合键。

2、如果使用“顺序”方法,请在“阶段”页面的“链接排序”选项卡中,指定合并数据集的顺序。

DataStage 工作笔记

DataStage 工作笔记

1.安装与配置参考文档:《Planning, Installation, and Configuration Guide.pdf》1.1服务端与客户端的安装1.1.1安装拓扑采用简单的两层部署进行安装,安装拓扑如下图所示:Host1环境如下:(1)硬件环境CPU:Inetel Core Duo P8600内存:4GB(2)软件环境操作系统:Windows Server 2003 EE SP2C++编译器:Microsoft Visual Studio .NET 2008 Express Edition C++1.1.2安装参考文档:《Planning, Installation, and Configuration Guide.pdf》[pages 198-200]1.1.3C++编译器配置参考链接:/infocenter/iisinfsv/v8r5/index.jsp?topic=/com.ibm.swg.im.iis.productization.iisinfsv.install.doc/topics/wsis inst_set_envars_cpp.html(1)支持的C++编译器,见如下链接的系统要求说明:/support/docview.wss?rs=14&uid=swg270163821.1.4登陆与安装语言选择登陆(会话)语言选择中文,DataStage安装语言选择英文,结果Designer里同时有中文和英文,而DB2和WAS都是中文版,如何安装纯英文版的?解决方法1:登陆语言选择和安装语言全部选择英文即可安装上纯英文版。

解决方法2:通过控制面板->区域和语言选项,将语言设置为英语,安装完成后将语言再修改为中文即可。

1.1.5新建用户与凭证(Credentials)参考文档:《Day 1 Exercise-DS.doc》[Exercise 1: Administration Console] (1)通过Web浏览器登陆Web Console for IBM Information Server,地址如下(localhost为server端主机名):http://localhost:9080/ibm/iis/console/loginForm.jsp?displayForm=true (2)新建两个用户dsadmin和dsuser,如下图:权限设置如下:dsadmin:Suite User、DataStage and QualityStage Administrator/User dsadmin:Suite User、DataStage and QualityStage Userdsadmin 可以正常使用,但dsuser 只能登陆 Administrator,登陆Designer和Director会报错:The current user does not have the required DataStage roles set up. 为什么?解决方法1:直接给dsuser同时授予Suite User、DataStage and QualityStage Administrator/User权限。

DATASTAGE常用组件的使用

DATASTAGE常用组件的使用

DATASTAGE常用组件的使用Datastage产品开发使用指南北京先进数通信息技术有限公司商业智能应用部Datastage产品开发使用指南文档信息标题 Datastage产品开发使用指南2005-12-22 创建日期打印日期文件名 PMA-003-Datastage产品开发使用指南-V1.0.doc DI\PMA 存放目录所有者北京先进数通信息技术有限公司作者何应龙修订记录日期作者描述文档审核/审批姓名职务/职称审核批准文档分发此文档将分发至如下各人姓名职务/职称- i -Datastage产品开发使用指南目录目录 ..................................................................... (II)1. 引言 ..................................................................... .........................................................................1 2. 常用STAGE使用说明常用配置 ..................................................................... ...... 35 3.1. 设置TIMEOUT时间...................................................................... .......................................... 35 3.2. 设置PROJECT的属性 ..................................................................... ........................................ 36 3.3. 更新DATASTAGE SERVER的LICENSE和本地CLIENT的LICENSE .............................................. 37 4. DATASTAGE MANAGER使用 ..................................................................... ........................... 37 4.1. 导入导出JOB及其它组件...................................................................... ................................ 37 4.2. 管理配置文件 ..................................................................... .................................................. 39 5. DATASTAGE DIRECTOR使用 ..................................................................... .......................... 40 5.1. 察看JOB的状态,运行已经编译好的JOB .................................................................... ......... 40 5.2. 将编译好的JOB加入计划任务 ..................................................................... ......................... 43 5.3. 监控JOB的运行情况 ..................................................................... . (44)- ii -Datastage产品开发使用指南1. 引言DataStage EE的开发主要由DataStage Designer完成。

DataStage使用说明

DataStage使用说明

目录1.安装 (2)2.DataStage Administrator (3)2.1对Project的管理 (3)2.2修改DataStage Server的License (5)3.DataStage Designer篇Job的定义 (5)3.1登录 (5)3.2建立Job (6)3.3界面说明 (6)3.4 ETL过程定义 (7)3.4.1数据库到数据库 (7)3.4.2 Job的调试 (17)3.4.3文件到数据库 (19)3.4.4远程数据抽取 (20)3.4.5多进程联合运行(Job Sequencer) (23)3.4.6数据聚合的处理 (25)3.4.7自定义程序 (27)4.DataStage Director篇Job的运行 (31)4.1登录 (31)4.2运行Job (31)4.3 Job的运行时间定义 (31)4.4日志的查看 (33)1.安装DataStage Server端的安装,如果在Windows操作系统上安装,需要NTFS格式的分区。

安装完毕将启动DataStage Engine Resource Service,DataStage Telnet Service两个服务。

DataStage Client在安装的过程中,会提示建立一个Project,建立了Project之后,Client就可以连接到此Project,当然也可用选择其他Server端的Project。

安装完毕,将产生4个各司其职的模块:DataStage Administrator,DataStage Director,DataStage Designer,DataStage Manager。

DataStage Adminstrator是对DataStage Server的一些参数、Project进行管理的模块。

DataStage Designer是一个界面性的设计平台,实现在创建执行数据集成任务“Job”的同时,对数据流和转换过程创建一个可视化的演示。

DataStage简介

DataStage简介

DataStage简单介绍:一、DataStage的特性:DataStage是在构建数据仓库过程中进行数据清洗、数据转换的一套工具。

它的工作流程如下图所示:DataStage包括设计、开发、编译、运行及管理等整套工具。

通过运用DataStage 能够对来自一个或多个不同数据源中的数据进行析取、转换,再将结果装载到一个或多个目的库中。

通过DataStage的处理,最终用户可以得到分析和决策支持所需要的及时而准确的数据及相关信息。

DataStage支持不同种类的数据源和目的库,它既可以直接从Oracle、Sybase 等各种数据库中存取数据,也可以通过ODBC接口访问各种数据库,还支持Sequential file类型的数据源。

这一特性使得多个数据源与目标的连接变得非常简单,可以在单个任务中对多个甚至是无限个数据源和目标进行连接。

DataStage自带了超过300个的预定义库函数和转换,即便是非常复杂的数据转换也可以很轻松的完成。

它的图形化设计工具可以控制任务执行而无须任何脚本。

二、DataStage的架构:DataStage采用C/S模式工作,其结构如下:DatastageServerProjectManager Designer DirectorDataStage 支持多种平台,其Server 端可运行于以下平台:Windows 2000、Windows NT 、COMPAQ Tru64、HP-UX 、IBM AIX 、Sun Solaris ;Client 端支持以下平台:Win95、Win98、Winme 、Windows NT 、Windows 2000;三、功能介绍DataStage 的Server 端由Repository 、DataStage Server 及DataStage Package Installer 三部分组成,Client 端则由DataStage Manager 、DataStage Designer 、DataStage Driect 及DataStage Administrator 四部分组成。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Add增量,
del-删除文件。
如果存在跨系统的生成的目标文件,源系统名填写输入主表对应的系统
Hash file
HASH_业务系统_原表表名_属性。
注:在此次项目中不会出现
Sort
SRT_description
数据排序
Transformer
TRF_description
数据转换
由于需要根据输入、输出文件的stage的名称进行数据平衡跟踪以及,故输入输出文件的stage命名必须严格按照上述的规范。
单主要输入输出,如下图:
多主要输入输出如下图:
2.
作业的头上须表明作业加工的档名,下方须表明作业加工逻辑,
所有的属性中须注名作业的作者,及设计思路。
对设计的流程做适当的说明以便让人更易理解,如上图。
3.
注意事项:
Stage的命名全部使用英文,参数注释也必须使用英文。
Job中使用Annotationstage来做模块说明可以使用中文注释。
()
FTP,其中direction为ftp的方向,get为下传,put为上传,为生成的文件名
Merge
MRG_description
数据合并
ODBC data access
ODB_tablename
ODBC数据表,其中tablename为表名
Oracle OCI
ORA_tablename
Oracle数据表,其中tablename为表名
3.个人目录
在Jobs下,建立目录test,test中为每个人创建一个私人用来做调试的目录。
3.4
3.4.1
此种job的命名是针对一项任务拆分成为了多个job的命名方式
格式:
逻辑模型阶段:Systemname_targetsystemname_tablename_jobtype_lgc
物理模型阶段:Systemname_targetsystemname_tablename_jobtype_phy
WARING和REJECT文件,只出现在从文件系统取数据,加工到SDM,命名为:SEF_业务系统_原表表名_属性_wr/rj。
业务系统包括:CBS、PBS、CMMS、ATMP
属性包括:ADD、ALL
文件操作,参见上面的文件命名规范
Systemname为源系统的名称
Table为操作文件数据的表名称
增量全量标志为All:全量
Informix CLI
INF_业务系统名_tablename例如:从CBS采集数据到文件服务器:inf_cbs_t_srm_itm_dict
Informix数据表,其中tablename为表名
Sequential file
卸数阶段,只会有一个输出文件,命名为:SEF_业务系统_原表表名_属性。
从文件系统取数据,加工到SDM,只会有一个输入文件,命名同卸数的输出:SEF_业务系统_原表表名_属性。
说明:
系统名(与业务系统不属于一个概念)
说明
bcv
数据源(INFORMIX数据库)
fs
文件服务器
sdm
标准层
fdm
基础模型层
待补充
Systemname:源系统的名称
Targetsystemname:目标系统名
Tablename:目标系统的表名称
Jobtype:job的任务类型
Jobtype
说明
Ex
抽取(Extract)
命名规范为:三位大写字母表示stage的类型+小写字母组成的其它信息。
所有的输入、输出以及HASH文件均采用参数赋值,参数名与Sequential file的命名类似。
3.1
输入输出的分隔符号格式如下图:
3.2
分成两个Project,一个用于开发odsdvlp,一个用来管理已经完成的作业:odsver。
3.3
根据实施阶段的不同来命名job的目录。
在odsdvlp中:
1.逻辑模型设计目录
在Jobs下建立目录logic model。再在logicmodel目录下建立不同源系统的目录,用于存放逻辑模型设计阶段的各个源系统的job,并且作业名后缀为“_lgc”。
2.物理设计目录
在Jobs下建立目录physic model。再在physicmodel下建立不同源系统的目录。用于存放物理模型设计阶段的各个源系统的job,并且作业名后缀为“_phy”。
3.6
格式:
LK_description
说明:
LK为link的简称,所有的link命名都使用LK作为头。
如Sequential指向一个look up。则link命名为LK_description
注意:
1.如果一个stage只有一个link的输入,则不需要填写Description,只需要填写link的序号。
Tr
公共代码转换(Transform)
Ld
加载(Load)
FTP
传输(FTP)
待补充
3.4.2
此种job的命名是针对一个任务在一个job中就全部完成的命名方式。
格式:
逻辑模型阶段:srcsystemname_targetsystemname_tablename_lgc
物理模型阶段:srcsystemname_targetsystemname_tablename_phy
说明:
Srcsystemname源系统名称
Targetsystemname目标系统名称
tablename目标系统表名
3.5
Stage Name
命名
说明
Aggregator
AGG_description
聚合
DB2/UDB API(DB2/UDBEnterprise)
DB2_tablename
DB数据表,其中tablename为表名
DataStage开发规范
北京先进数通信息技术有限公司2007Βιβλιοθήκη 11月文档信息标题
DataStage开发规范
创建日期
2007-11-4
文件名
DataStage开发规范V2.3.doc
存放目录
作者
陈博
修订记录
日期
描述
作者
2007-11-09
修改了SQF STAGE的命名以及参数命名
陈博
1.
布局应自左向右,自上而下,层次分明,布局协调,主要的数据流为从左到右成直线(单一输入输出)或成扇形(多输入输出),次要数据流为自上到下成直线(单一输入输出)或成扇形(多输入输出),STAGE与STAGE之间应留有足够的空间展示STAGE之间连接线上的信息。
2.如果一个stage有多个link的输入或输出,则需要填写Description。Description的填写方式要体现link的主从关系。为主键的link的Description填写master,其他的link填写subject+序号。
相关文档
最新文档