datastage常用操作

合集下载

datastage常用组件使用方法：

常用组件使用方法：1.Sequential file功能特点：适用于一般顺序文件（定长或不定长），可识别文本文件或IBM大机ebcdic文件。

使用要点：按照命名规范命名点住文件，双击鼠标，在general说明此文件内容，格式，存储目录等。

2.Annotation功能特点：一般用于注释，可利用其背景颜色在job中分颜色区别不同功能块3.Change Capture Stage功能特点：Change Capture Stage有两个输入，分别标记为before link 及after link。

输出的数据表示before link 和after link的区别，我们称作change set。

Change Capture Stage可以和Change Apply Stage配合使用来计算after set。

使用要点：key及value的说明：key值是比较的关键值，value是当key值相同是作进一步比较用的。

change mode选项说明：All keys，Explicit Values需要指定value，其余字段为keyExplicit Keys&Valueskey及value都需要指定Explicit Keys，All Values需要指定key，其余的字段为value输出策略说明：Drop Output For CopyFalse：保留before及afte link中key值相同的行True：删除before及afte link中key值相同的行Drop Output For DeleteFalse：保留before link中有但是after link中没有的key值所在的行True：删除before link中有但是afte link中没有的key值所在的行Drop Output For EditFalse：保留key值相同,value不同的行True：删除key值相同,value不同的行Drop Output For InsertFalse：保留before link中没有但afte link中有的key值所在的行True：删除before link中没有但afte link中有的key值所在的行4.Copy Stage功能说明：Copy Stage可以有一个输入，多个输出。

datastage常用函数

字符数组，从第一个开始，而不是从"0"开始。"String[star,length]"
"APPL3245"[1,4] --> "APPL"
"APPL3245"[5,2] --> "32"
IF操作符：
方法I： variable = If condition Thenexpression Else expression
5、@True, @False --> 返回布尔值。
@True = 1
@False = 0
6、@Who --> 获得当前工程的名字。
使用Iconv和Oconv函数转换日期
使用Iconv来将一个字符串的日期转换成为一个国际的数字，是天数。
以1967年12月31日作为基础点，那一点在DataStage中是"0"。
Oconv( 10,"D/YDM[4,2,A10]") -->1967/10/January
Oconv(Iconv( "12-31-67","D2-MDY[2,2,2]"),"D/YDM[4,2,A10]") -->1967/31/December
时间：
X = Oconv(10000,"MT") X = "02:46"
Iconv( "12311967", "D4MDY[2,2,4]") --> 0
Iconv( "31-12-1967","D-DMY[2,2,4]") --> 0

datastage工具使用总结-suncp

datastage工具使用总结-suncpDatastage工具时间介绍1、如何创建抽取jobA:DB2->DB2例如从数据仓库db2数据库抽取数据到合作伙伴db2数据库。

A:DB2->oracle例如从数据仓库db2数据库抽取数据到合作伙伴db2数据库。

A:oracle->DB2例如从数据仓库db2数据库抽取数据到合作伙伴db2数据库。

2、Db2创建job如何指定---分区键—表空间数据仓库咱们DB2Password=db_prmOracle2.修改partttiongting keyKey名称{tablespace=PRM_TBS_32,key=PRD_INST_ID} {tablespace=PRM_TBS_32,key=PRD_INST_ID}抽取问题：1.不能用create的那汇总错误2.没有权限的错误3.日志满的错误跑存储过程遇到问题:遇到这种情况需要就是加:no logger的原因。

需要把这张表删除，重新建就可以完成。

跑咸阳的存储过程报错：这样在说明的时候插入的数值与要被出入的表的字段对不上：检查：TT_CHN_INST_ID_CDMA_0200中间表字段不对：3、DataStage如何将job设置为定时抽取任务1.进入到平时我们看日志的界面。

左边是我们所有job和所创建的目录，找到我们所要设置的job所在的目录，点击后找到要设置的目标。

2.假如我要对每周做发展量统计的AGG_EVT_ORDER_DETAIL进行定时设置，找到所要设置的目标，选中后点击上图中红圈下目标，或者通过右键选择add to schedule 菜单后会进入如下界面：其中高亮显示的为我们选中的状态，这个界面就很显而易见了，根据我们要设置job定时抽取的逻辑进行设置。

比如发展量统计的逻辑抽取时间是这样的，每月月初5号抽取，接下来按照每周周一进行抽取。

所以我用一个定时任务是无法完成的，我设置两个定时任务：1.每月月初5号抽取2.接下来每周周一抽取红圈选中表示：每月5号，24小时制下，早上9点进行抽取。

Datastager入门应用开发(详细示例)

Datastage应用开发1 Datastage 简介Datastage包含四大部件：Administrator、Manager、Designer、Director。

1．用DataStage Administrator 新建或者删除项目，设置项目的公共属性，比如权限。

2．用DataStage Designer 连接到指定的项目上进行Job的设计；3．用DataStage Director 负责job的运行，监控等。

例如设置设计好的job的调度时间。

4．用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标：将源表中数据调度到目标表中去。

1 数据库：posuser/posuser@WHORADB , ip: 192.168.100.882 源表：a_test_from3 目标表：a_test_to两者表结构一样，代码参考：create table A_TEST_FROM(ID INTEGER not null,CR_SHOP_NO CHAR(15),SHOP_NAME VARCHAR2(80),SHOP_TEL CHAR(20),YEAR_INCOME NUMBER(16,2),SHOP_CLOSE_DATE DATE,SHOP_OPEN_DATE DATE)；alter table A_TEST_FROMadd constraint TEST primary key (ID)；4. 示例数据：insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24402, '105420580990038', '宜昌市云集门诊部', '82714596 ', 1000, to_date('01-05-2008', 'dd-mm-yyyy'), to_date('01-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24403, '105420559982198', '于志良', '82714596 ', 2000, to_date('02-05-2008', 'dd-mm-yyyy'), to_date('02-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24404, '105420556410012', '阳光儿童广场', '82714596 ', 3000, to_date('03-05-2008', 'dd-mm-yyyy'), to_date('03-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24405, '105420580620033', '秭归县医疗中心', '82714596 ', 4000, to_date('04-05-2008', 'dd-mm-yyyy'), to_date('04-06-2008', 'dd-mm-yyyy'));insert into A_TEST_FROM (ID, CR_SHOP_NO, SHOP_NAME, SHOP_TEL, YEAR_INCOME, SHOP_CLOSE_DATE, SHOP_OPEN_DATE)values (24406, '105420559120063', '同德医药零售北门连锁店', '82714596 ', 5000, to_date('05-05-2008', 'dd-mm-yyyy'), to_date('05-06-2008', 'dd-mm-yyyy'));2.2 打开Designer任务：打开datastage designer，连接datastage服务器1．双击桌面datastage designer图标。

DATASTAGE的介绍及基本操作

DATASTAGE 介绍及基本操作
内容提要：
• 一、datastage 介绍 • 二、如何安装datastage • 三、配置datastage 工程 • 四、设计并运行datastage的job • 五、操作元数据 • 六、操作关联数据 • 七、操作约束条件及数据来源 • 八、定义查找使用的哈希文件 • 九、聚合数据 • 十、job的运行及调试 • 十一、创建Basic表达式
• 使用DataStage中的Manager来存储和管理Job的元
数据，使之可以在DataStage中的Designer中再度被使用。
• 元数据包括表单和文件结构和导出数据的Routines
的转换等等。
• Manager是DataStage存储的一个重要的部分，可以
用来加入表单和文件的结构，在左侧分支树中显示 Routines、Transforms和Jobs。
• 问题二：
Datastage的Manager用来执行编译通过的Jobs。（Yes/No）
答案二：
No， Datastage的Manager是用来管理元数据的，如表单结构，内置和自定义Routines等的，使Datastage用来管理资源存储的。
• 问题三：
Datastage的Director用来执行编译通过的Jobs。（Yes/No）答案三：
程中系统提示使用者选择安装路径和输入产品序列号。
在Datastage Server安装的过程中会提示用户建立一个工程。
在安装Datastage Server端以后，需要安装Datastage Client端，鼠标点击
软件会自动进行安装，安装过程中系统提示使用者选择安装路径和输入产品序列号。
• 安装有Datastage服务端的机器，必须运行

datastage使用说明

用DataStage进行数据整合DataStage 的开发环境是基于C/S 模式的，通过DataStage Client 连接到DataStage Server 上进行开发。

这里有一点需要注意，DataStage Client 只能安装在Windows 平台上面。

而DataStage Server 则支持多种平台，比如Windows、Redhat Linux、AIX、HP-UNIX。

DataStage Client 有四种客户端工具。

分别是DataStage Administrator、DataStage Designer、DataStage Manager、DataStage Director。

接下来首先介绍这几种客户端工具在DataStage 架构中所处的位置以及它们如何协同工作来开发ETL Job 的，接着再分别详细介绍每个工具的功能。

图1 描述了IBM WebSphere DataStage 的整个系统架构。

DataStage 的客户端工具连接到DataStage Server 上进行ETL Job 的开发，DataStage Server 再与后台的数据库连接起来进行数据处理。

DataStage 的客户端工具之间的是一个相互合作的关系。

下面通过介绍ETL Job的开发过程来介绍他们之间的这种关系。

ETL Job开发流程1．用DataStage Administrator 新建一个项目；2．用DataStage Designer 连接到这个新建的项目上进行ETL Job的设计；3．用DataStage Director 对设计好的ETL Job设置运行的模式，比如多长时间运行一次ETL Job；4．用DataStage Manager 进行ETL Job的备份等。

图1：IBM WebSphere DataStage 架构图DataStage AdministratorDataStage Administrator 的主要功能有以下几个：1．设置客户端和服务器连接的最大时间。

DataStage常用函数大全

DataStage常⽤函数⼤全DataStage常⽤函数⼤全DATASTAGE常⽤函数⼤全 (1)⼀、类型转换函数 (4)1.Char (4)2.DateToString (4)3.DateToDecimal (4)4.DecimalToDate (5)5.DecimalToDecimal (6)6.DecimalToDFloat (6)7.DecimalToString (7)8.DecimalToTime (8)9.DecimalToTimestamp (8)10.DFloatToDecimal (9)11.DfloatToStringNoExp (10)12.IsValidDate (10)13.IsValidTime (11)14.IsValidTimestamp (11)15.RawNumAt (11)16.RawToString (12)17.Seq (12)18.SeqAt (12)19.StringToDate (12)20.StringToDecimal (13)21.StringToRaw (13)22.StringToTime (13)23.StringToTimestamp (14)24.StringToUstring (14)25.TimestampToDate (14)26.TimestampToDecimal (14)27.TimestampToString (15)28.TimestampToTime (16)29.TimeToString (16)30.TimeToDecimal (16)/doc/5f04fb6b10661ed9ad51f38d.html tringToString (17)⼆、字符串函数 (17)32.AlNum (17)33.Alpha (17)/doc/5f04fb6b10661ed9ad51f38d.html pare (18)/doc/5f04fb6b10661ed9ad51f38d.html pareNoCase (18) /doc/5f04fb6b10661ed9ad51f38d.html pareNum (18)/doc/5f04fb6b10661ed9ad51f38d.html pareNumNoCase (19)39.Convert (19)40.Count (19)41.Dcount (19)42.DownCase (20)43.DQuote (20)44.Field (20)45.Index (20)46.Left (21)47.Len (21)48.Num (21)49.PadString (21)50.Right (21)51.Soundex (22)52.Space (22)53.SQuote (22)54.Str (22)55.StripWhiteSpace (23)56.Trim (23)57.TrimB (24)58.TrimF (24)59.TrimLeadingTrailing (24)60.UpCase (24)三、数字函数 (25)61.AsDouble (25)62.AsFloat (25)63.AsInteger (25)64.MantissaFromDecimal (26)65.MantissaFromDFloat (26)四、⽇期和时间函数 (26)66.CurrentDate (26)67.CurrentTime (27)68.CurrentTimeMS (27)69.CurrentTimestamp (27)70.CurrentTimestampMS (27)71.DateFromDaysSince (27)72.DateFromComponents (28)73.DateFromJulianDay (28)74.DateOffsetByComponents (28)76.DaysInMonth (29)77.DaysInYear (29)78.DateOffsetByDays (30)79.HoursFromTime (30)80.JulianDayFromDate (30)81.MicroSecondsFromTime (30)82.MidnightSecondsFromTime (31)83.MinutesFromTime (31)84.MonthDayFromDate (31)85.MonthFromDate (31)86.NextWeekdayFromDate (32)87.NthWeekdayFromDate (32)88.PreviousWeekdayFromDate (32)89.SecondsFromTime (32)90.SecondsSinceFromTimestamp (33)91.TimeDate (33)92.TimeFromComponents (33)93.TimeFromMidnightSeconds (33)94.TimeOffsetByComponents (34)95.TimeOffsetBySeconds (34)96.TimestampFromDateTime (34)97.TimestampFromSecondsSince (34)98.TimestampFromTimet (35)99.TimestampOffsetByComponents (35) 100.TimestampOffsetBySeconds (35)101.TimetFromTimestamp (36)102.WeekdayFromDate (36)103.YeardayFromDate (36)104.YearFromDate (36)105.YearweekFromDate (37)五、Null处理函数 (37)106.IsNotNull (37)107.IsNull (37)108.NullToEmpty (38)109.NullToZero (38)110.NullToValue (38)111.SetNull (38)⼀、类型转换函数类型转换函数⽤于更改参数的类型。

DATASTAGE使用实用指南

DATESTAGE 使用实用指南1.DataStage官方文档学习笔记1.1通过右键添加link鼠标右键点击起始stage，按住右键移动鼠标到目标stage。

还有一种方法就是把鼠标放在起始stage的边缘等到变为一个小圆圈里面有一个叉的时候拖动鼠标到目标stage。

1.2DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时，如果类型不一致，对于有些类型我们需要在modify或transfomer stage中通过函数进行转换，对于有些系统会自动完成类型转换，在类型转换过程中，注意以下几点：1 在变长到固定长度字符串的默认转换中，parallel jobs用null（ASCII 0）字符来填充剩余长度。

联系到前面做的一个parallel job，当目标是变长时（当时源也是变长，但是好像源的精度要小些），但是字符串实际的长度没有指定的变长那么长的话，系统会自动用空格（ASCII 20）来填充（具体在哪个stage 填充的不知），而且环境变量APT_STRING_PADCHAR的默认值也是空格（ASCII 20）。

2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null（ASCII 0）。

注：联系上面两点，感觉文档讲的与实际不符，难道我们项目的administrator改变了该环境变量的默认值？3 有个PadString 函数可以用来用指定的字符来填充一个变长的字符串到指定的长度。

这个函数的参数不能使固定长度字符串，如果是固定长度的先转化为变长。

1.3Copy Stage作为占位符在job开发中，当你暂时不知道该使用哪个stage时，可以使用copy stage作为占位符，注意不要把Force 属性设为True，在不把Force设为True时，复制将在运行时进行优化。

使用Schema file来指定meta data1 可以通过列定义和schema file两种方式来指定meta data，值得注意的一点是Note that, if you usea schema file, you should ensure that runtime column propagation is turned on. Otherwise the column definitions specified in the stage editor will always override any schema file.即，如果想通过schema file来指定meta data，必须勾上runtime column propagation，否则总是使用列定义来作为meta data。

新教材DATASTAGE的介绍及基本操作.ppt

课件
Datastage测试
• 问题一：
Datastage的Designer是用来建立和编译job、用来进行数据的抽取、转换和加载即ETL。（Yes/No）答案一： Yes，Designer使用拖拽的方式将设计元素（习惯上叫stage）拖拽到设计区域中，经过建立和编译，Job就可以执行，用来进行数据的抽取、转换和加载。
安装操作员版本的Datastage，需要有Datastage 的Director的许可。
一个工程关联着一个目录，这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个工程，即登录这个工程。
工程是自包含的很多的工程可以在同一时间被打开，在各自单独的环境打开。可以在它们之间导入或导出项目。
多用户可以在同一时间使用一个工程中工作，但是 Datastage禁止在同一时间由多个用户访问同一个job。
• 3，到期时间。 • 4，授权代码。
在许可信息中，这个信息必须被正确输入的。
课件
安装向导会指导通过以下步骤进行：
• 1，输入许可信息。 • 2，指定服务器的路径。 • 3，选择程序的文件夹。 • 4，创建一个新的工程或升级已经存在的工
程。
课件
安装Datastage
课件
首先安装Datastage Server端，鼠标点击软件会自动安装，安装过
• 在Windows系统中安装Datastage服务端。 • 建立一个Datastage的工程。 • 安装Datastage的客户端。
课件
Datastage 的服务端要首先安装，之后才可以安装Datastage 客户端，服务端能都安装在WinNT、Windows2000或者UNIX系统中，这个模块将介绍在Windows环境下进行安装。

Datastage介绍及示例

Datastage介绍及示例1 Datastage 简介Datastage包含四大部件：Administrator、Manager、Designer、Director。

1．用DataStage Administrator 新建或者删除项目，设置项目的公共属性，比如权限。

2．用DataStage Designer 连接到指定的项目上进行Job的设计；3．用DataStage Director 负责job的运行，监控等。

例如设置设计好的job的调度时间。

4．用DataStage Manager 进行Job的备份等job的管理工作。

2 设计一个JOB示例2.1 环境准备目标：将源表中数据调度到目标表中去。

经验总结_DataStage

本资料仅供内部使用！经验总结_DataStage2010年09月29日目录1.D A TA S TAGE怎么调用存储过程 (2)2.D A TA S TAGE调度设计 (3)1. DataStage怎么调用存储过程1）打开Desinger2）拉入DB2 Connector控件3）填写参数4）在“Insert statement”属性中输入：call DCDW.SP_ODS2DW_DIRECTOR 5）总体情况如下图：6）编译1）新建“序列作业”2）加入Job Activity控件3）编辑Job Activity控件内容4）调度时间的设置3. DataStage8.5作业日志入库1)原理：新建一个Before/After subroutine，名为RoutineJobInfo，每个JOB运行完后执行一个这个routine，用于将每个job执行完后的相关日志信息写到一个文件里，然后通过一个shell程序runjobinfo将每个job运行的日志信息写入数据表LOG_DATASTAGE中。

每天通过检查LOG_DA TASTAGE表中每个job的状态信息来检查job是否运行失败。

2)步骤第一步，打开Designer 客户机，进入如下界面，找到左边的Routines目录第二步第三步RoutineJobInfo_code.txt 第四步第五步输入参数0;/dcdata/etl/runjobinfo/，在/dcdata/etl/runjobinfo/目录下产生每个JOB运行后的日志信息，文件名为job名称.txt。

3)建立日志表(DCDW.LOG_DATASTAGE)4)Shell程序etl_runjobinfo.sh读取/dcdata/etl/runjobinfo/下产生的每个JOB日志信息，产生JOB运行清单jobfilename.tmp记录运行job名称，将相关信息插入DCDW.LOG_DATASTAGE表。

datastage入门教程

DATASTAGE总结一、安装datastageA、安装服务端安装虚拟机(注册码在文件中)---解压datastage安装包redhat3__Datastage----点击解压文件中Red Hat Enterprise Linux 3---安装---在虚拟机启动---查看虚拟机IP地址，在dos窗口验证是否可以连接---打开secureCRT，连接虚拟机---进入/app/oracle/product/10.2/network/admin/tnsnames.ora中---按E键，再按i 进入编辑状态---将IP地址设为本机Ip地址，数据库实例名自己设置---按ESC、W、Q、：键退出---完成B、安装客户端解压datastage客户端安装包Datastageclient---点击解压文件datastage7.5.3\datastage client---安装---注册码在datastage7.5.1下载地址及license中----完成二、DATASTAGE主键1、transforme r（oracle----transformer---file）数据源oracle设置properties\source\readmethod=auto-generated sqlproperties\source\table=要导入的表名点击connection，出现remote server=数据库实例名，user=Scott，password=tigerColumns下将length设置合适---load---oracleI9--选定导入的表名---ok注意：若不知道导入表的格式Columns下将length设置合适---load---import---plug-in meda data definitions---oracleI9--ok---数据库实例名，用户名、密码---ok--选择Scott用户下---选表--- 导入Transformer设置：将需要显示的字段拖拽过去---ok目标文件file设置：properties下file--填入保存路径first line is columns name=trueFomat下点击record level 添加record delimiter 属性为UNIX newline点击field defaults 添加 null field value 属性为0 Quote=noneColumns下将length设置合适----ok以下主键数据源或目标文件为oracle/file的设置同上transformer的设置方法2、转存（file---transformer---file）Transformer设置：将需要显示的字段拖拽过去---ok3、导入（file---transformer---oracle）Transformer设置：将需要显示的字段拖拽过去---ok4、copy（file--copy--多file）：一个输入，多个输出Copy设置：stage当只有一个输入及一个输出时最好将Force设置为TrueOutput下将需要显示的字段拖拽过去---ok5、filter（file--filter---多file）：只有一个输入，可以有多个输出Filter设置：stage下properties\where clause=过滤条件--点击whereclause出现output link=slink值（在link orderingzhong看对应值） Output下将需要显示的字段拖拽过去---ok6、join（多oracle---join---file）：多表连接Join设置：stage下properties\join keys\key=关联字段，options\join type=连接类型（内、全、左、右连接）Output下将需要显示的字段拖拽过去---ok7、look up(多oracle---look up--file):数据的查询Look up设置：将关联字段连接，再将需要显示的字段拖拽过去8、merge(多file---merge---file):相同数据的合并Merge设置：stage下properties\merge keys\key=字段，sort order=排序Options下unmatched masters mode=保留/删除Output下将需要显示的字段拖拽过去---ok9、funnel（多file---funnel---file）：数据的合并Funnel设置：stage下properties\options\funnel type=选择合并方式Output下将需要显示的字段拖拽过去---ok10、aggregator(oracle---aggregator---file):数据的分类、汇总Aggregator设置：stage下properties\grouping keys\group=分组字段点击aggregations\aggregation type出现column for calculation=聚合字段及合方式，可以取最大值，最小值， Sum值，count值等多种聚合方式。

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作DataStage的基本操作包括设计和开发数据集成任务、管理数据集成任务的执行、监控任务的运行状态和性能等。

下面将分别介绍DataStage 的设计和开发、任务管理和监控等方面的基本操作。

1.设计和开发数据集成任务：- 创建项目：在DataStage中创建一个新的项目，并指定项目的名称和存储位置。

-创建作业流：在项目中创建一个新的作业流，并指定作业流的名称和描述。

-添加源和目标：将源数据和目标数据的连接器添加到作业流中，并配置其连接属性。

-设计转换：使用图形化工具将数据转换逻辑以节点的方式添加到作业流中。

可以使用预定义的转换函数、过滤器和聚合函数，并自定义转换规则。

-配置作业参数：为作业流设置参数，例如源数据的路径、目标数据的路径等。

-配置作业调度：定义作业流的调度规则，例如每日、每周或每月执行一次。

2.任务管理：- 启动任务：在DataStage的用户界面中选择要执行的作业流，并单击启动按钮来启动任务。

-监控任务状态：查看任务的运行状态，例如正在运行、已完成或已失败。

-管理调度：可以根据需要修改任务的调度规则，例如修改任务的执行时间或频率。

-管理依赖关系：设置任务之间的依赖关系，例如一个任务的输出作为另一个任务的输入，确保任务按照正确的顺序执行。

3.监控任务：- 实时监控：在DataStage的用户界面中查看任务的实时执行情况，包括输入/输出数据的数量、处理速度、错误记录等。

-查看日志：查看任务执行的详细日志，包括每个节点的执行情况、输入/输出数据的详细信息、转换规则的执行结果等。

-分析性能：分析任务的性能指标，例如任务的执行时间、内存使用情况、CPU利用率等，以优化任务的运行效率。

DataStage还提供了其他高级功能，例如数据质量检查、数据变化捕获和增量加载等。

此外，DataStage与其他数据集成工具和平台的集成也是可能的，例如与大数据处理框架Hadoop、数据仓库工具Teradata等的集成。

DataStage常用函数大全

DataStage常用函数大全DATASTAGE常用函数大全 (1)一、类型转换函数 (4)1.Char (4)2.DateToString (4)3.DateToDecimal (4)4.DecimalToDate (5)5.DecimalToDecimal (6)6.DecimalToDFloat (6)7.DecimalToString (7)8.DecimalToTime (8)9.DecimalToTimestamp (8)10.DFloatToDecimal (9)11.DfloatToStringNoExp (10)12.IsValidDate (10)13.IsValidTime (11)14.IsValidTimestamp (11)15.RawNumAt (11)16.RawToString (12)17.Seq (12)18.SeqAt (12)19.StringToDate (12)20.StringToDecimal (13)21.StringToRaw (13)22.StringToTime (14)23.StringToTimestamp (14)24.StringToUstring (14)25.TimestampToDate (14)26.TimestampToDecimal (15)27.TimestampToString (15)28.TimestampToTime (16)29.TimeToString (16)30.TimeToDecimal (16)tringToString (17)二、字符串函数 (17)32.AlNum (17)33.Alpha (17)pactWhiteSpace (18)pare (18)pareNoCase (18)pareNumNoCase (19)39.Convert (19)40.Count (19)41.Dcount (19)42.DownCase (20)43.DQuote (20)44.Field (20)45.Index (20)46.Left (21)47.Len (21)48.Num (21)49.PadString (21)50.Right (22)51.Soundex (22)52.Space (22)53.SQuote (22)54.Str (22)55.StripWhiteSpace (23)56.Trim (23)57.TrimB (24)58.TrimF (24)59.TrimLeadingTrailing (24)60.UpCase (24)三、数字函数 (25)61.AsDouble (25)62.AsFloat (25)63.AsInteger (25)64.MantissaFromDecimal (26)65.MantissaFromDFloat (26)四、日期和时间函数 (26)66.CurrentDate (26)67.CurrentTime (27)68.CurrentTimeMS (27)69.CurrentTimestamp (27)70.CurrentTimestampMS (27)71.DateFromDaysSince (27)72.DateFromComponents (28)73.DateFromJulianDay (28)74.DateOffsetByComponents (28)75.DaysSinceFromDate (29)76.DaysInMonth (29)77.DaysInYear (29)79.HoursFromTime (30)80.JulianDayFromDate (30)81.MicroSecondsFromTime (30)82.MidnightSecondsFromTime (31)83.MinutesFromTime (31)84.MonthDayFromDate (31)85.MonthFromDate (31)86.NextWeekdayFromDate (32)87.NthWeekdayFromDate (32)88.PreviousWeekdayFromDate (32)89.SecondsFromTime (32)90.SecondsSinceFromTimestamp (33)91.TimeDate (33)92.TimeFromComponents (33)93.TimeFromMidnightSeconds (33)94.TimeOffsetByComponents (34)95.TimeOffsetBySeconds (34)96.TimestampFromDateTime (34)97.TimestampFromSecondsSince (34)98.TimestampFromTimet (35)99.TimestampOffsetByComponents (35)100.TimestampOffsetBySeconds (35)101.TimetFromTimestamp (36)102.WeekdayFromDate (36)103.YeardayFromDate (36)104.YearFromDate (36)105.YearweekFromDate (37)五、Null 处理函数 (37)106.IsNotNull (37)107.IsNull (37)108.NullToEmpty (38)109.NullToZero (38)110.NullToValue (38)111.SetNull (38)一、类型转换函数类型转换函数用于更改参数的类型。

DataStage Stage使用

Funnel阶段Funnel阶段是一个处理阶段。

它将多个输入数据集复制到单个数据集，该操作对于将单独数据集合并到单个大型数据集而言非常有用。

该阶段可以有众多输入链接和一个输出链接Funnel阶段能够以下列三种方式之一运行：1、连续传送以不可保证顺序合并输入数据的记录。

它依次从每个输入链接获取一条记录。

如果输入链接上的数据不可用，那么该阶段会跳至下一个链接，而不是等待。

2、排序传送按照一个或多个键列的值定义的顺序合并输入记录，输出记录的顺序由这绡排序键确定。

3、顺序将第一个输入数据集中的所有记录复制到输出数据集，然后将第二个输入数据集中的所有记录复制到输出数据集，依此类推。

对于所有方法，所有数据数据集的元数据都必须椒相同的。

排序传送方法对于其输入数据有一些特定要求。

所有输入数据集都必须根据Funnel操作的键列进行排序。

通常，排序传送操作的所有输入数据集在排序之前都是散列分区的（选择自动分区方法将确保完成这一操作）.散列分区可确保具有相同键列值的所有记录都位于同一分区中，以便在同一个节点上处理。

如果在Funnel阶段之前在单独的阶段上执行排序和分区，那么必须保留该分区排序传送操作允许您设置一个主键和多个辅键以确定将输出的记录的顺序。

Funnel阶段：快速路径InfoSphere DataStage有许多缺省设置，这表示您能够载作业中轻松包含Funnel阶段。

本部分指定了要使Funnel阶段运行所需的最少步骤。

InfoSphere DataStage提供了多样化的用户界面，且提供了许多快捷方式供您达到特定目标，本部分描述了基本方法。

要使用Funnel阶段：1、在“阶段”页面的属性选项卡中，指定“传送类型”。

“连续传送”为缺省值，但也可以选择“顺序”或“排序传送”。

如果选择使用“排序传送”方法，则还需要指定对数据进行排序所依据的键。

可以重复使用键属性来指定组合键。

2、如果使用“顺序”方法，请在“阶段”页面的“链接排序”选项卡中，指定合并数据集的顺序。

Datastage 配置操作步骤

1部署软件环境DB服务器：22.4.8.7DB客户端：22.4.8.10，22.4.8.11，22.4.8.12，22.4.8.13DataStage主服务器：22.4.8.11DataStage备份服务器：22.4.8.13DataStage节点：22.5.8.10，22.5.8.122创建用户为每台机器创建dstage组和dsadm用户运行smit命令，启动管理界面在安装机器上创建dstage组设置ADMINISTRA TIVE USER 选项为true设置GID设为300创建用户dsadm设置主属为dstage，设置ADMINISTRA TIVE USER 选项为true；设置UID设为300；设置Primary GROUP，Group SET，ADMINISTRATIVE GROUPS：均为dstage；设置Soft FILE size [-1] （无限制）设置Hard FILE size [-1] （无限制）3修改系统参数调整每台机器的最大进程数查看用户进程最大数目：lsattr -El sys0|grep maxuproc如：修改用户进程最大数目：注意：要调整每个Ｄatastage节点的最大进程数用root用户登陆，键入即可。

chdev -l sys0 -a maxuproc=40964DataStage安装4.1上传DataStage介质到服务器上将介质拷贝到终端上，然后ftp到22.4.8.11和22.4.8.13上，将介质放在/Ascential.media 目录下，并赋上所有权限：chmod -R 777 /Ascential.media4.2安装DataStage4.2.1进入/Ascential.media，运行sh ./install.sh –admin dsadm，中间安装过程请参考上线文档，在安装过程中创建工程ETL_ODS.4.2.2配置dsadm用户.profile环境变量，增加如下内容22.4.8.11：# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefi#ds envexport ETLPLUS_HOME=/home/dsadmexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2HOME=/home/db2inst1/sqllibexportPATH=$PATH:$DSHOME/bin:$DB2HOME/include:/home/dsadm/Ascential/DataStage/PX Engine.753.1/libexportLIBPATH=$LIBPA TH:$DSHOME/lib:$APT_ORCHHOME/lib:/home/dsadm/Ascential/Dat aStage/PXEngine.753.1/lib. $DSHOME/dsenv22.4.8.13：# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefi#ds envexport ETLPLUS_HOME=/home/dsadmexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2HOME=/home/db2inst1/sqllibexportPATH=$PATH:$DSHOME/bin:$DB2HOME/include:/home/dsadm/Ascential/DataStage/PX Engine.753.1/libexportLIBPATH=$LIBPA TH:$DSHOME/lib:$APT_ORCHHOME/lib:/home/dsadm/Ascential/Dat aStage/PXEngine.753.1/lib. $DSHOME/dsenv22.4.8.10：export DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/lib export ETLPLUS_HOME=/home/dsadm22.4.8.12：export DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/libexport ETLPLUS_HOME=/home/dsadm22.4.8.7：# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefiexport ETLPLUS_HOME=/progexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/libexport DateInfoPath=/gpfsf/DateInfoPath5配置rsh环境。

datastage学习文档

工作总结1 如何重新启动DataStage服务器, 步骤如下: (5)2 DataStage开发经验积累: (5)2.1模板开发 (5)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (5)2.3去除不需要的字段 (5)2.4T RANSFORMER S TAGE的使用 (5)2.5L OOK UP/JOIN 空值处理 (6)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (6)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (6)2.8D ATA型数据是比较麻烦的 (6)2.9行列互换之H ORIZONTAL P IVOT（P IVOT S TAGE） (7)2.10行列互换之V ERTICAL P IVOT (7)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (9)2.12D ATA S TAGE SAP S TAGE的使用 (10)2.13C OLUM I MPORT S TAGE的使用 (10)2.14C OLUM E XPORT S TAGE的使用 (12)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (13)2.16U NABLE TO CREATE RT_CONFIG NNN (14)2.17查看JOB和CLIENT的对应的后台进程 (14)2.18强制杀死DS进程 (14)2.19查看S ERVER E NGINE的进程 (15)2.20查看S ERVER L OCKS (15)2.21关于UNIX系统下无法启动服务的解决办法 (16)2.22L OCKED BY OTHER USER (17)2.23DATA S TAGE J OB L OG的处理 (17)2.24一些BASIC语言中处理字符串的函数 (17)2.25BASIC程序中使用到的一些语法知识 (18)3DS中常见问题记录 (22)3.1权限管理问题 (22)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (22)3.3删除文件的问题 (22)3.4SEQUENCE调度出现的错误问题 (23)3.17字符集问题 (23)3.18V ERSION C ONTROL的问题 (23)3.19SEQUENCE调不起JOB的问题 (23)3.20SEQUENCE调度失败的问题 (24)3.21DS发送邮件的配置问题 (25)3.22随机错误问题 (26)3.23DS中的日期问题 (26)3.24DS连接ORACLE问题 (27)。

DATASTAGE日常运维手册

DATASTAGE日常运维手册DATASTAGE日常运维手册项目名称：DATASTAGE运维编制时间：2015年 11月修改记录本文档中所包含的信息，如无中国建设银行的书面许可，任何人都无权复制或利用。

企业版支持大容量数据的收集、整合和转换，数据从简单结构到很复杂的结构。

基于高可扩展性的软件架购，企业版使得企业能够通过高性能来解决大部分业务问题，并行处理大容量数据。

强大的企业元数据管理能力使得可以在数据整合生命周期中在所有工具中共享和使用工具。

DataStage企业版发布了四个核心功能来成功实施企业数据整合：1)先进的开发和简单化的维护；2)企业级别的开发、监测和管理；3)在吞吐量和性能方面提供了无限制的高扩展的体系架构；4)端对端的企业级元数据管理。

DataStage企业版提供了全面的功能去最优化用户在建立、升级和管理数据整合架构时的速度、灵活性和效率。

DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使用，减少了数据整合应用的开发和维护周期。

结果，DataStage企业版使得企业能够花更少的时间开发他们的整合应用，更多的时间是不断的从中受益。

1.2基础架构1.3客户档介绍用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。

这些工具包括：Designer：用来建立和编辑DataStage作业和表的定义。

Designer中的“Job Sequencer”控制作业的执行，其他作业成功完成（或失败，等）的条件。

Administrator：用来执行管理任务，如建立DataStage用户、建立和删除工程并且建立清洗标准。

Manager：用来编辑管理用户工程的DataStage资料库。

DataStage使用说明

目录1.安装 (2)2.DataStage Administrator (3)2.1对Project的管理 (3)2.2修改DataStage Server的License (5)3.DataStage Designer篇Job的定义 (5)3.1登录 (5)3.2建立Job (6)3.3界面说明 (6)3.4 ETL过程定义 (7)3.4.1数据库到数据库 (7)3.4.2 Job的调试 (17)3.4.3文件到数据库 (19)3.4.4远程数据抽取 (20)3.4.5多进程联合运行（Job Sequencer） (23)3.4.6数据聚合的处理 (25)3.4.7自定义程序 (27)4.DataStage Director篇Job的运行 (31)4.1登录 (31)4.2运行Job (31)4.3 Job的运行时间定义 (31)4.4日志的查看 (33)1.安装DataStage Server端的安装，如果在Windows操作系统上安装，需要NTFS格式的分区。

安装完毕将启动DataStage Engine Resource Service，DataStage Telnet Service两个服务。

DataStage Client在安装的过程中，会提示建立一个Project，建立了Project之后，Client就可以连接到此Project，当然也可用选择其他Server端的Project。

安装完毕，将产生4个各司其职的模块：DataStage Administrator，DataStage Director，DataStage Designer，DataStage Manager。

DataStage Adminstrator是对DataStage Server的一些参数、Project进行管理的模块。

DataStage Designer是一个界面性的设计平台，实现在创建执行数据集成任务“Job”的同时，对数据流和转换过程创建一个可视化的演示。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

安装DataStage 的目录下例如C:/Ascential/DataStage/Engine/bin>
dsjob的的语法如下：
Command Syntax:
dsjob [-file <file> <server> | [-server <server>][-user <user>][-passwod <password>]]
Job Start Time : Mon Feb 29 02:00:34 2016
Job Wave Number : 109
User Status : not available
Job Control : 0
Interim Status : NOT RUNNING (99)
调用job，直到job结束命令才返回
dsjob -run -mode NORMAL -warn 0 -jobstatus ODS_ETL RENWANG_T_BUSINESS_DEPARTMENT
查看job最近100条日志
dsjob -logsum -max 100 ODS_ETL RENWANG_T_BUSINESS_DEPARTMENT
列出所有的server中的projuec
dsjob -lprojects
sysup1_MPHASIS
sysup1_MPHASIS_1
sysup1_MPHASIS_2
sysup1_MPHASIS_3
Status code = 0
获得project的信息
C:/Ascential/DataStage/Engine/bin>dsjob -projectinfo sysup1_MPHASIS_1
作业状态：（2）
状态码为 2
dsjob -stop PROJECT_NAME JOB_NAME
-stop 停止正在运行的job
例子：dsjob -stop sn_dev test_job
列出所有的项目
dsjob -lprojects
状态码为 0
列出项目ODS_ETL中所有的job名字
dsjob -ljobs ODS_ETL
状态码为 0
列出指定job的详细信息
dsjob -jobinfo ODS_ETL ZZSR_YB_ZX_PLY
Job Status : RUN OK (1)
Job Controller : SEQ_CXYJ_ZZSR
-jobstatus运行结束展示job的状态
-warn表示job中有多少条警告时中止job，设置为0表示无限制
例子：dsjob -run -mode NORMAL -warn 0 -jobstatus sn_dev test_ldf_2
正在等待作业...
已完成对作业的等待
Waiting for job...
Finished waiting for job
Job Status : (1)
Status code = 1
停止正在运行的job
-stop
Invalid arguments: dsjob -stop [-useid] <project> <job|jobid>
[-disablejobhandler]
[-jobstatus]
Jobstatus 运行的状态
[-userstatus]
[-useid]
Invocation ID : not available
Last Run Time : Mon Feb 29 02:00:38 2016
Job Process ID : 0
Invocation List : ZZSR_YB_ZX_PLY
Job Restartable : 0
Status code = 0
dsjob -run [-mode <NORMAL | RESET | VALIDATE>] -param <name>=<value> -jobstatus PROJECT_NAME JOB_NAME
-param运行带参数的job
name：参数名字
value：参数值
例子：dsjob -run -param YR_MON_DAY='20111020' sn_dev test_job
-paraminfo 列出指定parameter的信息
-log 获得job的所有的日志
-logsum 获得job的所有的日志
-logdetail 获得job的所的详细日志
-lognewest
Job Control : 0
Interim Status : NOT RUNNING (99)
Invocation ID : not available
Last Run Time : Mon Jul 06 15:04:42 2009
Job Process ID : 0
<primary command> [<arguments>]
Valid primary command options are:
-run 运行job
-stop 停止运行中的job
-lprojects 列出server中所有的工程
rows 运行过多少记录以后job停止运行
[-wait]
wait 等待多长时间停止运行
[-opmetadata <TRUE | FALSE>]
[-disableprjhandler]
dsjob解释一
ETL调度中不乏要用shell脚本来运行DATASTAGE中的JOB,现测试一下DSJOB的用法然后总结一下（边测试边总结）
dsjob -run [-mode <NORMAL | RESET | VALIDATE>] PROJECT_NAME JOB_NAME
-mode为选择运行模式，
NORMAL表示正常运行，此时和不写-mode是一样的；
RESET表示重置，当job在中止状态时要先RESET，之后才能再正常运行；
VALIDATE表示验证，即验证job的可运行性。
例子：dsjob -run -mode NORMAL sn_dev test_job
注：新开发的job一定要先编译，否则，三种mode都不可行。
最简单的运行
2 C:/Ascential/DataStage/Engine/bin>dsjob -server 10.240.12.67 -user peace.zhao -password Yanzhang0717 -run -mode NORMAL -jobstatus sysup1_MPHASIS_1 Sequential
列出指定job所用的stage
dsjob -lstages sn_dev test_ldf_2
Sequential_File_10
Sequential_File_1 状态码为来自0 dsjob解释二
Datastage 的job可以通过dsjob命令来调用job或者获得job的信息，以及运行的报告和日志。
-projectinfo 列出指定project的信息
-jobinfo 列出指定job的信息
-stageinfo 列出指定stage的信息
-linkinfo 列出指定link的信息
-lparams 列出指定job的所有的parameter
-ljobs 列出指定project中的所有的job
-linvocations列出指定job中的所有的invocation
-lstages 列出指定job中的所有的stage
-llinks 列出指定job中的所有的link
<project> <job|jobid>
1 dsjob -server 10.240.12.67 -user peace.zhao -password Yanzhang0717 -run -mode NORMAL sysup1_MPHASIS_1 Sequential
Waiting for job...
Finished waiting for job
Job Status : (1)
Status code = 1
dsjob -server 10.240.12.67 -user peace.zhao -password Yanzhang0717 -run -mode NORMAL -param input=7.txt -param output=8.txt -jobstatus sysup1_MPHASIS_1 Sequential
dsjob -report ODS_ETL ZZSR_YB_ZX_PLY DETAIL
**************************************************
Invocation List : Sequential
Status code = 0
获得job运行的报告
dsjob -report [-useid] <project> <job|jobid> [report type>]
report type = BASIC | DETAIL | XML
-report 获得job的所的详细日志
-jobid
-run
Invalid arguments: dsjob -run
[-mode <NORMAL | RESET | VALIDATE>]