DataStage-V11.3部署手册
datastage经验总结
目录1 如何重新启动DataStage服务器, 步骤如下: (4)2 DataStage开发经验积累: (4)2.1模板开发 (4)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (4)2.3去除不需要的字段 (4)2.4T RANSFORMER S TAGE的使用 (4)2.5L OOK UP/JOIN 空值处理 (5)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (5)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (5)2.8D ATA型数据是比较麻烦的 (5)2.9行列互换之H ORIZONTAL P IVOT(P IVOT S TAGE) (6)2.10行列互换之V ERTICAL P IVOT (6)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (8)2.12D ATA S TAGE SAP S TAGE的使用 (9)2.13C OLUM I MPORT S TAGE的使用 (9)2.14C OLUM E XPORT S TAGE的使用 (11)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (12)2.16U NABLE TO CREATE RT_CONFIG NNN (13)2.17查看JOB和CLIENT的对应的后台进程 (13)2.18强制杀死DS进程 (13)2.19查看S ERVER E NGINE的进程 (14)2.20查看S ERVER L OCKS (14)2.21关于UNIX系统下无法启动服务的解决办法 (15)2.22L OCKED BY OTHER USER (16)2.23DATA S TAGE J OB L OG的处理 (16)2.24一些BASIC语言中处理字符串的函数 (16)2.25BASIC程序中使用到的一些语法知识 (17)3DS中常见问题记录 (21)3.1权限管理问题 (21)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (21)3.3删除文件的问题 (21)3.4SEQUENCE调度出现的错误问题 (22)3.17字符集问题 (22)3.18V ERSION C ONTROL的问题 (22)3.19SEQUENCE调不起JOB的问题 (22)3.20SEQUENCE调度失败的问题 (23)3.21DS发送邮件的配置问题 (24)3.22随机错误问题 (25)3.23DS中的日期问题 (25)3.24DS连接ORACLE问题 (26)3.25在S EQUENCE F ILE S TAGE中的空值处理问题 (26)3.26在DS中使用O RACLE E NTERPRISE S TAGE必须的权限 (26)3.27DS中去除‘回车符’的问题以及从CHAR类型转变成整型的方法 (26)3.28从后台看JOB列表的方法 (27)3.29D ATASTAGE和数据库的连接方法 (27)3.30在DATASTAGE中使用环境变量的问题 (27)3.31IC ONV 和OC ONV (28)3.32在M ERGE中使用特殊字符 (28)4部分常用Stage 的使用说明 (28)5dsjob 语法说明: (30)6如何从DataStage服务器导出所开发的JOBS列表 (31)7查看当前服务器状态信息的方法: (35)8如何在两台机器之间进行FTP文件 (35)9如何获得Jobstatus ,步骤如下: (37)10dsjob –run 的用法 (38)11如何在后台运行和停止一个JOB (39)12DS Oracle EE Stage 配置 (41)11.1安装O RACLE客户端 (41)11.2添加O RACLE用户到DSADM GROUP组选项 (41)11.3配置D ATA S TAGE服务器DSENV文件 (41)11.4配置TNSNAMES.ORA (42)11.5重起D ATA S TAGE服务 (42)11.6配置O ACLE S TAGE抽取的S ELECT权限 (42)11.7O ACLE EE STAGE配置结束 (43)13DS ODBC 的配置 (43)12.1修改$DSHOME/DSENV (43)12.2修改$DSHOME/.ODBC.INI,来提供数据库连接信息; (43)12.3修改$DSHOME/UVODBC.CONFIG,来指定DSN(DATA SOURCE NAME). (44)14ETL系统扩展 (45)15Remote Shell (rsh)的配置 (45)14.1创建并配置.RHOSTS文件 (45)14.2修改/ETC/HOSTS.EQUIV文件 (46)16dsadmin命令的使用 (46)15.1DSADMIN命令的使用 (46)17如何启动JobMonApp (48)18DS.TOOLS (48)19uvsh常用命令 (51)18.1LOGTO P ROJECT N AME --------登录一个工程 (51)18.2DS.TOOLS---------进入DS工具 (51)18.3LIST DS_JOBS--------显示所有的J OB及J OB的分类C ATEGORY (51)18.4LIST DS_JOBS WITH NAME=J OB N AME ------显示某个特定J OB的信息 (51)18.5LIST.READU EVERY-----列出所有的锁及锁的拥有用户U SER N AME (51)18.6UNLOCK USER USERNO ALL----解锁用户锁住的J OBS (51)18.7LIST.INDEX-----列出资料库的索引 (52)20Usage Analysis来进行影响分析 (52)19.1如何启动U SAGE A NALYSIS (52)19.2U SAGE A NALYSIS中S ELECT C OLUMNS的使用 (53)19.3U SAGE A NALYSIS中V IEW HTML的使用 (54)19.4U SAGE A NALYSIS中L OCATE IN M ANAGER的使用 (55)19.5U SAGE A NALYSIS可使用的S OURCE类型 (56)21DS Message Handlers (57)20.1M ESSAGE H ANDLERS的两种级别 (57)20.2M ESSAGE H ANDLERS的三种动作种类 (58)20.3M ESSAGE H ANDLERS的文件格式 (58)22DS Parallel Routine (59)21.1P ARALLEL R OUTINE注意事项 (59)21.2P ARALLEL R OUTINE创建流程 (59)21.3P ARALLEL R OUTINE示例 (60)23uvconfig文件中参数修改方法 (62)22.1修改文件UVCONFIG中的参数 (62)22.2运行UVREGEN (62)22.3重启DS服务 (62)22.4校验 (62)24&PH& (62)23.1CD \&PH\&或CD ‘&PH&’ (62)25DB2支持的数据格式 (63)26DB2中Load语法和基本使用 (64)1如何重新启动DataStage服务器, 步骤如下:1.01启动DataStage Server 的命令要在$DSHOME/bin 目录下进行. 启动之前要切断所有与服务器端的连接:1. 登陆DataStage 服务器,输入: $DSHOME/bin2. 关闭DataStage 服务器 ./uv –admin –stop3. 检查服务器上是否还有进程没关掉,否则服务器无法启动起来,netstat -a | grep ds4. 重起服务器 ./uv –admin –start.Note: 关闭DataStage 服务器后,建议过30 sec 再重起服务器.2DataStage开发经验积累:2.1 模板开发并行JOB中模板的开发可以最大程度的重用并行JOB的构件,节省时间1. 使用JOB参数(PARAMETER)可以在运行时提供参数的值,增加灵活性,可以在不同的环境处理不同的数据;使用JOB PARAMETER 可以在同一时间使用不同参数运行同一个JOB2. Shared Container共享容器可以在多个JOB中共享相同的逻辑,当一个JOB编译时共享容器被嵌入.2.2 通过Server Shared Container在Parallel Job中添加Server Job Stage在Designer中创建一个server shared container,添加需要的Server job stage,再把server shared container添加到parallel job并连接到其他parallel stage. 2.3 去除不需要的字段当从数据库中读取数据时,要尽可能早的去除不需要的字段,只读取需要的字段,而不是整个表,这样可以提高数据读取效率.2.4 Transformer Stage的使用1. 慎用Transformer Stage,因为它可能降低JOB的运行效率,有些功能能合并成一个单独的STAGE的不要用多个STAGE,要用其他的STAGE来代替Transformer Stage 能完成的任务.2. Transformer Stage 的数据流程是先经过constraint的过滤,然后再经过Derivation处理3. 对于确定类型的操作,使用其他STAGE 比使用TRANSFORMER 会更好:(1) 对如下情况,使用Copy Stage 将比Transformer Stage 更好﹡在界面上提供一个JOB 设计占位符﹡重新命名字段﹡删除字段﹡Implicit类型变换(2) 使用Filter Stage 或者Switch Stage 来把输入记录按照限制表式分成多个输出分支.(3) 使用Modify Stage 来explicit 类型变换和Null处理﹡Modify Stage 也可重新命名字段﹡保持(keep)或删除(drop)字段﹡也可增加新字段,并为新增字段赋值,但赋值方式要以字段=字段形式,例如:new_columnname=old_columnname; 但new_columnname=”hf”这样赋值是错误的﹡Null的处理destinationColum=handle_null(sourceColum,Value)destinationColum=make_null(sourceColum,Value),这个使用中有问题,不处理空值2.5 Look up/join 空值处理1. 当使用Lookup Failure = Contunue 时,要把reference link 的非主键设置成Nullable,即使reference data 是非空的,也要设置成Nullable,这样能够确保Lookup 把空值分配给没有匹配的参考非主键2. 如果参考非主键没有设置成Nullable ,将会发生什么:Lookup 将会分配一个默认值给没有匹配的的行:Integer 默认值为0Varchar/char 默认值为空字符串(0长度的)2.6 DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用空格(ASCII 20)字符来填充剩余长度(环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII20),具体在哪个stage填充的不知.2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII0)。
DataStage基本知识
本例对字段做简单运算,根据条件装载到不同表中
53
DataStage实例-表到表
本例中连接数据库仍使用ODBC,每个ODBC Stage连 接Informix中的一张表. 本例中使用一个新的Stage: Transformer(转换) 在设置了各个ODBC Stage之后,我们来看一下 Transformer(转换)的属性
DataStage Administrator(主管):用于创建 DataStage用户,创建,移动项目。
10
DataStage Administrator(主管)
11
DataStage Administrator(主管)
12
DataStage Designer(设计者)
13
DataStage Manager(管理者)
输入需要导出的列
需要的列
47
DataStage实例-表到文件
查看并修改SQL语句
SQL语句
SQL参考
48
DataStage实例-表到文件
可使用”View data…”按钮查看内容
查看内容
49
DataStage实例-表到文件
指定输出文件
文件路径名称
50
DataStage实例-表到文件
Repository(仓库),包括建造数据集市或数据仓库 所需要的全部信息的中央存储器; DataStage Server(服务器),运行向数据仓库抽 取,转换,导入数据的可执行作业; DataStage Package Installer(包安装,服务端的 安装工具),用来安装包装的DataStage作业和插件 的用户界面。
DATASTAGE的介绍及基本操作
? 数据清洗、转换、加载都可以在图形化工具里完成 ,同样可以灵活的被外部系统调度,提供专门的设 计工具来设计转换规则和清洗规则等,实现了增量 抽取、任务调度等多种复杂而实用的功能 。
? Designer提供一个数据流程的模式,轻松将设置和Job的设计有 机的组成。
? 使用Designer,可以: 1、指定数据如何抽取。
? 2、指定数据的转换规则和进行转换。
? 3、使用参考性质的LookUp到数据集市中编辑数据。
? a)例如,如果销售的记录集包括CustomerID,可以在 CustomerMaster表中使用LookUp查找到Customer的名称。
Datastage的工程管理
? 所有的工作都在一个工程中。 ? 在安装过后,需要建立一个工程,这是安
装必选的项目。 ? 在使用它工作之前,要登录这个工程。 ? 可以在工程间进行导入和导出Datastage的
项目内容。 ? 多个用户可以在同一时间使用同一工程,
但是不能同时编辑同一个项目。
所有的工作都在Datastage的工程里进行。在做任何事 之前,那些具有同样管理权限的人,都要先打开一个工程, 即进行登录。
运行和监控 ds的job。主要用于 job调试。
? DS Manager
允许编辑和查看在 ds中存储的内容。主要用于项目 管理或job的导入、导出、备份。
DataStage中的Administrator
默认使用Administator来指定常规的服务端,用来增加 或删除DataStage工程,并且可以设置工程的属性。 Administator也对于总库提供命令接口。
Datastage控件使用指南
目录1. 引言 (1)2. 常用STAGE使用说明 (1)2.1.S EQUENTIAL F ILE S TAGE (1)2.2.A NNOTATION (4)2.3.C OLUMN E XPORT S TAGE (5)2.4.C HANGE C APTURE S TAGE (7)2.5.C OPY S TAGE (9)2.6.F ILTER S TAGE (10)2.7.F UNNEL S TAGE (11)2.8.T ANSFORMER S TAGE (12)2.9.S ORT S TAGE (13)2.10.L OOK U P S TAGE (14)2.11.J OIN S TAGE (14)2.12.M ERGE S TAGE (16)2.13.M ODIFY S TAGE (17)2.14.D ATA S ET S TAGE (18)2.15.F ILE S ET S TAGE (19)2.16.L OOKUP F ILE S ET S TAGE (21)2.17.O RACLE E NTERPRISE S TAGE (23)2.18.A GGREGATOR S TAGE (24)2.19.R EMOVE D UPLICATES S TAGE (26)2.20.C OMPRESS S TAGE (27)2.21.E XPAND S TAGE (28)2.22.D IFFERENCE S TAGE (29)2.23.C OMPARE S TAGE (31)2.24.S WITCH S TAGE (32)2.25.C OLUMN I MPORT S TAGE (33)3. DATASTAGE MANAGER使用 (35)3.1.导入导出J OB及其它组件 (35)3.2.管理配置文件 (37)4. DATASTAGE ADMINISTRATOR常用配置 (39)4.1.设置T IME O UT时间 (39)4.2.设置P ROJECT的属性 (40)4.3.更新D ATA S TAGE S ERVER的L ICENSE和本地C LIENT的L ICENSE (41)5. DATASTAGE DIRECTOR使用 (41)5.1.察看J OB的状态,运行已经编译好的J OB (41)5.2.将编译好的J OB加入计划任务 (44)5.3.监控J OB的运行情况 (45)1.引言DataStage EE的开发主要由DataStage Designer完成。
Datastage产品安装手册
Datastage产品安装配置手册目录DATASTAGE (1)产品安装配置手册 (1)目录 (1)1. 引言 (2)2. SERVER安装 (2)2.1.S ERVER安装准备 (2)2.1.1. 硬件及软件准备 (2)2.1.2. 创建用户及组 (2)2.1.3. 系统参数设置 (3)2.2.S ERVER安装步骤 (3)2.3.安装完毕,检查后台S ERVER是否启动正常 (15)3. CLIENT安装 (16)4. EESTAGE配置: (16)4.1.配置前准备 (16)4.2.配置过程 (16)4.3.测试 (17)1.引言DataStage EE 7.5.2Server安装在hp unix平台上,Client端安装在Windows平台上。
以下为详细说明其安装步骤。
2.Server安装2.1.Server安装准备2.1.1.硬件及软件准备2.1.2.创建用户及组1.运行sam命令,启动管理界面2.在安装机器上创建dstage组3.创建用户dsadm,属于dstage组和dba组。
dsadm用户要有存取权限2.1.3.系统参数设置1)检查Server端paging space的空间,对于CPU数量少于20个的机器,最好整个Paging Space为500M×CPU数,如机器配置了8个CPU,则推荐至少需要配置4GB的Paging Space空间。
2)检查核心参数,不符合要求则针对操作系统进行如下调整(使用sam):3)检查参数Maximum number of PROCESSES allowed per user,设置Datastage允许运行的最大进程数,推荐设置到较大的值,如:8192。
2.2.Server安装步骤确保以超级用户root进入系统(非常重要)如果是硬盘包,则执行命令:gunzip 2105-ds-75a-aix.tar.Z进入解压目录Tar xvf 2105-ds-75a-aix.tar进入/解压环境/Ascential.media/aix目录如果是光盘包,则执行命令: Mount /cdrom进入 /cdrom目录1)执行./INSTALL.SH\;1。
datastage使用说明
用DataStage进行数据整合DataStage 的开发环境是基于C/S 模式的,通过DataStage Client 连接到DataStage Server 上进行开发。
这里有一点需要注意,DataStage Client 只能安装在Windows 平台上面。
而DataStage Server 则支持多种平台,比如Windows、Redhat Linux、AIX、HP-UNIX。
DataStage Client 有四种客户端工具。
分别是DataStage Administrator、DataStage Designer、DataStage Manager、DataStage Director。
接下来首先介绍这几种客户端工具在DataStage 架构中所处的位置以及它们如何协同工作来开发ETL Job 的,接着再分别详细介绍每个工具的功能。
图1 描述了IBM WebSphere DataStage 的整个系统架构。
DataStage 的客户端工具连接到DataStage Server 上进行ETL Job 的开发,DataStage Server 再与后台的数据库连接起来进行数据处理。
DataStage 的客户端工具之间的是一个相互合作的关系。
下面通过介绍ETL Job的开发过程来介绍他们之间的这种关系。
ETL Job开发流程1.用DataStage Administrator 新建一个项目;2.用DataStage Designer 连接到这个新建的项目上进行ETL Job的设计;3.用DataStage Director 对设计好的ETL Job设置运行的模式,比如多长时间运行一次ETL Job;4.用DataStage Manager 进行ETL Job的备份等。
图1:IBM WebSphere DataStage 架构图DataStage AdministratorDataStage Administrator 的主要功能有以下几个:1.设置客户端和服务器连接的最大时间。
datastage学习文档
工作总结1 如何重新启动DataStage服务器, 步骤如下: (5)2 DataStage开发经验积累: (5)2.1模板开发 (5)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (5)2.3去除不需要的字段 (5)2.4T RANSFORMER S TAGE的使用 (5)2.5L OOK UP/JOIN 空值处理 (6)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (6)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (6)2.8D ATA型数据是比较麻烦的 (6)2.9行列互换之H ORIZONTAL P IVOT(P IVOT S TAGE) (7)2.10行列互换之V ERTICAL P IVOT (7)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (9)2.12D ATA S TAGE SAP S TAGE的使用 (10)2.13C OLUM I MPORT S TAGE的使用 (10)2.14C OLUM E XPORT S TAGE的使用 (12)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (13)2.16U NABLE TO CREATE RT_CONFIG NNN (14)2.17查看JOB和CLIENT的对应的后台进程 (14)2.18强制杀死DS进程 (14)2.19查看S ERVER E NGINE的进程 (15)2.20查看S ERVER L OCKS (15)2.21关于UNIX系统下无法启动服务的解决办法 (16)2.22L OCKED BY OTHER USER (17)2.23DATA S TAGE J OB L OG的处理 (17)2.24一些BASIC语言中处理字符串的函数 (17)2.25BASIC程序中使用到的一些语法知识 (18)3DS中常见问题记录 (22)3.1权限管理问题 (22)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (22)3.3删除文件的问题 (22)3.4SEQUENCE调度出现的错误问题 (23)3.17字符集问题 (23)3.18V ERSION C ONTROL的问题 (23)3.19SEQUENCE调不起JOB的问题 (23)3.20SEQUENCE调度失败的问题 (24)3.21DS发送邮件的配置问题 (25)3.22随机错误问题 (26)3.23DS中的日期问题 (26)3.24DS连接ORACLE问题 (27)3.28从后台看JOB列表的方法 (28)3.29D ATASTAGE和数据库的连接方法 (28)3.30在DATASTAGE中使用环境变量的问题 (28)3.31IC ONV 和OC ONV (29)3.32在M ERGE中使用特殊字符 (29)4部分常用Stage 的使用说明 (29)5dsjob 语法说明: (31)6如何从DataStage服务器导出所开发的JOBS列表 (32)7查看当前服务器状态信息的方法: (36)8如何在两台机器之间进行FTP文件 (36)9如何获得Jobstatus ,步骤如下: (38)10dsjob –run 的用法 (39)11如何在后台运行和停止一个JOB (40)12DS Oracle EE Stage 配置 (42)11.1安装O RACLE客户端 (42)11.2添加O RACLE用户到DSADM GROUP组选项 (42)11.3配置D ATA S TAGE服务器DSENV文件 (42)11.4配置TNSNAMES.ORA (43)11.5重起D ATA S TAGE服务 (43)11.6配置O ACLE S TAGE抽取的S ELECT权限 (43)11.7O ACLE EE STAGE配置结束 (44)13DS ODBC 的配置 (44)12.1修改$DSHOME/DSENV (44)12.2修改$DSHOME/.ODBC.INI,来提供数据库连接信息; (44)12.3修改$DSHOME/UVODBC.CONFIG,来指定DSN(DATA SOURCE NAME). (45)14ETL系统扩展 (46)15Remote Shell (rsh)的配置 (46)14.1创建并配置.RHOSTS文件 (46)14.2修改/ETC/HOSTS.EQUIV文件 (47)16dsadmin命令的使用 (47)15.1DSADMIN命令的使用 (47)17如何启动JobMonApp (49)18.1LOGTO P ROJECT N AME --------登录一个工程 (52)18.2DS.TOOLS---------进入DS工具 (52)18.3LIST DS_JOBS--------显示所有的J OB及J OB的分类C ATEGORY (52)18.4LIST DS_JOBS WITH NAME=J OB N AME ------显示某个特定J OB的信息 (52)18.5LIST.READU EVERY-----列出所有的锁及锁的拥有用户U SER N AME (52)18.6UNLOCK USER USERNO ALL----解锁用户锁住的J OBS (52)18.7LIST.INDEX-----列出资料库的索引 (53)20Usage Analysis来进行影响分析 (53)19.1如何启动U SAGE A NALYSIS (53)19.2U SAGE A NALYSIS中S ELECT C OLUMNS的使用 (54)19.3U SAGE A NALYSIS中V IEW HTML的使用 (55)19.4U SAGE A NALYSIS中L OCATE IN M ANAGER的使用 (56)19.5U SAGE A NALYSIS可使用的S OURCE类型 (57)21DS Message Handlers (58)20.1M ESSAGE H ANDLERS的两种级别 (58)20.2M ESSAGE H ANDLERS的三种动作种类 (59)20.3M ESSAGE H ANDLERS的文件格式 (59)22DS Parallel Routine (60)21.1P ARALLEL R OUTINE注意事项 (60)21.2P ARALLEL R OUTINE创建流程 (60)21.3P ARALLEL R OUTINE示例 (61)23uvconfig文件中参数修改方法 (63)22.1修改文件UVCONFIG中的参数 (63)22.2运行UVREGEN (63)22.3重启DS服务 (63)22.4校验 (63)24&PH& (63)23.1CD \&PH\&或CD ‘&PH&’ (63)25DB2支持的数据格式 (64)26DB2中Load语法和基本使用 (65)1.01启动DataStage Server 的命令要在$DSHOME/bin 目录下进行. 启动之前要切断所有与服务器端的连接:1. 登陆DataStage 服务器,输入: $DSHOME/bin2. 关闭DataStage 服务器 ./uv –admin –stop3. 检查服务器上是否还有进程没关掉,否则服务器无法启动起来,netstat -a | grep ds4. 重起服务器 ./uv –admin –start.Note: 关闭DataStage 服务器后,建议过30 sec 再重起服务器.2DataStage开发经验积累:2.1 模板开发并行JOB中模板的开发可以最大程度的重用并行JOB的构件,节省时间1. 使用JOB参数(PARAMETER)可以在运行时提供参数的值,增加灵活性,可以在不同的环境处理不同的数据;使用JOB PARAMETER 可以在同一时间使用不同参数运行同一个JOB2. Shared Container共享容器可以在多个JOB中共享相同的逻辑,当一个JOB编译时共享容器被嵌入.2.2 通过Server Shared Container在Parallel Job中添加Server Job Stage在Designer中创建一个server shared container,添加需要的Server job stage,再把server shared container添加到parallel job并连接到其他parallel stage. 2.3 去除不需要的字段当从数据库中读取数据时,要尽可能早的去除不需要的字段,只读取需要的字段,而不是整个表,这样可以提高数据读取效率.2.4 Transformer Stage的使用1. 慎用Transformer Stage,因为它可能降低JOB的运行效率,有些功能能合并成一个单独的STAGE的不要用多个STAGE,要用其他的STAGE来代替Transformer Stage 能完成的任务.2. Transformer Stage 的数据流程是先经过constraint的过滤,然后再经过Derivation处理3. 对于确定类型的操作,使用其他STAGE 比使用TRANSFORMER 会更好:(1) 对如下情况,使用Copy Stage 将比Transformer Stage 更好﹡在界面上提供一个JOB 设计占位符﹡重新命名字段成多个输出分支.(3) 使用Modify Stage 来explicit 类型变换和Null处理﹡Modify Stage 也可重新命名字段﹡保持(keep)或删除(drop)字段﹡也可增加新字段,并为新增字段赋值,但赋值方式要以字段=字段形式,例如:new_columnname=old_columnname; 但new_columnname=”hf”这样赋值是错误的﹡Null的处理destinationColum=handle_null(sourceColum,Value)destinationColum=make_null(sourceColum,Value),这个使用中有问题,不处理空值2.5 Look up/join 空值处理1. 当使用Lookup Failure = Contunue 时,要把reference link 的非主键设置成Nullable,即使reference data 是非空的,也要设置成Nullable,这样能够确保Lookup 把空值分配给没有匹配的参考非主键2. 如果参考非主键没有设置成Nullable ,将会发生什么:Lookup 将会分配一个默认值给没有匹配的的行:Integer 默认值为0Varchar/char 默认值为空字符串(0长度的)2.6 DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用空格(ASCII 20)字符来填充剩余长度(环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII20),具体在哪个stage填充的不知.2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII0)。
DataStage客户端安装及使用文档
DataStage 客户端安装及使用文档1.客户端安装1.1 安装步骤解压客户端文件client_IA-suite.rar,完成后,进入目录,client_IA-suite,运行install.exe,会提示如下:选择英语,点击确定,安装时,最好关闭防火墙,选择要安装客户端的位置,点击NEXT:选择要安装的组件,点击NEXT:选择安装模式,点击NEXT:点击INSTALL后,开始安装:点击FINISH,安装完成。
安装完成后,在本机的HOSTS文件中需要配置一下:目录:C:\Windows\System32\drivers\etc在最后一行添加如下:# localhost name resolution is handled within DNS itself.# 127.0.0.1 localhost# ::1 localhost17.83.26.110(IP地址为服务器地址)ETL110(这个名字可以自己取)1.2 DataStage Client组件安装完成后有如下组件:1.Administrator Client用于创建DataStage 用户,创建,移动项目,设置清除标准的用户界面。
2.Director Client用来验证,计划时间,运行,监控DataStage 作业的用户界面。
3.Designer Client用来创建DataStage 应用(或作业)的设计接口。
每个作业都指定数据源,所需的转换和数据的目的地。
作业被编译成可执行的,由Director 计划,由Server 运行(主机作业被转移,在主机上运行)。
4.Datastage Manager用于存储和管理JOB 的元数据,使之可以在DataStage Designer 中再度被使用,包括库表定义、集中的转换程序等,并对工程备份和恢复。
2.组件使用2.1Administrator Client2.1.1登陆界面ETL110为刚刚我们在HOSTS中配置的名字,端口一般都是9080输入DOMAIN和账号密码完成后,点击DATASTAGE SERVER 右边的小三角,这时DATASTAGE会去验证用户名密码,成功后,会出来下拉框,这时证明已经联通了,选中一个SERVER,点击OK即可登陆2.1.2设置参数登陆成功后,界面如下:General页签:Projects页签:点击工程属性按钮后,显示界面如下:General 页签:Protect Projec t :设置项目为protected, 如果一个项目已经是protected,则按钮就显示为“Unprotect Project”Auto-purge of job log:每个Job 都对应一个log 文件,Job 的每一次运行都会产生新的log 附加到log 文件中,如果不及时清除无用的log,将会占用大量的空间,同时还会影响Job 的运行效率。
DATASTAGE使用实用指南
DATESTAGE 使用实用指南1.DataStage官方文档学习笔记1.1通过右键添加link鼠标右键点击起始stage,按住右键移动鼠标到目标stage。
还有一种方法就是把鼠标放在起始stage的边缘等到变为一个小圆圈里面有一个叉的时候拖动鼠标到目标stage。
1.2DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用null(ASCII 0)字符来填充剩余长度。
联系到前面做的一个parallel job,当目标是变长时(当时源也是变长,但是好像源的精度要小些),但是字符串实际的长度没有指定的变长那么长的话,系统会自动用空格(ASCII 20)来填充(具体在哪个stage 填充的不知),而且环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII 20)。
2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII 0)。
注:联系上面两点,感觉文档讲的与实际不符,难道我们项目的administrator改变了该环境变量的默认值?3 有个PadString 函数可以用来用指定的字符来填充一个变长的字符串到指定的长度。
这个函数的参数不能使固定长度字符串,如果是固定长度的先转化为变长。
1.3Copy Stage作为占位符在job开发中,当你暂时不知道该使用哪个stage时,可以使用copy stage作为占位符,注意不要把Force 属性设为True,在不把Force设为True时,复制将在运行时进行优化。
使用Schema file来指定meta data1 可以通过列定义和schema file两种方式来指定meta data,值得注意的一点是Note that, if you usea schema file, you should ensure that runtime column propagation is turned on. Otherwise the column definitions specified in the stage editor will always override any schema file.即,如果想通过schema file来指定meta data,必须勾上runtime column propagation,否则总是使用列定义来作为meta data。
Datastage虚拟机配置指南
Datastage虚拟机配置指南Datastage配置文档由于Datastage是个C/S架构的,如下图所示:因此首先要通过本机客户端(Client)连接服务器(Server),然后再通过服务器(Server)连接数据库(Database)。
本文档主要介绍如何通过配置虚拟机的连接方式,从而连接本机客户端(Client),虚拟机上的服务器(Server)及其本机的数据库(Database)。
具体方式如下:1.打开VMware Workstation,依次点击File ->Open。
2.找到服务器虚拟机存放路径,并打开Red Hat Enterprise Linux 4.vmx(或者直接进入Red Hat 4文件夹,双击打开Red Hat Enterprise Linux 4.vmx)。
3.启动服务器虚拟机,点击红圈所示。
4.对弹出的对话框全部点OK。
5.等待服务器虚拟机启动完毕,使用Username:dsadm及其Password:dsadm登录。
6.修改虚拟机连接方式为NAT,依次点击VMware Workstation 右下角的网络连接设置(图中红圈所示)-> Setting并在弹出的对话框中选择NAT,然后点击OK。
7.打开虚拟机的网卡配置。
在虚拟机中依次点击左上角的Applications -> SystemTools -> Network Device Control.8.然后选择Configure。
此时会提示输入Root密码,在这里输入:wangli,然后点OK。
9.配置网卡,选择所要配置的网卡,然后点击Edit。
10.设置虚拟机IP。
Address: 192.168.92.X(和Dafault gateway address 相对应。
X可以随便写,范围2-253),Subnet mask:255.255.255.0Dafault gateway address:192.168.92.1(注意,此处填写的是本机中虚拟网卡VMnet8的IP地址,比如说我的机器为192.168.92.1。
DataStage安装手册
目录1安装及配置21.1ETL工具D ATA S TAGE的安装配置过程21.1.1系统环境21.1.2用户与组21.1.3修改系统参数21.1.4编译器的安装31.1.5 DS软件安装步骤31.1.6停止与启动服务181.1.7 DataStage配置201安装及配置1.1ETL工具DataStage的安装配置过程1.1.1系统环境1.1.2用户与组创建组dstage 和用户dsadm,并且将dstage作为dsadm的默认组,同时将dsadm添加进dba组。
注意:需要给数据库用户对oracle sys.dba_extents表的select权限。
1.1.3修改系统参数将dsadm的参数修改成下列值:fsize -1 (无限制)data 至少128 MB (262144 512-byte blocks)stack 至少32 MB (65536 512-byte blocks)查看当前设置:ulimit -a设置最大进程数,建议为4096当前设置:lsattr -E -l sys0 | grep maxuproc以上修改需要root权限用户,在安装DS之前请确认好,避免多次使用root用户。
1.1.4编译器的安装开发完的所有JOB都需要进行编译,需要安装C++编译器,最低版本要求见系统环境要求部分。
1.1.5DS软件安装步骤Datastage安装过程需要用到root用户,确保以超级用户root进入系统。
如果是硬盘包,则先解压缩包,执行命令:$ tar xvf C915JNA.tar,再进入解压后的出现的文件夹 Ascential.media目录如果是光盘包,则执行命令: $ mount /cdrom ,再进入 /cdrom目录。
运行命令:$ ./install.sh -admin dsadm进入图1所示画面:图1图1提示安装程序检测是否是新安装DataStage, 输入y,继续安装过程,进入画面提示是root安装还是non-root安装,输入y进入图3所示画面:图3图3所示画面提示版权信息,输入n进入图4所示画面:图4图4所示画面提示版本信息,输入n进入图5所示画面图5图5所示画面提示License Agreement, 输入y进入图6所示画面图6图6所示画面提示选择安装文件中压缩包解压缩的临时路径,目标文件夹必须要600M以上的空间,默认路径为/tmp/dsinstall/unpack,改变输入c,输入n则进入图7所示画面:图7图7所示画面输入DataStage licence,包括序列号,CPU个数,有效日期,授权码等信息。
Datastage 配置操作步骤
1部署软件环境DB服务器:22.4.8.7DB客户端:22.4.8.10,22.4.8.11,22.4.8.12,22.4.8.13DataStage主服务器:22.4.8.11DataStage备份服务器:22.4.8.13DataStage节点:22.5.8.10,22.5.8.122创建用户为每台机器创建dstage组和dsadm用户运行smit命令,启动管理界面在安装机器上创建dstage组设置ADMINISTRA TIVE USER 选项为true设置GID设为300创建用户dsadm设置主属为dstage,设置ADMINISTRA TIVE USER 选项为true;设置UID设为300;设置Primary GROUP,Group SET,ADMINISTRATIVE GROUPS:均为dstage;设置Soft FILE size [-1] (无限制)设置Hard FILE size [-1] (无限制)3修改系统参数调整每台机器的最大进程数查看用户进程最大数目:lsattr -El sys0|grep maxuproc如:修改用户进程最大数目:注意:要调整每个Datastage节点的最大进程数用root用户登陆,键入即可。
chdev -l sys0 -a maxuproc=40964DataStage安装4.1上传DataStage介质到服务器上将介质拷贝到终端上,然后ftp到22.4.8.11和22.4.8.13上,将介质放在/Ascential.media 目录下,并赋上所有权限:chmod -R 777 /Ascential.media4.2安装DataStage4.2.1进入/Ascential.media,运行sh ./install.sh –admin dsadm,中间安装过程请参考上线文档,在安装过程中创建工程ETL_ODS.4.2.2配置dsadm用户.profile环境变量,增加如下内容22.4.8.11:# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefi#ds envexport ETLPLUS_HOME=/home/dsadmexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2HOME=/home/db2inst1/sqllibexportPATH=$PATH:$DSHOME/bin:$DB2HOME/include:/home/dsadm/Ascential/DataStage/PX Engine.753.1/libexportLIBPATH=$LIBPA TH:$DSHOME/lib:$APT_ORCHHOME/lib:/home/dsadm/Ascential/Dat aStage/PXEngine.753.1/lib. $DSHOME/dsenv22.4.8.13:# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefi#ds envexport ETLPLUS_HOME=/home/dsadmexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2HOME=/home/db2inst1/sqllibexportPATH=$PATH:$DSHOME/bin:$DB2HOME/include:/home/dsadm/Ascential/DataStage/PX Engine.753.1/libexportLIBPATH=$LIBPA TH:$DSHOME/lib:$APT_ORCHHOME/lib:/home/dsadm/Ascential/Dat aStage/PXEngine.753.1/lib. $DSHOME/dsenv22.4.8.10:export DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/lib export ETLPLUS_HOME=/home/dsadm22.4.8.12:export DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/libexport ETLPLUS_HOME=/home/dsadm22.4.8.7:# The following three lines have been added by IBM DB2 instance utilities.if [ -f /home/db2inst1/sqllib/db2profile ]; then. /home/db2inst1/sqllib/db2profilefiexport ETLPLUS_HOME=/progexport DSHOME=/home/dsadm/Ascential/DataStage/DSEngineexport APT_ORCHHOME=/home/dsadm/Ascential/DataStage/PXEngineexport DB2DIR=/opt/IBM/db2/V9.5export DB2INSTANCE=db2inst1export INSTHOME=/home/db2inst1exportPATH=$PATH:$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc: $APT_ORCHHOME/lib:$APT_ORCHHOME/binexportDB2PATH=$INSTHOME/sqllib/bin:$INSTHOME/sqllib/adm:$INSTHOME/sqllib/misc exportLIBPATH=$LIBPA TH:$DB2DIR/lib:$INSTHOME/sqllib/lib:$APT_ORCHHOME/libexport DateInfoPath=/gpfsf/DateInfoPath5配置rsh环境。
datastage学习文档
工作总结1 如何重新启动DataStage服务器, 步骤如下: (5)2 DataStage开发经验积累: (5)2.1模板开发 (5)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (5)2.3去除不需要的字段 (5)2.4T RANSFORMER S TAGE的使用 (5)2.5L OOK UP/JOIN 空值处理 (6)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (6)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (6)2.8D ATA型数据是比较麻烦的 (6)2.9行列互换之H ORIZONTAL P IVOT(P IVOT S TAGE) (7)2.10行列互换之V ERTICAL P IVOT (7)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (9)2.12D ATA S TAGE SAP S TAGE的使用 (10)2.13C OLUM I MPORT S TAGE的使用 (10)2.14C OLUM E XPORT S TAGE的使用 (12)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (13)2.16U NABLE TO CREATE RT_CONFIG NNN (14)2.17查看JOB和CLIENT的对应的后台进程 (14)2.18强制杀死DS进程 (14)2.19查看S ERVER E NGINE的进程 (15)2.20查看S ERVER L OCKS (15)2.21关于UNIX系统下无法启动服务的解决办法 (16)2.22L OCKED BY OTHER USER (17)2.23DATA S TAGE J OB L OG的处理 (17)2.24一些BASIC语言中处理字符串的函数 (17)2.25BASIC程序中使用到的一些语法知识 (18)3DS中常见问题记录 (22)3.1权限管理问题 (22)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (22)3.3删除文件的问题 (22)3.4SEQUENCE调度出现的错误问题 (23)3.17字符集问题 (23)3.18V ERSION C ONTROL的问题 (23)3.19SEQUENCE调不起JOB的问题 (23)3.20SEQUENCE调度失败的问题 (24)3.21DS发送邮件的配置问题 (25)3.22随机错误问题 (26)3.23DS中的日期问题 (26)3.24DS连接ORACLE问题 (27)。
IBM-datastage安装手册
解压文件,切勿将文件放在root下。
一般放在tmp下tar -zxvf IS_V11.5_LINUX_X86_64_MULTILING.tar.gz解压完后将下面文件下的2个授权文件拷贝到上面解压目录下命令行执行安装(这里可能会出现the number of open file descriptors is too low等错误。
解决方式:ulimit -n 18000 设置服务器打开最大文件描述符)执行完后会弹出地址,将地址复制到浏览器。
(这里可能会出现输入地址无法访问的情况,一般情况是因为服务器防火墙没有关闭导致的,关闭防火墙:service iptables stop)这里需要安装光盘输入:yum list libXp查询是否有对应的rpm文件,如果没有去网上下载,然后拷贝到服务器上,然后执行:yum install libXp……执行。
成功后点击安装框右下角的【请再次检查】按钮。
密码1qaz2wsx密码1qaz2wsx密码1qaz2wsx密码1qaz2wsx密码1qaz2wsx密码1qaz2wsx密码相同检测出错,需要授权,如果授权最后一个文件夹还是不行的话,可将root文件夹夹一下的文件夹都授权:chmod –Rf 777 /root这里可能不仅会出这个错误,可能还会出现操作系统少包,根据提示少什么就下载安装。
浏览器输入http://localhost:9080/ibm/iis/console isadmin/1qaz2wsx输入root和密码1qaz2wsx新建dsadmin用户,输入密码:1qaz2wsx,输入dsadmin作为“名字”和“姓氏”,分配“套件用户”“套件管理员”和“DataStage and QualityStage管理员”权限,点击“保存并关闭”重复上述步骤,创建dsuser用户,密码:1qaz2wsx,分配“套件用户”“DataStageand QualityStage用户”权限,点击“保存并关闭”打开DataStage and QualityStage Administrator(Windows),以dsadmin用户登录客户端安装Windows端,先将授权文件拷贝到安装目录下执行安装程序需要按照提示修改注册表注意此处端口不是默认9443,要看前面端口配置,我的是9446,密码是1qaz2wsx客户端配置把以下项的值改为True:APT_DUMP_SCORE,APT_MSG_FILELINE,APT_RECORD_COUNTS,OSH_DUMP,OSH_ECHO,O SH_EXPLAIN,and OSH_PRINT_SCHEMAS进入开发工具Websphere创建该要文件192.168.2.174:9061/ibm/consoleMB:mount -t iso9660 MQSerise_linux_x86_64.iso /mnt或者:mount -o loop iso9660 MQSerise_linux_x86_64.iso /mntrpm –ivh *.rpmyum install ld-linux.so.2yum install libgcc_s.so.1后面一直下一步,直到结束创建用户useradd –g mqbrkrs –G mqm –d /home/wbiadmin –m wbiadmincd rpm-gpg/RPM-GPG-KEY-redhat-releaserpm –import /etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-releaseyum install ld-linux.so.2执行install.bin时可能遇到缺失包,缺少什么就使用下面命令安装什么yum install ld-linux.so.2yum install libgcc_s.so.1然后执行install.bin安装好install.bin后用Root用户执行以下命令:xhost +local:wbiadmin使用wbiadmin执行以下命令启动MQ浏览器:./opt/mqm/mqexplorer/eclipse/runwithtrace。
Datastage安装配置指南v0.2
1.引言DataStage EE Server可以安装在AIX,HP UNIX,Linux等平台上,Client 端安装在Windows平台上。
我们以DataStage 7.5 for Aix 5.1/5.2为例,来详细说明其安装步骤。
2.DataStage安装2.1.Server安装前准备2.1.1.创建用户及组在安装机器上创建dstage组, ADMINISTRATIVE USER 选项为true,Primary GROUP,Group SET,ADMINISTRATIVE GROUPS:均为dstage创建用户dsadm,主属为dstage ,ADMINISTRATIVE USER 选项为true;确保主机重启时datastage server也同样自动重启。
groupadd dstageuseradd -d /data -G dstage -M dsadmpasswd dsadmchown dsadm:dstage -R data2.2.Server安装步骤确保以超级用户root进入系统(非常重要)则执行命令:C915JNA.tar.gz1)执行 ./install.sh,会出现下图所示:每步安装都附有图片,图片上方为本图注释:2)提示这是一个新的安装过程,输入 y 继续3)检测用户是否为root,输入 y 继续4)确认安装,输入 n 继续5)输入 n 继续6)license agreement,输入 y 继续7)选择安装文件临时存放目录,此目录必须存在,dsadm用户要有存取权限,且目录必须为空,输入 c 改变临时目录8)确认临时目录路径,输入 n 继续9)输入serial number,CPU count,expiration date,enterprise edition code, server code,输入 n 继续,MVS edition code不用输入10)确认信息,输入 n 继续11)因为未购买RTI Agent,SAS Integration,IMS Source,所以不用输入以下三个code,输入 n 继续12)默认安装路径,输入 n 继续13)选择语言,输入 c ,改变语言14)输入 5 ,选择简体中文15)输入 n 继续16)选择插件,输入 a 选择全部17)输入 n 继续18)输入project name: UDI,回车继续19)project默认存放路径,回车继续20)输入 U 选择unprotected project,继续21)输入 n 继续22)DataStage引擎安装路径,输入 n 继续23)输入 n 继续24)输入 n 继续25)输入 n 开始安装2.3.安装完毕,检查后台Server是否启动正常输入 ps –ef|grep dsrpcd后台Server进程名 dsrpcd2.4.Client安装执行datastage client文件夹中执行 setup,选择client端安装。
datastage入门教程
简介DataStage 使用了Client-Server 架构,服务器端存储所有的项目和元数据,客户端DataStage Designer 为整个ETL 过程提供了一个图形化的开发环境,用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。
Datastage 的可运行单元是Datastage Job ,用户在Designer 中对Datastage Job 的进行设计和开发。
Datastage 中的Job 分为Server Job, Parallel Job 和Mainframe Job ,其中Mainframe Job 专供大型机上用,常用到的Job 为Server Job 和Parallel Job 。
本文将介绍如何使用Server Job 和Parallel Job 进行ETL 开发。
Server Job一个Job 就是一个Datastage 的可运行单元。
Server Job 是最简单常用的Job 类型,它使用拖拽的方式将基本的设计单元-Stage 拖拽到工作区中,并通过连线的方式代表数据的流向。
通过Server Job,可以实现以下功能。
1.定义数据如何抽取2.定义数据流程3.定义数据的集合4.定义数据的转换5.定义数据的约束条件6.定义数据的聚载7.定义数据的写入Parallel JobServer Job 简单而强大,适合快速开发ETL 流程。
Parallel Job 与Server Job 的不同点在于其提供了并行机制,在支持多节点的情况下可以迅速提高数据处理效率。
Parallel Job 中包含更多的Stage 并用于不同的需求,每种Stage 使用上的限制也往往大于Server Job。
Sequence JobSequence Job 用于Job 之间的协同控制,使用图形化的方式来将多个Job 汇集在一起,并指定了Job 之间的执行顺序,逻辑关系和出错处理等。
数据源的连接DataStage 能够直接连接非常多的数据源,应用范围非常大,可连接的数据源包括:∙文本文件∙XML 文件∙企业应用程序,比如SAP 、PeopleSoft 、Siebel 、Oracle Application∙几乎所有的数据库系统,比如DB2 、Oracle 、SQL Server 、Sybase ASE/IQ 、Teradata 、Informix 以及可通过ODBC 连接的数据库等∙Web Services∙SAS 、WebSphere MQServer JobServer Job 中的Stage 综述Stage 是构成Datastage Job 的基本元素,在Server Job 中,Stage 可分为以下五种:1.General2.Database3.File4.Processing5.Real Time本节中将介绍如何使用Datastage 开发一个Server Job。
Datastage入门培训
一、工具入门DataStage是一个ETL的工具,就是对数据的抽取,转换,加载。
个人通俗的理解就是一个对数据进行处理,提取的工具,这里面的数据大部分是以数据库中表的格式存在着的,所以如果要使用这个工具,首先必须对关系数据库的一些基本概念要有所了解,比如最基本的字段,键,记录等概念。
DataStage是通过设计job来实现ETL的功能的。
Job的设计跟普通的IDE设计一样,通过拖拽控件,并填加脚本来完成。
这里的控件称为stage,每一个不同的stage都有不同的数据处理的功能,将各个stage通过一定的方式组合起来,设计成job,对job进行编译,运行,就能够实现对数据抽取转换加载。
1,安装datastage,看学习指导,先对该工具有个大概的认识,大概知道administrator,design,director,manager的区别。
了解datastage工具的主要用途:简单的说就是把一批数据input进来,经过各种各样的转化,清洗,然后在output出去,整个就是ETL 的过程。
对4个工具我们最常做的操作有:Administrator:1、对Project的管理,主要是建立和删除project;2、对Licensing的管理,主要是更换Licensing。
design:datastage的核心,所有的开发都在design里面完成,在这里可以编辑你的job,使用各种stage控件。
director:1、查看日志,当运行job结束时,无论job成功或者失败,我们都可以在director 里面查看日志,里面能反映我们job运行的状态,经常job出错我们都是先查看日志,然后分析原因,再到design里面修改。
2、director的另外一个很有用的功能是logout job,当服务器或者网络出问题时,正在编辑的job很有可能被锁定,这时你就算把design关了再重新登陆还是无法打开job,会提示job has been used, 这就需要到director里面把job logout,然后就可以使用了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DataStageV11.3
安装手册
修订记录
一、基础安装环境检查
1.操作系统Redhat Linux6需要的安装补丁包
glibc-2.12-1.107.el6.x86_64
libXp-1.0.0-15.1.el6.x86_64
libXau-1.0.5-1.el6.x86_64
libXext-1.1-3.el6.x86_64
libX11-1.3-2.el6.x86_64
libxcb-1.5-1.el6.x86_64
libXmu-1.0.5-1.el6.x86_64
nss-softokn-freebl-3.14.3-9.el6.x86_64
pam-1.1.1-4.el6_0.1.x86_64
libaio-0.3.107-10.el6.x86_64
libstdc++-4.4.7-3.el6.x86_64
compat-libstdc++-33-3.2.3-69.el6.x86_64
libgcc-4.4.7-3.el6.x86_64
2.检查操作方法
rpm –qa | grep glibc
3.授权文件配置
将授权文件解压至安装文件is-suite文件夹下
二、创建oracle数据库
1.将DataStage初始化Oracle数据库脚本上传至数据库
服务器
2.依次执行数据库初始化脚本
./ create_xmeta_db.sh sys Oracle123 orcldb dsadmin dsadmin'!'123 DATASTAGE
/oracle/app/oracle/oradata/orcldb
./create_xmeta_db.sh sys Oracle123 orcldb wsadmin wsadmin'!'123 DATASTAGE1
/oracle/app/oracle/oradata/orcldb
三、DataStage程序安装
1.启动安装程序
2.通过web访问方式登录安装控制页面https://localhost:9445/ISInstall
默认执行下一步
默认执行下一步
基础环境检查全部通过后,再执行下一步操作
选择程序安装路径后执行下一步
选择新安装程序,执行下一步
选择安装服务层及引擎层执行下一步
选择安装DataStage产品,执行下一步
接受安装许可信息,执行下一步
配置服务层的集群设置,如非集群配置,默认执行下一步
使用Oracle下dsadmin用户进行数据库连接操作,执行下一步
使用Oracle的was数据库用户wsadmin进行数据库连接操作,执行下一步
默认选择安装Websphere应用后,执行下一步
默认程序安装路径,执行下一步
程序对外开放端口列表,执行下一步
设置服务层管理用户,执行下一步
设置InfomationServer用户isadmin后,执行下一步
默认不进行建库操作,将Skip database registration and script creation 勾选上,执行下一步
选择安装InfoSphere DataStage产品,执行下一步
ASB端口,默认执行下一步
创建DataStage服务端服务器管理用户,执行下一步
创建用户成功,执行下一步
默认执行下一步
默认执行下一步
执行安装程序,执行下一步
默认执行下一步
默认执行下一步
默认执行下一步
安装前环境再次检查,务必保证全部检查通过,方可执行安装操作,执行下一步
安装日志记录,默认执行下一步
安装完成。
配置oracle数据源ODBC
四、管理服务
1.关闭服务
➢停止DS服务
cd /opt/IBM/InformationServer/Server/DSEngine bin/uv –admin –stop
➢停止ASBNode
cd /opt/IBM/InformationServer/ASBNode/bin
./NodeAgents.sh stop
2.启动服务
➢启动DS服务
cd /opt/IBM/InformationServer/Server/DSEngine bin/uv –admin –start
➢启动ASB服务
cd /opt/IBM/InformationServer/ASBNode/bin
./NodeAgents.sh start
五、卸载
1.数据库端卸载
➢删除相关用户
drop user iaviews cascade;
drop user cmviews cascade;
drop user igviews cascade;
drop user cefviews cascade;
drop user remiews cascade;
➢删除相关表空间
删除安装所创建的datastage、datastage1表空间
2.实用软件除去Datastage(图形方式)
➢以root身份登录至/opt/IBM/InformationServer /_uninstall 安装目录,执行./uninstall -uimode graphical -rsp file_name
➢访问删除页面操作。