DATASTAGE日常运维手册
数据库日常运维手册
神州数码信息系统有限公司数据库日常运维手册神州数码信息系统有限公司2015/9/5日常运维操作手册主要针对ORACLE数据库管理员对数据库系统做定期监控:(1). 每天对ORACLE数据库的运行状态、日志文件、备份情况、数据库的空间使用情况、系统资源的使用情况进行检查,发现并解决问题。
并要有相关的人员负责每天查看,发现问题及时上报分析。
检查每天的数据库备份完成情况。
(2). 每周对数据库对象的空间扩展情况、数据的增长情况进行监控、对数据库做健康检查、对数据库对象的状态做检查。
(3). 每月对表和索引等进行Analyze、检查表空间碎片、寻找数据库性能调整的机会、进行数据库性能调整、提出下一步空间管理计划。
对ORACLE数据库状态进行一次全面检查(4)根据公司数据库的安全策略对ORACLE DB进行加固一.日维护过程1.1、确认所有的INSTANCE状态正常登陆到所有数据库或例程,检测ORACLE后台进程:$ps –ef|grep ora1.2、检查文件系统的使用(剩余空间)如果文件系统的剩余空间小于20%,需删除不用的文件以释放空间。
#df –k1.3、检查日志文件和trace文件记录检查相关的日志文件和trace文件中是否存在错误。
A、连接到每个需管理的系统使用’telnet’命令B、对每个数据库,进入到数据库的bdump目录,unix系统中BDUMP目录通常是$ORACLE_BASE/<SID>/bdump#$ORACLE_BASE/<SID>/bdumpC、使用 Unix ‘tail’命令来查看alert_<SID>.log文件#tail $ORACLE_BASE/<SID>/bdump/alert_<SID>.logD、如果发现任何新的ORA- 错误,记录并解决1.4、检查数据库当日备份的有效性。
对RMAN备份方式:1.5、检查数据文件的状态检查所有数据文件并记录状态不是“online”的数据文件,并做恢复。
(完整word版)数据仓库系统运维操作手册
数据仓库生产环境操作手册一.运维概述“数据仓库生产系统”的运行维护责任在于保障系统运行,运维方式主要是操作员通过工作机远程登陆到系统中的相关主机,对主机进行操作,包括automation调度系统、数据库、磁盘、软件环境、数据情况等,查看批出理的运行情况,一旦运行出现问题作相应的记录并通知相关的技术人员,作出相应的处理。
所有运维项目成员严格按照《数据仓库系统运维守则.doc》文档来进行运维检查工作,否则出现事故由值班人员和当日值班负责人承担事故责任。
二.运维内容1.每日维护1.1数据检查每日批处理运行前运行完成后都需要对源头的数据和生产出的数据进行检查,确保当日批处理程序正常从事生产。
检查工作在每日9:00-9:30之间完成,且必须在启动程序(批处理程序)前执行。
具体规定如下:1.1.1 转定长数据的检查每天上午9:00--9:45之间,运维值班人员进行这项工作具体执行步骤如下:1.在本地工作机上使用telnet远程登录工具登录到168.7.6.163服务器上,输入用户名sjtq,密码:cib2009edw,2.输入命令cd EDW/sh/log3.输入命令more yyyymmdd当天的日志,是否有错误信息,最后数据是否都上传结束。
4.以下错误属于正常情况:03:00:03 : 1.检查20091031标志文件失败~~~~~~~~~03:00:03 : 1.数据标志检查失败,等待5分钟(06001/dta_varied)正常等待情况5.检查点如下:1)每个大任务开始的初始化操作03:00:00 : ================ 0.环境变量设置完毕================2)数据装载,卸载,上传,整个模块处理结束的情况。
05:41:50 : ================ 2.装载Unl数据完毕================05:41:50 : ---------------- 2.开始装载BAK数据----------------05:41:50 : ================ 2.装载BAK数据完毕================05:41:50 : ---------------- 3.开始卸载fix数据----------------06:26:11 : ================ 3.卸载fix数据完毕================06:26:11 : ---------------- 4.开始向批量数据交换平台送fix数据----------------06001 send ok06001 send ok06002 send ok06002 send ok07002 send ok07002 send ok06027 send ok06027 send ok06:28:56 : ================ 4.向批量数据交换平台送fix数据完毕================06:28:58 : END6.查找是否存在“错误“,”出错“字样。
DATASTAGE的介绍及基本操作
? 数据清洗、转换、加载都可以在图形化工具里完成 ,同样可以灵活的被外部系统调度,提供专门的设 计工具来设计转换规则和清洗规则等,实现了增量 抽取、任务调度等多种复杂而实用的功能 。
? Designer提供一个数据流程的模式,轻松将设置和Job的设计有 机的组成。
? 使用Designer,可以: 1、指定数据如何抽取。
? 2、指定数据的转换规则和进行转换。
? 3、使用参考性质的LookUp到数据集市中编辑数据。
? a)例如,如果销售的记录集包括CustomerID,可以在 CustomerMaster表中使用LookUp查找到Customer的名称。
Datastage的工程管理
? 所有的工作都在一个工程中。 ? 在安装过后,需要建立一个工程,这是安
装必选的项目。 ? 在使用它工作之前,要登录这个工程。 ? 可以在工程间进行导入和导出Datastage的
项目内容。 ? 多个用户可以在同一时间使用同一工程,
但是不能同时编辑同一个项目。
所有的工作都在Datastage的工程里进行。在做任何事 之前,那些具有同样管理权限的人,都要先打开一个工程, 即进行登录。
运行和监控 ds的job。主要用于 job调试。
? DS Manager
允许编辑和查看在 ds中存储的内容。主要用于项目 管理或job的导入、导出、备份。
DataStage中的Administrator
默认使用Administator来指定常规的服务端,用来增加 或删除DataStage工程,并且可以设置工程的属性。 Administator也对于总库提供命令接口。
Datastage控件使用指南
目录1. 引言 (1)2. 常用STAGE使用说明 (1)2.1.S EQUENTIAL F ILE S TAGE (1)2.2.A NNOTATION (4)2.3.C OLUMN E XPORT S TAGE (5)2.4.C HANGE C APTURE S TAGE (7)2.5.C OPY S TAGE (9)2.6.F ILTER S TAGE (10)2.7.F UNNEL S TAGE (11)2.8.T ANSFORMER S TAGE (12)2.9.S ORT S TAGE (13)2.10.L OOK U P S TAGE (14)2.11.J OIN S TAGE (14)2.12.M ERGE S TAGE (16)2.13.M ODIFY S TAGE (17)2.14.D ATA S ET S TAGE (18)2.15.F ILE S ET S TAGE (19)2.16.L OOKUP F ILE S ET S TAGE (21)2.17.O RACLE E NTERPRISE S TAGE (23)2.18.A GGREGATOR S TAGE (24)2.19.R EMOVE D UPLICATES S TAGE (26)2.20.C OMPRESS S TAGE (27)2.21.E XPAND S TAGE (28)2.22.D IFFERENCE S TAGE (29)2.23.C OMPARE S TAGE (31)2.24.S WITCH S TAGE (32)2.25.C OLUMN I MPORT S TAGE (33)3. DATASTAGE MANAGER使用 (35)3.1.导入导出J OB及其它组件 (35)3.2.管理配置文件 (37)4. DATASTAGE ADMINISTRATOR常用配置 (39)4.1.设置T IME O UT时间 (39)4.2.设置P ROJECT的属性 (40)4.3.更新D ATA S TAGE S ERVER的L ICENSE和本地C LIENT的L ICENSE (41)5. DATASTAGE DIRECTOR使用 (41)5.1.察看J OB的状态,运行已经编译好的J OB (41)5.2.将编译好的J OB加入计划任务 (44)5.3.监控J OB的运行情况 (45)1.引言DataStage EE的开发主要由DataStage Designer完成。
数据库日常运维操作手册
数据库日常运维操作手册日常运维操作手册主要针对ORACLE数据库管理员对数据库系统做定期监控:(1). 每天对ORACLE数据库的运行状态、日志文件、备份情况、数据库的空间使用情况、系统资源的使用情况进行检查,发现并解决问题。
并要有相关的人员负责每天查看,发现问题及时上报分析。
检查每天的数据库备份完成情况。
(2). 每周对数据库对象的空间扩展情况、数据的增长情况进行监控、对数据库做健康检查、对数据库对象的状态做检查。
(3). 每月对表和索引等进行Analyze、检查表空间碎片、寻找数据库性能调整的机会、进行数据库性能调整、提出下一步空间管理计划。
对ORACLE数据库状态进行一次全面检查(4)根据贵公司数据库的安全策略对ORACLE DB进行加固一.日维护过程1.1、确认所有的INSTANCE状态正常登陆到所有数据库或例程,检测ORACLE后台进程:$ps –ef|grep ora1.2、检查文件系统的使用(剩余空间)如果文件系统的剩余空间小于20%,需删除不用的文件以释放空间。
#df –k1.3、检查日志文件和trace文件记录检查相关的日志文件和trace文件中是否存在错误。
A、连接到每个需管理的系统使用’telnet’命令B、对每个数据库,进入到数据库的bdump目录,unix系统中BDUMP目录通常是$ORACLE_BASE/<SID>/bdump#$ORACLE_BASE/<SID>/bdumpC、使用Unix ‘tail’命令来查看alert_<SID>.log文件#tail $ORACLE_BASE/<SID>/bdump/alert_<SID>.logD、如果发现任何新的ORA- 错误,记录并解决1.4、检查数据库当日备份的有效性。
对RMAN备份方式:1.5、检查数据文件的状态检查所有数据文件并记录状态不是“online”的数据文件,并做恢复。
Datastage产品安装手册
Datastage产品安装配置手册目录DATASTAGE (1)产品安装配置手册 (1)目录 (1)1. 引言 (2)2. SERVER安装 (2)2.1.S ERVER安装准备 (2)2.1.1. 硬件及软件准备 (2)2.1.2. 创建用户及组 (2)2.1.3. 系统参数设置 (3)2.2.S ERVER安装步骤 (3)2.3.安装完毕,检查后台S ERVER是否启动正常 (15)3. CLIENT安装 (16)4. EESTAGE配置: (16)4.1.配置前准备 (16)4.2.配置过程 (16)4.3.测试 (17)1.引言DataStage EE 7.5.2Server安装在hp unix平台上,Client端安装在Windows平台上。
以下为详细说明其安装步骤。
2.Server安装2.1.Server安装准备2.1.1.硬件及软件准备2.1.2.创建用户及组1.运行sam命令,启动管理界面2.在安装机器上创建dstage组3.创建用户dsadm,属于dstage组和dba组。
dsadm用户要有存取权限2.1.3.系统参数设置1)检查Server端paging space的空间,对于CPU数量少于20个的机器,最好整个Paging Space为500M×CPU数,如机器配置了8个CPU,则推荐至少需要配置4GB的Paging Space空间。
2)检查核心参数,不符合要求则针对操作系统进行如下调整(使用sam):3)检查参数Maximum number of PROCESSES allowed per user,设置Datastage允许运行的最大进程数,推荐设置到较大的值,如:8192。
2.2.Server安装步骤确保以超级用户root进入系统(非常重要)如果是硬盘包,则执行命令:gunzip 2105-ds-75a-aix.tar.Z进入解压目录Tar xvf 2105-ds-75a-aix.tar进入/解压环境/Ascential.media/aix目录如果是光盘包,则执行命令: Mount /cdrom进入 /cdrom目录1)执行./INSTALL.SH\;1。
DATASTAGE使用实用指南
DATESTAGE 使用实用指南1.DataStage官方文档学习笔记1.1通过右键添加link鼠标右键点击起始stage,按住右键移动鼠标到目标stage。
还有一种方法就是把鼠标放在起始stage的边缘等到变为一个小圆圈里面有一个叉的时候拖动鼠标到目标stage。
1.2DataStage中默认和隐式类型转换时注意的问题当从源向目标映射数据时,如果类型不一致,对于有些类型我们需要在modify或transfomer stage中通过函数进行转换,对于有些系统会自动完成类型转换,在类型转换过程中,注意以下几点:1 在变长到固定长度字符串的默认转换中,parallel jobs用null(ASCII 0)字符来填充剩余长度。
联系到前面做的一个parallel job,当目标是变长时(当时源也是变长,但是好像源的精度要小些),但是字符串实际的长度没有指定的变长那么长的话,系统会自动用空格(ASCII 20)来填充(具体在哪个stage 填充的不知),而且环境变量APT_STRING_PADCHAR的默认值也是空格(ASCII 20)。
2 通过环境变量APT_STRING_PADCHAR可以改变默认的填充字符null(ASCII 0)。
注:联系上面两点,感觉文档讲的与实际不符,难道我们项目的administrator改变了该环境变量的默认值?3 有个PadString 函数可以用来用指定的字符来填充一个变长的字符串到指定的长度。
这个函数的参数不能使固定长度字符串,如果是固定长度的先转化为变长。
1.3Copy Stage作为占位符在job开发中,当你暂时不知道该使用哪个stage时,可以使用copy stage作为占位符,注意不要把Force 属性设为True,在不把Force设为True时,复制将在运行时进行优化。
使用Schema file来指定meta data1 可以通过列定义和schema file两种方式来指定meta data,值得注意的一点是Note that, if you usea schema file, you should ensure that runtime column propagation is turned on. Otherwise the column definitions specified in the stage editor will always override any schema file.即,如果想通过schema file来指定meta data,必须勾上runtime column propagation,否则总是使用列定义来作为meta data。
新教材DATASTAGE的介绍及基本操作.ppt
Datastage测试
• 问题一:
Datastage的Designer是用来建立和编译job、用来进行数据 的抽取、转换和加载即ETL。(Yes/No) 答案一: Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage) 拖拽到设计区域中,经过建立和编译,Job就可以执行,用 来进行数据的抽取、转换和加载。
安装操作员版本的Datastage,需要有Datastage 的Director的许可。
一个工程关联着一个目录,这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个 工程,即登录这个工程。
工程是自包含的很多的工程可以在同一时间被打开,在 各自单独的环境打开。可以在它们之间导入或导出项目。
多用户可以在同一时间使用一个工程中工作,但是 Datastage禁止在同一时间由多个用户访问同一个job。
• 3,到期时间。 • 4,授权代码。
在许可信息中,这个信息必须被正确输入 的。
课件
安装向导会指导通过以下步骤进行:
• 1,输入许可信息。 • 2,指定服务器的路径。 • 3,选择程序的文件夹。 • 4,创建一个新的工程或升级已经存在的工
程。
课件
安装Datastage
课件
首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过
• 在Windows系统中安装Datastage服务端。 • 建立一个Datastage的工程。 • 安装Datastage的客户端。
课件
Datastage 的服务端要首先安装,之后才 可以安装Datastage 客户端,服务端能都安 装在WinNT、Windows2000或者UNIX系统中, 这个模块将介绍在Windows环境下进行安装。
DATASTAGE常用组件的使用
DATASTAGE常用组件的使用Datastage产品开发使用指南北京先进数通信息技术有限公司商业智能应用部Datastage产品开发使用指南文档信息标题 Datastage产品开发使用指南2005-12-22 创建日期打印日期文件名 PMA-003-Datastage产品开发使用指南-V1.0.doc DI\PMA 存放目录所有者北京先进数通信息技术有限公司作者何应龙修订记录日期作者描述文档审核/审批姓名职务/职称审核批准文档分发此文档将分发至如下各人姓名职务/职称- i -Datastage产品开发使用指南目录目录 ..................................................................... ..................................................................... II 1. 引言 ..................................................................... .........................................................................1 2. 常用STAGE使用说明 ..................................................................... ........................................... 1 2.1. SEQUENTIAL FILE STAGE .................................................................. ........................................ 1 2.2. ANNOTATION.............................................................. .............................................................. 4 2.3. CHANGE CAPTURESTAGE .................................................................. ....................................... 5 2.4. COPY STAGE................................................................... .......................................................... 7 2.5. FILTERSTAGE .................................................................. ........................................................ 8 2.6. FUNNEL STAGE .................................................................. ....................................................... 9 2.7. TANSFORMERSTAGE .................................................................. ............................................ 10 2.8. SORTSTAGE .................................................................. ......................................................... 11 2.9. LOOKUP STAGE .................................................................. .................................................... 12 2.10. JOIN STAGE .................................................................. ........................................................ 12 2.11. MERGE STAGE .................................................................. .................................................... 14 2.12. MODIFY STAGE .................................................................. (15)DATA SETSTAGE .................................................................. ................................................ 16 2.13.2.14. FILE SETSTAGE .................................................................. .. (17)LOOKUP FILE SETSTAGE .................................................................. .................................... 19 2.15.2.16. ORACLE ENTERPRISESTAGE .................................................................. ............................... 21 2.17. AGGREGATORSTAGE .................................................................. .......................................... 22 2.18. REMOVE DUPLICATES STAGE .................................................................. .............................. 24 2.19. COMPRESSSTAGE .................................................................. .. (25)EXPAND STAGE................................................................... .................................................. 26 2.20.2.21. DIFFERENCESTAGE .................................................................. ............................................ 27 2.22. COMPARESTAGE .................................................................. ................................................ 29 2.23. SWITCH STAGE .................................................................. ................................................... 30 2.24. COLUMN IMPORTSTAGE ....................................................................................................... 31 2.25. COLUMN EXPORTSTAGE .................................................................. ..................................... 33 3. DATASTAGE ADMINISTRATOR常用配置 ..................................................................... ...... 35 3.1. 设置TIMEOUT时间...................................................................... .......................................... 35 3.2. 设置PROJECT的属性 ..................................................................... ........................................ 36 3.3. 更新DATASTAGE SERVER的LICENSE和本地CLIENT的LICENSE .............................................. 37 4. DATASTAGE MANAGER使用 ..................................................................... ........................... 37 4.1. 导入导出JOB及其它组件...................................................................... ................................ 37 4.2. 管理配置文件 ..................................................................... .................................................. 39 5. DATASTAGE DIRECTOR使用 ..................................................................... .......................... 40 5.1. 察看JOB的状态,运行已经编译好的JOB .................................................................... ......... 40 5.2. 将编译好的JOB加入计划任务 ..................................................................... ......................... 43 5.3. 监控JOB的运行情况 ..................................................................... . (44)- ii -Datastage产品开发使用指南1. 引言DataStage EE的开发主要由DataStage Designer完成。
DATASTAGE的介绍及基本操作
DATASTAGE的介绍及基本操作DataStage的基本操作包括设计和开发数据集成任务、管理数据集成任务的执行、监控任务的运行状态和性能等。
下面将分别介绍DataStage 的设计和开发、任务管理和监控等方面的基本操作。
1.设计和开发数据集成任务:- 创建项目:在DataStage中创建一个新的项目,并指定项目的名称和存储位置。
-创建作业流:在项目中创建一个新的作业流,并指定作业流的名称和描述。
-添加源和目标:将源数据和目标数据的连接器添加到作业流中,并配置其连接属性。
-设计转换:使用图形化工具将数据转换逻辑以节点的方式添加到作业流中。
可以使用预定义的转换函数、过滤器和聚合函数,并自定义转换规则。
-配置作业参数:为作业流设置参数,例如源数据的路径、目标数据的路径等。
-配置作业调度:定义作业流的调度规则,例如每日、每周或每月执行一次。
2.任务管理:- 启动任务:在DataStage的用户界面中选择要执行的作业流,并单击启动按钮来启动任务。
-监控任务状态:查看任务的运行状态,例如正在运行、已完成或已失败。
-管理调度:可以根据需要修改任务的调度规则,例如修改任务的执行时间或频率。
-管理依赖关系:设置任务之间的依赖关系,例如一个任务的输出作为另一个任务的输入,确保任务按照正确的顺序执行。
3.监控任务:- 实时监控:在DataStage的用户界面中查看任务的实时执行情况,包括输入/输出数据的数量、处理速度、错误记录等。
-查看日志:查看任务执行的详细日志,包括每个节点的执行情况、输入/输出数据的详细信息、转换规则的执行结果等。
-分析性能:分析任务的性能指标,例如任务的执行时间、内存使用情况、CPU利用率等,以优化任务的运行效率。
DataStage还提供了其他高级功能,例如数据质量检查、数据变化捕获和增量加载等。
此外,DataStage与其他数据集成工具和平台的集成也是可能的,例如与大数据处理框架Hadoop、数据仓库工具Teradata等的集成。
数据库日常运维手册
神州数码信息系统有限公司数据库日常运维手册神州数码信息系统有限公司2015/9/5日常运维操作手册主要针对ORACLE数据库管理员对数据库系统做定期监控:(1). 每天对ORACLE数据库的运行状态、日志文件、备份情况、数据库的空间使用情况、系统资源的使用情况进行检查,发现并解决问题。
并要有相关的人员负责每天查看,发现问题及时上报分析。
检查每天的数据库备份完成情况。
(2). 每周对数据库对象的空间扩展情况、数据的增长情况进行监控、对数据库做健康检查、对数据库对象的状态做检查。
(3). 每月对表和索引等进行Analyze、检查表空间碎片、寻找数据库性能调整的机会、进行数据库性能调整、提出下一步空间管理计划。
对ORACLE数据库状态进行一次全面检查(4)根据公司数据库的安全策略对ORACLE DB进行加固一.日维护过程、确认所有的INSTANCE状态正常登陆到所有数据库或例程,检测ORACLE后台进程:$ps –ef|grep ora、检查文件系统的使用(剩余空间)如果文件系统的剩余空间小于20%,需删除不用的文件以释放空间。
#df –k、检查日志文件和trace文件记录检查相关的日志文件和trace文件中是否存在错误。
A、连接到每个需管理的系统使用’telnet’命令B、对每个数据库,进入到数据库的bdump目录,unix系统中BDUMP目录通常是$ORACLE_BASE/<SID>/bdump#$ORACLE_BASE/<SID>/bdumpC、使用Unix ‘tail’命令来查看alert_<SID>.log文件#tail $ORACLE_BASE/<SID>/bdump/alert_<SID>.logD、如果发现任何新的ORA- 错误,记录并解决、检查数据库当日备份的有效性。
对RMAN备份方式:、检查数据文件的状态检查所有数据文件并记录状态不是“online”的数据文件,并做恢复。
DataStage Stage使用
Funnel阶段Funnel阶段是一个处理阶段。
它将多个输入数据集复制到单个数据集,该操作对于将单独数据集合并到单个大型数据集而言非常有用。
该阶段可以有众多输入链接和一个输出链接Funnel阶段能够以下列三种方式之一运行:1、连续传送以不可保证顺序合并输入数据的记录。
它依次从每个输入链接获取一条记录。
如果输入链接上的数据不可用,那么该阶段会跳至下一个链接,而不是等待。
2、排序传送按照一个或多个键列的值定义的顺序合并输入记录,输出记录的顺序由这绡排序键确定。
3、顺序将第一个输入数据集中的所有记录复制到输出数据集,然后将第二个输入数据集中的所有记录复制到输出数据集,依此类推。
对于所有方法,所有数据数据集的元数据都必须椒相同的。
排序传送方法对于其输入数据有一些特定要求。
所有输入数据集都必须根据Funnel操作的键列进行排序。
通常,排序传送操作的所有输入数据集在排序之前都是散列分区的(选择自动分区方法将确保完成这一操作).散列分区可确保具有相同键列值的所有记录都位于同一分区中,以便在同一个节点上处理。
如果在Funnel阶段之前在单独的阶段上执行排序和分区,那么必须保留该分区排序传送操作允许您设置一个主键和多个辅键以确定将输出的记录的顺序。
Funnel阶段:快速路径InfoSphere DataStage有许多缺省设置,这表示您能够载作业中轻松包含Funnel阶段。
本部分指定了要使Funnel阶段运行所需的最少步骤。
InfoSphere DataStage提供了多样化的用户界面,且提供了许多快捷方式供您达到特定目标,本部分描述了基本方法。
要使用Funnel阶段:1、在“阶段”页面的属性选项卡中,指定“传送类型”。
“连续传送”为缺省值,但也可以选择“顺序”或“排序传送”。
如果选择使用“排序传送”方法,则还需要指定对数据进行排序所依据的键。
可以重复使用键属性来指定组合键。
2、如果使用“顺序”方法,请在“阶段”页面的“链接排序”选项卡中,指定合并数据集的顺序。
datastage教程
1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。
如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。
针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。
DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。
其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
Datastage 用户配置指南
© 2012 IBM Corporation
In the Web Console, go to the Administration Tab, expand the “Users and Groups” category and click “Users”. This will give an option for “New User” on the right side. Click “New User” to create a new Information Server user.
On the right side of the screen, under Assign User Credentials, enter the username and password for the operating system user on the DataStage Engine server that you want the DataStage administrator user to use. The DataStage Administrator account is typically mapped to the OS account that was defined as the DataStage administrator during the initial install. Next, click Apply and Close. The dsadm account should now be a functional DataStage Administrator account.
7
Setting up basic DataStage users
© 2012 IBM Corporation
数据库日常运维手册
神州数码信息系统有限公司数据库日常运维手册神州数码信息系统有限公司2015/9/5日常运维操作手册主要针对ORACLE数据库管理员对数据库系统做定期监控:(1). 每天对ORACLE数据库的运行状态、日志文件、备份情况、数据库的空间使用情况、系统资源的使用情况进行检查,发现并解决问题。
并要有相关的人员负责每天查看,发现问题及时上报分析。
检查每天的数据库备份完成情况。
(2). 每周对数据库对象的空间扩展情况、数据的增长情况进行监控、对数据库做健康检查、对数据库对象的状态做检查。
(3). 每月对表和索引等进行Analyze、检查表空间碎片、寻找数据库性能调整的机会、进行数据库性能调整、提出下一步空间管理计划。
对ORACLE数据库状态进行一次全面检查(4)根据公司数据库的安全策略对ORACLE DB进行加固一.日维护过程、确认所有的INSTANCE状态正常登陆到所有数据库或例程,检测ORACLE后台进程:$ps –ef|grep ora、检查文件系统的使用(剩余空间)如果文件系统的剩余空间小于20%,需删除不用的文件以释放空间。
#df –k、检查日志文件和trace文件记录检查相关的日志文件和trace文件中是否存在错误。
A、连接到每个需管理的系统使用’telnet’命令B、对每个数据库,进入到数据库的bdump目录,unix系统中BDUMP目录通常是$ORACLE_BASE/<SID>/bdump#$ORACLE_BASE/<SID>/bdumpC、使用Unix ‘tail’命令来查看alert_<SID>.log文件#tail $ORACLE_BASE/<SID>/bdump/alert_<SID>.logD、如果发现任何新的ORA- 错误,记录并解决、检查数据库当日备份的有效性。
对RMAN备份方式:、检查数据文件的状态检查所有数据文件并记录状态不是“online”的数据文件,并做恢复。
DATASTAGE日常运维手册
DATASTAGE日常运维手册DATASTAGE日常运维手册项目名称:DATASTAGE运维编制时间:2015年 11月修改记录本文档中所包含的信息,如无中国建设银行的书面许可,任何人都无权复制或利用。
?Copyright 2011 by China Construction Bank 第1章 Datastage介绍1.1产品概述DataStage企业版是Ascential Software公司所有企业整合系列产品中关键产品。
企业版支持大容量数据的收集、整合和转换,数据从简单结构到很复杂的结构。
基于高可扩展性的软件架购,企业版使得企业能够通过高性能来解决大部分业务问题,并行处理大容量数据。
强大的企业元数据管理能力使得可以在数据整合生命周期中在所有工具中共享和使用工具。
DataStage企业版发布了四个核心功能来成功实施企业数据整合:1)先进的开发和简单化的维护;2)企业级别的开发、监测和管理;3)在吞吐量和性能方面提供了无限制的高扩展的体系架构;4)端对端的企业级元数据管理。
DataStage企业版提供了全面的功能去最优化用户在建立、升级和管理数据整合架构时的速度、灵活性和效率。
DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使用,减少了数据整合应用的开发和维护周期。
结果,DataStage企业版使得企业能够花更少的时间开发他们的整合应用,更多的时间是不断的从中受益。
1.2基础架构1.3客户档介绍用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。
这些工具包括:Designer:用来建立和编辑DataStage作业和表的定义。
Designer中的“Job Sequencer”控制作业的执行,其他作业成功完成(或失败,等)的条件。
Administrator:用来执行管理任务,如建立DataStage用户、建立和删除工程并且建立清洗标准。
Manager:用来编辑管理用户工程的DataStage资料库。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DATASTAGE日常运维手册项目名称:DATASTAGE运维编制时间:2015年 11月修改记录本文档中所包含的信息,如无中国建设银行的书面许可,任何人都无权复制或利用。
©Copyright 2011 by China Construction Bank第1章 Datastage介绍1.1产品概述DataStage企业版是Ascential Software公司所有企业整合系列产品中关键产品。
企业版支持大容量数据的收集、整合和转换,数据从简单结构到很复杂的结构。
基于高可扩展性的软件架购,企业版使得企业能够通过高性能来解决大部分业务问题,并行处理大容量数据。
强大的企业元数据管理能力使得可以在数据整合生命周期中在所有工具中共享和使用工具。
DataStage企业版发布了四个核心功能来成功实施企业数据整合:1)先进的开发和简单化的维护;2)企业级别的开发、监测和管理;3)在吞吐量和性能方面提供了无限制的高扩展的体系架构;4)端对端的企业级元数据管理。
DataStage企业版提供了全面的功能去最优化用户在建立、升级和管理数据整合架构时的速度、灵活性和效率。
DataStage企业版增强的功能减少了学习的周期、简单化了管理和优化了开发资源的使用,减少了数据整合应用的开发和维护周期。
结果,DataStage企业版使得企业能够花更少的时间开发他们的整合应用,更多的时间是不断的从中受益。
1.2基础架构1.3客户档介绍用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。
这些工具包括:Designer:用来建立和编辑DataStage作业和表的定义。
Designer中的“Job Sequencer”控制作业的执行,其他作业成功完成(或失败,等)的条件。
Administrator:用来执行管理任务,如建立DataStage用户、建立和删除工程并且建立清洗标准。
Manager:用来编辑管理用户工程的DataStage资料库。
Director:用来验证、时序安排、运行和监测企业版作业。
第2章日常操作2.1登录客户端2.1.1登录Datastage Administrator 客户机点击图标选择需要登录的服务器,输入用户名,密码登录进去后点击项目,可进行项目增加,删除,设置项目属性2.1.2登录Datastage Designer客户机点击图标选择需要登录的域,输入用户名,密码,选择需要登录的项目登录成功:2.1.3登录Datastage Director客户机点击图标选择需要登录的域,输入用户名,密码,选择需要登录的项目登录成功:2.2启停服务端以dsadm用户进入,执行以下命令:1) Server启动命令:$HOMEDIR/uv –admin -start注意:启动前,需要查看端口是否被释放,通过‘netstat –af inet |grep ds’查看,如果有连接,则需要等待操作系统自动释放后在启动服务。
2) Server停止命令:$HOMEDIR/uv –admin /stop注意:停止前最好确保没有Client连接,可以通过‘onstat –a |grep ds’查看,是否还存在Client连接,否则要通知相应登录的client端彻底退出。
2.3Job编译登录Datastage Designer客户机,参见2.1.2,打开欲编译的Job,具体Job编译方法有两种:1)选择菜单栏的【文件】->【编译(M)】,快捷键为F7。
2)点击工具栏的编译图标。
2.4Job运行Datastage Job运行有两种方式:一种在Designer中,一种在Director中。
1)登录Designer客户机,打开欲运行的Job,选择菜单栏的【文件】->【运行(R)】,快捷键为Ctrl+F5或者点击工具栏的运行图标。
2)登录Director客户机,选中欲运行的作业,选择菜单栏的【作业(J)】->【立即运行(N)】,或者点击工具栏的立即运行图标。
2.5监视作业登录Director客户机,选中欲监视的作业,右键选择【监视】,可以查看作业的运行情况。
如下图所示:2.6查看日志登录Director客户机,选中欲查看日志的作业,右键选择【查看日志】出现:2.7作业解锁2.7.1方法1如遇到断网等一些情况可能导致作业被某一锁定,从而无法对作业进行修改。
解锁方法:在浏览器输入Server端IP地址跟端口,如http://128.192.140.5:9080,出现如下界面:输入用户名,密码,登录后选择【管理】->【会话管理】->【活动会话】,对那个被锁定作业的会话,选择【断开链接】2.7.2方法21 用管理员用户登录DataStage Administrator2 打开对应PROJECT的【命令(M)】3 执行LIST.READU 查看Locks4 通过最后一列item id找到被锁的对应的作业名5 执行下面命令解锁UNLOCK USER Userno ALL其中username 为LIST.READU 所列出的信息中对应的Userno 。
2.8Job导入登录Designer客户机,选择菜单栏的【导入(I)】->【Datastage组件(C)】,选择所需导入的dsx文件,界面如下:2.9Job导出登录Designer客户机,导出Datastage Job有两种方法:(1)选择菜单栏的【导出(X)】->【Datastage组件(C)】,界面如下:点击添加按钮,选择所需的导出的Datastage Job,在要导出的作业组件一般选择“导出不带可执行文件的作业设计”,在导出到文件中选择本地的保存路径跟文件名。
(2)在所需导出的Job上右键单击,在弹出菜单中选择【导出(X)】,在如上界面中的导出到文件选择本地的保存路径跟文件名。
2.10数据库表定义导入datastage登录Designer客户机,选择菜单栏的【导入(I)】->【表定义(T)】->【插件元数据定义(M)】选择表定义所在的数据库,输入用户名,密码选择【导入(I)】第3章 Datastage配置3.1常见目录说明1)主机下发数据目录:/appdata/DATA#DATE2)Datastage转码生成公共数据集目录:/appdata/DSDATA/$DATE/3)DataStage的配置目录,/usr/datastage/InformationServer/Configurations,其下有其配置文件,可以设置运行结点数,Dataset数据文件目录,Dataset日志文件目录。
{node "node1"{fastname "T219N2V3"pools ""resource disk "/appdata/DSDATA/DATASET" {pools ""}resource scratchdisk "/appdata/DSDATA/SCRATCH" {pools ""}}node "node2"{fastname "T219N2V3"pools ""resource disk "/appdata/DSDATA/DATASET" {pools ""}resource scratchdisk "/appdata/DSDATA/SCRATCH" {pools ""}}}Dataset数据文件目录:resource disk "/appdata/DSDATA/DATASET"Dataset日志文件目录:resource scratchdisk "/appdata/DSDATA/SCRATCH"4)DataStage的引擎所在目录,/usr/datastage/InformationServer/DSEngine,其下有bin,lib等,其中include里面有个dsapi.h很有用,定了很多错误,遇到错误,可以到文件里面找,不过这里只能找到常见错误,一些unexpected error无法在里面找到错误原因。
3.2DataStage Administrator配置登录Administrator客户机,选择【项目】标签,选择要配置的project,在General->Enviroment…中1. 在General类型下:TMPDIR=XXX (将其指向一个相对较大的目录,不填写就是指缺省的/tmp目录,此处需要讨论)。
2. 在Parallel类型下:APT_CONFIG_FILE,配置文件及其运行节点数,其配置文件为:/usr/datastage/InformationServer/Configurations/cissuat.apt,这里需要检查一下指向的内容是否正确。
具体详见3.1中DataStage的配置目录。
APT_STRING_PADCHAR= (缺省值是0x0,我们需要填写一个空格)3. 在Parallel->Operator Specific类型下APT_COPY_TRANSFORM_OPERATOR设置为True,在做多结点运行时需要设置。
4. 在User Defined类型下:APT_IMPEXP_ALLOW_ZERO_LENGTH_FIXED_NULL设置为1。
(如果目前数据统一为定长无分隔符,或者说不要设置定长的Null值,就不需要设置)。
第4章附录:常见问题FAQ4.1SQL Loader 导入数据时候报错问题描述:通过oracle stage,把文本数据写到数据库时候报错:SQL*Loader-925: Error while uldlpim: OCIStmtExecute;SQL*Loader-2026: the load was aborted because SQL Loader cannot continue.实际上数据是装入成功了。
问题解决:这个问题的原因是客户端和服务器端的版本不一致,装了和服务器一样版本的client后就可以了。
问题分类:系统环境问题详细描述:ORA_S_CRD_CICIFADR,0: SQL*Loader-925: Error while uldlpim: OCIStmtExecute ORA_S_CRD_CICIFADR,0: SQL*Loader-2026: the load was aborted because SQL Loader cannot continue.ORA_S_CRD_CICIFADR,0: The call to sqlldr failed; the return code = 256;please see the loader logfile:/home/ap/dsadm/Ascential/DataStage/Scratch/ora.23199.545865.0.log for details.ORA_S_CRD_CICIFADR,1: SQL*Loader: Release 10.2.0.1.0 - Production on Wed Apr11 19:31:09 2007Copyright (c) 1982, 2005, Oracle. All rights reserved.Control File: ora.23199.545865.1.ctlCharacter Set UTF8 specified for all input.Data File: ora.23199.545865.fifo.1File processing option string: "FIX 363"Bad File: ora.23199.545865.1.log.badDiscard File: none specified(Allow all discards)Number to load: ALLNumber to skip: 0Errors allowed: 50Continuation: none specifiedPath used: Direct - with parallel option.Table S_CRD_CICIFADR, loaded from every logical record.Insert option in effect for this table: APPENDColumn Name Position Len Term Encl Datatype------------------------------ ---------- ----- ---- -------------------------CI_CUST_NO 1:40 40 CHARACTER NULL if 1:40 = BLANKSCIADR_LL 41:46 6 PACKED DECIMAL (10, 0)NULL if 41:46 = 0X000000000000(character '')CI_ADDR_COD 47:52 6 CHARACTER NULL if 47:52 = BLANKSCIADR_DB_TIMESTAMP 53:86 34 CHARACTERNULL if 53:86 = BLANKSCI_ADDR 87:246 160 CHARACTER NULL if 87:246 = BLANKSCI_POSTCOD 247:258 12 CHARACTER NULL if 247:258 = BLANKSCI_TEL_NO 259:298 40 CHARACTER NULL if 259:298 = BLANKSFILLER 299:362 64 CHARACTER NULL if 299:362 = BLANKSSQL*Loader-925: Error while uldlpim: OCIStmtExecuteORA-00904: "MESSAGE_NUM": invalid identifierSQL*Loader-2026: the load was aborted because SQL Loader cannot continue.Table S_CRD_CICIFADR:128381 Rows successfully loaded.0 Rows not loaded due to data errors.0 Rows not loaded because all WHEN clauses were failed.0 Rows not loaded because all fields were null.Bind array size not used in direct path.Column array rows : 5000Stream buffer bytes: 256000Read buffer bytes: 1048576Total logical records skipped: 0Total logical records read: 128381Total logical records rejected: 0Total logical records discarded: 0Total stream buffers loaded by SQL*Loader main thread: 72Total stream buffers loaded by SQL*Loader load thread: 0Run began on Wed Apr 11 19:31:09 2007Run ended on Wed Apr 11 19:31:15 2007Elapsed time was: 00:00:06.82CPU time was: 00:00:01.304.2Error calling subroutine:DSR_JOB(Action=5)问题描述:无法打开作业,无法建立job问题解决:原因是机器系统资源耗尽,提高机器性能或者等到机器空闲时候再登陆。