datastage入门培训

合集下载

DataStage 基础培训_练习

DataStage 基础培训_练习
2011-04-12
1
练习 1、需求内容实现按部门和城市对订单进行多维度分析
2、设计方案 1）新建订单多维分析事实表
注：在插入数据之前，先对当前 2)源头取数
从订单表orders获取当前会计期(200305)订单信息
从员工表emp获取员工所属部门信息
从供应商表suppliers获取供应商所属城市信息
3
练习 2、设计方案 3）开发ETL，将基于部门和城市的订单多维分析数据装载到事
实表，要求：
A、新建一个JOB将订单信息先落地到中间数据文件 B、新建另一个JOB从中间数据文件抽取订单信息，并通过与员工表、供应商表匹配获取订单多维分析数据，装载到事实表 C、通过JOB Sequence将两个JOB封装起来，并设计前后依赖
（2）DataStage环境
IP:192.168.1.253
Project:SIEProjectA u/p:dsadm/dsadm
5
练习参考ETL（SQL）
6
Q&A
7
关系
D、使用的Stage包括但不限于以下stage：Oracle Stage、 DataSet Stage、Join Stage、Lookup Stage、Transformer Stage、Aggregator Stage
4
练习
3、环境
（1）#深圳SIEDW数据库 USER/ PASSWORD：BI_APP/bi_app SIEDW = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 192.168.1.254)(PORT = 1521)) (CONNECT_DATA = (SERVER = DEDICATED) (SERVICE_NAME = SIEDW) ) )

DataStage官方培训教程10

DataStage官方培训教程10DataStage是一个ETL工具，它提供了广泛的数据连接选项以及数据转换和清理功能，以帮助企业完成数据仓库构建和管理。

由于数据驱动的世界越来越重要，数据管理和ETL应用程序的需求也变得越来越迫切。

DataStage官方培训教程10涵盖了DataStage常见的任务和操作，为学习DataStage用户提供了完整的指导。

在本文中，我们将对DataStage官方培训教程10进行分析和实践，以帮助读者更好地了解和掌握DataStage。

DataStage官方培训教程10的结构和内容DataStage官方培训教程10是一本基于DataStage 11.7版本的官方培训教材。

该教材共包含15个单元，分为4个部分。

第一部分介绍了DataStage概述和安装过程，包括DataStage架构、组件、工作流程等。

第二部分介绍了DataStage的数据源定义、数据移动和数据变换。

第三部分主要介绍了DataStage的错误处理和调试，包括日志、报告、来源和目标检查等。

第四部分介绍了高级主题，如DataStage管理、性能调整、共享资源和集成JDBC驱动程序等。

DataStage官方培训教程10的学习方法和技巧DataStage官方培训教程10是一本详细的教材，需要耐心和时间来学习。

以下是一些学习方法和技巧，可以帮助读者更好地掌握DataStage。

1.按照教材结构进行学习按照各个部分和单元的结构进行学习，以便逐步深入理解每个主题。

特别是，在学习前两部分时需要仔细阅读和理解数据源定义、数据移动和数据变换的概念和操作指南，掌握其重要性和影响关系。

2.完整地跟随实例进行演示教材中提供了许多实例来示范DataStage的各个方面，读者可以用自己的DataStage环境进行实操，加深对DataStage的理解和熟练度。

值得注意的是，在学习高级主题时需要一定的实践经验和技能，否则可能会花费更多的时间和精力。

DataStage基础培训教程ppt课件

全局变量与Job变量
• 全局变量 -- 生命周期：整个Project -- 在Administrator中定义
• Job变量 -- 生命周期：一个Job -- 在Designer、Manager中定义
演示：定义一个Job变量在Designer中定义参数
Meta data definition
Debug and Tuning
• View Status and Logs - status, log, detail等多种视图 - 配合Monitor来查错、调优
Job Status
• Not Compiled • Compiled • Reset • Running • Finished • Finished (with warning) • Abort
演示：生成事实表
明细表
关联
聚合
事实表
Hash File
• 用途： -- 左连接时用作副表 -- 多次被访问的数据集 -- 存储其他临时数据
• 关键点： -- 必须指定key -- output的position必须与input一致
Transformer
• 用途： -- 提供丰富的运算符和函数 -- 数据清洗、转换 -- 关联多个数据源
DataStage基础培训
Jerry 2006.03
议程
• Hello World • DataStage Components • Define Parameter & Table • Hash File、Transformer、Aggregator • Director & Monitor • Administrator & Manager • Routine & Control

datastage入门教程

DATASTAGE总结一、安装datastageA、安装服务端安装虚拟机(注册码在文件中)---解压datastage安装包redhat3__Datastage----点击解压文件中Red Hat Enterprise Linux 3---安装---在虚拟机启动---查看虚拟机IP地址，在dos窗口验证是否可以连接---打开secureCRT，连接虚拟机---进入/app/oracle/product/10.2/network/admin/tnsnames.ora中---按E键，再按i 进入编辑状态---将IP地址设为本机Ip地址，数据库实例名自己设置---按ESC、W、Q、：键退出---完成B、安装客户端解压datastage客户端安装包Datastageclient---点击解压文件datastage7.5.3\datastage client---安装---注册码在datastage7.5.1下载地址及license中----完成二、DATASTAGE主键1、transforme r（oracle----transformer---file）数据源oracle设置properties\source\readmethod=auto-generated sqlproperties\source\table=要导入的表名点击connection，出现remote server=数据库实例名，user=Scott，password=tigerColumns下将length设置合适---load---oracleI9--选定导入的表名---ok注意：若不知道导入表的格式Columns下将length设置合适---load---import---plug-in meda data definitions---oracleI9--ok---数据库实例名，用户名、密码---ok--选择Scott用户下---选表--- 导入Transformer设置：将需要显示的字段拖拽过去---ok目标文件file设置：properties下file--填入保存路径first line is columns name=trueFomat下点击record level 添加record delimiter 属性为UNIX newline点击field defaults 添加 null field value 属性为0 Quote=noneColumns下将length设置合适----ok以下主键数据源或目标文件为oracle/file的设置同上transformer的设置方法2、转存（file---transformer---file）Transformer设置：将需要显示的字段拖拽过去---ok3、导入（file---transformer---oracle）Transformer设置：将需要显示的字段拖拽过去---ok4、copy（file--copy--多file）：一个输入，多个输出Copy设置：stage当只有一个输入及一个输出时最好将Force设置为TrueOutput下将需要显示的字段拖拽过去---ok5、filter（file--filter---多file）：只有一个输入，可以有多个输出Filter设置：stage下properties\where clause=过滤条件--点击whereclause出现output link=slink值（在link orderingzhong看对应值） Output下将需要显示的字段拖拽过去---ok6、join（多oracle---join---file）：多表连接Join设置：stage下properties\join keys\key=关联字段，options\join type=连接类型（内、全、左、右连接）Output下将需要显示的字段拖拽过去---ok7、look up(多oracle---look up--file):数据的查询Look up设置：将关联字段连接，再将需要显示的字段拖拽过去8、merge(多file---merge---file):相同数据的合并Merge设置：stage下properties\merge keys\key=字段，sort order=排序Options下unmatched masters mode=保留/删除Output下将需要显示的字段拖拽过去---ok9、funnel（多file---funnel---file）：数据的合并Funnel设置：stage下properties\options\funnel type=选择合并方式Output下将需要显示的字段拖拽过去---ok10、aggregator(oracle---aggregator---file):数据的分类、汇总Aggregator设置：stage下properties\grouping keys\group=分组字段点击aggregations\aggregation type出现column for calculation=聚合字段及合方式，可以取最大值，最小值， Sum值，count值等多种聚合方式。

DataStage组件学习

DataStage 的基本逻辑处理单位是Job,每个Job由许多stage组成;由Stage 来完成;由Stage 来完成对数据的抽取,转换,加载等;Sequential File Stage: 适用于一般顺序文件,可识别文本文件。

Annotation : 功能特点一般用于注释,可利用其背景颜色在job中分颜色区分不同功能模块。

Change Capture Stage功能特点:Change Capture Stage 有两个输入Copy Stage: 功能说明: Copy Stage 可以有一个输入，多个输出。

它可以再输出是改变字段的顺序，但是不能改变字段类型。

当只有一个输入及一个输出时最好将Force 设置为True，这样可以在Designer里看到运行结束，否则将无法标识运行结束，但不会影响运行结果数据。

Filter Stage: 只有一个输入，可以有多个输出。

根据不同的筛选条件，可以将数据输出到不同的output link。

Funnel Stage : 将多个字段相同的数据文件合并为一个单独的文件输出合并策略说明Continuous Funnel : 从每一个input link中循环取一条记录Sort Funnel ：按照Key 值排序合并输出Sequence : 先第一个input link 的输出数据，输出完毕后再输出第二个input link 的数据，以此类推，直到结束Tansformer Stage: 一个功能强大的Stage 。

有一个input link，多个output link ，可以将字段进行转换，也可以通过条件来指定数据输出到哪个output link。

在开发过程中可以通过拖拽。

Constraint 及Derivation 的区别Constraint 通过限定条件使符合条件的数据输出到这个output linkDerivation 通过定义表达式来转换字段值。

在Constraint 及Derivation中可以使用Job parameter 及Stage Variable。

DATASTAGE技术培训-经典收藏

DataStage Designer常用STAGE
l Sequential file q 功能特点：适用于一般顺序文件（定长或不定长），可识别文本文件
或IBM大机ebcdic文件。
DataStage Designer常用STAGE
修改文件属性，文件名称，reject方式等
DataStage Designer常用STAGE
对每个工程的各个单元，包括库表定义、集中的转换程序和元数据连接等对象进行分类和组织。
DataStage Client部件简介
n Director 为启动、停止和监视作业提供交互式控制。
n Administrator 在服务器端管理Datastage的工程和使用者权限的分配。
DataStage服务器
单的设置，点击对我们的JOB进行编译，就可以运行了（我们一般在Director运行JOB）。 u Designer的主要功能编译和设计JOB，编写函数、子程序、脚本等。
我们将在下面以一个例子介绍Designer的用法。
DataStage功能组件-- Director
双击：编辑的JOB。
进入Director登录界面，注意选择自己想进入
n 服务器是数据集成的主要设备。在服务器上，你可以在运行时间
内对几个并行的处理过程进行控制，以便在多个不同的数据源和数据目标之间发送数据。服务器可以安装在NT或UNIX、 LINUX环境中，同时通过调节来有效地利用多处理器和内存的优势。通过使用Datstage中包括的许多富有效率的功能，企业可以缩短学习周期、简化管理过程、最大限度地开发资源，从而缩短数据集成应用程序的开发和维护周期。
DATASTAGE技术培训
ETL简介
ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)作为BI/DW（Business Intelligence）的核心和灵魂，能够按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程，是实施数据仓库的关键步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图，数据是砖瓦的话，那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计，而ETL规则设计和实施则是工作量最大的，约占整个项目的60%～80%，这是国内外从众多实践中得到的普遍共识。

DataStage基础及开发实践

DataStage基础及开发实践InfoSphere DataStage是IBM统一数据集成平台InfoSphere Information Server(IIS) 的重要组件，是业界主流的 ETL(Extract, Transform, Load) 工具。

DataStage执行从源系统到目标系统的批量和实时的数据转换和移动，它广泛支持各种异构平台的数据源和各种类型的数据格式(结构化、半结构化和非结构化数据)；通过简单易用的图形化设计方式，并内置丰富的功能组件，从而支持从简单到高度复杂的数据结构中，对大量数据进行收集、清洗、整合和转换，具有满足最苛刻的数据集成需求所需的功能性、灵活性和可伸缩性。

本课程主要介绍InfoSphere DataStage的基本架构和产品特点，并基于实战案例详细讲解DataStage 的安装、配置、开发以及最佳实践。

课程大纲：第一课 IBM数据集成与治理方案简介第二课 Infosphere Datastage 架构、安装与配置第三课 Infosphere Datastage 管理与开发部署流程第四课 Infosphere Datastage 数据连接组件使用第五课 Infosphere Datastage 数据合并、排序与聚合组件使用第六课 Infosphere Datastage 数据转换组件使用第七课 Infosphere Datastage 自定义公共组件与过程第八课 Infosphere Datastage 作业序列和作业控制第九课 Infosphere Datastage 作业调试、调度与监控第十课 Infosphere Datastage 数据血源分析第十一课 Infosphere Datastage 性能调优和最佳实践第十二课 Infosphere Datastage 实战案例分享授课对象：本课程由浅入深，循序渐进地介绍DataStage的基本原理和开发实践，主要面向DataStage 的初学者以及基础开发运维人员。

IBM-DataStage技能培训

DataStage存储过程的调用(方法一)
可以通过SQL语句块调用存储过程
DataStage存储过程的调用(方法二)
两种调用比较：第一种简单明了，但是取不到存储过程的返回值；第二种方法比较复杂，下去可以在测试环境搞搞。
DS备份（导出）
可以选择不同的对象进行备份，一般建议完全备份，选择Whole project
候开始执行后面的序列
erVariables_Activity：自定义参数控件，可以定义全局参数，
供整个JOB引用
6.Routine_Activity：调用封装好的Routine，Routine类似于SQL中
的存储过程。 Demo: SEQ_POL_MAIN
一个数据抽取转换装载的实例 Demo: CopyCopyPjob_PRIP_LJTEMPFEE 实例目的：暂收费表，根据中保信二期逻辑改造而来，介绍Prallel
专业程度如Datastage旗鼓相当，也是图形化界面开发，很多控件的功能与Datastage 相似，价格似乎比Datastage便宜，可以在Window、Linux、Unix、Aix等多个环境上运行。
• Kettle
Kettle 中文名叫水壶，纯java编写的开源ETL工具，开源当然就免费，免费的有些东西使用就不是很方便，很多功能需要结合Java开发，可以在Window、Linux、Unix、Aix 上运行，数据抽取高效稳定。
• ODI
Oracle数据库厂商提供的工具，有局限性，与oracle数据库耦合太深
完备的开发环境
IBM WebSphere DataStage 的开发环境是基于 C/S 模式的，通过 DataStage Client 连接到DataStage Server 上进行开发，DataStage Server 支持多种平台，比如 Windows、Redhat Linux、 IBM AIX 、HP-UNIX等。

DataStage 学习

DataStage学习1.基本的工具介绍:用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。

这些工具包括：Designer：用来建立和编辑DataStage作业和表的定义。

Designer中的“Job Sequencer”控制作业的执行，其他作业成功完成（或失败，等）的条件。

Administrator：用来执行管理任务，如建立DataStage用户、建立和删除工程并且建立清洗标准。

Manager：用来编辑管理用户工程的DataStage资料库。

Director：用来验证、时序安排、运行和监测企业版作业。

2.试学习例子图二、DataStage企业版数据流图示2.1。

企业版Aggregator Stage的编辑器如下所示。

图三、企业版编辑Aggregator Stage图标和Stage编辑器例子2.2企业版Transformer Stage是一个强大和灵活的组件，允许用户对input link输入的数据进行转换。

并且将数据传到另一个活动的Stage或者将数据写到目标数据或文件。

Transformer 编辑器（如下所示）使得用户可以在input liks和output link间简单建立mapping，并且可以使用BASIC等语言建立任意转换。

这些转换可以并行执行来提高吞吐量和性能。

企业版提供了超过100个内嵌的功能，另外可以用C或C++编写的route在转换中使用和进行互操作。

图四、企业版Transformer Stage图标和Stage编辑器例子2.3Enterprise Deployment and Management许多大的公司都又他们自己的在复杂生产环境下的配置、时间序列、监测和管理应用的标准。

DataStage企业版提供了灵活功能来迎合这些需要。

首先，DataStage提供了一个图形化的作业顺序器，允许用户定义作业执行的序列。

设计一个作业序列就象设计一个作业。

用户在DataStage中设计作业序列。

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心（数据仓库）中的数据来自于多种业务数据源，这些数据源可能是不同硬件平台上，使用不同的操作系统，数据模型也相差很远，因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心（数据仓库）加载这些数据量大、种类多的数据，已成为建立数据中心（数据仓库）所面临的一个关键问题。

针对目前系统的数据来源复杂，而且分析应用尚未成型的现状，专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化，并将其输入数据集市或数据中心（数据仓库）目标数据库的集成工具。

DataStage 能够处理多种数据源的数据，包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等，以下列出它所能处理的主要数据源：大型主机系统数据库：IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库：Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统：SAP/R3,PeopleSoft系统等，普通文件和复杂文件系统，FTP 文件系统，XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中，从多个平台的数据源中抽取数据，完成转换和清洗，装载到各种系统里面。

其中每步都可以在图形化工具里完成，同样可以灵活的被外部系统调度，提供专门的设计工具来设计转换规则和清洗规则等，实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现，复杂转换可以通过编写脚本或结合其他语言的扩展来实现，并且DataStage 提供调试环境，可以极大提高开发和调试抽取、转换程序的效率。

DataStage优化培训笔记.doc

DataStage优化培训笔记Sequential file1、注意reject mode的设置2、优化：（在文件定长的前提下）number of readers per node 设定单节点的多个读取，根据实际情况设置多读个数read from multiple nodes 设定多节点的数据读取Change Capture Stage比较数据后会进行排序，如果之前的数据已经做了排序，则需要改变排序属性。

注意before 和after 的设置，不要设反。

Copy Stage在内存中操作的组件，建议1进多出用copy组件Tansformer Stage是内嵌的程序，一旦作业执行到此stage 程序会暂停进程，外部调用so的程序，Transformer组件中包含的函数，可以自己编写函数进行嵌入（通过routine实现）filter不能用于复杂的判断，copy不能增加赋默认值的字段..Sort Stage尽量不用，属于滞留组件，要等数据齐全后再能进行sort操作LookUp和Join的区别需要注意join一定要进行排序再进行处理（效率较低），LookUp是流水线实现（超过800M不能用此stage）Data Set StageStage自动设置数据为定长，实现多值读取，可以通过drop on input来限制输入数据。

生产环境优化：关注CPU(并发路数,逻辑节点数,物理作业数),内存,I/O交互1、在Oracle Enterprise 中使用select语句时，提取尽量少的字段数据2、在使用LookUp Stage时，如果数据从Oralce出来的，在LookUp table（参照表中）可以设置Lookup type＝sparse(此方式是数据不提取到内存，直接在表中进行操作)3、在Oracle Enterprise中设置Partition table="需要查询的表名"可以实现多进程读取数据4、在文件系统中，为平衡节点负载，建议数据的输入和输出放在不同的磁盘上（可通过节点进行设置，如Sequential_File中设置FILE的路径）5、尽量少用repartition（sort stage 、join stage等组件需要对数据进行repartition）6、要保证有足够的scratch空间，当此空间满了之后，系统会把数据转移到tmp空间，效率变低7、网络瓶颈会影响作业效率（局域网通讯，Node之间的通讯问题）8、在MAIN机器上，设置是否关闭jobmonitor进程（pools"" 为默认节点，需要进行节点运行，如果对””进行赋值，则不作为默认节点，不做运行。

datastage培训提纲

培训提纲1.ETL定义说明ETL过程指的是从数据源中抽取数据，然后对这些数据进行清洗、转换，最终加载到目标数据库和数据仓库中。

数据抽取：数据抽取主要是针对各个业务系统及不同网点的分散数据，充分理解数据定义后，规划需要的数据源及数据定义，制定可操作的数据源，制定增量抽取的定义。

数据转化和清洗：数据转换是真正将源数据变为目标数据的关键环节，它包括数据格式转换、数据类型转换、数据汇总计算、数据拼接等等。

但这些工作可以在不同的过程中处理视具体情况而定，比如，可以在数据抽取时转换，也可以在数据加载时转换。

数据清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题，允许通过试抽取，将有问题的纪录先剔除出来，根据实际情况调整相应的清洗操作。

数据加载：数据加载主要是将经过转换和清洗的数据加载到数据仓库（或数据库）里面，即入库，操作者可以通过数据文件直接装载或直连数据库的方式来进行数据装载。

2.ETL工具的选择2.1.支持平台随着各种应用系统数据量的飞速增长和对业务可靠性等要求的不断提高，人们对数据抽取工具的要求往往是将几十、上百个GB的数据在有限的几个小时内完成抽取转换和装载工作，这种挑战势必要求抽取工具对高性能的硬件和主机提供更多支持。

因此，我们可以从数据抽取工具支持的平台，来判断它能否胜任企业的环境，目前主流的平台包括SUN Solaris、HP-UX、IBM AIX、AS/400、OS/390、Sco UNIX、Linux、Windows等。

2.2.支持数据源对数据源支持的重要性不言而喻，因此这个指标必须仔细地考量。

首先，我们需要对项目中可能会遇到的各种数据源有一个清晰的认识；其次对各种工具提供的数据源接口类型也要有深入了解，比如，针对同一种数据库，使用通用的接口（如ODBC/JDBC）还是原厂商自己的专用接口，数据抽取效率都会有很大差别，这直接影响到我们能不能在有限的时间内完成ETL任务。

datastage学习文档

工作总结1 如何重新启动DataStage服务器, 步骤如下: (5)2 DataStage开发经验积累: (5)2.1模板开发 (5)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (5)2.3去除不需要的字段 (5)2.4T RANSFORMER S TAGE的使用 (5)2.5L OOK UP/JOIN 空值处理 (6)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (6)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (6)2.8D ATA型数据是比较麻烦的 (6)2.9行列互换之H ORIZONTAL P IVOT（P IVOT S TAGE） (7)2.10行列互换之V ERTICAL P IVOT (7)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (9)2.12D ATA S TAGE SAP S TAGE的使用 (10)2.13C OLUM I MPORT S TAGE的使用 (10)2.14C OLUM E XPORT S TAGE的使用 (12)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (13)2.16U NABLE TO CREATE RT_CONFIG NNN (14)2.17查看JOB和CLIENT的对应的后台进程 (14)2.18强制杀死DS进程 (14)2.19查看S ERVER E NGINE的进程 (15)2.20查看S ERVER L OCKS (15)2.21关于UNIX系统下无法启动服务的解决办法 (16)2.22L OCKED BY OTHER USER (17)2.23DATA S TAGE J OB L OG的处理 (17)2.24一些BASIC语言中处理字符串的函数 (17)2.25BASIC程序中使用到的一些语法知识 (18)3DS中常见问题记录 (22)3.1权限管理问题 (22)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (22)3.3删除文件的问题 (22)3.4SEQUENCE调度出现的错误问题 (23)3.17字符集问题 (23)3.18V ERSION C ONTROL的问题 (23)3.19SEQUENCE调不起JOB的问题 (23)3.20SEQUENCE调度失败的问题 (24)3.21DS发送邮件的配置问题 (25)3.22随机错误问题 (26)3.23DS中的日期问题 (26)3.24DS连接ORACLE问题 (27)。

DataStage入门培训

Designer Creates DataStage jobs that are compiled into executable programs
Director Used to run and monitor the DataStage jobs
Manager Allows you to view and edit the contents of the repository
Each project is associated with a directory. The directory stores the objects (jobs, metadata, custom routines, etc.) created in the project.
Before you can work in a project you must attach to it (open it).
DATASTAGE ADMINISTRATOR
DATASTAGE ADMINISTRATOR
In DataStage all development work is done within a project. Projects are created during installation and after installation using Administrator.
DATASTAGE 入门培训
讲师：邱明伟日期：2010-03-01

东南融通版权所有
DataStage介绍 DataStage开发
1. DataStage四个客户端的使用 2. DataStage常用组件使用
DataStage常用命令练习
AGENDA

DataStage官方培训教程7

©2003 Ascential Software Corporation. All Rights Reserved Reproduction and/or Redistribution Is Prohibited.
What is a Hashed File?
A DataStage file written to the file system Most use a hashing algorithm based on key
What percentage of file capacity to create a new group
Similar to dropping a table
Which type of file to create
How large the groups will be
What percentage of file capacity to remove a group
column values Files can be cataloged in the project’s VOC file for
easy retrieval
©2003 Ascential Software Corporation. All Rights Reserved Reproduction and/or Redistribution Is Prohibited.
Hashing Algorithm
Group 1 Group 2 Group 3 Group 4 Group 5
©2003 Ascential Software Corporation. All Rights Reserved Reproduction and/or Redistribution Is Prohibited.

Datastage入门培训

一、工具入门DataStage是一个ETL的工具，就是对数据的抽取，转换，加载。

个人通俗的理解就是一个对数据进行处理，提取的工具，这里面的数据大部分是以数据库中表的格式存在着的，所以如果要使用这个工具，首先必须对关系数据库的一些基本概念要有所了解，比如最基本的字段，键，记录等概念。

DataStage是通过设计job来实现ETL的功能的。

Job的设计跟普通的IDE设计一样，通过拖拽控件，并填加脚本来完成。

这里的控件称为stage，每一个不同的stage都有不同的数据处理的功能，将各个stage通过一定的方式组合起来，设计成job，对job进行编译，运行，就能够实现对数据抽取转换加载。

1,安装datastage,看学习指导，先对该工具有个大概的认识,大概知道administrator,design,director,manager的区别。

了解datastage工具的主要用途：简单的说就是把一批数据input进来，经过各种各样的转化，清洗，然后在output出去,整个就是ETL 的过程。

对4个工具我们最常做的操作有：Administrator：1、对Project的管理，主要是建立和删除project;2、对Licensing的管理，主要是更换Licensing。

design：datastage的核心，所有的开发都在design里面完成，在这里可以编辑你的job,使用各种stage控件。

director：1、查看日志，当运行job结束时，无论job成功或者失败，我们都可以在director 里面查看日志，里面能反映我们job运行的状态，经常job出错我们都是先查看日志，然后分析原因，再到design里面修改。

2、director的另外一个很有用的功能是logout job,当服务器或者网络出问题时，正在编辑的job很有可能被锁定，这时你就算把design关了再重新登陆还是无法打开job,会提示job has been used, 这就需要到director里面把job logout，然后就可以使用了。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、工具入门DataStage是一个ETL的工具，就是对数据的抽取，转换，加载。

DataStage是通过设计job来实现ETL的功能的。

Job的设计跟普通的IDE设计一样，通过拖拽控件，并填加脚本来完成。

1,安装datastage,看学习指导，先对该工具有个大概的认识,大概知道administrator,design,director,manager的区别。

了解datastage工具的主要用途：简单的说就是把一批数据input进来，经过各种各样的转化，清洗，然后在output出去,整个就是ETL 的过程。

对4个工具我们最常做的操作有：Administrator：1、对Project的管理，主要是建立和删除project;2、对Licensing的管理，主要是更换Licensing。

design：datastage的核心，所有的开发都在design里面完成，在这里可以编辑你的job,使用各种stage控件。

manage：manage的最主要的功能是可以对design里面的资源进行导入导出，当我们要把开发的job从一台机器转移到另外一台机器时，就需要用到。

二、开始学习使用design,做一些简单的job,接触几个常用的stage。

做练习1的1-2至4-2的练习，练习中用到的Oracle组件全部用sequence file 代替，1-2练习中会教你导入练习所要用到的表的结构，练习中要用到的数据文件放在数据及表定义目录下。

（表定义可以通过manage工具导入，但是数据文件必须自己手工导入，所以开发前请先将数据及表定义目录下面的所有.txt的数据文件导到你所使用的datastage的开发环境上，导数据文件的方法可以使用ftp工具）要设计job的关键，就在于能够熟悉每个不同的stage并且能够灵活运用。

在文档和指导中有对每个控件的使用方法作了图文并茂的说明，但是教材语言的一个缺点就是太过形式化，所以有些概念不能够很好的理解。

比如lookup这个stage我在看教材的时候就没有太了解。

所以，我就结合自己，用自己的语言对一些比较常用的stage说一下自己的理解和一些需要注意的地方。

几个常用stage的经验总结：Sequential File Stage：这个控件实际上是指代主机上面的一个文件，在它的属性中可以选定文件的路径，目录。

一般这些文件都是以类似数据库表的格式存在的。

使用这个控件关键的地方在于要设置好它的格式，包括column和format这两个标签。

Column指的是文件当中的列定义，一般可以通过load列定义文件来确定。

Format指的是文件当中的一些分隔符，日期格式等等，在实际文件当中字段和字段之间可以用逗号，竖线，等符号隔开，每个字段本身也可以选择是否要用引号来引起来。

所有这些，stage要设置成和文件一致，否则这个stage就无法真实的指代主机上面的文件。

如果不知道文件的字段格式，可以登录到unix主机下面去cat一下文件。

一个验证的方法是在这个stage的属性当中选择显示数据view data，如果数据能够正常显示出来，那么就表示已经设置成功了。

Transformer stage：这个控件是个功能强大的控件，在开发的时候最经常用到。

它有一个输入，而可以有多个输出。

它最常用的也是最好用的功能就是对单个字段进行处理和转换。

基本上想对单个字段做任何的操作都能够做到。

包括拼接，转换，插入等等功能，需要自己在实际操作中熟悉。

需要注意的地方是它的两个附加的功能，stage的变量和constrait 限制条件。

正如程序设计一样，在这个stage当中可以定义一些变量，来实现一些特定的功能。

比如，我们定义某个变量var1，把输入的某个字段连到这个变量上面，然后，就可以根据输入字段来定义该变量的值，再通过判断该变量的值来设置输出字段。

而constraint 一般都是用来限制输出的，每个输出都有一个constraint，一般都是在constraint中限制条件，当满足这个条件时，才进行这个输出。

Join Stage：这个控件顾名思义，其实就是类似数据库当中的连接操作。

因此，两个输入，一个输出。

在stage属性里面可以设置left，right，inner，outer等等。

只要对数据库的表连接操作了解，那么这个stage也就相应了解了。

Filter Stage：这个控件有点类似数据库sql语言中的where。

一个输入，可以把这个输入理解为一张大表，在stage的属性中可以设置条件字段。

多个输出，每个输出就是select * from 大表 where 条件所产生的结果。

LookUp Stage：这个控件最初看文档的时候，觉得说的不是很清楚。

后来经过动手实践后，才能够真正理解。

这个stage有多个输入，一个输出。

有一个输入作为主输入，其它的的输入相当于是参考输入。

主输入中的某些字段要来参考输入查询，然后再将结果进行输出。

实际上就是一个“查表”的过程。

比如主输入中有一个字段，如果值是a，到参考输入表中去查表，发现参考输入表中的a所对应的值是1，那么输出对应的字段就应该填1了。

以此类推。

这个控件在代码标准化的时候用到。

Change Capture Stage：这个stage是用来处理全量增量的时候用到的，在目前似乎暂时还没有用到。

这个stage个人感觉是最困难的。

其中的before link，after link。

Key，value之间的关系比较混乱，需要在实践中逐渐熟悉。

Annotation stage：注释用的，放一块方框，用来往里面写注释。

关于reject:刚刚接触这个概念的时候，是比较难以理解的。

因为这个好像是datastage 自己所特有的概念。

就我自己的理解来讲，每个文件都是由若干条记录组成的，而在这些记录里面，有一些记录是不符合规范的，比如说主键为空之类，或者某个字段不符合要求等等。

这是时候，可以设定reject规则，把这些不符合规范的记录挑出来送到一个文件里面。

而其他符合要求继续往下一步走，继续进行处理。

第2阶段的目标：经过这一阶段，应该熟悉datastage的使用，包括在第一阶段中说明的administrator, design, director, manage中常用的步骤都要学会使用。

三、开发一些复杂的job,加强datastage的熟练程度完成练习2里面的前6个job,本阶段的job有一定难度，建议做的时候，特别是遇到不知道要如何解决的问题的时候，多与有经验的开发人员交流，快速上手。

第3阶段的目标：经过这一阶段应该对datastage的开发较为熟悉，对transformer和lookup必须应用熟练，能独立的解决一些问题，包括编译无法通过的查错，运行失败的查错等等。

四：熟悉ODS开发流程（一）熟悉ODS开发的业务，包括熟悉需求，熟悉ETL设计框架，直至理解整个逻辑设计模型。

本阶段建议开2次培训，第一次为ODS开发简要介绍，以及需求分析的格式介绍。

第二次以逻辑设计模型为基础，介绍整个ETL设计框架。

经过本阶段，必须达到可以根据需求做出逻辑设计模型的水平。

本阶段目标：1、需求文档的熟悉（1）从需求中能看出每个job所需要的原表，和所对应的目标表，以及源到目标是一对一，还是多对一，如果是多对一还必须理解多张表是怎样关联成一张表的。

（2）理解需求中的所有字段映射关系，各种映射关系需要如何处理。

（3）理解需求中的一些特殊处理，如对某些特定条件进行过滤，对某个特殊字段进行处理等。

2、熟悉ETL设计框架，参见《ETL设计框架说明》文档。

必须熟悉下面2种转换的框架，清楚每个模块的功能。

含有codestring转换：不含codestring转换（二）根据逻辑设计模型，进入正式的ODS开发，利用datastage工具进行物理设计。

建议先进行一到两次培训，内容包括：1、开发规范的说明，包括文件命名规则，参数命名规则，布局规则等。

2、各个公用模块的具体实现及做法，包括公用代码转换模块，warn入库模块，reject模块，控制文件模块，培训人员应着重说明各个公用模块的实现方法，包括用到哪些stage,具体的开发方法，以及一些需要注意的事项。

3、参数配置规则，包括如何进行配置，如何生成配置文件，如何在命令行方式下run job。

本阶段可参考的文挡：《代码转换说明》，《ODS命名规范》，《JobSequence设计流程说明》阶段练习：1、先完成一个全量初始化的job, 具体为pmis 的cxloanbal表全量初始化。

2、完成一个标准作业，具体为ff2349_refas_ecif(也可以选择其他job,但必须保证源到ODS,源到目标都至少有2个字段需要做公用代码转换)。

练习目标：要求整个开发必须严格遵守开发规范，开发完成后必须进行作业配置，在命令行下runjob,任意选取一天的数据，先运行自己开发的job,再运行已经提交的正确的job,将2次结果用diff命令比较，若发现结果不一致，则需要检查自己的job,直至2次结果完全一致。

测试可以参照《单元测试检查点》文档进行。