DataStage 基础培训3

合集下载

DataStage 基础培训_练习

DataStage 基础培训_练习
DataStage 基础培训_练习
2011-04-12
1
练习 1、需求内容 实现按部门和城市对订单进行多维度分析
2、设计方案 1)新建订单多维分析事实表
注:在插入数据之前,先对当前 2)源头取数
从订单表orders获取当前会计期(200305)订单信息
从员工表emp获取员工所属部门信息
从供应商表suppliers获取供应商所属城市信息
3
练习 2、设计方案 3)开发ETL,将基于部门和城市的订单多维分析数据装载到事
实表,要求:
A、新建一个JOB将订单信息先落地到中间数据文件 B、新建另一个JOB从中间数据文件抽取订单信息,并通过与员 工表、供应商表匹配获取订单多维分析数据,装载到事实表 C、通过JOB Sequence将两个JOB封装起来,并设计前后依赖
(2)DataStage环境
IP:192.168.1.253
Project:SIEProjectA u/p:dsadm/dsadm
5
练习 参考ETL(SQL)
6
Q&A
7
关系
D、使用的Stage包括但不限于以下stage:Oracle Stage、 DataSet Stage、Join Stage、Lookup Stage、Transformer Stage、Aggregator Stage
4
练习
3、环境
(1)#深圳SIEDW数据库 USER/ PASSWORD:BI_APP/bi_app SIEDW = (DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 192.168.1.254)(PORT = 1521)) (CONNECT_DATA = (SERVER = DEDICATED) (SERVICE_NAME = SIEDW) ) )

DataStage基本知识

DataStage基本知识


本例对字段做简单运算,根据条件装载到不同表中
53
DataStage实例-表到表

本例中连接数据库仍使用ODBC,每个ODBC Stage连 接Informix中的一张表. 本例中使用一个新的Stage: Transformer(转换) 在设置了各个ODBC Stage之后,我们来看一下 Transformer(转换)的属性


DataStage Administrator(主管):用于创建 DataStage用户,创建,移动项目。
10
DataStage Administrator(主管)
11
DataStage Administrator(主管)
12
DataStage Designer(设计者)
13
DataStage Manager(管理者)

输入需要导出的列
需要的列
47
DataStage实例-表到文件

查看并修改SQL语句
SQL语句
SQL参考
48
DataStage实例-表到文件

可使用”View data…”按钮查看内容
查看内容
49
DataStage实例-表到文件

指定输出文件
文件路径名称
50
DataStage实例-表到文件


Repository(仓库),包括建造数据集市或数据仓库 所需要的全部信息的中央存储器; DataStage Server(服务器),运行向数据仓库抽 取,转换,导入数据的可执行作业; DataStage Package Installer(包安装,服务端的 安装工具),用来安装包装的DataStage作业和插件 的用户界面。

【正式版】DATACON培训3PPT资料

【正式版】DATACON培训3PPT资料

【正式版】DATACON培训3PPT资料在当今数字化快速发展的时代,数据的处理和分析变得越来越重要。

DATACON 培训 3PPT 资料为我们提供了宝贵的学习资源,帮助我们深入了解数据处理和分析的相关知识与技能。

这份资料首先为我们清晰地阐述了数据处理的基础概念。

它让我们明白,数据并非只是一堆杂乱无章的数字和字符,而是蕴含着丰富信息的宝藏。

通过合理的收集、整理和存储,我们能够从海量的数据中挖掘出有价值的内容。

在数据收集方面,PPT 资料强调了多种有效的方法和途径。

比如,通过在线调查问卷获取用户的反馈,从企业内部的业务系统中提取关键数据,以及利用传感器等设备实时采集物理世界的数据。

同时,还提醒我们要注意数据的准确性和完整性,避免因为错误或缺失的数据导致分析结果的偏差。

数据整理环节是将收集到的原始数据进行清洗和预处理的过程。

这包括去除重复数据、纠正错误数据、补充缺失值等操作。

资料中通过实际案例展示了这些步骤的重要性和具体实现方法,让我们能够直观地理解和掌握。

数据存储也是一个关键的环节。

PPT 资料介绍了常见的数据存储方式,如关系型数据库、非关系型数据库等,并对比了它们各自的优缺点和适用场景。

这让我们在面对不同的数据存储需求时,能够做出明智的选择。

接下来,资料重点讲解了数据分析的方法和技术。

从简单的描述性统计分析,到复杂的预测分析和数据挖掘算法,都进行了深入浅出的介绍。

我们了解到如何通过平均值、中位数、标准差等指标来描述数据的集中趋势和离散程度;如何运用回归分析预测未来的趋势;如何使用聚类分析将数据进行分类等。

同时,PPT 资料还强调了数据分析工具的应用。

例如,Excel 在日常数据处理中的便捷性,Python 强大的数据分析库,以及专业的数据分析软件如 SPSS、SAS 等。

通过实际操作演示,让我们熟悉了这些工具的基本功能和使用技巧。

在数据可视化方面,这份资料也给了我们很多启示。

它指出,好的数据可视化不仅能够清晰地展示数据,还能够帮助我们发现数据中的隐藏模式和趋势。

DataStage基础培训教程ppt课件

DataStage基础培训教程ppt课件

全局变量与Job变量
• 全局变量 -- 生命周期:整个Project -- 在Administrator中定义
• Job变量 -- 生命周期:一个Job -- 在Designer、Manager中定义
演示:定义一个Job变量 在Designer中定义参数
Meta data definition
Debug and Tuning
• View Status and Logs - status, log, detail等多种视图 - 配合Monitor来查错、调优
Job Status
• Not Compiled • Compiled • Reset • Running • Finished • Finished (with warning) • Abort
演示:生成事实表
明细表
关联
聚合
事实表
Hash File
• 用途: -- 左连接时用作副表 -- 多次被访问的数据集 -- 存储其他临时数据
• 关键点: -- 必须指定key -- output的position必须与input一致
Transformer
• 用途: -- 提供丰富的运算符和函数 -- 数据清洗、转换 -- 关联多个数据源
DataStage基础培训
Jerry 2006.03
议程
• Hello World • DataStage Components • Define Parameter & Table • Hash File、Transformer、Aggregator • Director & Monitor • Administrator & Manager • Routine & Control

新教材DATASTAGE的介绍及基本操作.ppt

新教材DATASTAGE的介绍及基本操作.ppt
课件
Datastage测试
• 问题一:
Datastage的Designer是用来建立和编译job、用来进行数据 的抽取、转换和加载即ETL。(Yes/No) 答案一: Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage) 拖拽到设计区域中,经过建立和编译,Job就可以执行,用 来进行数据的抽取、转换和加载。
安装操作员版本的Datastage,需要有Datastage 的Director的许可。
一个工程关联着一个目录,这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个 工程,即登录这个工程。
工程是自包含的很多的工程可以在同一时间被打开,在 各自单独的环境打开。可以在它们之间导入或导出项目。
多用户可以在同一时间使用一个工程中工作,但是 Datastage禁止在同一时间由多个用户访问同一个job。
• 3,到期时间。 • 4,授权代码。
在许可信息中,这个信息必须被正确输入 的。
课件
安装向导会指导通过以下步骤进行:
• 1,输入许可信息。 • 2,指定服务器的路径。 • 3,选择程序的文件夹。 • 4,创建一个新的工程或升级已经存在的工
程。
课件
安装Datastage
课件
首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过
• 在Windows系统中安装Datastage服务端。 • 建立一个Datastage的工程。 • 安装Datastage的客户端。
课件
Datastage 的服务端要首先安装,之后才 可以安装Datastage 客户端,服务端能都安 装在WinNT、Windows2000或者UNIX系统中, 这个模块将介绍在Windows环境下进行安装。

datastage教程

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。

针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。

DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。

其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。

datastage入门教程

datastage入门教程

DATASTAGE总结一、安装datastageA、安装服务端安装虚拟机(注册码在文件中)---解压datastage安装包redhat3__Datastage----点击解压文件中Red Hat Enterprise Linux 3---安装---在虚拟机启动---查看虚拟机IP地址,在dos窗口验证是否可以连接---打开secureCRT,连接虚拟机---进入/app/oracle/product/10.2/network/admin/tnsnames.ora中---按E键,再按i 进入编辑状态---将IP地址设为本机Ip地址,数据库实例名自己设置---按ESC、W、Q、:键退出---完成B、安装客户端解压datastage客户端安装包Datastageclient---点击解压文件datastage7.5.3\datastage client---安装---注册码在datastage7.5.1下载地址及license中----完成二、DATASTAGE主键1、transforme r(oracle----transformer---file)数据源oracle设置properties\source\readmethod=auto-generated sqlproperties\source\table=要导入的表名点击connection,出现remote server=数据库实例名,user=Scott,password=tigerColumns下将length设置合适---load---oracleI9--选定导入的表名---ok注意:若不知道导入表的格式Columns下将length设置合适---load---import---plug-in meda data definitions---oracleI9--ok---数据库实例名,用户名、密码---ok--选择Scott用户下---选表--- 导入Transformer设置:将需要显示的字段拖拽过去---ok目标文件file设置:properties下file--填入保存路径first line is columns name=trueFomat下点击record level 添加record delimiter 属性为UNIX newline点击field defaults 添加 null field value 属性为0 Quote=noneColumns下将length设置合适----ok以下主键数据源或目标文件为oracle/file的设置同上transformer的设置方法2、转存(file---transformer---file)Transformer设置:将需要显示的字段拖拽过去---ok3、导入(file---transformer---oracle)Transformer设置:将需要显示的字段拖拽过去---ok4、copy(file--copy--多file):一个输入,多个输出Copy设置:stage当只有一个输入及一个输出时最好将Force设置为TrueOutput下将需要显示的字段拖拽过去---ok5、filter(file--filter---多file):只有一个输入,可以有多个输出Filter设置:stage下properties\where clause=过滤条件--点击whereclause出现output link=slink值(在link orderingzhong看对应值) Output下将需要显示的字段拖拽过去---ok6、join(多oracle---join---file):多表连接Join设置:stage下properties\join keys\key=关联字段,options\join type=连接类型(内、全、左、右连接)Output下将需要显示的字段拖拽过去---ok7、look up(多oracle---look up--file):数据的查询Look up设置:将关联字段连接,再将需要显示的字段拖拽过去8、merge(多file---merge---file):相同数据的合并Merge设置:stage下properties\merge keys\key=字段,sort order=排序Options下unmatched masters mode=保留/删除Output下将需要显示的字段拖拽过去---ok9、funnel(多file---funnel---file):数据的合并Funnel设置:stage下properties\options\funnel type=选择合并方式Output下将需要显示的字段拖拽过去---ok10、aggregator(oracle---aggregator---file):数据的分类、汇总Aggregator设置:stage下properties\grouping keys\group=分组字段点击aggregations\aggregation type出现column for calculation=聚合字段及合方式,可以取最大值,最小值, Sum值,count值等多种聚合方式。

DataStage优化培训笔记

DataStage优化培训笔记

DataStage 优化培训笔记Sequential file1、注意 reject mode 的设置2、优化:(在文件定长的前提下)number of readers per node 设定单节点的多个读取,根据实际情况设置多读个数read from multiple nodes 设定多节点的数据读取Change Capture Stage比较数据后会进行排序,如果之前的数据已经做了排序,则需要改变排序属性。

注意 before和after的设置,不要设反。

Copy Stage在内存中操作的组件,建议 1 进多出用copy组件Tansformer Stage是内嵌的程序,一旦作业执行到此stage程序会暂停进程,外部调用so 的程序,Transformer 组件中包含的函数,可以自己编写函数进行嵌入(通过routine实现)filter 不能用于复杂的判断, copy 不能增加赋默认值的字段 ..Sort Stage尽量不用,属于滞留组件,要等数据齐全后再能进行sort 操作LookUp 和 Join 的区别需要注意join 一定要进行排序再进行处理(效率较低),LookUp 是流水线实现(超过 800M不能用此 stage)Data Set StageStage 自动设置数据为定长,实现多值读取,可以通过drop on input来限制输入数据。

生产环境优化:关注 CPU(并发路数 , 逻辑节点数 , 物理作业数 ), 内存 ,I/O 交互1、在 Oracle Enterprise 中使用 select 语句时,提取尽量少的字段数据2、在使用 LookUp Stage 时,如果数据从Oralce 出来的,在 LookUp table (参照表中)可以设置 Lookup type = sparse(此方式是数据不提取到内存,直接在表中进行操作)3、在 Oracle Enterprise 中设置 Partition table=" 需要查询的表名" 可以实现多进程读取数据4、在文件系统中,为平衡节点负载,建议数据的输入和输出放在不同的磁盘上(可通过节点进行设置,如Sequential_File 中设置 FILE的路径)5、尽量少用repartition ( sort stage 、 join stage 等组件需要对数据进行repartition )6、要保证有足够的scratch 空间,当此空间满了之后,系统会把数据转移到tmp 空间,效率变低7、网络瓶颈会影响作业效率(局域网通讯,Node 之间的通讯问题)8、在 MAIN 机器上,设置是否关闭jobmonitor 进程( pools""为默认节点,需要进行节点运行,如果对””进行赋值,则不作为默认节点,不做运行。

DATASTAGE技术培训-经典收藏

DATASTAGE技术培训-经典收藏

DataStage Designer常用STAGE
l Sequential file q 功能特点:适用于一般顺序文件(定长或不定长),可识别文本文件
或IBM大机ebcdic文件。
DataStage Designer常用STAGE
修改文件属性,文件名称,reject方式等
DataStage Designer常用STAGE
对每个工程的各个单元,包括库表定义、集中的转换程序 和元数据连接等对象进行分类和组织。
DataStage Client部件简介
n Director 为启动、停止和监视作业提供交互式控制。
n Administrator 在服务器端管理Datastage的工程和使用者权限的分配。
DataStage服务器
单的设置,点击对我们的JOB进行编译,就可以运行了(我们 一般在Director运行JOB)。 u Designer的主要功能编译和设计JOB,编写函数、子程序、脚 本等。
我们将在下面以一个例子介绍Designer的用法。
DataStage功能组件-- Director
双击: 编辑的JOB。
进入Director登录界面,注意选择自己想进入
n 服务器 是数据集成的主要设备。在服务器上,你可以在运行时间
内对几个并行的处理过程进行控制,以便在多个不同的数据源 和数据目标之间发送数据。服务器可以安装在NT或UNIX、 LINUX环境中,同时通过调节来有效地利用多处理器和内存的 优势。通过使用Datstage中包括的许多富有效率的功能,企业 可以缩短学习周期、简化管理过程、最大限度地开发资源,从 而缩短数据集成应用程序的开发和维护周期。
DATASTAGE技术培训
ETL简介
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、 装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂, 能够按照统一的规则集成并提高数据的价值,是负责完成数据 从数据源向目标数据仓库转化的过程,是实施数据仓库的关键 步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数 据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中 最难部分是用户需求分析和模型设计,而ETL规则设计和实施 则是工作量最大的,约占整个项目的60%~80%,这是国内外 从众多实践中得到的普遍共识。

IBM-DataStage技能培训

IBM-DataStage技能培训

DataStage存储过程的调用(方法一)
可以通过SQL语句块调用存储过程
DataStage存储过程的调用(方法二)
两种调用比较:第一种简 单明了,但是取不到存储 过程的返回值;第二种方 法比较复杂,下去可以在 测试环境搞搞。
DS备份(导出)
可以选择不同的对象进行备份,一般建议完全备份,选择Whole project
候开始执行后面的序列
erVariables_Activity:自定义参数控件,可以定义全局参数,
供整个JOB引用
6.Routine_Activity:调用封装好的Routine,Routine类似于SQL中
的存储过程。 Demo: SEQ_POL_MAIN
一个数据抽取转换装载的实例 Demo: CopyCopyPjob_PRIP_LJTEMPFEE 实例目的:暂收费表,根据中保信二期逻辑改造而来,介绍Prallel
专业程度如Datastage旗鼓相当,也是图形化界面开发,很多控件的功能与Datastage 相似,价格似乎比Datastage便宜,可以在Window、Linux、Unix、Aix等多个环境上运 行。
• Kettle
Kettle 中文名叫水壶,纯java编写的开源ETL工具,开源当然就免费,免费的有些东西 使用就不是很方便,很多功能需要结合Java开发,可以在Window、Linux、Unix、Aix 上运行,数据抽取高效稳定。
• ODI
Oracle数据库厂商提供的工具,有局限性,与oracle数据库耦合太深
完备的开发环境
IBM WebSphere DataStage 的开发环境是基于 C/S 模式 的,通过 DataStage Client 连接到DataStage Server 上 进行开发,DataStage Server 支持多种平台,比如 Windows、Redhat Linux、 IBM AIX 、HP-UNIX等。

DataStage 学习

DataStage 学习

DataStage学习1.基本的工具介绍:用户通过各个客户端工具访问DataStage企业版的开发、配置和维护功能。

这些工具包括:Designer:用来建立和编辑DataStage作业和表的定义。

Designer中的“Job Sequencer”控制作业的执行,其他作业成功完成(或失败,等)的条件。

Administrator:用来执行管理任务,如建立DataStage用户、建立和删除工程并且建立清洗标准。

Manager:用来编辑管理用户工程的DataStage资料库。

Director:用来验证、时序安排、运行和监测企业版作业。

2.试学习例子图二、DataStage企业版数据流图示2.1。

企业版Aggregator Stage的编辑器如下所示。

图三、企业版编辑Aggregator Stage图标和Stage编辑器例子2.2企业版Transformer Stage是一个强大和灵活的组件,允许用户对input link输入的数据进行转换。

并且将数据传到另一个活动的Stage或者将数据写到目标数据或文件。

Transformer 编辑器(如下所示)使得用户可以在input liks和output link间简单建立mapping,并且可以使用BASIC等语言建立任意转换。

这些转换可以并行执行来提高吞吐量和性能。

企业版提供了超过100个内嵌的功能,另外可以用C或C++编写的route在转换中使用和进行互操作。

图四、企业版Transformer Stage图标和Stage编辑器例子2.3Enterprise Deployment and Management许多大的公司都又他们自己的在复杂生产环境下的配置、时间序列、监测和管理应用的标准。

DataStage企业版提供了灵活功能来迎合这些需要。

首先,DataStage提供了一个图形化的作业顺序器,允许用户定义作业执行的序列。

设计一个作业序列就象设计一个作业。

用户在DataStage中设计作业序列。

datastage教程

datastage教程

1、【第一章】datastage简介与工作原理1、简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。

如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。

针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。

Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。

DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:大型主机系统数据库:IMS,DB2,ADABAS,VSAM 等开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等ERP 系统:SAP/R3,PeopleSoft系统等,普通文件和复杂文件系统,FTP 文件系统,XML等IIS,Netscape,Apache等Web服务器系统Outlook等Email系统。

DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。

其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。

其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。

datastage培训提纲

datastage培训提纲

培训提纲1.ETL定义说明ETL过程指的是从数据源中抽取数据,然后对这些数据进行清洗、转换,最终加载到目标数据库和数据仓库中。

数据抽取:数据抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。

数据转化和清洗:数据转换是真正将源数据变为目标数据的关键环节,它包括数据格式转换、数据类型转换、数据汇总计算、数据拼接等等。

但这些工作可以在不同的过程中处理视具体情况而定,比如,可以在数据抽取时转换,也可以在数据加载时转换。

数据清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。

数据加载:数据加载主要是将经过转换和清洗的数据加载到数据仓库(或数据库)里面,即入库,操作者可以通过数据文件直接装载或直连数据库的方式来进行数据装载。

2.ETL工具的选择2.1.支持平台随着各种应用系统数据量的飞速增长和对业务可靠性等要求的不断提高,人们对数据抽取工具的要求往往是将几十、上百个GB的数据在有限的几个小时内完成抽取转换和装载工作,这种挑战势必要求抽取工具对高性能的硬件和主机提供更多支持。

因此,我们可以从数据抽取工具支持的平台,来判断它能否胜任企业的环境,目前主流的平台包括SUN Solaris、HP-UX、IBM AIX、AS/400、OS/390、Sco UNIX、Linux、Windows等。

2.2.支持数据源对数据源支持的重要性不言而喻,因此这个指标必须仔细地考量。

首先,我们需要对项目中可能会遇到的各种数据源有一个清晰的认识;其次对各种工具提供的数据源接口类型也要有深入了解,比如,针对同一种数据库,使用通用的接口(如ODBC/JDBC)还是原厂商自己的专用接口,数据抽取效率都会有很大差别,这直接影响到我们能不能在有限的时间内完成ETL任务。

datastage学习文档

datastage学习文档

工作总结1 如何重新启动DataStage服务器, 步骤如下: (5)2 DataStage开发经验积累: (5)2.1模板开发 (5)2.2通过S ERVER S HARED C ONTAINER在P ARALLEL J OB中添加S ERVER J OB S TAGE (5)2.3去除不需要的字段 (5)2.4T RANSFORMER S TAGE的使用 (5)2.5L OOK UP/JOIN 空值处理 (6)2.6D ATA S TAGE中默认和隐式类型转换时注意的问题 (6)2.7配置一个INPUT或OUTPUT,就VIEW DATA一下,不要等到RUN时再回头找ERROR (6)2.8D ATA型数据是比较麻烦的 (6)2.9行列互换之H ORIZONTAL P IVOT(P IVOT S TAGE) (7)2.10行列互换之V ERTICAL P IVOT (7)2.11O RACLE EE S TAGE在VIEW数据时出现的错误及解决方法 (9)2.12D ATA S TAGE SAP S TAGE的使用 (10)2.13C OLUM I MPORT S TAGE的使用 (10)2.14C OLUM E XPORT S TAGE的使用 (12)2.15G OT ERROR:C ANNOT FIND ANY PROCESS NUMBER FOR STAGES IN J OB J OBNAME解决 (13)2.16U NABLE TO CREATE RT_CONFIG NNN (14)2.17查看JOB和CLIENT的对应的后台进程 (14)2.18强制杀死DS进程 (14)2.19查看S ERVER E NGINE的进程 (15)2.20查看S ERVER L OCKS (15)2.21关于UNIX系统下无法启动服务的解决办法 (16)2.22L OCKED BY OTHER USER (17)2.23DATA S TAGE J OB L OG的处理 (17)2.24一些BASIC语言中处理字符串的函数 (17)2.25BASIC程序中使用到的一些语法知识 (18)3DS中常见问题记录 (22)3.1权限管理问题 (22)3.2JOB MAY BE BEING MONITORED或者是CLEANUP问题 (22)3.3删除文件的问题 (22)3.4SEQUENCE调度出现的错误问题 (23)3.17字符集问题 (23)3.18V ERSION C ONTROL的问题 (23)3.19SEQUENCE调不起JOB的问题 (23)3.20SEQUENCE调度失败的问题 (24)3.21DS发送邮件的配置问题 (25)3.22随机错误问题 (26)3.23DS中的日期问题 (26)3.24DS连接ORACLE问题 (27)。

DataStage入门培训

DataStage入门培训
Designer Creates DataStage jobs that are compiled into executable programs
Director Used to run and monitor the DataStage jobs
Manager Allows you to view and edit the contents of the repository
Each project is associated with a directory. The directory stores the objects (jobs, metadata, custom routines, etc.) created in the project.
Before you can work in a project you must attach to it (open it).
DATASTAGE ADMINISTRATOR
DATASTAGE ADMINISTRATOR
In DataStage all development work is done within a project. Projects are created during installation and after installation using Administrator.
DATASTAGE 入门培训
讲师:邱明伟 日期:2010-03-01

东南融通 版权所有
DataStage介绍 DataStage开发
1. DataStage四个客户端的使用 2. DataStage常用组件使用
DataStage常用命令 练习
AGENDA

DATASTAGE的介绍及基本操作

DATASTAGE的介绍及基本操作
• 数据清洗、转换、加载都可以在图形化工具里完成,
同样可以灵活的被外部系统调度,提供专门的设计 工具来设计转换规则和清洗规则等,实现了增量抽 取、任务调度等多种复杂而实用的功能 。
Datastage的组成:
Datastage的服务器端和客户端
Datastage是C/S软件,服务器端存储所有 的ds项目和元数据,由关系型数据库(RDBMS) 组成。客户端具有同服务端一样的软件接口。
第二章 如何安装Datastage
下面的讲解中,将可以了解到:
• 在Windows系统中安装Datastage服务端。 • 建立一个Datastage的工程。 • 安装Datastage的客户端。
Datastage 的服务端要首先安装,之后才 可以安装Datastage 客户端,服务端能都安 装在WinNT、Windows2000或者UNIX系统中, 这个模块将介绍在Windows环境下进行安装。
• 使用DataStage中的Manager来存储和管理Job的元
数据,使之可以在DataStage中的Designer中再度被 使用。
• 元数据包括表单和文件结构和导出数据的Routines
的转换等等。
• Manager是DataStage存储的一个重要的部分,可以
用来加入表单和文件的结构,在左侧分支树中显示 Routines、Transforms和Jobs。
行验证、运行、任务调度和监控的工作。也
可以针对job 的运行查看运行的聚合统计情况。
在Datastage中进行开发
• 在Administrator中定义全局的和项目属性。 • 在Datastage中的Manager里导入定义源的
元数据和目标的元数据。
• 在Datastage中的Designer中验证和编译job。 • 在Datastage中的Director中验证、运行、和

Datastage入门培训

Datastage入门培训

一、工具入门DataStage是一个ETL的工具,就是对数据的抽取,转换,加载。

个人通俗的理解就是一个对数据进行处理,提取的工具,这里面的数据大部分是以数据库中表的格式存在着的,所以如果要使用这个工具,首先必须对关系数据库的一些基本概念要有所了解,比如最基本的字段,键,记录等概念。

DataStage是通过设计job来实现ETL的功能的。

Job的设计跟普通的IDE设计一样,通过拖拽控件,并填加脚本来完成。

这里的控件称为stage,每一个不同的stage都有不同的数据处理的功能,将各个stage通过一定的方式组合起来,设计成job,对job进行编译,运行,就能够实现对数据抽取转换加载。

1,安装datastage,看学习指导,先对该工具有个大概的认识,大概知道administrator,design,director,manager的区别。

了解datastage工具的主要用途:简单的说就是把一批数据input进来,经过各种各样的转化,清洗,然后在output出去,整个就是ETL 的过程。

对4个工具我们最常做的操作有:Administrator:1、对Project的管理,主要是建立和删除project;2、对Licensing的管理,主要是更换Licensing。

design:datastage的核心,所有的开发都在design里面完成,在这里可以编辑你的job,使用各种stage控件。

director:1、查看日志,当运行job结束时,无论job成功或者失败,我们都可以在director 里面查看日志,里面能反映我们job运行的状态,经常job出错我们都是先查看日志,然后分析原因,再到design里面修改。

2、director的另外一个很有用的功能是logout job,当服务器或者网络出问题时,正在编辑的job很有可能被锁定,这时你就算把design关了再重新登陆还是无法打开job,会提示job has been used, 这就需要到director里面把job logout,然后就可以使用了。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 Sequence-主要功能
• Sequence作业 • 编译作业 • 调试作业
公司内部使用,请勿外传

1.1Sequence基础
1.1 控件介绍 1.2 参数变量及流程控制介绍 1.3 Sequence开发实例
公司内部使用,请勿外传

公司内部使用,请勿外传

1.1 Sequence Stage
1.1.9 Terminator_Activity
该控件提供停止所有当前活动JOB发送STOP命令到各活动JOB的功能
发送STOP命令到各RUNNING JOB 直接将各运行JOB 置为 Abort状 态
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.4 Exception Handler Stage
这个Stage只有输出没有输入,该Stage的作用是在sequence发出警告 信息发出警告信息(JOB发生错误的时候)将该sequence 停掉。
DataStage 调度培训
主讲人:顾伟
2015年3月21日星期六
公司内部使用,请勿外传

内容
将JOB按照业务流程串起来调度 -各sequence组建介绍 -JOB调度顺序介绍 -sequence 的编译、调度、监控
公司内部使用,请勿外传

公司内部使用,请勿外传

Q U E S T I O N S & A N S W E R S
公司内部使用,请勿外传

1.1.2 Annotation
对Sequence的JOB 组件或者 Sequence某个功能模块进行注释. 设定方法如下:
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.3 StartLoop_Activity & EndLoop_Activity 1.1.3.1StartLoop_Activity 设置循环开始步骤,循环次数,循 环终止步骤
1.2 Sequence 的编译和运行
该Sequence 在运行的时候将会按照从左到右的顺序按照各控件的逻辑运行,因此我们可以通过控件之间的连接 线将JOB STAGE串接成串行或并行的JOB STAGE进行运行
公司内部使用,请勿外传

1.3 Sequence运行的监控
1.1Sequence Stage
1.1.1Description Annotation
对Sequence实现功能进行注释,一个Sequence只能有一个 Description Annotation。 设定方法如下:
公司内部使用,请勿外传

1.1Sequence Stage
这里填写所调用脚本 需要用到的参数
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.6 Job Activity
Job Activity 有一条 Input线和一条Output线. 在 JOB 选项中可以将需要运行的JOB导入. Trigger 选项卡中可以选择根据当前JOB运行后的结果对进行下个动作
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.5Execute Command Stage
该STAGE用于调用放置在DS SERVER端的SHELL脚本或其他的命令脚本
这里选择将要执行的脚本在SERVER上的存放路径并写 上将要执行的脚本名称
从StartLoop的下一个组件开始喜欢 每个步骤执行几次 往哪个STAGE方向执行
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.3.2EndLoop_Activity 设置循环终止点,需要将终止 STAGE链接到StartLoop_Activity上去形成一个闭合环路
Sequence运行后产生的运行日志可以在 DataStage Director 中看到 对应的 Sequence起吊各JOB的日志,具体的JOB运行日志需要在JOB 对应的日志中才可以看见。 当JOB运行错误 Sequence的日志中将产生对应的JOB调度失败的警告 ,具体的错误原因需要到JOB日志中进行查看
1.1.7 Routine_Activity
• • 该控件提供在sequence中调用 RT的功能。 该控件有一条Input 线和多条Output 线
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.8 Sequencer
• • 该控件用于终止Sequence流程的执行 该控件具有多条Input 线和多条Output线
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.10 Wait_For_File_Activity
该控件提供等待某个控制文件出现后激活整个 Sequence的功能
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.11 UserVariables_Activity
该控件提供在Sequence运行的过程中修改参数及添加参数的能力
公司内部使用,请勿外传

1.2 Sequence 的编译和运行
公司内部使用,请勿外传


1.1 Sequence Stage
1.1.7 Notification_Activity
• Notification_Activity 配置邮件服务器对应的信Βιβλιοθήκη 发送邮件公司内部使用,请勿外传

1.1 Sequence Stage
公司内部使用,请勿外传

1.1 Sequence Stage
1.1.7 Nested_Condition
• • Nested Condition 可以根椐用户的定义条件进行后面的动作 该组件具有一条Input 、多条Output线
公司内部使用,请勿外传
相关文档
最新文档