INFORMATICA关于WORKFLOW Manager系统的元数据解析
Informatica元数据管理..
7
CWM元模型的包结构
管理
仓库过程
分析
仓库操作 数据 挖掘
转换
资源
OLAP 分析
信息可视化
业务术语
对象 (UML) 关系型资源
数据 类型
记录型
键 索引
多维
XML
基础
业务信息
表达式
类型映射
软件发布
对象模型
UML 1.3 (基础,行为元素,模型管理)
8
元数据基础知识
MM软件架构
MM软件特点 元数据应用案例
ETL
BI
CASE
ERP
XML
Flat Files
?
DBMS EAI MS Office
Others
20
可扩展的Web-Based体系结构--灵活的开发和部署
• • •
百分之百基于Web J2EE兼容平台 内嵌的私有化设置 对象和功能层次的许可 可扩展性 任何信息, 任何关联, 任何元数据模型 (基于OMG MOF协议) 友好的入口 Web服务, 完全SDK 没有隐藏的议程 开放的关系型数据库, 操作系统, 服务器支持
9
Informatica Metadata Manager 体系结构
Data Modeling
Metadata
Custom Metadata Metadata
Business Intelligence
Metadata Manager
Sources
Metadata Metadata
Targets
Metadata
ETL BI
- PowerCenter 6.x, 7.x*
- PowerMart 6.x, 7.x*
informatica 服务配置
Informatica 服务配置一.作为客户端来操作Informatica 只是作为客户端连接远程方式工作时,无需进行相关配置,直接使用相关参数即可.但一定要保证掌握以下信息才能访问相关的repository此五项目必须与服务器的一样(与配置ORACLE客户端差不多,只是不能像ORACLE 那个可以对服务器进行别名配置)二.作为服务器来操作。
需要配置server和repository server1 配置repository server 知识库Informatica PowerCenter →informatica powerCenter--RepServer→Informatica Repository server setupConfigure repository server 较简单,只需要输入密码即可以。
(见图P_A11) 此密码会在连接知识库服务器时用到2启动repository server 知识库3创建知识库Informatica PowerCenter →informatica powerCenter--Client→Repository Server Administration console3.1创建知识库服务器点击New Server Registration 后出现下面界面Host name :输入主机的名字或IP3.2创建知识库Step 1 连接知识库服务器见图注意:此处的密码要与“配置知识库”的密码一致(图P_A11) 输入密码,点击OK进入下一界面Step 2 创建知识库---general页见图输入知识库的名字Step3 创建知识库---Database Connection页Databasetype : 选择数据厂商Codepage:不用理它Connectstring: 数据库连接串Dbuser: 数据库用户Dbpassword:数据库密码注意项:connectstring 根据选择的数据库厂商不同,字符串的格式也是不同的. Oracle:tns的名字SQLServer:hostserver@dbnameStep4 创建知识库---Licenses页将三种KEY (product key;option key;connective key)分别都UPDATE IJIF-NTMA-OCOX-QKQK-QBAYCLBW-KTAE-BHQH-PDXR-QBVJZQKZ-CFAY-JYZB-IIRR-NZYA如果发现已经过期(expiry) 可以调整本地日期来解决!4配置workflow manager4.1.打开workflowmanagerInformatica PowerCenter →informatica powerCenter--Client→Workflowmanager4.2.连接知识库输入password:Administrator(系统默认)可以在server config 中更改此处密码其它选项必须与知识库中的配置一致。
informatica中常用各组件的功能
目录未找到目录项。
Informatica 数据整合分为三类数据集成,即下游集成、中游集成和上游集成下游集成:指数据仓库,显著特点是,从数据流的角度看,数据仓库的主体功能是所有应用系统的下游,所有数据都会流向数据仓库中游集成:指数据交换平台,特点是,任何平台和它的关系都是对等的,它是这个数据枢纽hub的中心点,用来支持所有系统之间数据的数据交换,用于解决数据集成毛团问题。
上游集成:指主数据平台,而且是交易型主数据平台。
用于管理企业核心数据的黄金记录,作为企业核心记录的黄金数据的标准平台。
Informatica 的四个客户端及作用:1,Repository Manager:用于管理Repository本身,如创建文件夹,导入/导出Mapping、Worlkfolw,版本管理,部署,Repository的清除。
2,Designer:用于导入ETL元数据,开发ETL程序。
在Power Center中ETL程序被叫做Mapping,即源到目标的映射。
3,Workflow Manager:用于对Mapping的进行数据源、数据目标、使用的字符集、调优及参数配置等,使Mapping能够运行。
此外,还提供了基本的调度和排程的能力。
4,Workflow Monitor:用于监控运行时的Workflow和session,监控ETL运行是否正常、执行效率及异常时的错误信息。
Power Center的开发过程:0,使用PowerCenter客户端连接域(Domian)和数据库服务器Repository Service;建立一个文件夹(Folder),用于开发学习;1,在客户端PowerCenter Designer中导入源表和目标表的结构定义;注:在Power Center Designer中导入的仅仅是表结构,与执行过程的表名无强相关2,在Designer中,创建Mapping(ETL流程)3,在Designer中,拖动源和目标,以及相应组件进入Mapping4,在Designer中,建立源和目标,以及相应组件之间的映射5,在Workflow Manager中提供相应的配置信息及参数6,通过Workflow Monitor客户端进行监控7,预览执行结果重要概念:Mapping:是一个程序,但它不直接可以执行Session:是一个Mapping的实例,指定相关的配置信息后,可以执行;Workflow:可以执行一个或者多个Session,对Session或者其他Task组件进行排程基础组件:1,Source:源文件数据源可以是数据库表,文本文件,XML文件,SAP等,应用系统、Hadoop,MQ等源文件常用方法:手工创建,通过数据库、文本文件、样例文件导入注意:理论上,源表结构定义继承了数据库中表的定义,但是实践中有可能导入后的数据类型发生变化,如表中varchar2,而导入后变为nvarchar2,从而引起Session执行异常。
Informatica介绍
Informatica目录创立于 1993 年,总部位于 Redwood City, California of USA 的Informatica ( Nasdaq:INFA )公司,作为电子商务分析型软件市场的领先者,一直致力于通过自身的产品和服务提升企业的竞争性优势。
其拳头产品 Informatica Insight Network(Infrastructure and Analytics) 已被全球 1 , 800 多家企业用来集成、分析和个性化企业的关键商务信息,优化整个商务价值链的表现和响应速度。
拥有包括 Citigroup, Deutsche Bank, AT&T, British Telecom, Motorola, Cisco, HP, Boeing, National Semiconductor, Timer Warner, News Group 在内的广泛的客户群。
Agent Logic 拥有商业和公共领域的客户,包括美国国家安全局。
在公共领域,Agent Logic 可以促进海域感知、地理空间跟踪以及战场命令和控制。
在商业领域,Agent Logic 能够通过符合相关差旅和开支政策的规则,帮助控制与公司信用卡计划有关的成本。
Agent Logic 将进一步加强 Informatica 在公共领域的业务,特别是美国联邦政府。
编辑本段Informatica在全球Informatica,1993年创立于美国加利福尼亚州,并于1999年4月在纳斯达克上市。
作为全球领先的企业数据集成解决方案提供商,Informatica提供专业数据集成软件和服务,以解决系统间的数据碎片问题,从而帮助企业获得了数据的更大商业价值。
Informatica开放、独立于平台的软件降低了企业IT的运营成本、加快了产出速度,可伸缩处理不同规模或不同复杂程度的数据集成项目。
Informatica拥有遍布全球的客户关系网络,其出色的成功案例显示,Informatica将帮助更多的企业和政府机构实现其企业数据的商业价值。
INFORMATICA总结
Informatica总结rmatica中关键词:(一)源表:即源表来自于数据库的表,例如在job100下面的源表是一些PRPCmain、CD码表、ODS表等一些表主要是来自于核心生产库中的表;job200下面的源表是些CD、ODS、MID表;job300下面的源表主要是CD、ODS、MID、olap表。
(二)元数据:元数据就是来自于数据库的基本表,起初的表(三)目标表:在执行完一个job后最终将数据存储在的表即目标表。
(四)映射:简单来讲将源表的数据导入目标表的过程就是一个映射。
(五)工作集:在一个job中执行的转化其中的每一个过程就相当于一个工作集。
(六)工作流:相当于在kettle中执行一个job的过程。
2.designer界面主要是定义源表和目标表生成映射的过程。
3.workflow界面编辑工作集执行工作流的过程。
4.monitor界面主要是为了执行完工作流之后查看工作日志的过程。
关于数据库方面(1).在Informatica中创建源和目标表的时候:在designer中创建源:来自于核心生产库在本地的配置文件中进行配置创建目标表:来自MIS生产库或者是测试库在本地的配置文件中进行配置根据这个路径E:\oracle\product\10.2.0\db_1\network\admin\tnsnames.ora找出.ora文件(2)创建工作流和工作集的时候:在workflow中,在进行启动的时候:在进行刷数参数配置在C:\Windows\System32\drivers\etc添加88.22.34.188 zj-misetl路径:/home/info_param data_param_test.txt文件是在windows32相对应的文件夹的下面在启动工作流的时候:配置数据库的文件不在本地文件中而是在Linux系统下面所以需要和Linux系统相连,通过xftp连接Linux系统,找到配置数据库的时候需要的文件。
informatica 面试题
informatica 面试题Informatica面试题在数据处理和数据集成领域,Informatica是一家领先的软件公司,其技术和解决方案被广泛应用于企业中。
如果你正在为Informatica面试做准备,那么本文将提供一些常见的Informatica面试题,并为你提供详细的回答。
1. 什么是Informatica?它在数据集成中扮演了什么角色?Informatica是一种企业级数据集成和管理解决方案。
它提供了一套强大的工具和技术,用于数据抽取、转换和加载(ETL)等任务。
通过使用Informatica,企业可以将来自不同数据源的数据整合到一个统一的数据仓库中,并提供准确、一致的数据结果。
2. Informatica的主要组件是什么?请简要描述它们的功能。
Informatica的主要组件包括:- PowerCenter:这是Informatica的核心组件,用于数据整合和ETL。
它提供了一个集成的环境,用于开发、部署和监控数据集成任务。
- PowerExchange:它是一个提供与外部数据源(如关系数据库、文件系统等)通信的插件框架。
- PowerMart:这是一个基于Web的工具,用于创建和发布简单的数据仓库。
- PowerDesigner:它是一个用于建模和设计数据仓库的工具。
- Metadata Manager:它用于管理和浏览不同数据源中的元数据,以支持数据整合和分析。
3. Informatica中的工作流是什么?它是如何工作的?工作流是Informatica中用于管理和执行任务的一种方式。
工作流由多个任务(任务是数据整合的不同阶段或步骤)组成,并按照预定的顺序执行。
每个任务都可以定义为数据抽取、清洗、转换或加载等操作。
工作流具有以下主要特点:- 有向无环图(DAG)结构:工作流中的任务按照特定的依赖关系组成一个有向无环图。
每个任务都依赖于其他任务的输出结果,并且没有循环依赖。
- 并行处理:工作流中的任务可以以并行或串行方式运行。
Informatica_(4)工作流
Informatica_(4)⼯作流三、workflow执⾏、监控workflow是PowerCenter的执⾏单元;⼀个workflow包括⼀个或者多个session(或task)。
1.sessionsession是mapping的实例化。
session是给mapping提供配置⽂件的场所或机制。
有了这些配置信息,mapping就可以执⾏了,所以说session是mapping的⼀个可执⾏实例。
session的两种类型:Reusable session(可重复使⽤)和⾮Reusable session(不可重复使⽤)。
1.1 Reusable session(可重复使⽤session)创建⼀次,可以被多次重⽤。
选中“Task Developer”,打开菜单“Tasks--》create”,输⼊session名点“create”,选择对应的mapping.Reusable session可⽤以多个workflow或者worklet。
1.2 ⾮Reusable session(不可重复使⽤session)先创建workflow,再创建session。
选中“workflow designer”,打开菜单“workflows--》create”,输⼊workflow名点“OK”,workflow的起始点“Start”创建成功;再在workflow的⼯作区内创建session,即⾮Reusable session。
⾮Reusable session可以转换为Reusable session,双击session,选中“make reuseable”。
2.workflow2.1 并⾏执⾏⼀个workflow同时链接多个session,并且多个session之间没有依赖关系,可以并⾏执⾏以提升效率。
2.2 串⾏执⾏⼀个workflow同时链接多个session,并且多个session之间存在依赖关系,需要按照依赖关系顺序依次执⾏。
informatica工作原理 -回复
informatica工作原理-回复Informatica工作原理: 实现数据集成、数据质量和数据管理的关键技术引言:在当今数字化时代,数据成为了企业决策和战略规划的问题。
然而,大量分散在不同系统和数据源中的数据给企业数据分析和管理带来了很大挑战。
为了解决这些问题,许多组织都转向了数据集成和数据管理解决方案。
而其中的佼佼者就是Informatica。
在本文中,我们将深入探讨Informatica工作原理,了解它如何实现高效的数据集成、数据质量和数据管理。
第一部分:数据集成数据集成是将分散在不同数据源中的数据整合在一起,以获得一致、可信的数据视图的过程。
Informatica通过以下步骤实现数据集成:1. 数据源连接:Informatica可以连接到各种数据源,包括数据库、文件、应用程序和云端存储。
它使用统一的接口和驱动程序来实现连接,并建立与数据源之间的通信。
2. 数据提取:Informatica从不同的数据源中提取数据。
这可以通过读取数据库表、文件或执行Web服务调用来实现。
数据提取是通过查询或API 调用来完成的,并将数据保存在Informatica的数据集成引擎中。
3. 数据转换:在数据提取后,Informatica对数据进行转换和清洗,以确保数据的一致性和准确性。
数据转换可以包括数据格式转换、数据清洗、数据合并、数据筛选等操作。
4. 数据加载:一旦数据经过转换和清洗,Informatica将数据加载到目标系统中。
这可以是目标数据库、文件、数据仓库或其他应用程序。
第二部分:数据质量数据质量是确保数据准确性、一致性和完整性的一项关键任务。
Informatica通过以下方式确保数据质量:1. 数据校验:Informatica对数据进行校验,以确保数据的准确性和一致性。
它可以检查数据的完整性、有效性和规范性,并根据预定义的规则和逻辑对数据进行验证。
2. 数据清洗:Informatica清洗数据以去除重复项、缺失值和错误数据。
informatica工作原理
informatica工作原理Informatica是一家全球知名的数据集成和数据管理公司,其工作原理涉及到多个关键组件和技术。
本篇文章将详细介绍Informatica 的工作原理,包括其核心组件、数据处理流程、数据传输方式以及安全机制等方面。
一、核心组件Informatica的核心组件包括PowerCenter、PowerExchange和PowerDesigner等。
这些组件共同构成了Informatica的数据集成平台,提供了数据抽取、转换、清洗、加载等功能。
1.PowerCenter:作为Informatica的核心数据集成引擎,PowerCenter负责执行数据抽取、转换和加载等操作。
它支持多种数据源和目标,包括关系型数据库、非关系型数据库、文件系统等。
PowerCenter通过使用流处理引擎和批量处理引擎,实现了高效的数据处理能力。
2.PowerExchange:PowerExchange是Informatica的数据传输组件,负责在不同的数据源和目标之间进行数据传输。
它支持多种传输协议,如TCP、HTTP、JMS等,可以保证数据传输的可靠性和稳定性。
3.PowerDesigner:PowerDesigner是Informatica的数据模型设计工具,用于创建和编辑数据模型。
它提供了丰富的图形化界面,方便用户设计数据模型并生成相应的元数据。
二、数据处理流程Informatica的数据处理流程主要包括数据抽取、转换、清洗、加载和验证等步骤。
具体流程如下:1.数据抽取:从源数据存储中提取所需的数据,并将其加载到Informatica的数据仓库中。
2.数据转换:将抽取的数据进行转换和清洗,以满足目标系统的要求。
这一步骤可能包括数据类型转换、格式转换、去除重复数据等操作。
3.数据加载:将清洗后的数据加载到目标系统中,完成数据的最终传输。
4.验证:对加载的数据进行验证,确保数据的准确性和完整性。
informatica面试常见问题
informatica面试常见问题
1. 请介绍一下Informatica的工作原理和主要功能。
2. 你在之前的项目中如何使用Informatica ETL工具?
3. 如何处理Informatica作业的错误和异常?
4. 如何进行Informatica数据质量检查和数据清洗?
5. 请列举一些常用的Informatica转换(transformation)和它们的作用。
6. 如何进行Informatica数据加载和抽取?
7. 你在之前的项目中遇到的最大的数据质量问题是什么,你是如何解决的?
8. 如何进行Informatica性能优化和调优?
9. 如何进行Informatica作业的监控和日志记录?
10. 请描述一下Informatica的工作流(workflow)和会话(session)的关系。
11. 如何在Informatica中处理事实表和维度表的加载?
12. 你在Informatica中使用过哪些源系统和目标系统?
13. 如何进行Informatica作业的自动化调度和自动重启?
14. 在使用Informatica过程中,你遇到过哪些具体的技术难题,你是如何解决的?
15. 你对Informatica未来的发展有何看法?
16. 你具备哪些Informatica相关的认证?
17. 请简要介绍一下你的Informatica项目经验和技术能力。
18. 你对数据仓库设计和数据模型有哪些了解?如何将其应用到Informatica中?
19. 请谈谈你在Informatica中的团队合作经验。
20. 你对Informatica的竞争对手有何了解,为什么选择使用Informatica?。
Informatica总结---杲兴强
深航Informatica学习总结修改记录框架:一、总体概述ETL 包括 Extract 、 Transform 、 Cleaning 和 Load ,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。
其中 ETL 培训的内容是如何利用 Informatic PowerCenter 把源数据库的内容提取存放到目标数据库中,四部分 Client , Reposity Server , Reposity Database 和 Informatic Server 每个部分实现自己的功能。
二、系统体系结构此部分介绍了 Informatic ETL 工具包括的主要内容。
1.ClientInformatic Client 主要有五个部分。
Client 可以和 Reposity 分离,通过 TCP/IP 连接,连接到远程的 Reposity Server 。
2. Reposity Manager主要用于进行一个 Reposity 库的管理,当用户使用 Client 工具登录一个 Reposity 服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。
3. Designer主要是进行数据抽取的转换工具的设计,主要是 mapping 的设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换操作( Transformation )。
同一个 Reposity 的 folder 之间可以建立 shortcut 方式,多个 reposity 的 folder 之间只能做拷贝。
4. Workflow Manager主要用于流程任务( workflow Task )的设计。
进行任务流程的设计、每一个 Tast 针对一个 Session ,一个 session 针对一个 mapping ,其中 workflow 中的 Folder 和 Designer 中的 folder 相对应的关系。
Informatica基础
1.1)PowerCenter Designer:设计开发环境,定义源及目标数据结构;设计转换规则,生成ETL映射。
2)Workflow Manager:合理地实现复杂的ETL工作流,基于时间,事件的作业调度3)Workflow Monitor:监控Workflow和Session运行情况,生成日志和报告4)Repository Manager:资料库管理,包括安全性管理,元数据维护,安全操作等5)Repository Server Administrator Console:对知识库的操作,知识库的创建,备份,恢复等操作。
所有元数据都存储在知识库里面,该元数据可以保存在所有主流关系型数据库中。
2.1)Informatica服务器端的安装选择Server,选择license key.选择上面两个。
create domain。
2)Informatica客户端的安装3)配置ODBC数据源:在管理工具里面配置;数据库tnsnames文件的配置;workflow配置(默认的username、pwd:administrator)PowerCenter Server配置:启动Informatica Orchestration Server跟Informatica Services8,6;在Explorer中输入POwerCenter不通过JDBC连接数据库,而是通过在server上安装Oracle client 连接数据库,所以必须在server上安装oracle客户端程序,且Net Configuration Assistant配置本地net服务名。
在配置完贝蒂net服务名后,使用tnspinginfa_demo来测试一下是否oracle配置生效。
3.简单组件的介绍Normalizer:行转换列组件Expression组件:表达式组件Aggregator组件:聚合组件Filter组件:过滤组件(过滤条件返回真或假的表达式,表达式为假就过滤)Sorter组件:排序组件(在一个mapping里建立该组件指定多个用来排序的端口)Stored Procedure组件:调用存储过程组件Sequence Generator组件:生成序列号组件Update Strategy组件:insert/update/delete组件Source Qualifier:每个数据源后面都会带一个Source qualifier组件;连接同构的源数据可以连接多个表,异构数据源需要使用JOIN组件。
Informatica产品PowerCenter介绍
Integrate Customer Analytics Data
Consolidate Customer Systems
Upgrade Sales Comp Systems
Integrate with Hewitt
Enterprise Data Integration
数据获取形式
体系架构
集成技术
Service Oriented Architecture (SOA)
Ability to build your own wizards based on the pattern without coding
Step 1
DI Architect
Develop Visio mapping template, logical flow
Step 2
DI Architect
11
高性能—PushDown Optimization
12
Informatica主要特点3 全面数据连接
全面数据连接
广泛的数据源支持, 包括结构化、半结构化、非结构化数据
ERP
Peoplesoft Oracle Apps
Siebel SAS…
SAP NetWeaver SAP IDOC
SAP BCI SAP DMI SAP BW
Remote Data
数据脱密管理 Data Masking
测试环境
分发
Mainframe and Mid-Range
Packaged Applications
Relational and Flat Files
Standards and Messaging
Developer
• Jumpstart mappings from specification
Informatica简单使用
Informatica简单使⽤1. Informatica简介① Repository manager 主要⽤来维护资料库的⽬录,对象,建完对象可以创建demo的folder。
② Administration Console是完全基于web的,管理所有的节点,服务,在⾥⾯包括资料库的⼀些⽤户,权限等信息。
③ Designer主要⽤来设计mapping。
Mapping是informatica的⼀个映射,也就是说是ETL的⼀个规范,包括对源,⽬标,过程的设计。
④ workflow主要⽤于将mapping实例化,也就是设计⼀个session,如果session很多的话需要将它们设计成⼀个串⾏或者并⾏的过程,它们组成的session就叫做workflow,即⼯作流。
⑤ workflow monitor⽤来监控、执⾏workflow。
⑥控件:Source Qualified Transformation:ETL经常会⽤到的组件,对数据源,包括⽂件,也包括数据表进⾏抽取。
⽆论数据源是表还是平⾯⽂件源,都会⽤到该组件。
2. 新建带过滤条件的workflowD:①选在source,import source ,odbc data source中选择oracle的odbc设置,如果没有,要在管理⼯具中⾃⾏设置,具体如图。
②同理,在target中设置⽬标数据表的连接,然后设置mapping,设置成功之后,转⼊w中设置⼯作流,W:①在edit task->mapping中,source和target分别要设置源和⽬标的连接驱动。
②在edit task->properties->parameter filename⾥⾯写⼊参数所在⽂件夹的地址(该参数在服务器的⽬录下,是事先设定好的⽂件)。
③在左项⽬条件source 中,edit task->mapping->source filter⾥⾯写⼊过滤的参数条件。
Informatica PowerCenter V7.1.2功能特性介绍
Informatica PowerCenter V7.1.2功能特性介绍杨晓东姜炜2005年05月1. S EQUENCE G ENERATOR组件 32. 共享的S EQUENCE G ENERATOR组件 43. 读取VSAM(C OBOL)源文件 54. 利用动态L OOKUP和自定义主键实现目标表的无主键更新 65. 读取E XCEL文件76. 笛卡儿乘积87. M APPING局部变量(LOCAL V ARIABLE) 98. 条件L OOKUP和自定义代理主键109. 调用外部过程(E XTERNAL P ROCEDURE) 1110. XML文件作为数据源和目标1211. U NION组件:合并同结构数据集1312. T RANSACTION组件:自定义事务1413. 读取DBF格式文件1514. 同数据源的自关联1615. 列/行转换1716. 行/列转换+条件汇总功能1817. 增量汇总1918. M APPING的参数/变量和S ESSION的参数 2019. 读文件列表(F ILE L IST) 2520. M APPING D EBUGGER功能2621. W ORKFLOW流程控制2722. 约束性装载2923. S ESSION分区(P ARTITION) 3024. E XTERNAL L OADER3125. 断点续传(S ESSION R ECOVERY) 3326. P RE SQL和P OST SQL调用数据库SQL以及存储过程 3427. M APPING D ESIGNER中提供多种缓慢变化维模板 3528. 对象的导出\导入\知识库的备份和恢复等操作 3629. S ESSION LOG和W ORKFLOW LOG的个数控制 3730. 悬挂(S USPENDING)W ORKFLOW3831. 跟S ESSION性能相关的参数设置3932. MX V IEWS使用4133. PMCMD命令4334. PMREP命令4535. MX FOR D ATA M ODELS561.Sequence Generator组件(参见例子:SequenceGenerator)Sequence Generator组件能产生不断增加的数值,从而可作为代理主键使用。
Informatica介绍
数据仓库
数据交换
数据监控
2
2005,神州数码(中国)有限公司.版权所有
五个应用范围
1、数据迁移
数据迁移(Data Migration)
• 系统升级 • 系统合并 • 遗留转换
3
2005,神州数码(中国)有限公司.版权所有
五个应用范围
2、数据同步
数据同步(Data Synchronization)
20
2005,神州数码(中国)有限公司.版权所有
PowerCenter五个主要特点
1、所见即所得
起点低:
• 完全图形化界面,采用拖拽方式,不用写代码
易编辑:
• 易于操作、阅读、维护 • 不同转换功能以不同的图标显示 • 以流程线表示转换步骤
好管理
• 管理客户端明确 • 引入倒出管理方便
21
10
2005,神州数码(中国)有限公司.版权所有
五个工具产品
2、PowerCerter
11
2005,神州数码(中国)有限公司.版权所有
五个工具产品
3、PowerExchange
12
2005,神州数码(中国)有限公司.版权所有
五个工具产品
4、PowerConnect
Applications & Platforms
SAP NetWeaver
IBM Lotus Notes
SAP BW Siebel
Hyperion Essbase SAS
PeopleSoft
Messaging
IBM MQ Series
Microsoft MSMQ
TIBCO
webMethods
ODBC
Standards LDAP
Informatica完全快速学习手册要点
Informatica完全快速学习手册要点Informatica是业界著名的数据集成工具,用于企业数据的整合和转换。
它能够抽取、转换和加载不同的数据源,并将其转化为目标数据格式的工具。
在企业信息化的时代,一个优秀的数据集成工具显得尤为重要。
本手册将介绍Informatica的学习要点,为初学者提供指导和支持。
模块介绍Informatica是包含多个模块的数据整合软件,下面将逐一介绍它们的作用。
PowerCenterPowerCenter是 Informatica平台中最重要的模块,具有抽取、转换和加载数据的能力。
它支持多种数据源类型,并可进行高效的数据加工处理。
在数据仓库、数据整合、数据转换和处理等方面的应用非常广泛。
PowerExchangePowerExchange是Informatica平台所提供的高性能数据集成工具,它能够将非结构化数据、主机数据等转换成PowerCenter所需要的结构化数据,以便产生更好的分析数据。
Metadata ManagerMetadata Manager模块允许Informatica的应用程序自动化地收集和存储关于企业中各种数据源,映射关系和操作规则等数据的元数据信息,以支持综合数据管理。
Business GlossaryBusiness Glossary 模块是一个数据字典,旨在帮助用户进行数据分类,有效管理数据,并促进不同部门间的信息共享。
这个工具也有利于标准化数据定义和术语。
Data QualityData Quality模块是一个全面的、可扩展的数据质量管理工具,支持数据清洗,规则制定等功能。
通过该工具,我们可以提高数据质量管理的能力。
Test Data ManagementTest Data Management主要用于生成测试数据,它允许测试人员利用特定的数据源类型来绕过一个或多个测试平台上的限制。
此外,该模块还可以帮助测试人员更好地模拟实际环境下的数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
INFORMATICA关于WORKFLOW Manager系统的元数据解析INFORMATICA关于WORKFLOW Manager系统的元数据解析关键词:INFORMATICA,WOR Manager,元数据informaica是一个很强大的ETL工具。
其WORKFLOW MANAGER负责对ETL调度流程进行设计与管理和执行!informatica在在资料库中提供以下表来存储调动流程的相关信息。
以便WORKFLOW MANAGER对用户所设计的调动流程进行管理和执行。
opb_wflow_dep:描述workflow执行步骤相关信息和每个步骤执行的条件信息opb_wflow_dep_run:描述workflow执行步骤运行时相关信息opb_wflow_expr :描述workflow中相关的表达式或条件的相关信息opb_wflow_perval:描述workflow可持续性变量相关信息opb_wflow_run:描述workflow运行日志相关信息opb_wflow_var:描述workflow变量相关信息opb_task:描述任务对象的基本信息opb_task_attr:描述任务对象相关的属性的信息opb_task_inst:描述任务对象实例的基本信息opb_task_inst_run:描述任务对象实例运行日志相关信息opb_task_val_list:描述任务对象实例中command信息WORKFLOW MANAGER系统中常用的有这几个模块,Command模块,Session模块,Waiting_Event模块,Raising_Event模块,Assignment模块,Worklet模块WORKFLOW MANAGER系统中上述的这些模块统称为任务(Task).如果你对一个模块进行了复制后新的模块就称作该任务的任务实例(Task_Inst). WORKFLOW MANAGER系统中Worklet模块可以有其他非Worklet模块组成。
在WORKFLOW MANAGER系统中一个工资流被称作Workflow,Workflow由各种任务模块组合而成。
同时一个Workflow也是一个任务。
以下是WORKFLOW 元数据表的详细说明,-------------------------------------------------------------------------OPB_WFLOW_DEP:描述workflow执行步骤相关信息和每个步骤执行的条件信息--WORKFOLW MANAGER系统将用户设计的工作流的流程(步骤)信息存放到该表中。
--将每个步骤的执行的条件详细信息存放到opb_wflow_expr 中,然后由CONDITION_ID--关联。
如果用户没有设置步骤执行条件则opb_wflow_expr 对应记录中的CONDITION--字段值为空。
WORKFOLW MANAGER系统执行一个工作流时,就根据这个表中的步骤信息--获得所要调度的任务实例标识,然后到opb_task_inst获取具体信息。
----------------------------------------------------------------------- CREATE TABLE OPB_WFLOW_DEP (WORKFLOW_ID NUMBER NULL,--工作流步骤归属的工作流标识FROM_INST_ID NUMBER NULL,--工作流步骤中起始任务实例标识TO_INST_ID NUMBER NULL,--工作流步骤中终止任务实例标识CONDITION_ID NUMBER NULL,--工作流步骤可以执行的条件标识OPB_OBJECT_ID NUMBER NULL); ----------------------------------------------------------------------- --OPB_WFLOW_DEP_RUN:描述workflow执行步骤运行时相关信息--用于关联opb_wflow_run和opb_task_inst_run--这样这三张表就能完整的描述一个工作流的运行情况了。
----------------------------------------------------------------------- CREATE TABLE OPB_WFLOW_DEP_RUN (WORKFLOW_ID NUMBER NULL,--工作流步骤归属的工作流标识WORKFLOW_RUN_ID NUMBER NULL,--工作流步骤归属的工作流运行实例标识WORKLET_RUN_ID NUMBER NULL,--工作流步骤归属的WORKLET运行实例标识FROM_INSTANCE_ID NUMBER NULL,--工作流步骤中起始任务实例标识TO_INSTANCE_ID NUMBER NULL --工作流步骤可以执行的条件标识); ----------------------------------------------------------------------- --OPB_WFLOW_EXPR:描述workflow中相关的表达式或条件的相关信息------------------------------------------------------------------------- CREATE TABLE OPB_WFLOW_EXPR (WORKFLOW_ID NUMBER NULL,--表达式归属的工作流标识CONDITION_ID NUMBER NULL,--条件标识LINE_NO NUMBER NULL,CONDITION VARCHAR2(2000) NULL,--条件表达式描述OPB_OBJECT_ID NUMBER NULL); ----------------------------------------------------------------------- --OPB_WFLOW_PERVAL:描述workflow可持续性变量相关信息--当下次运用到一持续性变量时,WORKFLOW MANAGER 系统就会从该表中读取--该变量的VAR_VALUE值了。
当该持续性变量所在的WORKFLOW(或WORKLET)结束后--系统就会将该持续性变量的当前值保存到该表相应记录的VAR_VALUE字段中----------------------------------------------------------------------- CREATE TABLE OPB_WFLOW_PERVAL (SUBJECT_ID NUMBER NULL,--工作流归属的主题标识WORKFLOW_ID NUMBER NULL,--变量归属的工作流标识WORKLET_ID NUMBER NULL,VARIABLE_ID NUMBER NULL,--变量标识VAR_VALUE VARCHAR2(2000) NULL,--变量当前值LAST_SAVED VARCHAR2(30) NULL,BIT_OPTIONS NUMBER NULL,OPB_OBJECT_ID NUMBER NULL,WORKLET_INST_ID NUMBER NULL--变量归属的WORKLET任务实例标识);----------------------------------------------------------------------------- --OPB_WFLOW_RUN:描述workflow运行日志相关信息--该表中描述运行WROKFLOW的运行环境信息(SERVER_ID、USER_NAME)--和WORKFLOW的运行结果。
--OPB_WFLOW_RUN和OPB_TASK_INST_RUN这两个表提供了WORKFLOW MONITER系统--对显示工作流详细运行状态的所需要的所有信息------------------------------------------------------------------------------CREATE TABLE OPB_WFLOW_RUN (SUBJECT_ID NUMBER NULL,--工作流归属主题标识WORKFLOW_ID NUMBER NULL,--工作流标识WORKFLOW_RUN_ID NUMBER NULL,--工作流运行实例标识WORKFLOW_NAME VARCHAR2(240) NULL,--工作流名称SERVER_ID NUMBER NULL,--运行工作流的INFOMATICA服务器标识SERVER_NAME VARCHAR2(240) NULL,--运行工作流的INFOMATICA服务器名称START_TIME DATE NULL,--开始运行工作流时间END_TIME DATE NULL,--结束运行工作流时间LOG_FILE VARCHAR2(2000) NULL,--记录工作流运行详细情况的日志文件全名称RUN_ERR_CODE NUMBER NULL,--工作流运行错误代码(如果工作流正常结束该字段值为空)RUN_ERR_MSG VARCHAR2(2000) NULL,--工作流运行错误描述(如果工作流正常结束该字段值为空)RUN_STATUS_CODE NUMBER NULL,--工作流运行状态USER_NAME VARCHAR2(240) NULL,--运行该工作流所使用的用户名称RUN_TYPE NUMBER NULL,--工作流运行类型CODEPAGE_ID NUMBER NULL);-----------------------------------------------------------------------------------------OPB_WFLOW_VAR:描述workflow变量相关信息--在WORKFLOW MANAGER系统中有系统内值变量和用户自定义变量。
------------------------------------------------------------------------------------------CREATE TABLE OPB_WFLOW_VAR (SUBJECT_ID NUMBER NULL,--工作流归属主题标识WORKFLOW_ID NUMBER NULL,--变量归属的工作流任务实例标识(或者变量归属的WORKLET 任务实例标识)VARIABLE_ID NUMBER NULL,--变量标识VAR_NAME VARCHAR2(240) NULL,--变量名称VAR_TYPE NUMBER NULL,--变量类型(临时、持久)VAR_DESC VARCHAR2(2000) NULL,--变量描述VAR_DATATYPE NUMBER NULL,--变量数据类型VAR_DEFAULT VARCHAR2(2000) NULL,--变量缺省值LAST_SAVED VARCHAR2(30) NULL,OPB_OBJECT_ID NUMBER NULL,TASK_INST_ID NUMBER NULL,--变量归属任务实例标识(该任务实例为非WORKFLOW/WORKLET 任务实例)TASK_INST_NAME VARCHAR2(240)NULL,--变量归属任务实例名称BIT_OPTIONS NUMBER NULL); ------------------------------------------------------------------------- --OPB_TASK:描述任务对象实例的基本信息--任务概论是INFORMAICA系统中对所有可以被调度执行的模块的总称,--包含Command任务,Session任务,Waiting_Event任务,--Raising_Event任务,Assignment任务,Worklet任务,Workflow任务等。