ETL抽取工具Informatica
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Байду номын сангаас
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
易使用、易管理:图形化界面
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica主要特点
2)映射的自动匹配:在Designer的设计中,有“Autolink”的自动匹配功能,具有高级匹配功能,可进行 前缀、后缀和位置的自动匹配。 3)自动完成时间类型的转换,如在记录中,符合时间 格式,可自动进行字符型和时间类型的转换,并且 提供to_char,to_date等强制转换函数。
������
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica主要特点
• 1) 图形化设计,无需编码,快速开发和部署。 PowerCenter提供了一个可视化的、拥有丰富转换库的设计 工具,这个转换库使数据转换变成一个简单的“拖拽”过程 。使用PowerCenter,转换组件能够被合并到mapping对象中 ,独立于他们的数据源和目标,有近20种数据转换组件和近 百个函数可以调用,同时可以调用外部的过程和程序,实现 复杂的转化逻辑。 Informatica PowerCenter是完全图形化的开发,不需要有 语言基础也可上手,内部完全是图形化设置,不需在组件是 编写脚本语言。可通过简单的操作,完成此需求:
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
产品功能
• PowerCenter:按照一定格式,整合、转换、汇总、传输数据。 • Informatica PowerCenter 提供专注于最主要的、最复杂的数 据集成项目必须的工具和数据服务的平台,是业界领先的、具 有适应性的软件,用来访问、集成和传递数据。经过精心设计 的PowerCenter能够利用有效的成本去平衡数据,从而得到一个 统一的扩展的企业视图。使用Informatica PowerCenter,企业 能够通过“一次建立,任意部署”的方法从事多个不同的集成 项目,允许更多的时间和资源花费在企业的业务上,而不是企 业的业务整合上。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
PowerCenter内置的部分转换组件
•
• • •
• • • • • •
Lookup:查找相关的值并且传送给其他的对象 ������ Joiner:关联异构数据源 ������ Stored Procedure:调用存储过程并且获取返回值 ������ External Procedure: 从共享库中调用一个外部的用户 定义的过程 ������ Custom:利用C/C++等编程语言开发客户自定义的转换组 件。 ������ Sequence Generator:产生一组唯一的序列id ������ Transaction Control:自定义事务处理 ������ Rank:取出最大或最小的一定数量的记录 ������ Input:定义Mapplet的输入,仅在Mapplet designer中可 用 ������ Output:定义Mapplet的输出,仅在Mapplet designer中 可用
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
什么是数据仓库?
• 数据仓库是一个环境,而不是一件产品,提供用户用 于决策支持的当前和历史数据,这些数据在传统的操 作型数据库中很难或不能得到。数据仓库技术是为了 有效的把操作形数据集成到统一的环境中以提供决策 型数据访问,的各种技术和模块的总称
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica产品体系结构
元数据展现工具
元数据管理 工具
核心产品:数 据集成平台
用于连接主机数据 /AS400、 Oracle 、 DB2、 SQL数据 源的 CDC、 Real Time
用于连接应用 数据,如 ERP ( SAP)、 EAI( MQ)
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
数据仓库体系结构
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
数据转换指的是什么?
• 数据转换都包括,删除对决策应用没有意义的数据段 ;转换到统一的数据名称和定义;计算统计和衍生数 据;给缺值数据赋给缺省值;把不同的数据定义方式 统一
Source Qualifier:从源表中查询出所有的数据(非XML) XML Source Qualifier:从XML数据源中查询数据 ERP Source Qualifier:从ERP数据源中查询出所有数据 Normalizer:从VSAM 或关系数据源中格式化记录 Expression:基于单行记录的表达式计算 Aggregator:基于多行记录的汇总计算 Filter:执行条件过滤 Router:按照条件分组来过滤数据 Sorter:基于键字段进行排序 Union: 对两个或多个同结构结果集做Union All 操作 Update Strategy:允许逻辑的插入, 更新, 删除, 或拒
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
2个Server
• Informatica Repository Server:资料库Server, 管理ETL过程中产生的元数据 用来管理所有对资料库中元数据的请求和操作。 • Informatica Server:实际的ETL引擎
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
运行环境
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
安装Informatica PowerCenter
• 安装存储资料库的数据库 • 安装PowerCenter服务端 • 安装PowerCenter客户端
参考安装文档
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica公司简介
公司 成立于1993年 Nasdaq: INFA (1999) 全球职工1200+ 世界级数据集成工具平台 数据质量管理 元数据管理工具平台
•
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
对数据源的支持
• • • • • • • • • • 对广泛数据源的支持和通用的数据连通性。 关系型和平面文件 ������ Oracle ������ DB2 ������ SQL Server ������ Teradata ������ Sybase ������ Informix ������ Flat File ������ Web Logs
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
5个Client
• • • • • PowerCenter Designer:设计开发环境,定义源及目标数据结构;设计 转换规则,生成ETL映射 Workflow Manager:合理地实现复杂的ETL工作流,基于时间、事件的 作业调度 Workflow Monitor:监控Workflow和Session运行情况,生成日志和报 告 Repository Manager:资料库管理,包括安全性管理等,元数据维护和 安全操作,如:元数据查找,用户、组、权限管理等。 Repository Server Administrator Console:对知识库的操作,如: 知识库的创建、备份、恢复等。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
客户端工具
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
PowerCenter内置的部分转换组件
• ������
• • • • • • • • •
•
������ ������ ������ ������ ������ ������ ������ ������ ������ 。 ������ 绝
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica主要特点
• 4)字段的拆分,内置众多的字符串函数,例如 SUBSTR, Instr等,可完成字段的拆分、合并等操 作。 5)多字段的混合运算,内部具有Expression组件 ,可增加复杂的多字段混合计算,同时可嵌入100 多种函数和参数,极大的提高了计算表达式的灵活 性。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica公司其他产品
• PowerAnalyzer:BI前端工具,用于数据展现,内置 了170多种分析报表,用于元数据的浏览和分析 • PowerExchange:适用于连接主机数据,实时数据和 CDC数据处理 • SuperGlue:元数据管理工具,管理系统所有的元数 据,包括BI、OLAP、Data Model、ETL工具产生的元 数据。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
解析什么是ETL?
• Extract: 通过接口提取源数据,例如:ODBC、专用数 据库接口和平面文件提取器。参照元数据来决定提取 何处的数据和怎样提取。 • Transform: 开发者将提取的数据,按照业务需要转 换为目标数据结构,并实现汇总。 • Load: 加载经转换和汇总的数据到目标数据仓库中, 可实现SQL 或批量加载
ETL抽取工具Informatica介绍
VANDA CHINA VAS
Informatica产品介绍
• PowerCenter:Informatica PowerCenter是世界级的 企业数据集成平台,它在ETL领域中无论是执行能力 还是战略远见方面都是佼佼者,是Informatica的核 心产品 。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
主流的ETL厂商和产品
• 专业ETL厂商和产品包括Ascential公司的Datastage 、Informatica公司的Powercenter、 NCR Teradata 公司的ETL Automation
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
名词解释
• ETL:Extract-Transform-Load 的缩写,数据抽取(Extract) 、转换(Transform)、装载(Load)的过程。 • DW:Data Warehousing,根据Bill.Inmon 的定义,“数据仓库 是面向主题的、集成的、稳定的、随时间变化的,主要用于决 策支持的数据库系统”。 • Metadata:元数据。描述数据的数据,指在数据仓库建设过程 中所产生的有关数据源定义,目标定义,转换规则等相关的关 键数据。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
PowerCenter体系结构
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
1个或多个(Repository)
• PowerCenter数据整合引擎是基于元数据驱动的,提 供了基于元数据驱动的元数据知识库(Repository) ,该元数据知识库可以在主流的关系型数据库中部署 。该元数据库中存储所有的ETL元数据,包括:源、 目标表的物理和逻辑元数据, ETL转换规则,知识库 用户权限,ETL任务运行历史信息等元数据。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
易使用、易管理:图形化界面
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica主要特点
2)映射的自动匹配:在Designer的设计中,有“Autolink”的自动匹配功能,具有高级匹配功能,可进行 前缀、后缀和位置的自动匹配。 3)自动完成时间类型的转换,如在记录中,符合时间 格式,可自动进行字符型和时间类型的转换,并且 提供to_char,to_date等强制转换函数。
������
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica主要特点
• 1) 图形化设计,无需编码,快速开发和部署。 PowerCenter提供了一个可视化的、拥有丰富转换库的设计 工具,这个转换库使数据转换变成一个简单的“拖拽”过程 。使用PowerCenter,转换组件能够被合并到mapping对象中 ,独立于他们的数据源和目标,有近20种数据转换组件和近 百个函数可以调用,同时可以调用外部的过程和程序,实现 复杂的转化逻辑。 Informatica PowerCenter是完全图形化的开发,不需要有 语言基础也可上手,内部完全是图形化设置,不需在组件是 编写脚本语言。可通过简单的操作,完成此需求:
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
产品功能
• PowerCenter:按照一定格式,整合、转换、汇总、传输数据。 • Informatica PowerCenter 提供专注于最主要的、最复杂的数 据集成项目必须的工具和数据服务的平台,是业界领先的、具 有适应性的软件,用来访问、集成和传递数据。经过精心设计 的PowerCenter能够利用有效的成本去平衡数据,从而得到一个 统一的扩展的企业视图。使用Informatica PowerCenter,企业 能够通过“一次建立,任意部署”的方法从事多个不同的集成 项目,允许更多的时间和资源花费在企业的业务上,而不是企 业的业务整合上。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
PowerCenter内置的部分转换组件
•
• • •
• • • • • •
Lookup:查找相关的值并且传送给其他的对象 ������ Joiner:关联异构数据源 ������ Stored Procedure:调用存储过程并且获取返回值 ������ External Procedure: 从共享库中调用一个外部的用户 定义的过程 ������ Custom:利用C/C++等编程语言开发客户自定义的转换组 件。 ������ Sequence Generator:产生一组唯一的序列id ������ Transaction Control:自定义事务处理 ������ Rank:取出最大或最小的一定数量的记录 ������ Input:定义Mapplet的输入,仅在Mapplet designer中可 用 ������ Output:定义Mapplet的输出,仅在Mapplet designer中 可用
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
什么是数据仓库?
• 数据仓库是一个环境,而不是一件产品,提供用户用 于决策支持的当前和历史数据,这些数据在传统的操 作型数据库中很难或不能得到。数据仓库技术是为了 有效的把操作形数据集成到统一的环境中以提供决策 型数据访问,的各种技术和模块的总称
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica产品体系结构
元数据展现工具
元数据管理 工具
核心产品:数 据集成平台
用于连接主机数据 /AS400、 Oracle 、 DB2、 SQL数据 源的 CDC、 Real Time
用于连接应用 数据,如 ERP ( SAP)、 EAI( MQ)
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
数据仓库体系结构
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
数据转换指的是什么?
• 数据转换都包括,删除对决策应用没有意义的数据段 ;转换到统一的数据名称和定义;计算统计和衍生数 据;给缺值数据赋给缺省值;把不同的数据定义方式 统一
Source Qualifier:从源表中查询出所有的数据(非XML) XML Source Qualifier:从XML数据源中查询数据 ERP Source Qualifier:从ERP数据源中查询出所有数据 Normalizer:从VSAM 或关系数据源中格式化记录 Expression:基于单行记录的表达式计算 Aggregator:基于多行记录的汇总计算 Filter:执行条件过滤 Router:按照条件分组来过滤数据 Sorter:基于键字段进行排序 Union: 对两个或多个同结构结果集做Union All 操作 Update Strategy:允许逻辑的插入, 更新, 删除, 或拒
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
2个Server
• Informatica Repository Server:资料库Server, 管理ETL过程中产生的元数据 用来管理所有对资料库中元数据的请求和操作。 • Informatica Server:实际的ETL引擎
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
运行环境
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
安装Informatica PowerCenter
• 安装存储资料库的数据库 • 安装PowerCenter服务端 • 安装PowerCenter客户端
参考安装文档
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica公司简介
公司 成立于1993年 Nasdaq: INFA (1999) 全球职工1200+ 世界级数据集成工具平台 数据质量管理 元数据管理工具平台
•
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
对数据源的支持
• • • • • • • • • • 对广泛数据源的支持和通用的数据连通性。 关系型和平面文件 ������ Oracle ������ DB2 ������ SQL Server ������ Teradata ������ Sybase ������ Informix ������ Flat File ������ Web Logs
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
5个Client
• • • • • PowerCenter Designer:设计开发环境,定义源及目标数据结构;设计 转换规则,生成ETL映射 Workflow Manager:合理地实现复杂的ETL工作流,基于时间、事件的 作业调度 Workflow Monitor:监控Workflow和Session运行情况,生成日志和报 告 Repository Manager:资料库管理,包括安全性管理等,元数据维护和 安全操作,如:元数据查找,用户、组、权限管理等。 Repository Server Administrator Console:对知识库的操作,如: 知识库的创建、备份、恢复等。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
客户端工具
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
PowerCenter内置的部分转换组件
• ������
• • • • • • • • •
•
������ ������ ������ ������ ������ ������ ������ ������ ������ 。 ������ 绝
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica主要特点
• 4)字段的拆分,内置众多的字符串函数,例如 SUBSTR, Instr等,可完成字段的拆分、合并等操 作。 5)多字段的混合运算,内部具有Expression组件 ,可增加复杂的多字段混合计算,同时可嵌入100 多种函数和参数,极大的提高了计算表达式的灵活 性。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
Informatica公司其他产品
• PowerAnalyzer:BI前端工具,用于数据展现,内置 了170多种分析报表,用于元数据的浏览和分析 • PowerExchange:适用于连接主机数据,实时数据和 CDC数据处理 • SuperGlue:元数据管理工具,管理系统所有的元数 据,包括BI、OLAP、Data Model、ETL工具产生的元 数据。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
解析什么是ETL?
• Extract: 通过接口提取源数据,例如:ODBC、专用数 据库接口和平面文件提取器。参照元数据来决定提取 何处的数据和怎样提取。 • Transform: 开发者将提取的数据,按照业务需要转 换为目标数据结构,并实现汇总。 • Load: 加载经转换和汇总的数据到目标数据仓库中, 可实现SQL 或批量加载
ETL抽取工具Informatica介绍
VANDA CHINA VAS
Informatica产品介绍
• PowerCenter:Informatica PowerCenter是世界级的 企业数据集成平台,它在ETL领域中无论是执行能力 还是战略远见方面都是佼佼者,是Informatica的核 心产品 。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
主流的ETL厂商和产品
• 专业ETL厂商和产品包括Ascential公司的Datastage 、Informatica公司的Powercenter、 NCR Teradata 公司的ETL Automation
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
名词解释
• ETL:Extract-Transform-Load 的缩写,数据抽取(Extract) 、转换(Transform)、装载(Load)的过程。 • DW:Data Warehousing,根据Bill.Inmon 的定义,“数据仓库 是面向主题的、集成的、稳定的、随时间变化的,主要用于决 策支持的数据库系统”。 • Metadata:元数据。描述数据的数据,指在数据仓库建设过程 中所产生的有关数据源定义,目标定义,转换规则等相关的关 键数据。
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
PowerCenter体系结构
VANDA SYSTEMS & COMMUNICATIONS HOLDINGS LIMITED
1个或多个(Repository)
• PowerCenter数据整合引擎是基于元数据驱动的,提 供了基于元数据驱动的元数据知识库(Repository) ,该元数据知识库可以在主流的关系型数据库中部署 。该元数据库中存储所有的ETL元数据,包括:源、 目标表的物理和逻辑元数据, ETL转换规则,知识库 用户权限,ETL任务运行历史信息等元数据。