数据仓库建模教程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Oracle Warehouse Builder 10g
Oracle Warehouse Builder 10g是一种用来设计和部署商务智能应用程序、数据仓库和数
据集市的工具。

用户可以利用 Warehouse Builder 从始至终设计他们自己的商务智能应用
程序。

维设计、ETL 过程设计、从不同的数据源系统进行提取、广泛的元数据报表以及与
Oracle Discoverer、Oracle Workflow 和 Oracle 企业管理器集成,这些特性提供了一个以
Warehouse Builder 为核心的集成的商务智能解决方案。

建立商务智能系统的模型
Oracle Warehouse Builder 不仅仅是一个 ETL(提取、转换、加载)工具,还可以帮助用户设计他们的ETL 过程、目标仓库、中间存储区域和最终用户访问层。

任何商务智能解决方案中的主要组件均包含商务智能系统进行报告所依据的数据源系统。

Warehouse builder 为开发人员提供了一种轻松的、向导驱动的方式来获取数据源系统的元数据。

可以通过读取数据字典或 Oracle Designer 信息库来捕获元数据,同时还支持行业标准的通用仓库元模型 (CWM) 定义。

Warehouse Builder 10g引入了一个合作伙伴解决方案,它支持由第三方供应商(如 CA Erwin、PowerDesigner 和 Business Objects)提供的 40 多个元数据文件。

在捕获该信息后,开发人员可以使用数据源的元数据表示来建立提取过程的模型。

所支持的数据源系统包括:
q Oracle 数据库
q平面文件
q SAP R/3
q DB2、Sybase、Informix、SQL Server 以及其他文件(通过 Oracle 透明网关)
q ODBC
q主机
Warehouse Builder 还能够检测这些数据源中的更改,并根据最新发现的信息来更新它的信息库。

还提供了重新导入功能来协调信息库定义。

Warehouse Builder 与 Oracle 数据库平台紧密集成在一起。

因此主要支持的目标系统是 Oracle 数据库。

但 Warehouse Builder 还支持平面文件。

支持的目标系统包括:
q Oracle 数据库 10g第 1 版 (10.1)
q Oracle9i第 2 版 (9.2.0)
q Oracle8i第 3 版 (8.1.7.4)
q平面文件
设计人员利用 Warehouse Builder 可以为其目标模式创建各种模型。

Warehouse Builder 主要用来设计商务智能系统,因此提供了一个向导驱动的过程,以轻松地创建关系模型和维模型(包括星形模式)。

对于大多数系统而言,设计不仅仅是目标商务智能系统体系结构。

Warehouse Builder 可以设计终端用户查询工具环境。

该产品能够为最终用户查询工具(如 Oracle Discoverer)定义某些显示特征。

设计 ETL 过程
捕获数据源的元数据并设计目标模式后,用户便可以开始创建定义数据如何从数据源移动到目标的数据流。

在 Warehouse Builder 中这些数据流(ETL 过程)称为映射。

Warehouse Builder 为用户提供了一个用于建立 ETL 过程模型的图形环境。

该工具支持将多个数据源映射到多个目标。

它使用户可以对数据流指定连锁转换并将复杂的 PL/SQL 转换应用于数据。

为了确保高标准的可用性,映射组件支持数据源和目标之间的自动映射。

用户可以使用自动映射创建新映射对象,也可以按名称或位置映射来快速、高效地创建映射。

要提供最佳的灵活性,用户可以使用点定义他们自己的内联表达式,并单击具有验证功能的 Expression Builder。

为了支持重复使用原有代码以及新开发的代码,可以使用转换库来存储 PL/SQL 代码。

随后,便可以在映射中或者在映射过程之前或之后使用此代码。

过程流也支持这些转换。

映射组件还可用来执行一些常见的操作,例如联接、过滤、聚集以及排序数据。

然后,所有这些操作均被转换为生成的 PL/SQL 代码。

此外,还支持更多的高级操作,如关键字查找、基于集合的操作(union (all)、minus、intersect)、旋转和逆旋转。

如果用户选择平面文件作为数据源,Warehouse Builder 将自动检测该数据源并生成相应的 SQL*Loader 代码。

构建映射后,您可能要使用一组测试数据运行映射。

Warehouse Builder 在映射编辑器中提供了图形调试功能。

您可以定义要在调试运行时用作源和目标的表,也可以创建新表并逐步执行映射。

断点和观查点使您可以查看数据如何通过映射。

调试消息提供了有关状态以及在执行过程中出现的任何错误的信息。

数据质量
数据质量在 ETL 过程设计中至关重要。

Warehouse Builder 提供了特定的映射运算符,在加载时清理数据。

Warehouse Builder 通常还支持名称和地址清理以及匹配合并等复杂任务。

通过将输入数据与认证的第三方名称和地址清理软件供应商提供的数据库进行比较,名称和地址解决方案可以标识和更正名称和地址源数据中的错误和不一致性。

匹配合并运算符首先通过用户定义的业务规则确定哪些输入记录引用同一数据来匹配数据。

然后,它再次根据用户定义的业务规则将匹配记录中的数据整合到一个记录来合并记录。

设计过程流
设计 ETL 映射后,用户可以通过图形方式记录映射运行之间的从属性。

界面简单,可以以图形化的方式访问从属性引擎支持的最常用特性。

用户可以设计完整的过程(包括电子邮件通知等)。

过程流定义的代码生成由行业标准的 XML 过程定义语言 (XPDL) 组成。

将把灵活的过程流部署到 Oracle Workflow 引
擎中。

过程流定义可以包含许多活动,其中包括映射、转换、外部过程以及基于文件的活动(如 FTP 或文件存在)。

部署
完成设计后,必须将实际代码部署到数据库引擎中。

在 Warehouse Builder 中 Deployment Manager 提供了此功能。

无论对象是数据库对象、PL/SQL 映射还是过程流,Deployment Manager 提供了一个统一界面来部署这些对象。

为部署此代码,Warehouse Builder 将根据其元数据信息库中的定义生成代码。

创建该生成代码的第一步是确保所有元数据是有效的。

验证是一个验证元数据并报告逻辑模型中所有缺陷的过程。

如果模型是有效的,就能生成代码。

Warehouse Builder 使用户可以将规范部署到文件系统中并存储文件,以便稍后进行部署。

为了实例化仓库和 ETL 过程,将生成下列类型的代码:
q SQL DDL,用于创建仓库
q PL/SQL,用于关系数据源中的 ETL 过程
q SQL*Loader 控制文件,用于平面文件数据源
q ABAP,用于从 SAP R/3 数据源中提取
q XML Process Definition Language (XPDL) 代码,用于将过程部署到工作流中
生成的代码包含下列对 Oracle 数据库平台的优化:
q基于集合或基于行
q PL/SQL 批量处理
q外键约束操作
q使用内联视图更快地从远程表加载
q分区交换加载
q外部表
q表函数
q多表插入
q Merge 语句
元数据管理
Warehouse Builder 10g完全公开了版本管理功能。

用户可以随时创建设计对象的快照。

此快照存储在数据库中并可以用于将来进行比较,或在出现意外更改的情况下恢复。

Change Manager 用户界面可以对快照相关特性的访问。

Warehouse Builder 中还提供了低级安全性和基于用户的审计,此外,还提供了用于管理用户和权限的体系结构,并可供使用。

元数据信息库支持多种语言。

可以用多种语言记录业务名称和描述,从而支持用不同的语言交换元数据。

例如,如果已经记录了已翻译的标签,便可以用英语、法语或德语创建一个 Discoverer 最终用户访
问层。

Warehouse Builder 元数据信息库是可以扩展的。

用户可以定义他们自己的用户定义属性,以记录无法存储在 Warehouse Builder 对象的现有定义中的信息。

这些属性在 UI 和报表功能中完全受支持。

因此,业务用户还可以得益于在用户定义的属性中记录的信息。

在某些情况下,您可能需要对元数据信息库进行后端访问。

Oracle Warehouse Builder 提供了一个详细的的公共 Java API,该 API 公开了该产品的所有功能。

基于 TCL 的脚本语言在此 API 基础之上提供了对所有功能的访问。

这两个解决方案对批量更新(例如,为所有表名加上前缀)和精度更新(例如,将所有数字 ID 列的精度从 12 增大到 15)极具吸引力。

为仓库设计创建元数据时,设计人员可以使用 Warehouse Builder 的强大元数据报表功能与业务用户共享此信息。

Warehouse Builder 提供了许多预构建的元数据报表。

所提供的标准报表包括从目标对象的数据线性和影响分析报表等复杂报表。

为了能够轻松地访问此信息,所有报表都是针对 Oracle Portal 创建的(并不强制要求),并可以通过互联网浏览器访问。

管理商务智能系统
将代码部署到目标系统后,日常活动将包括计划 ETL 过程并验证这些过程是否成功完成。

所有这些处理任务均在 Warehouse Builder 运行时环境中发生。

Oracle Enterprise Manager (OEM) 在 Oracle 数据库环境中提供了规划。

这是一个 DBA 工具,Oracle 将其与数据库或应用服务器捆绑在一起。

无论用户在 OEM 中注册作业是为了只运行映射还是运行整个过程流,运行时平台都将监视执行和审计。

用户还可以从部署管理器中或通过命令行运行映射或过程流。

命令行选项支持 Oracle Warehouse Builder 和第三方规划程序之间的集成。

在加载数据时可能出现错误,因此 Warehouse Builder 提供了一个名为运行时审计浏览器并基于 HTML 的应用程序以验证运行作业的结果。

运行时审计浏览器还支持访问部署管理器对单个对象定义默认部署操作所使用的部署历史记录信息。

Warehouse Builder 10g提供了在多节点真正应用集群 (RAC) 中管理运行时平台的功能。

商务智能系统是一个不断演化的系统。

可能要添加新数据源;现有的数据源可能要改变;目标必须适应新的业务问题等等。

为了满足数据仓库不断发展的需求,Warehouse Builder 提供了生命周期管理功能。

除了能够处理数据源对象更改以外,Change Management 还允许 Warehouse Builder 对仓库进行调整以适应逻辑模型的更改。

要部署这些更改,用户只需在部署管理器中选择“升级”操作即可。

然后用户可以选择部署这些更改。

所有的操作都不会危害仓库环境中的数据。

集成
Oracle 是少数几家能够以一种端到端的集成解决方案覆盖整个商务智能领域的厂商之一。

作为商务智能和 ETL 工具的 Warehouse Builder 是这个集成系列的核心。

Oracle 数据库 10g:Oracle 数据库是 Oracle Warehouse Builder 的运行时引擎。

作为一个代码生成工
具,Warehouse Builder 生成在 Oracle 平台上执行的经过优化调整的代码。

因此,所有 ETL 过程都针对部署平台进行了调整,用户无需担心外部 ETL 引擎的可伸缩性。

由于 Warehouse Builder 与数据库的结合紧密,它可以利用添加到数据库的 ETL 增强功能。

因此现在可以用 PL/SQL 语句代替复杂的 PL/SQL 例程,从而将复杂性推送给数据库引擎。

最终,Warehouse Builder 能够生成简单但性能卓越的代码。

Warehouse Builder 还利用了 Oracle 数据库 10g OLAP 服务器的所有功能(包括 Analytic Workspaces)。

Oracle 10g应用服务器:应用服务器是 Oracle 集成 BI 解决方案中的报表工具的部署平台。

在Warehouse Builder 应用程序内开发人员可以设计用于 Oracle Discoverer 的终端用户层 (EUL),然后将该信息导出到 EUL 模式。

这缩短了整个解决方案的开发时间,并且确保所有元数据基本上都保存在一个公共信息库中。

对基于设计信息库和运行时信息库的内容进行报告,Warehouse Builder 提供了一个使用另一个应用服务器组件 Oracle Portal 的解决方案。

使用 Portal 技术和一次性登录,所有用户(从开发人员到业务用户)均可以获得存储在 Warehouse Builder 元数据信息库中的 BI 元数据的查看权限。

随取随用的线性报表使业务用户可以跟踪对特定目标记录所做的所有转换,从而判断数据的正确性和准确性。

系统管理员可以查看部署历史记录以及已经运行的 ETL 和过程作业的指标。

还可以在 Portal 环境的外部运行报表。

第三方供应商:Oracle 是 OMG CWM(对象管理组、通用仓库元模型)元数据标准的主要制订者之一。

Warehouse Builder 基于这个标准构建,并且能够与所有支持 OMG CWM 标准的第三方厂商交换元数据。

支持这个开放标准的益处在于:
q强大的对象模型
q涵盖与 ETL 和分析相关的整个元数据领域
q使用 XML 元数据交换 (XMI)
总结
Oracle Warehouse Builder 是 Oracle 的商务智能战略的核心组件,与 Oracle 提供给客户的整个产品系列紧密集成。

下面概括关键特征和优点:Warehouse Builder 是一个商务智能设计工具。

q商务智能模式、源到目标映射和过程流的设计和部署
q完全利用 Oracle 数据库和其他 Oracle 产品
q生命周期管理功能
q运行时数据和设计时元数据共享和报表
主要特性
集成
q Oracle 数据库 10g
q Oracle 应用服务器 10g
q Oracle Warehouse Builder 10g衔
接:
- OMG CWM?
- Oracle Designer
- OLAP Server
- OLAP Analytical Workspaces
- Oracle Discoverer
- Oracle Express
- 通过合作伙伴解决方案支持 40 多
个数据源ETL 功能
q图形化 ETL 设计
q许多创建 ETL 过程的操作符:
- Pivot/un-pivot
- Table functions
- Key lookup
- Union/Minus/Intersect
- Joiner
- Splitter
- Filter
- Aggregator
- Inline Expressions
- Transformations
- Surrogate key handling
- Pre and Post mapping processes
- External processes
q映射器内的增量代码生成
q图形化数据流调试器
q数据源与目标之间的自动映射
q SAP 集成器提供从任何平台上的SAP R/3 数据源系统的无缝提取q提供带有一套 OWB 嵌入式转换函
数的 XML 工具包
q过程流编辑器
支持的数据源
q Oracle
- 关系表
- 外部表
- 高级查询
q SAP R/3
q平面文件
q ODBC
q DB2、Sybase、Informix、SQL Server(通过 Oracle 透明网关)
q主机支持的目标
q Oracle 数据库 10g第 1 版(包括RAC 支持)
q Oracle9i第 2 版(包括 RAC 支
持)
q Oracle8i第 3 版 (8.1.7.4)
q平面文件
可扩展性
q设计时和运行时环境的公共视图
q用于访问任何产品功能的公共 Java API
q用于访问任何产品功能的基于 Tcl
的脚本语言目标设计功能
q向导驱动的高度图形化数据存储
器、数据集市和企业商务智能系统q关系模型
q多维模型
所遵从的标准
q OMG CWM:
- 开放标准
- 使用 XML 元数据交换 (XMI)
- 强大的对象模型
- 涵盖与 ETL 和分析相关的领域q为过程流生成 XPDL 代码数据质量
q名称和地址检查
q数据质量供应商的开放体系结构
q匹配合并
生命周期管理
q数据源元数据协调:
- 重新导入现有的数据源对象
- 与当前的定义协调
q影响分析
q创建/删除/添加/重命名对象
q影响分析报告
q生成升级脚本
q需要变更时存储中间数据报表
q在 Warehouse Builder Browser 中
支持多个 Portlet
q元数据影像分析报告
q元数据线性报告
q基于 Portlet 的技术
q安全框架
q基于 HTML 的设计和运行时审计报

平面文件处理
q限定或固定长度的字符
q单个或多个记录类型文件
q图形化的表达式构建器
q图形化的转换编辑器
用于存储和共享转换的转换库元数据管理
q信息库安全性模型
q高级验证框架
q多用户环境
q高级锁定和名称检查
q归档和恢复机制
q多语言支持 (MLS)
q所有对象的版本管理全部公开
q可通过用户定义的属性进行扩展
相关产品和服务
Oracle Warehouse Builder 10g是商务智能设计的中心,与多个 Oracle 产品集成:q Oracle 数据库 10g企业版:
- 部署目标
- ETL 功能
- OLAP 服务器
- 工作流引擎
- Oracle 企业管理器规划
q Oracle 应用服务器 10g:
- 元数据报表
q Oracle Discoverer
q Oracle Business Intelligence
Beans 快速入门
使用 Oracle Warehouse Builder 10g前先:
q安装 Oracle 数据库 10g企业版
q安装 Oracle Warehouse Builder 10g
2004 年 5 月该产品可在 Windows 32 位(NT、2000、XP)上使用,很快可在其他平台上使用。

相关文档
最新文档