信息整合-元数据管理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息集成:元数据管理全景

2009年4月

作者:Kamlesh Mhashilkar,Jaideep Sarkar

翻译:ttnn 讨论组(/group/ttnn)(2010/12)中文译者:Daiyan, Hevin, LL, Zhou jian, Jackie Young, Q

摘要

无论在什么样的组织,商业智能(Business Intelligence , BI)的成功运用很大程度上都取决于有效的元数据(Metadata)管理。高水平的元数据设计,能为所有BI系统的数据充当路标,从而能够对这些数据进行高效地管理、控制变更和分发。

元数据实施最重要的是将系统中各种元数据进行整合利用。明确的元数据范式(Metadata Paradigm)有助于元数据实施,以达成BI系统信息集成的战略目标,并能够延伸到企业信息集成方案中。在某些实施中,元数据的架构和组件需要单独设计和构建,此时需要识别和分离出这些内容,进而构建强健的元数据资料库。本文提供了一个元数据架构和设计的基本准则。

本文描述了BI系统的元数据模型(Metadata Model),可以作为元数据架构设计的基准;并深入探讨了信息集成方案中的元数据全景,精心选用搭配的概念及策略,可以引导人们走向以价值驱动的企业元数据管理(Metadata Management)。

目录

概述 (4)

什么是元数据? (4)

元数据模型 (5)

什么是元数据模型? (6)

企业元数据模型 (7)

BI元数据模型 (8)

BI技术元数据 (10)

BI元数据实施域 (12)

后台元数据 (13)

前台元数据 (17)

对照元数据 (19)

水平与垂直回溯 (20)

水平回溯 (20)

垂直回溯 (22)

元数据管理拓扑结构 (22)

分布式元数据管理 (23)

集中式元数据管理 (24)

联邦式元数据管理 (28)

BIDS元数据管理方法论 (33)

框架定义 (34)

规格描述 (36)

详细设计 (36)

元数据管理成熟度模型 (37)

参考文献 (40)

关于作者 (40)

关于译者 (40)

概述

随着企业的不断成长和变化,处理日常事务的业务系统以及为业务运行提供管理信息的BI 系统也在不断演变,而企业内产生的数据也在随之变化。

企业的BI系统一个典型特征是以这种或那种方式“接触”到海量数据。BI的成功运用深度依赖于有效的元数据管理,通常被称作“关于数据的数据”。元数据为所有BI系统的数据充当路标,从而能够对这些数据进行高效地管理、控制变更和分发。全面的元数据管理保证了BI系统具有高质量的信息,并提供充分的扩展性,能满足新的信息需求和数据源增加。元数据实施是信息集成中的一部分,最重要的工作是将存储在各种工具中的元数据进行整合利用。而在某些实施中,元数据的架构和组件需要单独的设计和构建,此时需要识别和分离出这些内容,进而构建强健的元数据资料库。

本文列举了元数据架构设计和实施的主要考虑因素,可充当行动指南。与此同时需要说明的是,本文只是一整套信息集成文档中的一部分。

什么是元数据?

元数据通常被称作“关于数据的数据”,即用于描述其它数据的数据。术语“数据”(Data)可以通过多种方式进行解释。举例如下:

‘102250Richad King’这组数据可以有很多含义,列举一些为:

●美国东部时间10:22:50与Richad King约会

●订单编号为1022和(登记在)第50行的商品递送给Richad King

●温度为10,2250摄氏度的一个类星体称作Richard-King

●102250是TCS公司Richad King的员工编号

我们怎么知道哪一种解释是正确的呢?为此我们需要一些描述这些数据的信息,即元数据。让我们来考虑最后一种解释,描述‘102250Richad King’的元数据可以是:

●数据格式为:员工编码-Number(6),员工姓名-Varchar(30)

●如果员工编码数字的第一位不是9,则该员工不是商业伙伴

●编号为102250的员工于1997年1月1日加入TCS公司

●编号为102250的员工曾在BIPM部门服务

通过分析这些描述该组数据的数据,我们可以发现前两条定义了‘102250Richad King’的上下文;后两条并非描述数据的上下文背景,而是从细节上描述了蕴含在‘102250Richad King’中和主数据相关的详细内容。

因此需要注意一点,当我们说元数据是“关于数据的数据”时,我们需要确保所讨论的是数据的背景,而不是有关数据的详细细节或相关数据。元数据描述的是数据的背景、内容、数据结构及其生命周期管理。简而言之,元数据是“数据的背景”。

元数据管理全景包括三个部分内容:

●元数据模型

●元数据拓扑结构

●元数据管理方法论

下文我们将深入这些主题,以深入理解元数据管理。

元数据模型

元数据是BI架构中的一个重要组件。在BI环境中,元数据管理最主要是能方便地集成不同

数据库、数据模型、OLAP和ETL工具所包含的各式各样的元数据。元数据包括业务规则、数据源、汇总级别、数据别名、数据转换规则、技术配置、数据访问权限、数据用途等。设计良好的元数据模型能够提高管理、变更控制和分发元数据的效率,实现无缝的、端到端的跟踪回溯能力。

下面让我们来看看什么是元数据模型。

什么是元数据模型?

回到上一节中的例子。如果说“102250Richard King”是数据,下面则是元数据:

●员工代码类型为Number(6)——这告诉我们该数据中首6位字符是数字类型,代表员工代码;

●员工姓名类型为Varchar(30)——这告诉我们后面的30位字符是变长字符类型,表示员工姓名。这些元数据可以进一步抽象为元-元数据(Meta-Metadata),表示元数据的背景。从例子中可以看到,元数据实际就是告诉了我们该数据所包含元素名称(员工代码)和数据类型(Number(6))。用于更详细地描述元数据的信息叫做元-元数据,这是数据层面的术语。让我们从另一个角度来解释,上文所讨论的元数据显然是逻辑或物理数据模型中的元素或属性。因此,我们可以说数据模型就是元数据,这是模型层面的术语。元数据可以进一步抽象为元-元数据。数据模型通过表(Table)对象的实例构建,数据则用列、主键、外键、数据类型等区分,这就是元-元数据或称之为元数据模型。元数据模型自身可以被抽象出另一个层次——元数据信息通过主体、谓词和客体进行描述,主体通过谓词与客体发生关系。这种表述称作元-元模型(Meta-Meta Model)。

这些抽象级别可以通过两组术语进行描述,如下表所示:

相关文档
最新文档