元数据管理研究报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一.什么是元数据

元数据是:

• 数据的数据(data about data)

• 结构化数据(Structured data about data)

• 用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与

数据用户之间的桥梁;

• 资源的信息(Information about a resource)

• 编目信息(Cataloguing information)

• 管理、控制信息(Administrative information)

• 是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource )data that defines and describes other data (ISO/IEC 11179-3:2003(E))简单地说,元数据是数据仓库数据本身信息的数据(data about data)。

针对于数据仓库的元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。

技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:

•数据仓库结构的描述,包括仓库模式、视图、

维、层次结构和导出数据的定义,以及数据

集市的位置和内容;

•业务系统、数据仓库和数据集市的体系结构

和模式;

•汇总用的算法,包括度量和维定义算法,数

据粒度、主题领域、聚集、汇总、预定义的

查询与报告;

•由操作环境到数据仓库环境的映射,包括源

数据和它们的内容、数据分割、数据提取、

清理、转换规则和数据刷新规则、安全(用

户授权和存取控制)。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:

•企业概念模型:这是业务元数据所应提供的

重要的信息,它表示企业数据模型的高层信

息、整个企业的业务概念和相互关系。以这

个企业模型为基础,不懂数据库技术和SQL

语句的业务人员对数据仓库中的数据也能做

到心中有数。

•多维数据模型:这是企业概念模型的重要组

成部分,它告诉业务分析人员在数据集市当

中有哪些维、维的类别、数据立方体以及数

据集市中的聚合规则。这里的数据立方体表

示某主题领域业务事实表和维表的多维组织

形式。

业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维度、层次等之间的对应关系也应该在元数据知识库中有所体现。

元数据与数据是什么关系?

元数据也是数据,其本身也可以作为被描述的对象,这是描述它的数据就是元数据。在

信息系统中一般把数据看成是独立的信息单元,不管这里的“数据”是一本书、一个网页、或者一个虚拟的URL 地址。元数据可以出现在:

• 数据内部;

• 独立于数据;

• 伴随着数据;

• 与数据包裹在一起

元数据的作用

在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:

1.描述哪些数据在数据仓库中;

2.定义要进入数据仓库中的数据和从数据仓库

中产生的数据;

3.记录根据业务事件发生而随之进行的数据抽

取工作时间安排;

4.记录并检测系统数据一致性的要求和执行情

况;

5.衡量数据质量。

与其说数据仓库是软件开发项目,还不如说是系统集成项目,因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP 分析和数据挖掘等。它的典型结构由操作环境层、数据仓库层和业务层等组成。其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。元数据管理起到了承上启下的作用,具体体现在以下几个方面:

•便于集成

•提高系统的灵活性

•保证数据的质量

•帮助用户理解数据的意义

二.元数据管理状态

所谓元数据管理,就是对技术元数据和业务元数据进行管理,其目标是为了提升共享、重新获取和理解企业信息资产的水平.元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模块和工具之间的工作。

数据仓库元数据管理的成熟度模型及现状

元数据管理的成熟度模型

第一级: 随机状态(Ad-hoc)

行为特征在这一级上,对元数据的管理是随机的。元数据由某个人或某一组人员在局部产

生或获取,并在局部使用。在大多数时间里,元数据是隐匿在信息中,比如存储于诸如Wo

rd、Excel等形式的办公文档,这些文档使用的术语仅局部的用户能知道其确切含义。人们通过与“责任人”直接通信或通过信息会话来获取这些知识。在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。

相关文档
最新文档