数据整合与BI应用的元数据标准化

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据整合与BI应用的元数据标准化

数据是各类信息化应用的核心,如何有效的利用数据,提供由价值的信息、促进共享是目前信息化应用的关键目标之一。在这种情况下,描述并有效利用各类息的元数据就变得更加重要,成为管理和应用各类信息资源的有效手段。因此,在数据整合与BI应用项目中,应科学地、规范地建立一套规范化的元数据标准。

正是有了元数据,才使得数据整合与BI应用的最终用户可以随心所欲地使用数据仓库(数据整合与BI应用的载体),利用数据仓库进行各种管理决策模式的探讨。元数据是数据整合与BI应用项目的灵魂,可以说没有元数据就没有数据整合与BI应用。

1. 元数据的一般概念

元数据(metadata)是关于数据的数据(data about data),是专门用来描述数据的特征和属性,描述和组织信息资源,发现信息资源的语言和工具。

(1)元数据是什么?

数据的数据 (data about data)

结构化数据 (Structured data about data)

用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的桥梁;

资源的信息 (Information about a resource)

编目信息 (Cataloguing information)

管理、控制信息(Administrative information)

是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource )

data that defines and describes other data (ISOIEC 11179-32003(E))

传统的书目数据、产品目录、人事档案等都是元数据。元数据可以为各种形态的信息资源提供规范、普遍的描述方法和检索工具,为分布的、由多种资源组成的信息体系提供整合的工具与纽带。离开元数据的数据整合与BI应用项目将是一盘散沙,无法提供有效的检索、处理和应对需求的变化。

(2)元数据与数据的关系

元数据也是数据,其本身也可以作为被描述的对象,这是描述它的数据就是元数据。在信息系统中一般把数据看成是独立的信息单元,不管这里的“数据”是一本书、一个网页、或者一个虚拟的 URL 地址。元数据可以出现在:

数据内部;

独立于数据;

伴随着数据;

与数据包裹在一起。

(3)元数据(metadata)概念提出的背景

“书目”作为元数据的一种形式在以图书为资源存在形式的相关行业应用了千百年,其它许多行业也都有自己的元数据格式,例如名册、账本、药典等等。“元数据”作为一个统一概念的提出首先起因于对电子资源管理的需要。因特网的爆炸式的发展,使人们一时难以

准确地找到自己所需的信息,人们就试图模仿图书馆对图书进行管理的方式,对网页进行编目。坦白地说在这方面至今仍然成效不大,甚至可以说是失败的。但对元数据的研究和应用使人们看到了新的可能性,元数据可以成为下一代万维网——“语义万维网(Semantic Web)”的基石,通过表达语义的元数据,以及表达结构、关系和逻辑的 XMLXMLSRDFRDFSOWL 等形式化描述,计算机能够对于数据所负载的语义进行理解和处理,从而赋予因特网以全球的智慧和惊人的能力。

(4)元数据能解决什么问题?

描述(description)

资源发现 (resources discovery)

认证(authentication)

互操作(interoperability)

数据管理(data management)

访问控制(rights management)

数字化保藏(digital preservation)

内容分级(content rating services)

2. 数据整合与BI应用项目中的元数据

在数据整合与BI应用中,元数据用于构造、维持、管理、和使用数据仓库。元数据在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。

在数据整合与BI应用中,元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。其范围可以是某个特别的数据库管理系统中从现实世界的概念上的一般概括,到详细的物理说明。

在数据库中,元数据是对数据库中各个对象的描述。关系数据库中,这种描述就是对表、列、数据库、观点和其他对象的定义。

从广义上讲,元数据代表定义数据仓库的任何对象,无论它是一个表、一个列、一个查询、一个业务规则,或者是数据仓库内部的数据转移等等。

3. 元数据的基本功能

(1)识别。确认并对要进行组织的信息资源进行个别化描述,使用户能识别被组织的资源对象。

(2)定位。提供信息资源位置的信息,以便用户访问时使用。

(3)检索。通过在描述数据中提供检索点,便于用户对资源的检索和利用。

(4)选择。通过记录信息资源的特征,诸如主题、作者、类型、物理形式、层次和日期等,供用户对信息资源的使用价值进行判断,决定是否使用该资源。

在数据整合与BI应用中,元数据机制主要支持以下五类系统管理功能:

(1)描述哪些数据在数据仓库中;

(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;

(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;

(4)记录并检测系统数据一致性的要求和执行情况;

(5)衡量数据质量。

4. 元数据的类型

(1)按元数据的类型分类

关于基本数据的元数据:包括数据源、数据仓库、数据集市和应用程序管理的所有数据。

用于数据处理的元数据

关于企业的组织结构的元数据

(2)按对象级别分类

概念级

逻辑级

物理级

(3)从用户的角度分类

通常把元数据分为技术元数据(Technical Metadata)、业务元数据(Business Metadata)和数据仓库操作型信息。

①技术元数据

包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。

数据源信息:

相关文档
最新文档