(整理)数据仓库与元数据管理
数据仓库主题设计及元数据设计
数据仓库主题设计及元数据设计3.4 明确仓库的对象:主题和元数据大多数商务数据都是多维的,所以采集和表示三维以上的数据不能完全借用业务数据库设计中的方法,必须有一种新的方法来表达多维数据。
现阶段流行的有2种方法,一是面向对象方法,即把商务数据抽象为对象,再使用Rational Rose等对象建模工具来表达这些对象;另一种方法就是使用信息包图,这是一种简便且高效的方法,在项目中使用的普及率很高。
信息包图实际上是自上而下数据建模方法的一个很好的工具。
自上而下的建模技术从用户的观点开始设计。
用户的观点是通过与用户交流得到的,可以进一步明确用户的信息需求。
自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响商务活动的方式,它使得设计者可以围绕着一个通常的主题或商务领域进行信息包的开发。
下面就详述如何通过信息打包技术建立信息包图,从而确定数据仓库中的主题和元数据。
3.4.1 信息打包技术1.信息打包技术的基本使用信息打包法是一种自顶向下的设计方法,它从管理者的角度出发把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性。
此法具体分4个阶段:(1)采用自顶向下的方法对商务数据的多维特性进行分析,用信息打包图表示维度和类别之间的传递和映射关系,建立概念模型。
其中类别是按一定的标准对一个维度的分类划分,如产品可按颜色、质地、产地和销地等不同标准分类。
(2)对企业的大量的指标实体数据进行筛选,提取出可利用的中心指标。
其中指标也称为关键性能指标和关键商务测量的值,是在维度空间衡量商务信息的一种方法。
比如产品收入金额、原材料消耗、补充新雇员或设备运行时间等都可以叫做指标。
(3)在信息打包图的基础上构造星形图,对其中的详细类别实体进行分析,进一步扩展为雪花图,建立逻辑模型。
(4)在星形图和雪花图的基础上,根据所定义数据标准,通过对实体、键标、非键标、数据容量、更新频率和实体特征进行定义,完成物理数据模型的设计。
企业元数据管理_元数据梳理方法与实践
企业元数据管理_元数据梳理方法与实践企业元数据管理是一种管理企业信息资源的方法,通过对企业信息资源进行整理、分类和描述,方便企业管理和利用这些信息资源。
元数据是对数据的描述,包括数据的定义、结构、属性、关系等信息。
元数据梳理是指对企业的元数据进行整理和分类。
元数据梳理的方法与实践主要包括以下几个步骤:第二步,收集元数据。
收集元数据是梳理的基础,可以通过各种手段进行元数据的收集,如查阅文档、采访相关人员、分析系统日志等。
收集到的元数据可以分为结构化和非结构化两种类型,结构化的元数据可以通过数据库或电子表格进行整理,非结构化的元数据可以通过文档或笔记进行整理。
第四步,建立元数据仓库。
元数据仓库是存储和管理元数据的系统,可以通过元数据仓库对元数据进行管理、和浏览。
建立元数据仓库时,需要选择合适的工具和技术,如数据模型设计工具、数据字典工具等。
元数据梳理的实践中还需要注意一些问题:首先,明确梳理的目标和需求。
企业元数据往往非常庞大复杂,梳理所有的元数据是不现实的,需要明确梳理的目标和需求,集中资源进行梳理。
其次,合理利用现有资源。
企业往往已经有一些已经存在的元数据,如数据库、数据字典等,可以在梳理过程中合理利用这些资源,减少工作量和成本。
再次,建立合适的元数据管理制度。
在进行元数据梳理时,需要建立合适的管理制度,明确责任人和流程,确保元数据的质量和准确性。
最后,持续改进和优化。
元数据梳理是一个持续的过程,需要不断改进和优化,及时修正错误和不足,保证元数据的有效性和适用性。
总之,企业元数据管理是企业信息管理和利用的重要手段,元数据梳理是实施元数据管理的基础工作。
通过明确目标和范围、收集和整理元数据、建立元数据仓库、维护元数据等步骤,可以实现对企业元数据的有效管理。
数据仓库元数据管理
数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行管理和维护的过程。
元数据是描述数据的数据,它提供了关于数据的定义、结构、属性、关系以及数据的来源和用途等信息。
数据仓库中的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。
数据仓库元数据管理的目标是保证数据仓库中的元数据准确、完整、一致和可靠。
通过对元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,进而提高数据仓库的价值和效用。
数据仓库元数据管理的主要任务包括元数据收集、元数据存储、元数据维护和元数据使用等。
1. 元数据收集:- 根据数据仓库的设计和需求,收集相关的元数据信息。
- 可以通过手工录入、自动抽取、数据字典等方式进行元数据的收集。
- 收集的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。
2. 元数据存储:- 将收集到的元数据存储到元数据仓库中,以便后续的管理和使用。
- 元数据仓库可以使用关系型数据库、NoSQL数据库、文件系统等进行存储。
- 存储的元数据需要按照一定的结构进行组织和管理,以方便后续的检索和使用。
3. 元数据维护:- 对元数据进行定期的维护和更新,以保证其准确、完整、一致和可靠。
- 可以通过手工维护、自动抽取、数据字典同步等方式进行元数据的维护。
- 维护的内容包括元数据的新增、修改、删除等操作,以及元数据的版本管理和权限管理等。
4. 元数据使用:- 利用元数据提供的信息,支持数据仓库的各项管理和运维工作。
- 可以通过元数据进行数据质量管理、数据血统分析、数据变化跟踪等工作。
- 元数据还可以支持数据仓库的数据集成、数据查询、数据分析等应用。
数据仓库元数据管理的实施需要借助相应的工具和技术。
常用的工具包括元数据管理工具、数据建模工具、数据字典工具等。
常用的技术包括数据抽取、数据转换、数据加载(ETL)技术、数据建模技术、数据质量管理技术等。
元数据管理
元数据管理1. 什么是元数据管理元数据管理是对数据的描述、定义和管理,包括数据的属性、格式、来源、质量、关系等信息。
元数据通常被用于数据集成、数据分析、数据挖掘、数据治理、数据质量管理和数据安全等方面。
元数据可以提高数据资源的使用效率,促进应用系统的互操作性,提高数据的可信度和可重复性,降低数据管理成本,提高数据价值。
元数据管理可以分为三个层次:(1) 概念层元数据:描述数据的业务名义、业务规则、数据类别、数据的主体及其关系等。
(2) 逻辑层元数据:描述数据的逻辑模型、数据结构、数据和业务的关系等。
(3) 物理层元数据:描述数据的物理组织结构、存储方式、数据格式、访问方法等。
2. 元数据管理的价值元数据管理有助于提高数据资源的使用效率和数据管理的质量,其价值主要表现在以下几个方面:(1) 提高数据的可重复性和可信度元数据可以提供数据质量和数据来源的相关信息,使得数据的使用和转换能够更加准确地反映现实世界,提高数据的可信性和可重复性。
(2) 促进系统的互操作性元数据提供了关于数据之间相互关系的描述,可以促进不同系统之间的信息交流和协作,使系统更加互操作,便于数据资源的共享和利用。
(3) 降低数据管理的成本元数据可以提供数据的相关信息,使得数据的使用和管理更加高效,减少了重复性的工作量,降低了数据管理的成本,提高了数据资源的利用价值。
(4) 提供更加全面的数据支持元数据可以描述数据的特征、属性和约束条件等信息,涵盖了对数据的所有方面的考虑,使得数据资源对于业务的支持更加全面。
3. 元数据管理的应用场景元数据管理可以应用于以下几个方面:(1) 数据集成:元数据管理可以用于数据的集成,通过描述数据的属性和关系等信息使得数据能够在不同的系统之间交换和共享,促进数据的一体化管理。
(2) 数据分析:元数据管理可以提供数据质量、数据结构等信息,帮助用户对数据进行分析和挖掘,提高数据的分析效率。
(3) 数据治理:元数据管理可以用于数据的规范化和管理,描述数据的源头、质量等信息,保证数据的合法性和一致性。
数据仓库元数据管理
数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护,以确保数据仓库的可靠性和准确性。
元数据是描述数据的数据,它包括数据的定义、结构、关系、来源、用途等信息。
数据仓库中的元数据管理是数据仓库管理的重要组成部分,它对于数据仓库的建设和运营具有重要意义。
一、元数据管理的意义1. 提高数据仓库的可理解性和可维护性:通过对元数据的管理,可以使数据仓库的结构和内容更加清晰和易于理解,从而提高数据仓库的可维护性和可理解性。
2. 提高数据仓库的数据质量:元数据管理可以对数据仓库中的数据进行监控和评估,及时发现数据质量问题,并采取相应的措施进行修复,从而提高数据仓库的数据质量。
3. 提高数据仓库的数据一致性:通过元数据管理,可以对数据仓库中的数据进行统一的定义和管理,确保数据仓库中的数据一致性,避免数据冗余和不一致的问题。
4. 提高数据仓库的数据可追溯性:元数据管理可以记录数据仓库中数据的来源、变更历史等信息,使数据的变更过程可追溯,方便数据仓库的审计和管理。
二、元数据管理的内容1. 元数据定义和标准化:对数据仓库中的元数据进行定义和标准化,明确元数据的含义和格式,确保元数据的准确性和一致性。
2. 元数据收集和录入:通过各种手段和工具,收集数据仓库中的元数据,并将其录入到元数据管理系统中,建立元数据的库存。
3. 元数据的分类和组织:对元数据进行分类和组织,建立元数据的层次结构和关系,方便元数据的检索和使用。
4. 元数据的维护和更新:定期对元数据进行维护和更新,及时反映数据仓库中数据的变化和更新。
5. 元数据的查询和检索:提供元数据查询和检索的功能,方便用户查找和使用数据仓库中的元数据。
6. 元数据的安全管理:对元数据进行安全管理,设置权限和访问控制,保护元数据的安全性和机密性。
7. 元数据的版本管理:对元数据进行版本管理,记录元数据的变更历史,方便进行数据仓库的版本控制和管理。
三、元数据管理的流程1. 元数据收集和录入流程:(1)确定元数据的收集范围和目标。
数据元与元数据、数据项区别
数据元与元数据、数据项区别引言概述:在数据管理领域,数据元、元数据以及数据项是三个重要的概念。
虽然它们之间有一定的联系,但是在定义和使用上却存在一些差异。
本文将从数据元与元数据、数据项的定义、特点和应用等方面进行详细比较和分析,以便更好地理解它们之间的区别。
一、数据元的定义、特点和应用:1.1 数据元的定义:数据元是数据的最小单位,是对现实世界中某个实体或属性的抽象表示。
它通常包含数据元名称、标识符、数据类型、长度等信息。
1.2 数据元的特点:数据元具有独立性、唯一性和不可再分性的特点。
它是数据管理的基本单位,可以被其他数据元组合成更复杂的数据结构。
1.3 数据元的应用:数据元在数据模型设计、数据库设计和数据标准化等方面起着重要作用。
通过对数据元的定义和管理,可以更好地组织和管理数据,提高数据的质量和可靠性。
二、元数据的定义、特点和应用:2.1 元数据的定义:元数据是描述数据的数据,是数据的补充信息。
它包括数据元的定义、属性、关系、来源等信息,用于描述数据的特性和结构。
2.2 元数据的特点:元数据具有描述性、管理性和可重用性的特点。
它可以帮助用户更好地理解数据的含义和用途,提高数据的可管理性和可维护性。
2.3 元数据的应用:元数据在数据仓库、数据集成、数据挖掘等领域中被广泛应用。
通过元数据的描述和管理,可以实现数据的共享和交换,提高数据的可用性和可访问性。
三、数据项的定义、特点和应用:3.1 数据项的定义:数据项是数据的基本单位,是对数据元的具体实例。
它包含具体的数值、文本或图像等信息,是数据的实际载体。
3.2 数据项的特点:数据项具有具体性、可变性和可操作性的特点。
它可以被用于数据的输入、输出、存储和处理等操作。
3.3 数据项的应用:数据项在数据交换、数据处理、数据分析等方面发挥着重要作用。
通过对数据项的定义和管理,可以实现数据的有效传递和利用,提高数据的效率和准确性。
四、数据元、元数据、数据项之间的联系和区别:4.1 数据元与元数据的联系:数据元是元数据的基本组成部分,元数据描述了数据元的属性和关系。
元数据管理及其在数据仓库中的应用研究
息 共 享 程 度
通 过 将企 业 分 散 在 多 个 应 用 系 统 中 的数 据 库 、 程 序 、 发文 档 和相 关 的业 务 流 程 文件 中 的元 数 据 开 集 中管 理 , 为企业 提 供 现有 系统 、 用 的完 整数据 现 应 状 视 图 , 向相关 人 员共 享 这些 数 据信 息 。 并
在通 常 的 系统 开 发 过 程 中 , 数 据 关 系 缺 乏规 元 范 的 、 一 的描 述 , 响 系统 管 理 和维 护 的效率 和质 统 影 量, 系统 开 发周 期长 。有 了元数 据 管理 , 系统开 发人 员 可合 理规 划 开发 计 划 和 确 定 工 作 难 点 , 改 造 和 对 升 级 等工作 进 行影 响 分 析 , 高 系 统 建 设 各 环节 的 提
数 据 管理 的构 建架 构 、 主要 内容和 应 注意 的 问题 。 关 键词 : 数 据 ; 元 元数 据管 理 ; 据仓 库 数 中图分 类 号 : 3 1 1 TP 1 . 3 文献标 识码 :A 文章编 号 :0 8 9 4 2 0 ) 4 1 0 3 1 0 —3 4 ( 0 6 0 —0 3 —0
( ) 保 企业数 据 的 准确 性 、 二 确 一致 性 、 完整 性 通 过 元数 据 的集 中管 理 和 控 制 , 现 其 中 的 问 发 题 并加 以 改正 , 确保 企业 数 据 的准 确性 、 致性 和完 一 整性 , 进而 提 升企业 的 数据 质量 。 ( ) 供 系统 开发 、 护 、 造与 升级 的支 持 三 提 维 改
元 数 据 管理 及 其在 数 据 仓 库 中 的应 用 研 究
平 静 平 林 瑞 。 ,
元数据管理:数据质量的核心要素
元数据管理:数据质量的核心要素元数据管理是现代数据管理中至关重要的一环,它承担着数据质量保证的核心要素角色。
元数据是描述数据的数据,是对数据资源及其特性的描述,可以帮助我们更好地理解数据的含义、结构、关系和来源。
通过对元数据的管理,可以有效地提高数据质量,确保数据的准确性、完整性、一致性和及时性。
在信息化发展的今天,数据质量已经成为企业发展和决策的关键因素之一,而元数据管理则成为保障数据质量的基石。
元数据管理的定义和作用元数据是指用于描述数据的数据,包括数据的定义、结构、属性、关系、存储方式、使用范围等信息。
元数据可以帮助我们理解数据的含义和背景,帮助我们更好地掌握和管理数据资源,提高数据分析和应用的效率。
元数据可以分为三种类型:技术元数据、业务元数据、管理元数据。
元数据管理是对元数据进行有效管理和维护的过程,主要包括元数据的采集、存储、维护、共享和应用等环节。
元数据管理在数据治理和数据管理中起着至关重要的作用,它可以帮助组织更好地理解和利用自己的数据资源,提高数据开发和分析的效率,确保数据质量和数据安全。
元数据管理与数据质量数据质量是数据管理的核心问题之一,它影响着数据的可信度和有效性。
而元数据管理作为数据质量保障的核心要素,也是确保数据质量的有效手段之一。
•数据准确性:通过元数据管理,可以确保数据的准确性,避免数据的误导性和错误性。
•数据完整性:元数据可以帮助我们了解数据的完整性要求,通过元数据管理可以检验数据的完整性,保证数据的有效性和完整性。
•数据一致性:通过元数据管理可以掌握数据在不同系统和环境中的一致性,避免数据不一致造成的问题。
•数据及时性:通过元数据管理可以了解数据的更新频率和时间,保证数据的及时性,使数据能够及时反映现实的变化。
元数据管理的实践如何进行元数据管理?以下是一些元数据管理的实践建议:•元数据采集:收集和录入数据的元数据信息,包括数据表结构、数据定义、数据更新时间等信息。
数据仓库的基本架构
数据仓库的基本架构数据仓库是一个用于集成、存储和管理企业数据的系统。
它提供了一个可靠的数据源,用于支持企业的决策制定、分析和报告。
数据仓库的基本架构包括以下几个关键组件和层次:1. 数据提取层(Extraction Layer):数据仓库的第一步是从各个源系统中提取数据。
这些源系统可以是企业内部的业务系统、关系数据库、日志文件等。
数据提取层负责从这些源系统中抽取数据,并将其转换成适合数据仓库的格式。
2. 数据转换层(Transformation Layer):在数据提取层之后,数据需要经过一系列的转换和清洗操作,以确保数据的一致性和准确性。
数据转换层包括数据清洗、数据集成、数据转换和数据加载等过程。
在这个层次上,数据被转换成适合数据仓库的结构和格式。
3. 数据存储层(Storage Layer):数据存储层是数据仓库的核心组件,用于存储经过转换的数据。
数据存储层通常采用多维数据模型,如星型模型或雪花模型,以支持复杂的查询和分析操作。
在数据存储层中,数据被组织成事实表和维度表的形式。
4. 数据访问层(Access Layer):数据访问层提供了对数据仓库的查询和分析功能。
用户可以使用各种工具和技术,如SQL查询、OLAP(联机分析处理)工具和数据挖掘工具,来访问和分析数据仓库中的数据。
数据访问层还可以提供数据报表、数据可视化和仪表板等功能。
5. 元数据管理层(Metadata Management Layer):元数据是描述数据仓库中数据的数据。
元数据管理层负责管理和维护数据仓库的元数据,包括数据定义、数据质量、数据血缘等信息。
元数据管理层可以帮助用户理解和使用数据仓库中的数据。
6. 安全和权限层(Security and Authorization Layer):安全和权限层用于保护数据仓库中的数据免受未经授权的访问和滥用。
这个层次上,可以实施各种安全措施,如用户认证、访问控制和数据加密等。
7. 数据质量管理层(Data Quality Management Layer):数据质量管理层用于监控和管理数据仓库中数据的质量。
元数据管理制度
元数据管理制度一、引言随着信息技术的发展和数据量的爆炸增长,元数据管理在企业中变得越来越重要。
元数据是描述数据的数据,是数据的关键资产。
合理管理元数据可以提高数据质量、管理数据资产,以及支持企业数据治理和决策。
本文将阐述元数据管理的重要性、管理原则、管理方法和操作流程,以及具体的管理制度。
二、元数据管理的重要性1.促进数据共享和集成:元数据是数据的描述,通过管理元数据可以促进数据共享和集成。
当各部门和系统都遵循同一种元数据标准时,数据的集成会更加容易,各方之间可以更好地共享数据。
2.提高数据质量:元数据管理可以帮助企业建立数据质量标准和规范,确保数据质量始终如一。
通过元数据管理,可以更好地了解数据的来源、含义、结构和关系,从而提高数据的准确性、完整性和一致性。
3.支持数据治理和决策:元数据是数据的关键抽象,通过管理元数据可以更好地了解数据资产、数据风险和数据价值。
有了清晰的元数据,企业可以更好地制定数据治理策略、做出数据决策,并支持企业的业务目标。
4.降低数据管理成本:随着数据量不断增长,数据管理的成本也在增加。
通过合理管理元数据,可以减少数据管理的成本,提高数据管理效率,降低风险。
5.促进数据分析和挖掘:元数据可以帮助用户更好地了解数据的结构和关系,为数据分析和挖掘提供支持。
通过元数据管理,可以更快、更准确地进行数据分析和挖掘,挖掘出数据背后的价值。
三、元数据管理原则1.一致性原则:元数据管理应该遵循一致性原则,即各部门和系统都应该使用同一种元数据标准,以确保元数据的一致性和准确性。
2.全面性原则:元数据管理应该是全面的,涵盖所有数据资产,包括结构化数据、非结构化数据、半结构化数据等,确保所有数据都受到管理。
3.及时性原则:元数据管理需要及时更新和维护,随着数据的不断变化,元数据也需要不断更新和调整,以保持元数据的准确性和时效性。
4.安全性原则:元数据管理需要确保元数据的安全性和机密性,防止元数据被未经授权的访问和篡改,保护数据资产的安全。
元数据管理
元数据管理元数据管理是指对数据的描述信息进行管理和组织的一种方法。
随着信息时代的到来,大量的数据被不断地产生和积累,元数据管理的重要性也日益凸显。
首先,元数据是对数据的描述性信息,可以帮助用户更好地理解和使用数据。
通过元数据,用户可以了解到数据的来源、格式、内容、质量等方面的信息,从而更好地判断数据的可信度和适用范围。
例如,在一个大数据平台中,元数据可以包括数据表的名称、字段的定义、索引的信息等,用户可以通过元数据来查询和选择适合自己需要的数据,提高数据的使用效率。
其次,元数据管理可以提高数据的可发现性和可利用性。
在一个庞大的数据集中,存在着大量的数据文件和数据表,如何迅速地找到所需的数据并且有效地使用起来是一个非常重要的问题。
通过元数据管理,可以实现对数据的分类、标注和索引,帮助用户更方便地查询和检索数据。
比如,通过标注数据的类型、主题、作者等信息,可以将数据进行分类和组织,便于用户进行检索和使用。
另外,元数据管理也可以提高数据的一致性和可靠性。
在一个复杂的数据环境中,不同的应用系统可能会产生相同或者相似的数据集,这样就容易造成数据的重复和冗余。
通过元数据管理,可以对数据进行去重和去冗余的处理,从而提高数据的一致性和可靠性。
例如,在数据仓库中,通过元数据管理可以对数据进行清洗和转换,去除冗余数据,提高数据的质量和准确性。
此外,元数据管理还可以帮助数据的共享和交流。
在现实生活中,不同的组织和部门可能都有相同或者相似的数据需求,但是由于数据的格式和结构不同,导致数据无法进行共享和交流。
通过元数据管理,可以对数据进行标准化和描述,使不同的数据源可以进行互联互通,方便数据的共享和交流。
例如,在一个开放数据平台中,通过标准化的元数据,可以使各个数据提供方和数据使用方进行数据的交互和共享,推动数据的流动和利用。
总结起来,元数据管理是一种重要的数据管理方法,可以帮助用户更好地理解和使用数据,提高数据的可发现性和可利用性,提高数据的一致性和可靠性,促进数据的共享和交流。
元数据管理
元数据管理元数据管理是指对数据的描述性信息进行管理和维护的过程。
元数据是指对数据的描述性信息,包括数据的结构、内容、关系、格式、语义和使用规则等。
元数据管理的目标是确保数据的准确性、一致性和可靠性,使数据更容易被理解、访问和使用。
元数据管理包括以下几个方面:1. 元数据收集和录入。
元数据收集是指对数据源的信息进行收集和整理,包括数据的来源、结构、格式、存储方式等。
元数据录入是将收集到的元数据信息录入到元数据管理系统中,以便进行管理和查询。
2. 元数据分析和建模。
元数据分析是根据收集到的元数据信息进行分析和提炼,形成元数据模型。
元数据模型是对数据的描述性信息进行整理和组织的框架,包括数据的属性、关系和约束等。
3. 元数据存储和维护。
元数据存储是指将收集到的元数据信息存储到元数据管理系统中,以便进行查询和使用。
元数据维护是对元数据信息进行更新、清理和修复,确保元数据的准确性和完整性。
4. 元数据查询和检索。
元数据查询是指通过元数据管理系统对存储的元数据信息进行查询和检索,以便快速找到所需的数据。
元数据查询可以根据不同的条件和要求进行过滤和排序,提高数据的查找和使用效率。
5. 元数据关系和共享。
元数据关系是指不同元数据之间的关系和依赖,包括数据的血缘关系、依赖关系和继承关系等。
元数据共享是指将元数据信息共享给其他系统和用户,提高数据的交流和共享效率。
元数据管理的好处包括:1. 提高数据质量。
通过元数据管理,可以更好地理解和描述数据,减少数据的错误和不一致性。
2. 提高数据分析和决策能力。
通过元数据管理,可以更好地理解和解释数据,为数据分析和决策提供更准确的依据。
3. 提高数据共享和协作能力。
通过元数据共享,不同系统和用户可以更好地理解和使用数据,提高数据的共享和协作效率。
4. 提高数据安全和隐私保护能力。
通过元数据管理,可以对数据的敏感信息进行标识和保护,提高数据的安全性和隐私保护能力。
总之,元数据管理是对数据的描述性信息进行管理和维护的过程,通过元数据管理可以提高数据质量、分析能力、共享能力和安全性,为数据的理解、访问和使用提供更好的支持。
元数据在数据管理中的作用
元数据在数据管理中的作用元数据(Metadata)是指描述数据的数据,它是数据管理中不可或缺的一部分。
在数据管理过程中,元数据起着重要的作用,它不仅可以提供关于数据的详细信息,还可以帮助数据管理者更好地理解、组织和利用数据。
本文将从不同角度探讨元数据在数据管理中的作用。
元数据在数据管理中起到了数据描述的作用。
通过元数据,数据管理者可以了解到数据的来源、格式、结构、含义等信息。
这些信息可以帮助数据管理者准确地理解数据的意义和价值,为数据的管理和使用提供了基础。
元数据在数据管理中起到了数据检索和发现的作用。
在庞大的数据集中,通过元数据的描述,可以快速定位到所需的数据。
例如,在一个企业的数据仓库中,通过元数据可以快速找到某个特定日期范围内的销售数据,或者某个特定地区的客户信息。
元数据的使用可以提高数据的检索效率,节省时间和资源。
元数据在数据管理中还起到了数据质量管理的作用。
元数据可以描述数据的准确性、完整性、一致性等质量特征,帮助数据管理者评估和监控数据的质量。
通过元数据,数据管理者可以了解数据的来源、处理过程和质量控制措施,及时发现和解决数据质量问题,确保数据的可信度和可靠性。
元数据还在数据管理中发挥了数据集成和共享的作用。
在一个组织内部,不同部门可能使用不同的数据源和数据格式,通过元数据的描述,可以将这些异构数据进行集成和共享。
元数据可以提供数据的结构和语义信息,帮助数据管理者进行数据映射和转换,实现数据的无缝集成和共享。
元数据还在数据管理中起到了数据安全和隐私保护的作用。
元数据可以描述数据的敏感性、访问权限和使用规则等信息,帮助数据管理者制定和执行数据安全策略。
通过元数据,可以限制特定用户或角色对敏感数据的访问权限,保护数据的安全性和隐私性。
元数据还在数据管理中起到了数据分析和决策支持的作用。
通过元数据的描述,可以了解到数据的历史变化和趋势,帮助数据管理者进行数据分析和挖掘。
元数据可以提供数据的统计特征、关联关系和规则,为数据分析和决策提供有力支持。
元数据管理
朋友老朱在最近惊喜地发现,在营业部的每周例会上,原先各部门针对每日用户数的争执声,现在逐渐销声匿迹了。
原来,老朱所在的这家电信运营商,最近刚刚验收并启用了一个元数据管理平台工具。
通过这一平台,IT 部门可以在那些曾经引起激烈争执的数字后面加之详细的注解。
这样,即便各部门得出的当日用户数数值不一样,也能在注解中清晰地看到具体的差异在哪里。
如此,自然再没有了吵来吵去的必要。
元数据,最常见的定义是:“关于数据的数据”。
更准确一点说:元数据是描述流程、信息和对象的数据。
这些描述涉及像技术属性(例如,结构和行为)这样的特征、业务定义(包括字典和分类法)以及操作特征(如活动指标和使用历史)。
早在上世纪末,元数据的概念和相关工具就已经浮现,但限于当时的数据量还不够大,而元数据本身又包含太多的内容,以至于它并未得到充分利用。
而在今天看来,元数据正在成为解决诸多数据问题时必须要抓住的一个“精髓”要素。
消弭争执在此前一年中,老朱所在的那家电信运营商,各部门之间时常就每日用户数这种问题的指标数值不一致而吵得面红耳赤。
其实,在其他电信公司或者其他行业中也都存在着类似问题。
简单来讲,这些公司通过各个时期的IT 建设,形成为了不少个独立分开的系统。
以电信运营商为例,就有计费系统、网络系统、OA 系统、财会系统和客服系统等等。
在这些系统中,存有不同的客户信息,具体体现就是不同格式的表。
两年前,公司的数据仓库项目建设完成,本以为这会大步提升IT 系统的“智能性”,没想到,基层的反映却是根本没法用。
而其中的原因就在于,数据质量没法保证,也即:在业务逻辑上并不许确,各部门对于指标的定义不能统一。
以当日用户数为例。
对于这一指标,市场部、网络部、计费部等部门给出的定义并不一样。
按照元数据技术的术语来讲,就是在业务元数据上,大家对于业务的认识并不统一。
比如:计费部门认为,一个用户当天曾经拨打电话,就可以计入到当日用户数;而财务部门则认定,惟独在发生费用之后才干计入;至于网络部,则认为当天开机的用户就可以算作当日用户。
数据仓库元数据管理
数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护的过程。
元数据是描述数据仓库中各种数据对象(如表、列、视图等)的数据,它包含了数据的定义、结构、关系以及数据的属性和特性等信息。
数据仓库元数据管理的目标是确保数据仓库中的元数据准确、一致、完整,并能够满足数据仓库的需求。
一、元数据的定义和分类元数据是指描述数据仓库中各种数据对象的数据,它包含了数据的定义、结构、关系以及数据的属性和特性等信息。
元数据可以分为三类:技术元数据、业务元数据和操作元数据。
1. 技术元数据:技术元数据是描述数据仓库的物理结构和技术实现的元数据,包括数据库表、列的定义、索引、分区等信息。
它主要用于数据仓库的设计、开辟和维护。
2. 业务元数据:业务元数据是描述数据仓库中业务对象的元数据,包括业务规则、业务过程、业务属性等信息。
它主要用于数据仓库的业务分析、报表生成和决策支持。
3. 操作元数据:操作元数据是描述数据仓库中的操作和操作者的元数据,包括数据仓库的操作日志、权限管理、用户信息等。
它主要用于数据仓库的操作和安全管理。
二、数据仓库元数据管理的重要性数据仓库元数据管理对于数据仓库的有效运行和管理至关重要。
以下是数据仓库元数据管理的重要性:1. 数据仓库设计和开辟:通过对技术元数据的管理,可以准确描述数据仓库的物理结构和技术实现,匡助设计和开辟人员理解和掌握数据仓库的结构和特性,提高设计和开辟的效率和质量。
2. 数据仓库维护和优化:通过对技术元数据的管理,可以及时发现和解决数据仓库中的问题,如性能问题、数据冗余等,并进行相应的优化和调整,保证数据仓库的正常运行和高效性能。
3. 业务分析和决策支持:通过对业务元数据的管理,可以准确描述数据仓库中的业务对象和业务规则,匡助业务分析人员理解和分析业务数据,提供准确、及时的决策支持。
4. 数据质量和数据一致性:通过对技术元数据和业务元数据的管理,可以确保数据仓库中的数据质量和数据一致性。
数据仓库元数据管理
数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护,以确保数据仓库的准确性和可靠性。
元数据是描述数据的数据,它包括数据的定义、结构、关系以及数据在数据仓库中的位置等信息。
对元数据进行管理可以匡助数据仓库管理员和用户更好地理解和使用数据仓库中的数据。
数据仓库元数据管理的目标是建立一个完善的元数据管理体系,包括元数据的采集、存储、更新和查询等功能。
下面将详细介绍数据仓库元数据管理的各个方面。
1. 元数据采集元数据采集是指采集数据仓库中各个组件的元数据信息。
这些组件包括数据表、列、索引、视图、分区等。
元数据采集可以通过手工输入、自动扫描或者集成外部工具等方式进行。
采集到的元数据应包括数据的定义、结构、数据类型、数据长度、数据格式、数据来源、数据质量等信息。
2. 元数据存储元数据存储是指将采集到的元数据信息存储到元数据仓库中。
元数据仓库是一个专门用于存储和管理元数据的数据库。
元数据存储应采用标准的数据模型和结构,以方便元数据的查询和管理。
同时,元数据存储还应具备高可用性、可扩展性和安全性等特点,以确保元数据的可靠性和安全性。
3. 元数据更新元数据更新是指对数据仓库中的元数据进行维护和更新。
元数据的更新可以包括新增、修改和删除等操作。
新增元数据是指在数据仓库中新增数据表、列、索引等元数据信息。
修改元数据是指对数据仓库中已有的元数据进行修改,如修改数据表的结构、数据类型等信息。
删除元数据是指从数据仓库中删除再也不使用的元数据信息。
4. 元数据查询元数据查询是指根据用户的需求,从元数据仓库中检索和查询所需的元数据信息。
元数据查询可以通过图形界面工具、命令行工具或者编程接口等方式进行。
查询结果应包括元数据的详细信息和相关的数据仓库对象信息,以满足用户对数据仓库的需求。
5. 元数据管理元数据管理是指对数据仓库中的元数据进行全面的管理和监控。
元数据管理包括元数据的备份和恢复、权限管理、版本管理、数据质量管理等功能。
数据仓库元数据的集成及管理
仓 库 数 据 模 型 , 据 汇 总 规 则 等 。 主要 为 负 责 开 发 , 数 它 维护 和 管 理 数 据
4 仓库的 I 员服务。 T人 业 务元 数 据 : 从 业 务 的角 度 来 描 述 数 据仓 库 中 的数 据 。 如 . 它 例 预
元数 据模 型 的 集成 方法
C WM( 共 元 数 据 模 型 ) 公 是一 个 完 整 描 述 数 据 仓 库 和 业 务 分 析 领 定 义 的查 询 和 报 表 , 业 的概 念 模 型 , 据转 换 的商 业 规 则 等 。 为最 域 的元 模 型 。它 提 供 构 建元 数 据 所 需 的 语 法 和 语 义 , 用 这 些 数 据可 企 数 它 利 终 用 户 服 务 , 最 终 用 户 能 够 理 解 系统 的各 项 操 作 . 使 以便 更 好 地 应 用 以 描述 一 个 完 整 的 IC( 息 供 应 链 ) S 信 的所 有 组 成 部 分 。C M 用 U W ML 数 据仓 库 为 其 服 务 。 表 示 , WM 对 U C ML的子 集 进 行 了扩 展 经 包 含数 据 仓库 和业 务 领 域 的
1 元 数 据 的定 义 及 分 类
元数 据 通 常 被 定 义 为 :关 于 数 据 的 数 据 ” 它 是 描述 数 据仓 库 内 34 建 立 一 个 元 数 据 访 问 和整 个 元 数 据 生 命 周 期 管 理 的系 统 ,它 是 “ 。 . 数 据 的结 构 和 建 立 方 法 的数 据 。 数 据 可 以按 系统 用 户 的 角 度 主要 分 元 数 据 访 问 和 集 聚 的平 台 。 据 仓 库 所 有 的元 数 据 都 存 放 在元 数 据 库 元 数 为 两 类 : 技 术 元 数 据 (ehia Mea ̄a 和 业 务 元 数 据 fuies 中 , 现 元 数 据 的集 成 。 T cncl t d ) Bs s n 实
数据仓库系统中元数据的应用
班级:财务管理08-7 学号:080505060710 姓名:刘佳文方向:数据仓库随着信息爆炸时代的到来,企业积累了大量的内部和外部数据,然而如何从这些数据中挖掘出有用的信息进行预测分析已越来越成为技术人员和决策者关心的问题。
为了更好的管理和决策,许多企业选择了数据仓库(Data Warehouse) 作为决策支持系统(Decision Support System DSS) 的核心,尤其近年来兴起的商业智能(BI),更是糅合了数据仓库、DSS、数据挖掘和人工智能(AI)等多种技术, 实现了商业管理的集成化和智能化、网络化。
数据仓库是支持管理决策过程的、面向主题的、集成的、不可更新的且随时间不断变化的数据集合。
利用数据仓库, 对源数据经过提取、转换、加载形成统一的数据格式,再利用数据挖掘和OLAP分析工具为决策者提供所需的信息。
然而作为数据仓库重要组成部分的元数据,却没有得到应有的重视。
元数据是关于数据的数据,在数据仓库中,元数据扮演着重要的角色。
如何构建元数据库及实现高效的元数据管理,在一个成功的数据仓库系统中必不可少。
正是由于有了元数据,DSS 分析员才能有效地利用数据仓库。
元数据的内容元数据作为成功的数据仓库的重要组成部分,可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息。
数据仓库主要是为DSS分析者使用的,而这些人多为商业人员,其次才为技术人员,他们要进行分析时,必须要知道数据仓库中有哪些数据, 数据存放在哪里, 而元数据则为他们提供了所需的内容。
数据仓库中的元数据根据其使用对象和应用范围不同,可分为不同的类型,如商业元数据、数据库元数据和应用元数据3种。
在构建元数据库时将其分为技术元数据(Technical Metadata)和商业元数据(Business Metadata)。
技术元数据是关于数据仓库系统技术细节的元数据;商业元数据是技术元数据的一个辅助, 它可以帮助用户在数据仓库中寻找所需商业信息,也有助于用户正确方便地使用数据仓库系统,它主要定义了介于使用者和仓库系统之间的语义关系。
元数据管理包含的主要内容
元数据管理包含的主要内容元数据管理是指对数据的描述、定义、管理和维护的过程。
它是数据管理的重要组成部分,可以帮助组织更有效地管理和利用数据资源。
本文将介绍元数据管理的主要内容,包括元数据的定义、分类、存储和使用。
一、元数据的定义元数据是描述数据的数据,它包含了关于数据的各种属性和特征。
元数据可以用来描述数据的结构、含义、来源、格式、质量、权限等信息。
通过元数据,我们可以更好地理解和解释数据,帮助我们更加高效地使用和管理数据资源。
二、元数据的分类根据不同的分类标准,元数据可以分为多种类型。
常见的元数据类型包括技术元数据、业务元数据和管理元数据。
1. 技术元数据:技术元数据描述了数据的技术特性和属性,包括数据的存储格式、数据结构、数据类型、数据源、数据接口等信息。
技术元数据主要面向数据管理人员和技术人员,帮助他们理解和操作数据。
2. 业务元数据:业务元数据描述了数据的业务含义和用途,包括数据的定义、业务规则、业务流程、业务规范等信息。
业务元数据主要面向业务人员和决策者,帮助他们理解和应用数据。
3. 管理元数据:管理元数据描述了数据的管理信息,包括数据的归属、权限、安全性、生命周期等信息。
管理元数据主要面向数据管理人员和安全管理员,帮助他们管理和维护数据资源。
三、元数据的存储元数据的存储是元数据管理的关键环节。
一般来说,元数据可以存储在元数据仓库中,也可以存储在数据库、文档或文件中。
1. 元数据仓库:元数据仓库是专门用于存储和管理元数据的数据库。
它可以集中存储不同类型的元数据,并提供元数据的查询、检索和分析功能。
元数据仓库可以帮助组织更好地组织和利用元数据,提高数据管理的效率。
2. 数据库存储:元数据也可以存储在数据库中,以表格的形式存储。
通过数据库管理系统,可以对元数据进行管理和查询操作。
数据库存储适合于较小规模的元数据管理,但对于大规模的元数据管理来说,可能会面临性能和扩展性的问题。
3. 文档或文件存储:元数据也可以存储在文档或文件中,以文本的形式描述。
浅析元数据在数据仓库中的应用
浅析元数据在数据仓库中的应用元数据在数据仓库中的应用数据仓库是一个用于集成、存储和管理企业数据的关键系统。
在数据仓库中,元数据起着至关重要的作用。
元数据是描述数据的数据,它提供了关于数据的信息,包括数据的结构、定义、来源、用途等。
在数据仓库中,元数据的应用涉及到数据的管理、分析和查询等方面。
一、元数据在数据仓库中的管理1. 元数据定义和描述元数据在数据仓库中用于定义和描述数据对象、数据表、字段、索引、视图等。
通过元数据,可以清晰地了解数据的结构和关系,方便数据仓库管理员进行数据的管理和维护。
2. 元数据的版本控制数据仓库中的数据经常会发生变化,包括数据的添加、删除、修改等。
通过元数据的版本控制,可以追踪数据的变化历史,方便数据仓库管理员进行数据的追溯和回滚操作。
3. 元数据的权限管理数据仓库中的数据通常涉及到不同用户和部门的访问权限。
通过元数据的权限管理,可以对不同用户和部门进行权限的分配和控制,确保数据的安全性和合规性。
二、元数据在数据仓库中的分析1. 数据血缘分析数据仓库中的数据通常来自于不同的数据源,经过清洗、整合和转换等处理。
通过元数据的血缘分析,可以追踪数据的来源和变化过程,帮助分析师和决策者了解数据的可信度和可靠性。
2. 数据质量分析数据仓库中的数据质量是关键的,它直接影响到分析和决策的准确性和可靠性。
通过元数据的质量分析,可以评估数据的准确性、完整性、一致性和时效性等指标,帮助数据仓库管理员进行数据质量的监控和改进。
3. 数据统计和报表分析数据仓库中的数据通常用于生成各种统计和报表。
通过元数据的统计和报表分析,可以对数据进行聚合、分组、排序等操作,生成各种统计和报表,帮助企业进行业务分析和决策。
三、元数据在数据仓库中的查询1. 数据检索和查询数据仓库中的数据通常需要进行检索和查询,以满足用户和部门的需求。
通过元数据的查询,可以根据用户的需求,快速地检索和查询数据,提供准确的结果。
2. 数据挖掘和分析数据仓库中的数据通常包含大量的历史数据,通过数据挖掘和分析,可以发现数据中的隐藏模式和规律,帮助企业进行更深入的业务分析和决策。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与元数据管理1. 前言在事务处理系统中的数据,主要用于记录和查询业务情况。
随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。
数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。
解决这一问题的关键是对元数据进行科学有效的管理。
本文首先介绍了元数据的定义、作用和意义;然后讨论了数据仓库系统中元数据管理的现状和关于元数据的标准化情况;最后提出了建立元数据管理系统的步骤和实施方法。
2. 元数据2.1 元数据的概念按照传统的定义,元数据(Metadata)是关于数据的数据。
在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:●数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;●业务系统、数据仓库和数据集市的体系结构和模式●汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;●由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。
业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。
业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:●企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。
以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。
●多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。
这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。
●业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。
2.2 元数据的作用与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。
如图1所示,它的典型结构由操作环境层、数据仓库层和业务层等组成。
图1数据仓库系统的一般体系结构其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。
图中左边的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几个方面:(1) 元数据是进行数据集成所必需的数据仓库最大的特点就是它的集成性。
这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。
一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。
不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。
如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。
(2) 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。
元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。
(3) 元数据是保证数据质量的关键数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。
这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。
而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。
甚至国外有学者还在元数据模型的基础上引入质量维[6],从更高的角度上来解决这一问题。
(4) 元数据可以支持需求变化随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。
如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。
传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。
成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。
3. 数据仓库元数据管理现状由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能(BI)系统的“灵魂”,正是由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。
但遗憾的是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它们提供的仅仅是对特定的局部元数据的管理。
当前市场上与元数据有关的主要工具见图2。
图2当前市场与元数据有关的主要工具如图2所示,与元数据相关的数据仓库工具大致可分为四类:1.数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、CA(原Platinum)的Decision Base和ETI的Extract等。
这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。
2.前端展现工具:包括OLAP分析、报表和商业智能工具等,如MicroStrategy的DSS Agent、Cognos的PowerPlay、Business Objects的BO,以及Brio等。
它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析。
这些工具都提供了业务元数据与技术元数据相对应的语义层。
3.建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。
如CA的ERwin、Sysbase的PowerDesigner以、Rational 的Rose等。
4.元数据存储工具:元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。
还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。
这些工具包括微软的Repository,CA的Repository、Ardent的MetaStage和Sybase的WCC等。
4. 元数据管理的标准化没有规矩不成方圆。
元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。
在这种情况下,各公司的元数据管理解决方案各不相同。
近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG 组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及MDC 和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。
从元数据的发展历史不难看出,元数据管理主要有两种方法:(1) 对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。
(2) 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。
下面我们分别介绍数据仓库领域中两个最主要的元数据标准:MDC的OIM标准和OMG的CWM标准。
4.1 MDC的OIM存储模型MDC成立于1995年,是一个致力于建立与厂商无关的、不依赖于具体技术的企业元数据管理标准的非赢利技术联盟,该联盟有150多个会员,其中包括微软和IBM等著名软件厂商。
1999年7月MDC接受了微软的建议,将OIM作为元数据标准。
OIM的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。
它涉及了信息系统(从设计到发布)的各个阶段,通过对元数据类型的标准描述来达到工具和知识库之间的数据共享。
OIM所声明的元数据类型都采用统一建模语言UML(Universal Modeling Language)进行描述,并被组织成易于使用、易于扩展的多个主题范围(Subject Areas),这些主题范围包括:●分析与设计(Analysis and Design):主要用于软件分析、设计和建模。
该主题范围又进一步划分为:UML包(Package)、UML扩展包、通用元素(Generic Elements)包、公共数据类型(Common Data Types)包和实体关系建模(Entity Relationship Modeling)包等。
●对象与组件(Object and Component):涉及面向对象开发技术的方方面面。
该主题范围只包含组件描述建模(Component Description Modeling)包。
●数据库与数据仓库(Database and Warehousing):为数据库模式管理、复用和建立数据仓库提供元数据概念支持。
该主题范围进一步划分为:关系数据库模式(Relational Database Schema)包、OLAP模式(OLAP Schema)包、数据转换(Data Transformations)包、面向记录的数据库模式(Record-Oriented Database Schema)包、XML模式(XML Schema)包和报表定义(Report Definitions)包等。