数据仓库中元数据的管理
数据治理中的元数据管理策略

数据治理中的元数据管理策略随着社会信息化的不断深入,数据也成为了各个企业发展的核心。
不断收集、处理、分析数据,成为了企业信息化发展的重要环节。
然而,随着数据多样化的增加,采集和管理数据也面临着许多挑战,如何对数据进行有效的管理和治理已经成为了各个企业在信息化领域迫切需要解决的问题之一。
其中,元数据管理作为数据治理的重要组成部分,也越来越引起企业的重视。
元数据是一种描述数据的数据,例如对于某一数据表,元数据可以描述它的数据类型、数据的来源、数据的更新时间等信息。
元数据的管理不仅可以帮助企业对数据进行有效的描述和管理,还可以提高数据的质量以及数据的价值。
针对这一问题,本文在总结了目前国内外对于元数据管理的研究成果和实践经验的基础上,提出了一些元数据管理策略,以期为企业的数据治理提供一些有益的借鉴。
一、元数据管理的重要性在现代企业信息化中,元数据的管理已经成为企业信息化建设过程中必不可少的一部分。
元数据管理对于企业数据治理起到了至关重要的作用。
以下是几个方面的重要性:1、提高数据质量在数据管理过程中,元数据可以描述数据的来源、数据的格式、数据的更新时间等基本信息,同时也可以对数据的适用范围、数据生命周期进行详细描述。
这些描述可以帮助企业更好地管理与维护这些数据,从而提高数据的质量。
2、提高数据可靠性元数据可以描述数据标准和数据规范,将数据标准和数据规范对应到数据本身上,对数据进行描述和解耦,在数据分析之前,确保数据的可靠性,有效提高数据处理的准确性和可靠性。
3、加快决策的速度管理好元数据后,可以根据元数据快速查找到所需数据,提高数据使用效率。
并且,元数据可以帮助企业快速获取数据,根据数据进行决策分析。
从而加速企业决策效率,提高企业的竞争力。
二、元数据管理策略元数据管理在不同的企业中,可能会有不同的策略,但是需要注意以下几点:1、确定元数据管理团队元数据管理需要专业的技能和知识,所以需要专门组建一个元数据管理团队,负责组织、制定元数据标准以及元数据管理的流程和规范等工作。
元数据管理的解析

元数据管理的解析元数据管理是指对元数据进行组织、存储、维护和使用的过程。
元数据是关于数据的数据,它描述了数据的结构、属性、关系和其他特征。
元数据管理在数据仓库、数据库、信息系统等领域中扮演着重要的角色。
元数据管理的主要目标包括:1、数据理解:元数据提供了数据的上下文信息,帮助用户理解数据的含义和用途。
通过元数据,用户可以了解数据的来源、结构、关系等信息,从而更好地进行数据分析和处理。
2、数据管理:元数据管理有助于组织和维护数据仓库、数据库等信息系统中的数据资源。
通过元数据,可以对数据进行分类、标记、排序等操作,提高数据的可管理性和可维护性。
3、数据安全:元数据管理可以确保数据的安全性和完整性。
通过对元数据进行权限控制、访问控制等操作,可以防止未经授权的访问和修改,保护数据的机密性和完整性。
4、数据交换和共享:元数据管理可以促进数据交换和共享。
通过标准化的元数据格式和协议,可以实现不同系统之间的数据互操作性,提高数据的共享效率和使用价值。
元数据管理涉及的关键技术包括:1、元数据建模:元数据建模是指根据数据的特点和需求,建立元数据模型的过程。
元数据模型描述了数据的结构、属性、关系等信息,为元数据管理提供了基础。
2、元数据存储:元数据存储是指将元数据存储在数据库或其他存储介质中的过程。
元数据存储需要考虑数据的组织、索引、查询等问题,以提高元数据的访问效率和可靠性。
3、元数据同步:元数据同步是指在不同系统之间同步元数据的过程。
由于不同系统之间的数据可能存在差异,因此需要通过元数据同步来保持数据的一致性和准确性。
4、元数据质量管理:元数据质量管理是指对元数据的质量进行评估和管理的过程。
元数据质量的好坏直接影响到数据仓库、数据库等信息系统的质量和效率,因此需要对元数据进行质量检查、清洗等操作,确保元数据的准确性和完整性。
总之,元数据管理是数据管理领域中的一个重要分支,它有助于提高数据的质量、效率和安全性,促进数据的共享和交换。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行管理和维护的过程。
元数据是描述数据的数据,它提供了关于数据的定义、结构、属性、关系以及数据的来源和用途等信息。
数据仓库中的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。
数据仓库元数据管理的目标是保证数据仓库中的元数据准确、完整、一致和可靠。
通过对元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,进而提高数据仓库的价值和效用。
数据仓库元数据管理的主要任务包括元数据收集、元数据存储、元数据维护和元数据使用等。
1. 元数据收集:- 根据数据仓库的设计和需求,收集相关的元数据信息。
- 可以通过手工录入、自动抽取、数据字典等方式进行元数据的收集。
- 收集的元数据包括数据表、字段、索引、视图、存储过程等对象的描述信息,以及数据质量、数据血统、数据变化等相关信息。
2. 元数据存储:- 将收集到的元数据存储到元数据仓库中,以便后续的管理和使用。
- 元数据仓库可以使用关系型数据库、NoSQL数据库、文件系统等进行存储。
- 存储的元数据需要按照一定的结构进行组织和管理,以方便后续的检索和使用。
3. 元数据维护:- 对元数据进行定期的维护和更新,以保证其准确、完整、一致和可靠。
- 可以通过手工维护、自动抽取、数据字典同步等方式进行元数据的维护。
- 维护的内容包括元数据的新增、修改、删除等操作,以及元数据的版本管理和权限管理等。
4. 元数据使用:- 利用元数据提供的信息,支持数据仓库的各项管理和运维工作。
- 可以通过元数据进行数据质量管理、数据血统分析、数据变化跟踪等工作。
- 元数据还可以支持数据仓库的数据集成、数据查询、数据分析等应用。
数据仓库元数据管理的实施需要借助相应的工具和技术。
常用的工具包括元数据管理工具、数据建模工具、数据字典工具等。
常用的技术包括数据抽取、数据转换、数据加载(ETL)技术、数据建模技术、数据质量管理技术等。
数据仓库元数据管理系统

数据仓库元数据管理系统引言概述数据仓库元数据管理系统是指用于管理和维护数据仓库中的元数据信息的系统。
元数据是描述数据的数据,是数据仓库中非常重要的组成部分。
数据仓库元数据管理系统可以帮助组织管理者更好地理解、维护和利用数据仓库中的数据,提高数据仓库的效率和质量。
一、元数据的定义和重要性1.1 元数据的定义:元数据是描述数据的数据,包括数据的结构、属性、关系、来源等信息。
1.2 元数据的重要性:元数据是数据仓库中的灵魂,它可以帮助用户更好地理解数据、发现数据间的关系、提高数据的可信度和可用性。
1.3 元数据的分类:元数据可以分为技术元数据和业务元数据,技术元数据包括数据结构、数据源、数据质量等信息,业务元数据包括数据的业务含义、数据的关系等信息。
二、数据仓库元数据管理系统的功能2.1 元数据采集:数据仓库元数据管理系统可以自动采集数据仓库中的元数据信息,包括数据表结构、数据源信息等。
2.2 元数据存储:数据仓库元数据管理系统可以将采集到的元数据信息进行存储和管理,方便用户查询和分析。
2.3 元数据维护:数据仓库元数据管理系统可以帮助用户对元数据进行维护和更新,保证元数据的准确性和完整性。
三、数据仓库元数据管理系统的优势3.1 提高数据质量:通过管理和维护元数据信息,可以提高数据仓库中数据的质量,减少数据错误和冗余。
3.2 提高数据查询效率:数据仓库元数据管理系统可以帮助用户更快速地查询和分析数据,提高数据查询的效率。
3.3 促进数据共享和协作:数据仓库元数据管理系统可以促进不同部门之间的数据共享和协作,提高组织的整体效率和竞争力。
四、数据仓库元数据管理系统的应用场景4.1 企业数据管理:数据仓库元数据管理系统可以帮助企业更好地管理和利用数据,提高数据的价值和效益。
4.2 数据分析和挖掘:数据仓库元数据管理系统可以为数据分析和挖掘提供可靠的数据支持,帮助用户更好地发现数据中的规律和趋势。
4.3 决策支持:数据仓库元数据管理系统可以为组织管理者提供准确、及时的数据支持,帮助他们做出更明智的决策。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护,以确保数据仓库的可靠性和准确性。
元数据是描述数据的数据,它包括数据的定义、结构、关系、来源、用途等信息。
数据仓库中的元数据管理是数据仓库管理的重要组成部分,它对于数据仓库的建设和运营具有重要意义。
一、元数据管理的意义1. 提高数据仓库的可理解性和可维护性:通过对元数据的管理,可以使数据仓库的结构和内容更加清晰和易于理解,从而提高数据仓库的可维护性和可理解性。
2. 提高数据仓库的数据质量:元数据管理可以对数据仓库中的数据进行监控和评估,及时发现数据质量问题,并采取相应的措施进行修复,从而提高数据仓库的数据质量。
3. 提高数据仓库的数据一致性:通过元数据管理,可以对数据仓库中的数据进行统一的定义和管理,确保数据仓库中的数据一致性,避免数据冗余和不一致的问题。
4. 提高数据仓库的数据可追溯性:元数据管理可以记录数据仓库中数据的来源、变更历史等信息,使数据的变更过程可追溯,方便数据仓库的审计和管理。
二、元数据管理的内容1. 元数据定义和标准化:对数据仓库中的元数据进行定义和标准化,明确元数据的含义和格式,确保元数据的准确性和一致性。
2. 元数据收集和录入:通过各种手段和工具,收集数据仓库中的元数据,并将其录入到元数据管理系统中,建立元数据的库存。
3. 元数据的分类和组织:对元数据进行分类和组织,建立元数据的层次结构和关系,方便元数据的检索和使用。
4. 元数据的维护和更新:定期对元数据进行维护和更新,及时反映数据仓库中数据的变化和更新。
5. 元数据的查询和检索:提供元数据查询和检索的功能,方便用户查找和使用数据仓库中的元数据。
6. 元数据的安全管理:对元数据进行安全管理,设置权限和访问控制,保护元数据的安全性和机密性。
7. 元数据的版本管理:对元数据进行版本管理,记录元数据的变更历史,方便进行数据仓库的版本控制和管理。
三、元数据管理的流程1. 元数据收集和录入流程:(1)确定元数据的收集范围和目标。
数据仓库中元数据应用管理研究

科 技情报开发 与经济
文章 编 号 :0 5 6 3 ( 0 7 3 — 0 7 0 10 — 0 3 2 0 )3 0 1— 2
S IT C F R A I N D V L P N C - E H I O M T O E E O ME T&E O O Y N CN M
预处理 数据是 处于数 据源 和主题 数据之 问的 巾间层 次的数 据 , 预 处理数据 的处理在数据仓 库的后 台进 行 ,而且处理 的内容 比较 多 。包
8 一 2 O8.
巾。 这个过程所必 需的时间 、 地点信息 , 原始数据 和数据仓库 巾数据的对
[ ] 范井思. 3 基层公共图 书馆数 字资源建设 : 理念 、 原则与方案 [ ] J. 图书 馆论坛 ,0 5 6 :9 — 9 . 2 0 ( ) 10 15 ( 责任编辑 : 薛培荣 )
21 实 现 数据 仓 库 中 数 据 的 集 成 .
访问方法和使用限制 、 数据源 的存储平 台 、 源的内容说明 、 源的 数据 数据
更新频率等等 。
11 .. 预 处 理 数 据 元数 据 2
数据 仓库很重 要的一个特点是 它的集 成性 . 是将不 同时间 、 不同地 点、 不同 系统 中的数据采集 、 整理并且按 照一定 的模式 存储在数 据仓库
要面对用户进行工作 。 11 技术元数据 .
主题数据直 接面对分析性 用户的访 问 , 建立一个变视 图 , 分析性用
户通过实视 图对数据仓库进行访 问。数据仓 库主题 数据元数据包括 : 各 种数据库表 或视 图的定义 、 数据库分 区设置 、 引的 建立方法 、 索 数据库访 问权 限分配 、 数据库备 份方案 。
20 年 第 l 07 7卷 第 3 期 3
元数据-数据仓库的神经中枢

元数据——数据仓库的神经中枢引言:元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录(information directory),这一目录全面的描述了数据仓库中都有什么数据,如何得到,怎么得到这些数据的,以及怎么访问这些数据。
元数据是数据仓库运行和维护的中心,数据仓库服务器利用它来存储和更新数据,用户利用它来了解和访问数据。
元数据按使用对象的不同分为:商业元数据和技术元数据。
一:元数据在数据仓库中的重要性随着信息产业的飞速发展,数据的不断膨胀,数据仓库已经成为当今开发各种系统必不可少的工具。
如何合理高效地了解,管理,控制数据仓库成为当前一个急需解决的一个问题。
合理建立和使用描述数据仓库的元数据就显得尤为重要。
对于开发人员:在各项开发之前,需要对即将要操作的数据有一个整体的了解。
元数据能够很好地描述数据仓库的内部结构和流程,剖析数据在提取,转换,清洗过程中,各步所产生的中间结果,使开发人员能够在较短的时间片了解数据转换的全过程,并且能够实时检查,测试正确性。
元数据描述了数据仓库从各个数据库服务器中提取数据的方法,以及更新数据的策略,大大提高了开发人员的工作效率,缩短了软件开发的周期。
对于用户:操作型系统虽为他们提供了图形界面及预定义的报表,让其可以构建界面和定制报表,但他们并不是每次都自己构建界面或者定义报表的格式。
用户在使用数据仓库时,自己从数据仓库中获取信息,创建特别查询并在数据仓库中运行他们,在他们创建并运行查询之前,用户需要了解数据仓库中的数据,因此,他们也同样需要元数据,要知道数据项的含义。
开发者要防止用户忽略了数据的确切含义就去做分析,从而得出错误的结论。
二:按功能区域划分的元数据类型1.数据获取在这个区域中,数据仓库过程与下面的功能相关:数据抽取,数据转换,数据清洗,数据集成,数据准备。
在处理过程进行时,合适的工具记录了与这些处理相关的元数据元素。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护的过程。
元数据是描述数据的数据,它包含了数据的定义、结构、属性、关系以及数据之间的联系等信息。
通过对数据仓库元数据的管理,可以提高数据仓库的可维护性、可扩展性和可重用性,同时也能够提高数据仓库的查询效率和数据质量。
一、元数据管理的重要性1. 提高数据仓库的可维护性:通过对元数据的管理,可以清晰地了解数据仓库中各个数据表的含义、结构和关系,从而更好地进行数据仓库的维护和更新工作。
2. 提高数据仓库的可扩展性:元数据管理可以帮助我们了解数据仓库中的数据模型和数据结构,从而更好地进行数据仓库的扩展和升级。
3. 提高数据仓库的可重用性:通过对元数据的管理,可以清晰地了解数据仓库中的数据定义和数据结构,从而更好地进行数据仓库的重用和共享。
4. 提高数据仓库的查询效率:通过对元数据的管理,可以清晰地了解数据仓库中的数据模型和数据结构,从而更好地进行查询优化和索引设计,提高数据仓库的查询效率。
5. 提高数据仓库的数据质量:通过对元数据的管理,可以清晰地了解数据仓库中的数据定义和数据结构,从而更好地进行数据质量的监控和管理,提高数据仓库的数据质量。
二、元数据管理的主要内容1. 元数据定义和分类:对数据仓库中的元数据进行定义和分类,建立元数据的标准和规范,确保元数据的一致性和准确性。
2. 元数据采集和录入:通过采集工具和手工录入的方式,将数据仓库中的元数据进行采集和录入,包括数据表的定义、字段的定义、数据类型、数据长度、数据格式等信息。
3. 元数据存储和管理:将采集和录入的元数据存储到元数据仓库中,并进行管理和维护,包括元数据的更新、删除、备份和恢复等操作。
4. 元数据查询和检索:通过元数据查询和检索工具,可以根据需要查询和检索数据仓库中的元数据,包括数据表的定义、字段的定义、数据类型、数据长度、数据格式等信息。
5. 元数据共享和发布:将元数据共享给数据仓库的用户和开发人员,使其能够更好地了解数据仓库中的数据定义和数据结构,从而更好地进行数据仓库的开发和使用工作。
数据中台 元数据管理 名词解释

数据中台元数据管理名词解释数据中台(Data Middle Platform)是指以数据为核心的平台,通过整合和管理企业内外各类数据资源,为企业提供数据存储、数据处理、数据分析与挖掘、数据可视化等各类数据服务的高效可靠的技术平台。
数据中台的建设和运行包括了数据的集成、存储、处理、分析、应用和管理等一系列环节。
元数据是指描述数据的数据,是对数据的数据,它提供了对数据进行理解、管理和利用的信息。
元数据包括各种数据资源的定义、属性、关系和约束,它描述了数据的来源、结构、格式、服务、语义、变化等特征。
元数据管理是指对元数据进行组织、维护和管理的一系列活动,目的是确保数据的准确性、一致性、完整性和可用性,为数据中台的建设和运行提供支撑。
在数据中台中,元数据管理发挥着重要的作用。
首先,元数据管理提供了对数据进行分类和组织的方式,可以将数据资源进行逻辑上的划分和整合,让数据更易于理解和利用。
其次,元数据管理可以对数据进行标准化和规范化,确保数据的一致性和可比性,提高数据的质量和价值。
而且,通过元数据管理,可以建立数据之间的关联和依赖关系,帮助用户更好地理解数据的复杂性和相关性。
此外,元数据管理还可以对数据进行权限控制和安全管理,确保数据的安全和隐私不受侵犯。
元数据管理包括了元数据的采集、存储、维护和应用等过程。
首先,元数据需要通过采集工具从数据源中获取,并进行解析和提取,形成可用的元数据。
这涉及到对多种数据源和数据格式的识别和兼容,以及对数据结构和语义的解析和分析。
然后,元数据需要进行存储和管理,包括建立元数据的存储结构和索引,以及对元数据进行归档、备份和恢复等操作。
同时,元数据还需要进行维护和更新,包括对元数据的验证、修正和更新。
最后,元数据需要被应用到数据中台的各个环节中,包括数据的集成、处理、分析和应用等过程中,为用户提供丰富的数据服务。
元数据管理还包括了一系列的工具和技术。
其中,元数据管理工具是指用于元数据采集、存储、维护和应用的软件工具,可以实现对元数据的自动化管理和操作。
元数据管理:数据质量的核心要素

元数据管理:数据质量的核心要素元数据管理是现代数据管理中至关重要的一环,它承担着数据质量保证的核心要素角色。
元数据是描述数据的数据,是对数据资源及其特性的描述,可以帮助我们更好地理解数据的含义、结构、关系和来源。
通过对元数据的管理,可以有效地提高数据质量,确保数据的准确性、完整性、一致性和及时性。
在信息化发展的今天,数据质量已经成为企业发展和决策的关键因素之一,而元数据管理则成为保障数据质量的基石。
元数据管理的定义和作用元数据是指用于描述数据的数据,包括数据的定义、结构、属性、关系、存储方式、使用范围等信息。
元数据可以帮助我们理解数据的含义和背景,帮助我们更好地掌握和管理数据资源,提高数据分析和应用的效率。
元数据可以分为三种类型:技术元数据、业务元数据、管理元数据。
元数据管理是对元数据进行有效管理和维护的过程,主要包括元数据的采集、存储、维护、共享和应用等环节。
元数据管理在数据治理和数据管理中起着至关重要的作用,它可以帮助组织更好地理解和利用自己的数据资源,提高数据开发和分析的效率,确保数据质量和数据安全。
元数据管理与数据质量数据质量是数据管理的核心问题之一,它影响着数据的可信度和有效性。
而元数据管理作为数据质量保障的核心要素,也是确保数据质量的有效手段之一。
•数据准确性:通过元数据管理,可以确保数据的准确性,避免数据的误导性和错误性。
•数据完整性:元数据可以帮助我们了解数据的完整性要求,通过元数据管理可以检验数据的完整性,保证数据的有效性和完整性。
•数据一致性:通过元数据管理可以掌握数据在不同系统和环境中的一致性,避免数据不一致造成的问题。
•数据及时性:通过元数据管理可以了解数据的更新频率和时间,保证数据的及时性,使数据能够及时反映现实的变化。
元数据管理的实践如何进行元数据管理?以下是一些元数据管理的实践建议:•元数据采集:收集和录入数据的元数据信息,包括数据表结构、数据定义、数据更新时间等信息。
元数据管理制度

元数据管理制度一、引言随着信息技术的发展和数据量的爆炸增长,元数据管理在企业中变得越来越重要。
元数据是描述数据的数据,是数据的关键资产。
合理管理元数据可以提高数据质量、管理数据资产,以及支持企业数据治理和决策。
本文将阐述元数据管理的重要性、管理原则、管理方法和操作流程,以及具体的管理制度。
二、元数据管理的重要性1.促进数据共享和集成:元数据是数据的描述,通过管理元数据可以促进数据共享和集成。
当各部门和系统都遵循同一种元数据标准时,数据的集成会更加容易,各方之间可以更好地共享数据。
2.提高数据质量:元数据管理可以帮助企业建立数据质量标准和规范,确保数据质量始终如一。
通过元数据管理,可以更好地了解数据的来源、含义、结构和关系,从而提高数据的准确性、完整性和一致性。
3.支持数据治理和决策:元数据是数据的关键抽象,通过管理元数据可以更好地了解数据资产、数据风险和数据价值。
有了清晰的元数据,企业可以更好地制定数据治理策略、做出数据决策,并支持企业的业务目标。
4.降低数据管理成本:随着数据量不断增长,数据管理的成本也在增加。
通过合理管理元数据,可以减少数据管理的成本,提高数据管理效率,降低风险。
5.促进数据分析和挖掘:元数据可以帮助用户更好地了解数据的结构和关系,为数据分析和挖掘提供支持。
通过元数据管理,可以更快、更准确地进行数据分析和挖掘,挖掘出数据背后的价值。
三、元数据管理原则1.一致性原则:元数据管理应该遵循一致性原则,即各部门和系统都应该使用同一种元数据标准,以确保元数据的一致性和准确性。
2.全面性原则:元数据管理应该是全面的,涵盖所有数据资产,包括结构化数据、非结构化数据、半结构化数据等,确保所有数据都受到管理。
3.及时性原则:元数据管理需要及时更新和维护,随着数据的不断变化,元数据也需要不断更新和调整,以保持元数据的准确性和时效性。
4.安全性原则:元数据管理需要确保元数据的安全性和机密性,防止元数据被未经授权的访问和篡改,保护数据资产的安全。
元数据管理方法

元数据管理方法
元数据管理方法有:
1、中心节点管理元数据:中心节点通常兼具元数据存储与查询、集群节点状态管理、决策制定与任务下发等功能。
优点是元数据集中式管理,可以方便处理集群运维管理的统计分析类需求;缺点是单点故障是设计分布式系统最忌讳的问题之一。
2、分布式管理元数据:通过管理元数据,企业能够快速发现数据资产的分布和关系,形成企业数据资产目录。
3、无元数据设计:通过元数据管理,建立基于CWM的元数据仓库,实现企业元数据的统一管理,并将元数据仓库作为“单一数据源”,为企业的应用开发提供可复用的数据模型和元数据标准,以实现元数据的重复利用,减少冗余或未使用数据,从而提高工作效率,降低软件开发成本,缩短项目交付时间。
元数据的数据结构及该元数据的处理方法

元数据的数据结构及该元数据的处理方法一、引言元数据是指描述数据的数据,它提供了关于数据的信息,包括数据的属性、结构、来源、格式等。
在数据管理和数据分析中,元数据起到了重要的作用,能够帮助我们更好地理解和处理数据。
本文将介绍元数据的数据结构以及一些常用的处理方法。
二、元数据的数据结构元数据的数据结构可以根据不同的需求进行设计,但通常包括以下几个方面的信息:1. 数据属性:描述数据的基本属性,如数据类型、数据长度、数据格式等。
2. 数据结构:描述数据的组织结构,如表、字段、关系等。
3. 数据来源:描述数据的来源,如数据源、数据采集方式等。
4. 数据质量:描述数据的质量情况,如数据准确性、完整性、一致性等。
5. 数据关系:描述数据之间的关系,如主键、外键等。
6. 数据权限:描述数据的访问权限,如数据的读写权限、数据的保密级别等。
三、元数据的处理方法为了更好地利用元数据,我们需要进行一些处理方法,以提高数据的管理和分析效率。
以下是一些常用的元数据处理方法:1. 元数据采集:通过采集工具或手动录入的方式,收集数据的元数据信息。
可以通过扫描数据库、文件系统等方式进行元数据的自动采集,也可以通过人工填写的方式进行元数据的手动录入。
2. 元数据存储:将采集到的元数据信息存储在元数据仓库中,以便于后续的查询和分析。
元数据仓库可以采用关系型数据库、NoSQL数据库等进行存储,也可以使用专门的元数据管理工具进行存储和管理。
3. 元数据检索:通过元数据的检索功能,可以快速查找和定位数据资源。
可以根据数据属性、数据结构、数据来源等进行元数据的检索,以便于更好地理解和使用数据。
4. 元数据分析:通过对元数据的分析,可以了解数据的特征和规律,从而进行数据质量评估、数据关系分析等工作。
可以使用数据挖掘、统计分析等方法对元数据进行分析,以提取有用的信息和知识。
5. 元数据管理:对元数据进行管理,包括元数据的更新、维护、删除等操作。
数据仓库元数据管理

数据仓库元数据管理一、概述数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护的过程。
元数据是描述数据仓库中数据的数据,包括数据表结构、数据字段定义、数据源信息、数据质量指标等。
良好的元数据管理可以提高数据仓库的可维护性、可扩展性和数据质量,为数据分析和决策提供准确可靠的基础。
二、元数据管理流程1. 元数据收集通过与业务部门沟通,收集数据仓库中需要管理的元数据信息。
包括数据表名、字段名、数据类型、数据长度、数据源、数据质量要求等。
可以通过数据抽取工具、数据库查询等方式获取元数据信息。
2. 元数据分类根据元数据的不同属性和用途,进行分类和归类。
常见的分类方法包括按数据表、数据字段、数据源、数据质量等进行分类。
分类后便于后续的管理和维护。
3. 元数据标准化制定统一的元数据命名规范和格式,确保元数据的命名一致性和可读性。
例如,数据表名采用大写字母开头的驼峰命名法,字段名采用小写字母开头的驼峰命名法等。
同时,制定元数据描述的规范和格式,方便用户理解和使用。
4. 元数据文档化将元数据信息进行文档化,包括元数据定义、元数据属性、元数据关系等。
可以使用文档工具或者数据库表格等形式进行记录和管理。
文档化的元数据可以方便用户查询、理解和使用。
5. 元数据维护定期对元数据进行维护和更新。
包括新增、修改、删除元数据等操作。
维护时需要与业务部门进行协调和确认,确保元数据的准确性和完整性。
6. 元数据安全对元数据进行安全管理,保护元数据的机密性和完整性。
可以通过权限控制、访问控制等方式进行保护。
同时,备份元数据,以应对意外情况和数据丢失。
三、元数据管理工具1. 元数据管理系统(Metadata Management System)使用元数据管理系统可以对元数据进行集中管理和维护。
系统可以提供元数据的录入、查询、修改、删除等功能,同时支持元数据的文档化和分类。
常见的元数据管理系统包括Informatica Metadata Manager、IBM InfoSphere Information Governance Catalog等。
元数据管理

元数据管理元数据管理是指对数据的描述信息进行管理和组织的一种方法。
随着信息时代的到来,大量的数据被不断地产生和积累,元数据管理的重要性也日益凸显。
首先,元数据是对数据的描述性信息,可以帮助用户更好地理解和使用数据。
通过元数据,用户可以了解到数据的来源、格式、内容、质量等方面的信息,从而更好地判断数据的可信度和适用范围。
例如,在一个大数据平台中,元数据可以包括数据表的名称、字段的定义、索引的信息等,用户可以通过元数据来查询和选择适合自己需要的数据,提高数据的使用效率。
其次,元数据管理可以提高数据的可发现性和可利用性。
在一个庞大的数据集中,存在着大量的数据文件和数据表,如何迅速地找到所需的数据并且有效地使用起来是一个非常重要的问题。
通过元数据管理,可以实现对数据的分类、标注和索引,帮助用户更方便地查询和检索数据。
比如,通过标注数据的类型、主题、作者等信息,可以将数据进行分类和组织,便于用户进行检索和使用。
另外,元数据管理也可以提高数据的一致性和可靠性。
在一个复杂的数据环境中,不同的应用系统可能会产生相同或者相似的数据集,这样就容易造成数据的重复和冗余。
通过元数据管理,可以对数据进行去重和去冗余的处理,从而提高数据的一致性和可靠性。
例如,在数据仓库中,通过元数据管理可以对数据进行清洗和转换,去除冗余数据,提高数据的质量和准确性。
此外,元数据管理还可以帮助数据的共享和交流。
在现实生活中,不同的组织和部门可能都有相同或者相似的数据需求,但是由于数据的格式和结构不同,导致数据无法进行共享和交流。
通过元数据管理,可以对数据进行标准化和描述,使不同的数据源可以进行互联互通,方便数据的共享和交流。
例如,在一个开放数据平台中,通过标准化的元数据,可以使各个数据提供方和数据使用方进行数据的交互和共享,推动数据的流动和利用。
总结起来,元数据管理是一种重要的数据管理方法,可以帮助用户更好地理解和使用数据,提高数据的可发现性和可利用性,提高数据的一致性和可靠性,促进数据的共享和交流。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护,以确保数据仓库的准确性和可靠性。
元数据是描述数据的数据,它包括数据的定义、结构、关系以及数据在数据仓库中的位置等信息。
对元数据进行管理可以帮助数据仓库管理员和用户更好地理解和使用数据仓库中的数据。
数据仓库元数据管理的目标是建立一个完善的元数据管理体系,包括元数据的采集、存储、更新和查询等功能。
下面将详细介绍数据仓库元数据管理的各个方面。
1. 元数据采集元数据采集是指收集数据仓库中各个组件的元数据信息。
这些组件包括数据表、列、索引、视图、分区等。
元数据采集可以通过手工输入、自动扫描或者集成外部工具等方式进行。
采集到的元数据应包括数据的定义、结构、数据类型、数据长度、数据格式、数据来源、数据质量等信息。
2. 元数据存储元数据存储是指将采集到的元数据信息存储到元数据仓库中。
元数据仓库是一个专门用于存储和管理元数据的数据库。
元数据存储应采用标准的数据模型和结构,以方便元数据的查询和管理。
同时,元数据存储还应具备高可用性、可扩展性和安全性等特点,以确保元数据的可靠性和安全性。
3. 元数据更新元数据更新是指对数据仓库中的元数据进行维护和更新。
元数据的更新可以包括新增、修改和删除等操作。
新增元数据是指在数据仓库中新增数据表、列、索引等元数据信息。
修改元数据是指对数据仓库中已有的元数据进行修改,如修改数据表的结构、数据类型等信息。
删除元数据是指从数据仓库中删除不再使用的元数据信息。
4. 元数据查询元数据查询是指根据用户的需求,从元数据仓库中检索和查询所需的元数据信息。
元数据查询可以通过图形界面工具、命令行工具或者编程接口等方式进行。
查询结果应包括元数据的详细信息和相关的数据仓库对象信息,以满足用户对数据仓库的需求。
5. 元数据管理元数据管理是指对数据仓库中的元数据进行全面的管理和监控。
元数据管理包括元数据的备份和恢复、权限管理、版本管理、数据质量管理等功能。
元数据在数据管理中的作用

元数据在数据管理中的作用元数据(Metadata)是指描述数据的数据,它是数据管理中不可或缺的一部分。
在数据管理过程中,元数据起着重要的作用,它不仅可以提供关于数据的详细信息,还可以帮助数据管理者更好地理解、组织和利用数据。
本文将从不同角度探讨元数据在数据管理中的作用。
元数据在数据管理中起到了数据描述的作用。
通过元数据,数据管理者可以了解到数据的来源、格式、结构、含义等信息。
这些信息可以帮助数据管理者准确地理解数据的意义和价值,为数据的管理和使用提供了基础。
元数据在数据管理中起到了数据检索和发现的作用。
在庞大的数据集中,通过元数据的描述,可以快速定位到所需的数据。
例如,在一个企业的数据仓库中,通过元数据可以快速找到某个特定日期范围内的销售数据,或者某个特定地区的客户信息。
元数据的使用可以提高数据的检索效率,节省时间和资源。
元数据在数据管理中还起到了数据质量管理的作用。
元数据可以描述数据的准确性、完整性、一致性等质量特征,帮助数据管理者评估和监控数据的质量。
通过元数据,数据管理者可以了解数据的来源、处理过程和质量控制措施,及时发现和解决数据质量问题,确保数据的可信度和可靠性。
元数据还在数据管理中发挥了数据集成和共享的作用。
在一个组织内部,不同部门可能使用不同的数据源和数据格式,通过元数据的描述,可以将这些异构数据进行集成和共享。
元数据可以提供数据的结构和语义信息,帮助数据管理者进行数据映射和转换,实现数据的无缝集成和共享。
元数据还在数据管理中起到了数据安全和隐私保护的作用。
元数据可以描述数据的敏感性、访问权限和使用规则等信息,帮助数据管理者制定和执行数据安全策略。
通过元数据,可以限制特定用户或角色对敏感数据的访问权限,保护数据的安全性和隐私性。
元数据还在数据管理中起到了数据分析和决策支持的作用。
通过元数据的描述,可以了解到数据的历史变化和趋势,帮助数据管理者进行数据分析和挖掘。
元数据可以提供数据的统计特征、关联关系和规则,为数据分析和决策提供有力支持。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护的过程。
元数据是描述数据仓库中各种数据对象(如表、列、视图等)的数据,它包含了数据的定义、结构、关系以及数据的属性和特性等信息。
数据仓库元数据管理的目标是确保数据仓库中的元数据准确、一致、完整,并能够满足数据仓库的需求。
一、元数据的定义和分类元数据是指描述数据仓库中各种数据对象的数据,它包含了数据的定义、结构、关系以及数据的属性和特性等信息。
元数据可以分为三类:技术元数据、业务元数据和操作元数据。
1. 技术元数据:技术元数据是描述数据仓库的物理结构和技术实现的元数据,包括数据库表、列的定义、索引、分区等信息。
它主要用于数据仓库的设计、开辟和维护。
2. 业务元数据:业务元数据是描述数据仓库中业务对象的元数据,包括业务规则、业务过程、业务属性等信息。
它主要用于数据仓库的业务分析、报表生成和决策支持。
3. 操作元数据:操作元数据是描述数据仓库中的操作和操作者的元数据,包括数据仓库的操作日志、权限管理、用户信息等。
它主要用于数据仓库的操作和安全管理。
二、数据仓库元数据管理的重要性数据仓库元数据管理对于数据仓库的有效运行和管理至关重要。
以下是数据仓库元数据管理的重要性:1. 数据仓库设计和开辟:通过对技术元数据的管理,可以准确描述数据仓库的物理结构和技术实现,匡助设计和开辟人员理解和掌握数据仓库的结构和特性,提高设计和开辟的效率和质量。
2. 数据仓库维护和优化:通过对技术元数据的管理,可以及时发现和解决数据仓库中的问题,如性能问题、数据冗余等,并进行相应的优化和调整,保证数据仓库的正常运行和高效性能。
3. 业务分析和决策支持:通过对业务元数据的管理,可以准确描述数据仓库中的业务对象和业务规则,匡助业务分析人员理解和分析业务数据,提供准确、及时的决策支持。
4. 数据质量和数据一致性:通过对技术元数据和业务元数据的管理,可以确保数据仓库中的数据质量和数据一致性。
数据仓库元数据管理

数据仓库元数据管理数据仓库元数据管理是指对数据仓库中的元数据进行有效管理和维护的过程。
元数据是描述数据的数据,它包括数据的定义、结构、属性、关系以及数据的来源、存储和使用等信息。
数据仓库的元数据管理对于数据仓库的设计、开发、维护和使用都起着至关重要的作用。
一、元数据管理的重要性元数据管理对于数据仓库的成功运作和有效利用具有重要意义。
以下是元数据管理的几个重要方面:1. 数据仓库设计和开发:元数据管理可以帮助数据仓库设计人员和开发人员了解数据仓库中数据的结构和属性,从而更好地进行数据模型设计和数据仓库开发。
2. 数据仓库维护和管理:元数据管理可以帮助数据仓库管理员了解数据仓库中数据的来源、存储和使用情况,从而更好地进行数据仓库的维护和管理。
3. 数据仓库查询和分析:元数据管理可以帮助数据仓库用户了解数据仓库中数据的含义和关系,从而更好地进行数据查询和分析。
4. 数据仓库数据质量管理:元数据管理可以帮助数据仓库管理员和数据仓库用户了解数据仓库中数据的质量情况,从而更好地进行数据质量管理。
二、元数据管理的内容元数据管理的内容包括以下几个方面:1. 元数据定义和描述:对数据仓库中的各种元数据进行定义和描述,包括数据的定义、结构、属性、关系等信息。
2. 元数据分类和组织:对数据仓库中的元数据进行分类和组织,建立元数据的层次结构和关系,便于元数据的管理和使用。
3. 元数据采集和录入:通过各种手段和工具,采集和录入数据仓库中的元数据,包括数据的来源、存储和使用等信息。
4. 元数据更新和维护:及时更新和维护数据仓库中的元数据,确保元数据的准确性和完整性。
5. 元数据查询和分析:提供元数据查询和分析功能,便于用户了解数据仓库中数据的含义和关系。
6. 元数据安全和权限管理:对数据仓库中的元数据进行安全和权限管理,确保只有授权用户可以访问和修改元数据。
三、元数据管理的方法和工具元数据管理可以采用以下几种方法和工具:1. 手工管理:通过人工手动录入和维护元数据,适用于数据量较小的情况。
元数据管理包含的主要内容

元数据管理包含的主要内容元数据管理是指对数据的描述、定义、管理和维护的过程。
它是数据管理的重要组成部分,可以帮助组织更有效地管理和利用数据资源。
本文将介绍元数据管理的主要内容,包括元数据的定义、分类、存储和使用。
一、元数据的定义元数据是描述数据的数据,它包含了关于数据的各种属性和特征。
元数据可以用来描述数据的结构、含义、来源、格式、质量、权限等信息。
通过元数据,我们可以更好地理解和解释数据,帮助我们更加高效地使用和管理数据资源。
二、元数据的分类根据不同的分类标准,元数据可以分为多种类型。
常见的元数据类型包括技术元数据、业务元数据和管理元数据。
1. 技术元数据:技术元数据描述了数据的技术特性和属性,包括数据的存储格式、数据结构、数据类型、数据源、数据接口等信息。
技术元数据主要面向数据管理人员和技术人员,帮助他们理解和操作数据。
2. 业务元数据:业务元数据描述了数据的业务含义和用途,包括数据的定义、业务规则、业务流程、业务规范等信息。
业务元数据主要面向业务人员和决策者,帮助他们理解和应用数据。
3. 管理元数据:管理元数据描述了数据的管理信息,包括数据的归属、权限、安全性、生命周期等信息。
管理元数据主要面向数据管理人员和安全管理员,帮助他们管理和维护数据资源。
三、元数据的存储元数据的存储是元数据管理的关键环节。
一般来说,元数据可以存储在元数据仓库中,也可以存储在数据库、文档或文件中。
1. 元数据仓库:元数据仓库是专门用于存储和管理元数据的数据库。
它可以集中存储不同类型的元数据,并提供元数据的查询、检索和分析功能。
元数据仓库可以帮助组织更好地组织和利用元数据,提高数据管理的效率。
2. 数据库存储:元数据也可以存储在数据库中,以表格的形式存储。
通过数据库管理系统,可以对元数据进行管理和查询操作。
数据库存储适合于较小规模的元数据管理,但对于大规模的元数据管理来说,可能会面临性能和扩展性的问题。
3. 文档或文件存储:元数据也可以存储在文档或文件中,以文本的形式描述。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse同济大学计算机科学与工程系(上海200092) 史金红 吴永明 【摘要】 介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。
关键词:数据仓库,数据商场,决策支持,元数据【Abstract】 T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity.Key words: da ta warehouse,da ta mart, dec ision support,m etada ta1 引言随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。
进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。
90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。
以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。
元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。
项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。
2 元数据的基本类型元数据按照其用户可以分为技术元数据和商业元数据。
技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。
商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。
但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。
同样,商业用户也需要尝试高水平的技术元数据。
元数据按其内容可以分为四个基本类型:1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。
例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。
2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。
3)关于业务数据与仓库数据结构间的映射信息。
只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。
4)关于数据仓库中信息的使用情况。
了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。
3 元数据的收集和维护在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。
为保证较高的准确性,元数据的收集应该尽可能自动化。
例如收集数据来源的信息时,可以利用扫描仪来扫描或分析数据结构;利用CA SE 工具设计并收集数据模型信息等。
数据仓库的元数据包括很多域,从物理结构数据到逻辑模型数据,再到企业的使用情况和业务规则。
这些类型中的每一类都要求有自己的元数据收集战略。
有些可以在某种程度上自动化,而有些则要采取一点手工劳动。
元数据的维护方法取决于它最初是怎样收集的、它变化的频率如何以及生成的元数据量,对于那些反映数据来源结构和数据仓库本身结构的物理元数据来说,可以使用纲目库工具或建立适当的过程,或执行一些自动程序来感知物理结构的变化,并相应地更新元数据;对于业务规则信息和数据模型而言,元数据很可能要靠手工维护或手工启动一个自动刷新过程来更新元数据商店中的数据模型信息;数据仓库映射是用数据仓库建立工具完成的,并且工具和元数据商店之间有接口,那么这一信息的维护就是固有的,可以自动进行;对于数据仓库使用信息,因为仓库查询所使用的特定表格和数据结构的信息是动态的,所以应该定期追加。
4 元数据的集成和管理现在很多数据仓库项目小组在开发企业级数据仓库同时,引入了数据商场。
数据商场是面向单个主题域、满足一个部门用户群需要的数据仓库,可看作数据仓库的子集,而数据库是面向整个企业的所有主题域和企业范围的用户,如图1所示。
图1 企业信息系统结构现代企业信息系统通常都有一个数据仓库和多个数据商场,数据仓库可以给企业高层管理人员提供关于整个企业全局的信息,并提供对整个企业的集中控制和决策支持;数据商场有助于部门经理和用户对他们部门的任务和执行情况进行分析和决策。
因此,一个企业一般都存在多个元数据商店,既有集中的元数据,又有分布的元数据,分布的元数据可以根据地理位置分布,也可以按照部门分布。
这些元数据存放在不同的元数据存储工具中,每种工具都以不同方式表示这些元数据,因此必须对这些元数据进行管理和集成,从而为用户提供一致的和可理解的元数据。
4.1 元数据集成和管理的必要性许多公司现在意识到了元数据的集成和管理在决策支持中的重要性,并深刻体会到了它的不可忽视的作用。
这主要有三个方面的原因:1)提高生产率。
管理数据仓库中技术元数据的好处类似于在事务处理系统中管理元数据的好处:提高了开发的效率。
集成、一致的技术元数据为负责创建和维护决策支持系统的技术人员创造了一个更加高效率的开发环境。
另一方面,商业元数据给商业用户提供了一个良好的决策支持环境,对利用数据仓库很有价值。
2)数据仓库和决策支持应用经常涉及范围很广的不同产品,为这些产品创建和维护元数据非常耗时和容易出错。
相同的元数据(如一个关系表的定义)可能被几个产品定义。
这不仅很麻烦,而且使元数据的维护、一致性和实时性实现起来很困难。
使元数据的管理过程自动化和在这些不同产品之间共享技术元数据,能减少开销和错误。
3)商业用户需要很好地理解数据仓库中存在什么样的信息,这个信息从商业角度来看意味着什么,它是怎么样导出的,来源于什么系统,根据这个信息如何决策以及如何进行预测和分析等等。
易于访问的商业元数据使商业用户能充分利用数据仓库中有价值的信息。
商业元数据还能帮助技术员与商业用户讨论信息需求、建立企业模型。
4.2 元数据共享和交换过去销售商提供的元数据共享和交换工具总是把元数据放在一个集中的元数据商店或仓库中,并给该商店提供进入 导出功能和编程应用接口,创建一整套描述商店中元数据的数据模型。
在事务处理环境下,这种集中式管理方法有成功之处,但也有缺点。
对于决策支持系统,销售商正在使用许多集中式和分布式方法管理元数据,运用的技术主要有三种:1)支持元数据共享和交换的元数据商店;2)元数据交换的标准;3)为元数据交换指定的开放式A P IS产品。
针对目前缺少就公共表示方式达成的协议、每个用户提出的性能需求各不相同而导致有许多种元数据使用商店的实际情况,解决元数据管理的唯一方法,是创建一个元数据hub和一个商业信息目录来管理不同元数据商店以及决策支持产品间的元数据流,如图2所示。
元数据hub和商业信息目录是两种不同类型的元数据管理工具,它们的用户、用法、结构和接口是完全不同的。
元数据hub主要面向技术用户,它可以是图形用户界面(GU I)工具,也可以是基于网络的工具(如浏览器)。
商业信息目录主要面向商业用户,用户通过基于网络的工具(不仅限于W eb浏览器)仔细查看信息目录中面向业务的元数据,找出哪些信息是可以得到的。
这两种类型的工具之间要有适当的接口,例如商业信息目录的用户需要能够对商业信息目录和由元数据hub维护的技术元数据进行数据挖掘,而技术用户则需要了解建立数据仓库时可以得到哪些源数据。
元数据hub作为面向技术用户的元数据管理工具,主要用来开发和维护数据仓库,并在决策支持产品之间管理技术元数据的交换和共享。
这个hub有四个要求:1)它应该支持在分布式元数据环境下不同系统和产品之间的元数据的交换。
这个hub应该有一个文档化和开放的编程对象接口(例如使用com或co rba),这可以使第三方工具能够应用hub的服务;一个工业认可的文件格式(如comm a deli m ited file、M D IS、M icro soft XM L In terchange fo rm at等)的文件传输机制应被提供给元数据交换。
2)它应该能对元数据进行更新和共享。
用户可以使用元数据hub提供的A P I对象和用以上列出的文件传输格式对元数据进行维护。
这个hub还应该提供一个代理接口,能捕捉本地产品及系统中新的或修改过的元数据,并动态地加载到元数据商店中。
元数据商店的元数据管理系统应该支持版本和时间特性,即能创建一个元数据变化的历史记录。
在大的分布式环境中,数据库管理员应能对横跨多个hub服务器和元数据商店的元数据环境进行物理分割。
3)最起码应该能管理数据仓库信息存贮定义。
图2 数据仓库中的元数据流格式支持包括关系表和列、多维表以及维。
另一种能被处理类型的元数据是关于用来创建数据仓库信息的源数据的信息以及源数据在装入仓库前的转换,但是目前的ETL工具都有它们特有的数据转换方法。
这个产品至少应提供能对源数据编制文档和对自由表文本格式元数据进行转换的能力。
在理想的情况下,hub还应该能对与企业模型相联系的商业元数据以及商业智能工具和分析工具中用到的商业观点编制文档,以便用户访问仓库信息。
4)应使用工业标准的元数据模型或它能够管理的元数据类型的相应元模型,这些元模型应该是编制成文档和可扩展的。
4.3 元数据共享和交换的工具产品支持事务处理的元数据共享和交换的仓库产品已经存在了许多年,大部分销售商已经开始扩展他们的仓库产品来支持决策过程,包括P latinum techno logy,inc.(P latinum R epo sito ry)、Softlab (Enab ler)、U n isys(U R EP)和V iaSoft(Rochade)。