元数据管理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
元数据管理
—企业信息化建设的润滑剂
作者:石竹软件有限公司薛勇
随着企业IT信息化建设如火如荼的进行了数十年,大多数企业逐渐拥有了ERP、CRM、SCM等系统。在企业的这些分散的业务系统里存放着大量珍贵的数据,而这些数据对于企业而言,恰似深埋在大地中的宝藏一样,会对企业的未来发展产生至关重要的作用。于是乎企业挖“宝藏”的工作全面展开了,而这就是商业智能(Business Intelligence)。
可现实情况是这些“宝藏”零散的深埋于浩如烟海的数据之中,并非因企业有了激情和想法就能轻易获得。由于原来企业各业务系统建设的出发点,都只考虑单系统自身的完整性和一致性,当企业想从全局层次上把这些分散的系统有机的集成起来的时候,人们会发现这种工作的难度比挖矿本身还难。人们无论怎么去努力,但离“智能”的境界总是有不小的差距。在人们不断探索解决问题的过程中,元数据的出现,为那些挖掘数据宝藏者们提供了有力的支撑。
元数据(Meta Data)是关于数据的数据。当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据;元数据主要用来描述数据的上下文信息。通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据。
元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据,发现和描述数据的来龙去脉,特别是那些即将要从OLTP系统上升到DW/BI体系建设的企业,元数据可以帮他们形成清晰直观的数据流图。
元数据的概念虽然在国内刚刚被人们熟悉起来,但在国外他已经历了较长的发展历史。从上世纪60年代,人们认识到元数据的需要,到数据字典、CASE工具的应用,以及上世纪90年代数据仓库体系中元数据存储库的出现,直到现阶段国外企业以元数据为驱动的IT系统建设的方法论流行。企业对于元数据的价值越来越有深刻的体会。
元数据按其描述对象的不同可以分三大类:技术元数据、业务元数据和管理元数据。技术元数据主要用是用来描述数据实体和数据处理过程中的技术细节和处理规则。比如我们所熟知的表结构、ETL映射关系等,这类元数据主要是系统建设的技术人员使用。业务元数据主要是对IT系统的数据实体和数据处理的业务化描述,包括业务规则、业务术语、统计口径、信息分类等。我们经常提及的KPI定义和报表统计规则等就属于此类元数据。业务元数据主要的使用者是业务人员和公司决策人员。管理类元数据主要是对项目管理、IT运维、IT资源设备等相关信息的描述。这类元数据主要是企业IT
部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。
元数据的管理方式有三种:集中式、分布式和混合式。集中式的管理方式是把原有系统中的元数据抽取出来,用一个独立的系统来集中管理。此类管理方式优点是:可高效存取信息、独立于被集成的系统和具备存储附加元数据的能力;缺点是:由于额外的执行和维护降低了ROI和实时性。
分布式管理方式是不具备独立的元数据存储库,系统实时的连接到原有的系统。这种方式的优点是:适时性比较好和能保证元数据的质量;缺点是:过度依赖于集成系统和不能存储附加元数据。
混合式元数据管理既有独立的元数据存储库又可实时的连接到原有的系统。混合式管理方式克服了集中式和分布式管理的各自缺点,同时集成了前两种管理方式的优点,既能适时的捕获和反映原有系统元数据的情况,又能让用户扩展和定义附加的元数据。图1所示为混合式元数据管理方式,目前国内元数据工具中,广州石竹计算机软件有限公司的MetaOne产品完全实现了混合式元数据管理的架构。
元数据管理目前遵循的规范为CWM(Common Warehouse Model)。该规范是由OMG 组织制定的,此规范目的是能在不同的系统之中可以自由、便捷的交换元数据。CWM核心的技术有三个:UML(United Modeling Language)、MOF(Metadata Object Facility)和XMI(XML Metadata Interchange)。UML主要用来定义元模型;MOF用来提供操作元数据接口;XMI用来定义交换元数据的机制。具体的讲CWM标准包含五个包,若干个类。其构成如图2所示。
元数据管理典型的应用有:ETL映射分析、血统分析/影响分析和差异分析等。这些应用对于整个企业、技术人员、业务人员和IT管理人员都的挥着至关重要的作用。对于整个企业而言,元数据管理可以协助企业进行数据资产管理;帮助解决数据孤岛的现象,形成统一企业信息地图;实现集中浏览分布在企业内部的所有电子文档;同时协助企业建立企业级视图的指标库。
随着企业信息化建设的不断深入和积累,元数据管理平台可以发挥企业知识传承的平台。如图3所示,通过元数据的“ETL映射分析”功能,从企业级视图去查看“Transformer”这个转换的具体细节。帮助技术人员更好的理解数据内部的来龙去脉。
对于那些已经建设有BI/DW系统的企业而言,企业内部分散着数十种系统的情况是很普遍的现象。这些企业的业务人员和决策层所关注的一些统计报表和指标,往往是经过许多业务系统和若干数据处理环节而形成的。当最末端的数据发生异常时,在没有元数据管理系统的情况下,需要许多单位和部门(包括软件集成商)的人共同参与,利用手工的方式去逐级查找数据出错的原因。这种方式不仅不利于问题的及时发现,而且一旦出现问题,很难短时间内定位问题,甚至根本不可能定位问题的所在。
而利用元数据管理系统的血统分析等功能,可以很容易的定位问题,再配合监控规则的设置,使问题发现的及时性大大提高。比如某企业日常工作中所用到的“产品销售收入”这个指标出现异常时,相关人员就可以利用元数据管理系统的“血统分析”很快的定位到出错的位置.如图4所示,之所以最终“产品销售收入”指标出错,是因为
计算该指标的一个中间程序出错,该出错程序的名字是“客户信息入库程序”出错。
利用元数据管理系统,企业可以建立数据元(标准)的统一视图。通过统一数据口径、完善指标体系、建立统一数据视图,可确保数据的完整性、准确性、一致性,从而有效的在各个业务系统内进行数据的转换和整理工作。目前,许多企业经常会面临同一个指标在不同部门或者不同系统中定义不一致的情况,以至于最终的统计数据出现偏差,为决策者提供了错误的决策依据。
如某企业某月A省分公司和B省分公司都给总公司上报了“产品销售量”的指标,A省分公司的产品销售量为500万件,B省分公司的产品销售量为300万件。按常识判断A省分公司的销售量应该远远小于B省分公司的销售量,但报表的数据却与常识相差甚远,究竟是什么原因造成这种与常识的不一致性呢?在没有元数据管理系统时,我们很难发现其中的原因,但有了元数据管理系统的指标差异分析等功能,通过元数据的差异分析很容易解释这些现象。如图5所示:之所以出现统计的异常是由于A、B两省分公司对同一指标“产品销售量”的定义不一致而造成的。
此外,元数据管理系统可在统一数据视图上进行全行业内的指标一致性分析,可对关键业务的监控规则进行设置和管理。随着数据量的不断积累,数据质量问题的日益突出,元数据管理平台可承担起全企业的数据质量管理的基础平台。同时,利用需求类元数据和流程类元数据,来协助IT管理人员进行项目和流程的管理,从而减少企业人员流动对于项目造成的影响。
在这个“惟一不变的就是变化本身”的时代,在这个数据和知识爆炸的时代,如何有效的进行企业IT系统建设的扬弃和传承?如何高效的利用企业数据资产?
这些问题犹如“格尔迪奥斯绳结”摆在我们的面前,而元数据恰是解开这个“结”的关键所在。对于企业IT系统建设而言,我们依然信奉“元数据不是万能的,但没有元数据是万万不能的”这句经典诠释。特别是对于那些组织结构复杂、IT系统众多的企业,这个组织和支撑它的IT系统要想有效运转起来,一定少不了元数据这种“润滑剂”。
图1 混合式元数据管理