信息系统建设中的数据质量管理体系研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基金项目:湖北省教科 十五 规划立项课题(编号:2005B131)。
作者简介:谷 斌,男,1970年生,副研究员,研究方向为电子商务、信息管理。
信息系统建设中的数据质量管理体系研究
*
Study on the Data Quality Management System in the C onstruction of Information System
谷 斌
(华南理工大学电子商务学院 广州 510006)
摘 要 从数据质量的概念演变入手,分析了影响信息系统数据质量的历史原因、技术水平、数据更新维护途径和数据质量监督管理措施等因素,讨论了数据质量评价指标的选择角度与评价实施步骤,阐述了全面数据质量管理的实施进程。
关键词 信息系统 数据质量 管理体系
在信息时代,信息由数据构成,数据是信息的基础,数据已经成为信息系统建设的重要组成部分和信息化进程中的重要资源。在信息化社会,数据同人们的生活、工作、学习等各种活动息息相关,随着信息技术的发展和应用,存储在计算机中的电子化数据显得尤为重要。不论其表现为何种方式,数据都是信息系统赖以成功的一个主要因素。因特网的迅速发展、数字化信息资源的广泛存在,为数据质量的提高创造了更为广阔的空间,需要我们以发展的眼光来看待数据质量问题。
作为信息系统的重要构成要素,数据质量问题是影响信息系统运行的关键因素,直接关系到信息系统建设的成败。根据 进去的是垃圾,出来的也是垃圾(garbage in,g arbage out) 这条原理,为了使信息系统建设取得预期成果,就要求信息系统提供的数据是可靠的,没有错误,准确地反映客观现实。如果数据质量得不到保证,信息化进程的实施就根本不可能达到预期效果。高质量的数据来源于数据设计、数据收集以及数据分析、综合、展示活动的高品质和综合作用,这就需要建立一个有效的数据质量管理体系。因此,信息服务平台的数据质量的管理正在获得越来越多的关注。
1 数据质量概述
随着信息化的不断推进,社会各个成员都能够获取大量数字化的信息,甚至淹没在数据的海洋之中。其中的某些数据没有多少价值,或者根本就是错误的。据美国一家著名的市场咨询公司(Gartner 公司)的调查,有1/4的企业在与低质量的数据打交道。而在国内,这一比例还要大得多。
美国麻省理工学院(M IT )的一项调查表明,只有35%的公司相信自己的数据,15%的公司相信合作伙伴的数据。从数据输入、数据集成到数据传输,每个过程都不可能完全避免错误。错误的或不充分的数据造成的损失是无法估计的。在美国仅因 2000年问题 而引起的诉讼费用就达10000亿美元。在不同时期,数据质量有不同的概念和标准。20世纪80年代以前,国际上关于数据质量的标准基本上是以提高数据准
确性为出发点。但是随着质量含义的不断延伸,对数据质量概念的认识也从狭义向广义转变,准确性不再是衡量数据质量的唯一标准。数据质量的高低必须从用户使用的角度来看,即使准确性相当高的数据,如果时效性差,或者不为用户所关心,仍达不到质量的标准。总的来看,现代数据质量概念主要包括以下几个方面:一是注重从用户角度来衡量数据质量,强调用户对数据的满意程度;二是数据质量是一个综合性概念,需要建立一套有效的数据质量管理体系,应从多角度来评价数据的好坏;三是适用性、准确性、适时性、完整性、一致性和可比性等构
成了数据质量的基本要素[1]
。
2 影响信息系统数据质量的因素
影响数据质量的因素有很多,既有管理方面的因素,又有技术方面的因素。无论由哪个方面的因素造成的,其结果均表现在数据库中的数据没有达到预期的质量指标[2]。在数据的生产和处理中,任何一个环节的问题都会对信息系统的数据质量产生负面影响。一般说来,影响数据质量的因素主要有以下几种:
2 1 历史原因 由于传统上提供服务的各个信息系统相互独立,在它们设计实施阶段都没有统一规划,各个系统往往采用不同的技术和架构,不同的业务规范和数据模式,导致数据粒度、名称、表达方式上的多样性;数据分散、不完整甚至可能会有冲突。
2 2 技术水平限制造成元数据不准确、数据不一致、数据重复、数据二义性等问题 当前在元数据的处理上,有几种不同的元数据标准,而这些标准有其类似的地方,但不同的标准也存在着各自的个性。
2 3 设计时没有提供有效合理的数据更新维护途径 目前许多信息系统在其设计过程中,大多注重自身的数据处理能力,而很少考虑与其他系统的兼容性,同时对于数据质量问题也很少考虑,数据更新和维护的途径较少。
2 4 信息服务机构缺乏数据质量监督管理措施 在信息系
Journ al of Information No.5,2007
情报杂志2007年第5期
统建设过程中,往往在业务流程上倾注过多的精力,人们更关心 这些数据应该往哪里去,应该由谁处理它 ,对于提高数据的质量不够重视,数据只不过是信息处理过程中产生的 副产品 。
2 5信息系统的数据质量还受到信息采集过程中信息选择主体的影响在信息选择过程中,认知、情感、意志等心理因素都起作用,还与人们一定的知识背景、兴趣、爱好等有关,并且受社会经济条件的制约。信息传播也有 马太效应 (Matthew Effect),这是一种社会心理,即已经有的还要加强,没有的总是处于弱势。经由名人透露和传播的信息往往具有较高的 含金量 ,人们会互相传播,甚至添油加醋,而使信息走样和失真。即使是重要信息,如果出自无名之辈,也会被打折扣。由于人们的认识水平和思维创造能力影响心理活动的转化过程,在接受和利用信息的活动中,每个人都有差异,因而个人的选择也有不同[3],并最终影响到信息系统的数据质量。
3信息系统建设中数据质量的评价
信息系统建设中数据质量的评价工作涉及到评价指标的确定和相应评价过程的实施。
3.1信息系统建设中数据质量的评价指标在进行信息系统建设数据质量评价时,要根据具体的数据质量评价需求对数据质量评价指标进行相应的取舍。在进行数据质量评价时,我们可以从两个角度来进行:一是主观的角度;二是客观的角度。主观的角度对数据质量的评价主要是从信息系统数据的收集者、数据的管理者和数据的消费者的角度来考查数据的质量问题,而客观角度对数据质量的评价则包括了任务独立与任务非独立两种情形。任务独立,顾名思义即数据的状态与具体的任务之间没有知识结构上下文的关联关系,可以应用于任何一个数据集,而无须考虑具体的任务;而任务非独立则意味着数据与具体的任务之间在内容上关系密切。
我们可以从不同的角度对数据质量进行评价,Leo L. Pipino等人将数据评价的角度作了如下划分:
在具体评价过程中,可以根据不同的任务,对上述各种指标给定相应的权值,并最终作出符合实际的评价分析来。
表1数据质量评价的角度[4]
角度定义
易用性数据可以使用,并且能够简单快捷地检索
数据量的适度性对某一个具体的任务来说,数量是适度的
可信度数据是真实可信的
完整性数据无缺省,在广度和深度上都是充分的
表述上的简洁性数据在表述上是精炼的
表述上的一致性数据在表述上遵循同一格式
易操作性数据易于操作并且适应于不同的信息保障任务
正确性数据是正确可靠的
互译性数据以适当的语言、符号和单位表述出来,定义清楚
客观性数据收集整理过程中不带主观偏见,不主观臆断,公平公正
相关性数据可用,并与具体的信息保障任务相关
好评程度数据在来源和内容方面获得的评价高
安全性在对数据存取的过程中维护数据的安全性
时间性数据对某一个具体的信息保障任务来说是最新的数据
可理解性数据是易于理解的
增值性数据是有益的,能够在使用时受益
3.2信息系统建设的数据评价的实施在建立了信息系统数据质量的评价指标之后,接下来就可以实施评价了,在实施评价过程中,一般应遵循以下几个步骤,如图1所示。a.执行主观和客观上的数据质量评估;b.比较评估的结果,找出误差所在,并在这些误差中找出造成这些误差的根本原因;c.采取必要
的措施来提高信息系统的数据质量。
图1信息系统数据质量评价的实施
通过对主客观影响因素的分析,其分析的结果可能有四种组合,如图2
所示。
图2主客观评价图
在这里,我们以水平方向表示客观评价的高低,以垂直方向表示主观评价的高低。对评价结果的分析会落入图2的四个区域之一,我们的目标是分析的结果落到第!块区域,实现客观和主观评价都比较高的目标。如果分析结果落在第∀、#、∃块区域,则需要调查产生这种情况的主要原因,并采取措施予以纠正。
4信息系统建设中的全面数据质量管理
尽管由于多方面原因,给信息系统的数据质量带来一定的负面影响,但仍可以采取一定的措施来提升信息系统的数据质量。近来随着信息化的深入,数据质量方面的工作也由原来的对数据质量的检查和纠错发展到建立全面数据质量管理(Total Data Quality Management,T DQM)上来[5]。
情报杂志2007年第5期Journ al of Information No.5,2007