国外数据质量管理研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国外数据质量管理研究综述
(2008-10-16 10:39:55)
1 引言
数据(data)是为反映客观世界而记录下来的可以鉴别的数字或符号。
如数字、文字、图形、图像、声音等。
随着信息技术应用的不断普及,信息系统中数据质量问题受到越来越多的关注,特别是统计、管理和计算机等领域。
数据质量问题的研究,在统计领域始于1960年代末期,管理领域始于1980年代初,计算机领域始于1990年代初[1]。
本文对国外近十年管理领域的数据质量研究进行总结和评述,并提出进一步的研究方向。
文章结构的第二部分是数据质量定义和质量维度,第三部分是数据产品制造过程,第四部分是数据质量的测量和评估,第五部分是数据质量管理体系,第六是结束语。
2 数据质量的定义和维度
从20世纪50年代开始,人们从不同的角度定义质量[2,3]。
基本上可以分为五种:基于消费者的,基于制造的,基于产品的,基于价值的,先验的。
比较流行的定义有:质量是一组固有特性满足要求的程度[4];质量是使用的适合性[5];质量意谓对要求的符合性[6]。
在许多文献中,数据质量DQ(data quality)与信息质量IQ(information quality)两个术语通用,定义多种多样。
文献[7]将数据质量定义为“使用的适合性”,此定义的基础是当时全面质量管理中广泛接受的质量概念,因此关于数据质量的这个定义也被广泛接受。
文献[8]将数据质量定义为“一个信息系统表达的数据视图与客观世界同一数据的距离”。
有些文献将DQ直接定义为一组属性(特征),如正确性、适时性、完全性、一致性和相关性等。
采用文献[7]的定义,数据质量判断依赖于使用数据的个体,不同环境下不同人员的“使用的适合性”不同,数据质量是相对的,不能独立于使用数据的消费者来评价数据质量[9]。
因此,识别数据质量维度成为有价值的研究工作。
数据质量维度是一组表达数据质量构成或者数据质量单一方面的数据质量属性[7]。
文献[7]采取二阶段调查方法识别出4类共15个数据质量维度。
固有质量包括:正确性(没有错误),客观性,可信性,声誉。
可访问性质量包括:可访问性,访问安全。
语境质量包括:相关性,增值性,及时性,全面性,数据量。
表达质量包括:可解释性,易理解性,简明性,一致性。
文献[10]识别出6个Web数据数据特征共32个子特征。
功能性特征包括:适宜性,正确性,互用性,灵活性,安全,可追溯性。
可靠性特征包括:成熟度,可恢复性,可用性,可降解性,容错。
效率特征包括:时间行为,资源行为。
合用性特征包括:可理解性,可学习性,可操作性,乐趣,清晰性,帮助性,直率性,习俗化,用户友好。
维护特征包括:可分析性,可改变性,稳定性,可测试性,可管理性,可复用性。
可移植性特征包括:适应性,一致性,可替代性,可安装性。
文献[11]提出6个Web数据质量标准,包括:权威,正确性,客观性,流通,定位,导向。
文献[12]在文献[7]的基础上,采用调查方法得到Web数据质量维度。
固有质量指正确性和内容错误,包括:准确性,可用性,相关超级链接。
语境质量指提供作者信息。
表达质量包括:组织,视觉效果,版面特点,一致性,活泼有吸引力,内容混乱。
可访问性质量指提供导航工具。
文献[13]以符号学为基础,建立4个符号学层次共11个质量维度。
句法层次的维度是良好定义或者正规的句法。
语义层次的维度包括:易理解,明确,有意味,恰当。
语用层次的维度包括:适时,简明,易于访问,声誉好。
社会层次的维度包括:获知,明白差异。
每个维度都有具体的改进策略。
文献[14]给出3类共22个评估标准。
主观类包括:可信性,简明表达,可解释性,相关性,声誉,可理解性,增值。
客观类包括:完全性,客户支持,文档,客观性,价格,可靠性,安全,适时性,可验证性。
过程类包括:精确性,数据量,可用性,表达一致性,等待时间,响应时间。
对每个标准有特定的评估方法。
文献[15]识别出5类28个数据质量维度。
人类工程学质量类维度包括:易于导航,舒适性,可学习性,视觉信号,音频信号。
可访问性质量类维度包括:技术访问,系统可用性,技术安全,数据可访问性,数据共享,数据可转换性。
处理质量类维度包括:可控性,容错,适应性,系统反馈,效率,响应。
语境质量类维度包括:增值,相关性,适时性,完全性,适当的数据。
表达质量类维度包括:可解释性,一致性,简明性,结构,可读性,对照。
文献[16]给出6个Web数据检索的质量度量,包括:流通,可用性,信噪比,权威,流行,内聚性。
文献[17]给出2种4类共16个Web数据质量维度,包括:理解,正确,清晰,适用,简明,一致,恰当,流通,方便,适时,可追溯,交互,可访问,安全,可维护,快捷。
文献[18]对包括上述9个数据质量维度方案在内的12个方案进行了分析和评述,12个方案中有3个是引用另外两个的成果。
文献[19]对包括文献[18]的12个方案在内的13个方案进行分析和评述。
美国国家统计科学研究所(NISS)关于数据质量的研究表明[20]:(1)数据是产品。
(2)作为产品,数据有质量,这个质量来自产生数据的过程。
(3)数据质量原则上可以测量和改进。
(4)数据质量的重要性正在增加,但不平衡。
(5)在大学里,实质上不存在数据质量作为一个重要研究领域的认识。
(6)数据质量与环境有关。
(7)数据质量是多维度的。
(8)数据质量是多尺度的。
(9)人的因素是核心。
从上述数据质量维度方案可以看出,现有方案较多地涉及Web数据质量。
尽管有些维度的重要性得到广泛认同,由于数据质量依赖使用数据的个体,无论是研究人员还是数据质量的从业人员都未对数据质量维度集形成共识。
同一词汇在不同的维度方案中的语义不完全相同,这点在文献[18]和[19]对维度频次的统计差异可以看出。
由于管理学强调环境和个体差异,作者认为没有必要(似乎也不可能)建立一套广泛接受的完整的数据质量维度。
因此,在特定的背景中识别数据质量维度是有价值的。
识别出来的数据质量维度得到认同的程度,依赖于识别的方法和过程。
3 数据产品制造过程
文献[21]和[22]利用信息系统环境和制造环境的相似性,建立起数据产品与物质产品的联系。
原始数据对应原材料,数据加工对应材料加工,数据产品对应物质产品。
这样,全面质量管理(TQM)的原则、方法、指南和技术就可以用于数据质量管理。
在数据产品制造环境中有四种角色:数据提供者,数据生产者,数据消费者,数据管理者。
过程是一组将输入转化为输出的相互关联或相互作用的活动。
过程方法和过程的系统方法是质量管理的基本原则[3]。
确定数据质量相关的过程是质量管理的重要任务之一。
由于数据是由信息系统加工的,计算机科学技术领域现有的信息系统建模方法可以用于数据质量相关过程的识别,如数据流图(DFD)、实体-关系(E-R)图和面向对象模型等。
但是这些方法缺乏系统地描述数据制造过程的能力,同时缺乏用来清楚地表达制造细节的构件。
因此,人们试图设计更加适合数据质量测量和改进的数据制造系统建模方法。
文献[23]给出的数据制造系统模型,通过建立表达数据单元和系统构件关联关系的数据制造系统分析矩阵,系统地追踪数据产品相关属性,这些属性的测量值可以用以数据制造系统的改进。
文献[24]给出一种称为IP-MAP(information product map)的数据制造系统建模方法。
IP-MAP包括8种组装块:源(原始输入数据)块,消费者(输出)块,数据质量块,加工块,数据存储块,决策块,业务边界块,信息系统边界块。
采用自顶向下的设计方法得到的IP-MAP可以使数据管理者看见数据产品制造中的最重要环节,识别影响数据质量的关键环节,确认数据制造系统的瓶颈。
IP-MAP不仅能帮助识别过程拥有者,还能帮助实现质量的源头控制,在数据制造过程的不同阶段用适当的质量维度进行产品质量测量。
计算机科学技术领域的信息系统建模方法,主要目的是系统分析。
文献[23]和[24]的模型主要针对投入运行后信息系统中数据质量管理问题。
事实上,数据质量不仅依赖信息系统的运行维护,还依赖信息系统的分析、设计和实现。
因此,开发适用于信息系统从分析设计到运行维护全过程的、适合数据质量管理的信息系统模型,不仅可以从整体上考虑信息系统开发的数据质量和运行的数据质量,还可以降低解决系统开发和运行过程中数据质量问题的总体成本。
4 数据质量的测量和评估
4.1 数据质量要求
数据质量要求是为使用户获得特定质量数据而需要附加在数据上或者在数据文档中列明的指标[25],它是检验质量的标准。
文献[25]在几个基本概念的基础上,系统地论述了建立数据质量要求的方法和步骤。
数据质量参数(简称质量参数)是用户评价数据质量定性的或者主观的维度。
如来源可信、适时等。
数据质量指标(简称质量指标)是提供数据客观信息的数据维度。
如来源、创建时间、收集方式等。
建立数据质量要求的过程如图1所示,共四个步骤:
第一步,建立应用视图。
输入是应用需求,输出是应用视图。
第二步,确定质量参数。
输入是应用视图、应用质量要求和侯选质量属性,输出是参数视图(附加在应用视图上的质量参数)。
第三步,确定质量指标。
输入是参数视图,输出是质量视图(包含质量指标的应用视图)。
第四步,质量视图集成和应用视图求精。
输入是质量视图,输出是集成的质量计划。
图1 数据质量建模过程
4.2 数据质量测量和评估
文献[26]和[27]的数据质量评估方法称为AIMQ,它由三个部分组成。
一是2×2的PSP/IQ模型(见表1)。
行决定于将数据看成产品还是服务,列决定于评估是依据正规的质量规范还是消费者期望,这样将文献[7]的15个质量维度中除增值性以外的维度,加上易操作性维度分成四类。
二是IQA工具,是一套测量数据质量的调查问卷。
三是质量差距分析技术。
规格符合性满足或者超过消
费者期望
产品质量完好的信息
(没有错误,
简明性,全面
性,一致性)
有用的信息(数据
量,可解释性,易
理解性,相关性,
客观性)
服务质量可靠的信息
(及时性,安
全性)
可用的信息(可信
性,可访问性,易
操作,声誉)
表1 PSA/IQ模型
文献[28]提出一种在组织内部测量数据质量的方法。
首先建立数据质量标准列表,标准分为直接评估标准和间接评估标准。
直接评估标准的评估采用传统的软件测量方法,即问卷调查方式。
而间接评估标准的分数由直接评估标准计算得到。
文献[29]采用面向评估的方法对Web数据质量标准进行分类。
根据影响数据质量的用户、数据源和查询过程这三个主要因素,对应地将文献[14]中的22个质量维度分为主观标准、客观标准和过程标准。
每个维度都有相应的评估方法。
文献[30]给出三种数据质量客观评价的算法(简单比率,最大-最小运算,加权平均),并描述了将客观评价和主观评价结合,在实际应用中改进数据质量的步骤。
文献[31]给出一个完整的数据质量评估体系。
评估过程按照由选择模块、质量评估模块和简表(profile)模块构成的数据质量评估架构进行,将评估过程得到的数据质量值和用户类要求进行比较来判断质量是否符合要求。
文献[17]给出由4个步骤12个方面组成的web数据质量测量方法,16个质量维度都有各自的web指标和测量工具。
由于数据质量与背景和用户密切相关,现有的数据质量测量和评估都采取主观和客观相结合的方法。
5 数据质量管理体系
当利用信息系统环境和制造环境的相似性,建立起数据产品与物质产品的联系后,全面质量管理(TQM)的原则、方法、指南和技术就可以用于数据质量管理。
国际标准化组织的ISO 9000系列标准(2000年版包括ISO 9000、ISO 9001和ISO 9004)是世界范围内广泛接受的质量管理标准体系,数据质量管理体系研究也基本继承ISO 9000系列标准的框架,如文献[21]、[22]和[32]的研究。
文献[33]引入评估组织数据质量管理能力的数据质量管理成熟度模型,该模型与软件能力成熟度模型相似,分为四个等级:一级为初始数据管理级,二级为已定义数据管理级,三级为已管理数据管理级,四级为优化数据管理级。
6 结束语
经过二十多年的历程,数据质量管理研究取得了比较系统的研究成果。
特别是麻省理工学院的全面数据质量管理(TDQM)研究自成一体,从1990年开始发表了数十篇论文,出版专著5部。
无论是将数据质量定义为数据“使用的适合性”,还是根据ISO 9000
的版本升级引起质量定义的变化,而定义为“一组固有特性满足要求的程度”,由于环境和个体的差异,在特定的背景中识别数据质量维度是有价值的研究工作。
为从整体上考虑信息系统开发的数据质量和运行的数据质量,降低解决系统开发和运行过程中数据质量问题的总体成本,开发适用于信息系统从分析设计到运行维护全过程的、适合数据质量管理的信息系统模型也值得进一步研究。
参考文献
[1] Scannapieco M., T.Catarci.Data Quality under the Computer Science Perspective[J].Archiv & Computer.2002,12(2):1-12
[2] Center for Innovation in Engineering Education at Vanderbilt University. What is Quality:Definitions and Contrasts[EB/OL].
/mt322/Whatis.htm,2006-10-10
[3] Qualitydigest. Quality:how do you define it[EB/OL].
/html/qualitydef.html,2006-10-10
[4] GB/T19000-2000(ISO 9000:2000),质量管理体系——基础和术语[S]
[5] Juran J.M., A.B.Godfrey. Juran's Quality Handbook(5th edition)[M]. New York:McGraw-Hill, 1999
[6] Crosby P.B. Quality is Free: The Art of Making Quality Certain[M]. New York: McGraw-Hill, 1988
[7] Wang R.Y., D.M.Strong. Beyond Accuracy: What Data Quality Means to Data Consumers[J]. Journal of Management Information Systems. 1996,12(4):5-33
[8] Orr K. Data Quality and System Theory[J]. Communications of the ACM. 1998,41(2):66-71
[9] Strong D., Y.Lee, R.Y.Wang. Data Quality in Context[J]. Communications of the ACM. 1997,40(5):103-110
[10] Zeist R.H.J., P.R.H. Hendriks. Specifying software quality with the extended ISO model[J]. Software Quality Journal. 1996,5 (4):273-284
[11] Alexander J.E.,M.A.Tate. Web wisdom: How to evaluate and create information on the web[M]. Mahwah, NJ: Erlbaum,1999
[12] Katerattanakul P.,K.Siau. Measuring information quality of web sites: Development of an instrument[A]. Proceedings of the 20th international conference on Information Systems[C]. Charlotte,North Carolina,USA:1999. 279-285
[13] Shanks G.,B.Corbitt. Understanding data quality: Social and cultural aspects[A]. Proceedings of the 10th Australasian Conference on Information Systems[C]. 1999. 785-797
[14] Naumann F.,C.Rolker. Assessment methods for information quality criteria[A]. Proceedings of 5th International Conference on Information Quality[C]. 2000. 148–162
[15] Dedeke A. A conceptual framework for developing quality measures for information systems[A]. Proceedings of the 5th international Conference on Information Quality[C]. 2000. 126-128
[16] Zhu X.,S. Gauch. Incorporating quality metrics in
centralized/distributed information retrieval on the World Wide Web[A]. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval[C]. Athens, Greece: 2000. 288–295
[17] Eppler M.,P. Muenzenmayer. Measuring information quality in the web context: A survey of state-of-the-art instruments and an application methodology[A]. Proceedings of the 7th International Conference on Information Quality[C]. 2002. 187-196
[18] Knight S., J.Burn. Developing a Framework for Assessing Information Quality on the World Wide Web[J]. Informing Science Journal. 2005,8(8):159-172
[19] Parker M.B., V.Moleshe, R.De la Harpe, et al. An evaluation of Information quality frameworks for the World Wide Web[A]. Proceedings of 8th Annual Conference on WWW Applications[C]. Bloemfontein, Free State Province, South Africa: 2006. 1-11
[20] Alan F.K, A.P.Sanil, J.Sacks, et al. Workshop Report:Affiliates Workshop on Data Quality[R],No:117. North Carolina: NISS, March, 2001
[21] Wang R.Y., V.Storey, C.Firth. A Framework for Analysis of Data Quality Research[J]. IEEE Transactions on Knowledge and Data Engineering. 1995, 7(4):623-640
[22] Wang R.Y. A Product Perspective on Total Data Quality Management[J]. Communications of the ACM. 1998, 41(2):58-65
[23] Ballou D.P., R.Y.Wang, H.Pazer, et al. Modeling information manufacturing systems to determine information product quality[J]. Management Science.1998, 44(4):462-484
[24] Shankar G., R.Y.Wang, M.Ziad. IP-MAP: Representing the Manufacture of an Information Product[A]. Proceedings of the 2000 International Conference on Information Quality[C]. 2000. 1-16
[25] Wang R.Y., H.Kon, S.Madnick. Data Quality Requirements Analysis and Modeling[A]. Proceedings of the Ninth International Conference of Data Engineering[C]. 1993. 670-677
[26] Wang R.Y., D.M.Strong, B.K.Kahn, et al. An information quality assessment methodology[A]. Proceedings of the International Conference on Information Quality[C]. Cambridge, MA:1999. 258-265
[27] Yang L., D.M.Strong, B.K.Kahn, et al. AIMQ: A Methodology for Information Quality Assessment[J]. Information & Management. 2002, 40(2):133-146
[28] Bobrowski M., M.Marre, D.Yankelevich. A homogeneous framework to measure data quality[A]. Proceedings of the International Conference on Information Quality[C]. Cambridge, MA:1999. 115-124
[29] Naumann F.,C. Rolker. Assessment methods for information quality criteria[A]. Proceedings of 5th International Conference on Information Quality[C]. 2000. 148–162
[30] Pipino L., Y.Lee, R.Y. Wang. Data Quality Assessment[J]. Communications of the ACM. 2002,45(5):211-218
[31] Cappiello C., C.Francalanci, B.Pernici. Data quality assessment from the user’s perspective[A]. Proceedings of IQIS'04 in conjunction with the 23rd ACM SIGMOD International Conference on Management of Data[C]. Paris: 2004. 68-73
[32] Wang R., T.Allen, W.Harris, et al. An Information Product Approach for Total Information Awareness[A]. Proceedings of IEEE Aerospace Conference[C]. 2003. 1-13
[33] Ryu K.S., J.S.Park, J.H.Park. A Data Quality Management Maturity Model[J]. ETRI Journal. 2006,28(2):191-204。