大数据环境下的数据质量管理策略
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据环境下的数据质量管理策略
信息时代,数据已经慢慢成为一种资产,数据质量成为决定资产优劣的一个重要方面。随着大数据的发展,越来越丰富的数据给数据质量的提升带来了新的挑战和困难。提出一
种数据质量策略,从建立数据质量评价体系、落实质量信息的采集分析与监控、建立持续
改进的工作机制和完善元数据管理4个方面,多方位优化改进,最终形成一套完善的质量
管理体系,为信息系统提供高质量的数据支持。
1信息系统数据质量
信息由数据构成,数据是信息的基础,数据已经成为一种重要资源。对于企业而言,
进行市场情报调研、客户关系维护、财务报表展现、战略决策支持等,都需要信息系统进
行数据的搜集、分析、知识发现,为决策者提供充足且准确的情报和资料。对于政府而言,进行社会管理和公共服务,影响面更为宽广和深远,政策和服务能否满足社会需要,是否
高效地使用了公共资源,都需要数据提供支持和保障,因而对数据的需求显得更为迫切,
对数据质量的要求也更为苛刻。
作为信息系统的重要构成部分,数据质量问题是影响信息系统运行的关键因素,直接
关系到信息系统建设的成败。根据“垃圾进,垃圾出(garbagein,garbageout)”的原理,为了使信息系统建设取得预期效果,达到数据决策的目标,就要求信息系统提供的数据是可靠的,能够准确反应客观事实。如果数据质量得不到保证,即
使数据分析工具再先进,模型再合理,算法再优良,在充满“垃圾”的数据环境中也只能
得到毫无意义的垃圾信息,系统运行的结果、作出的分析就可能是错误的,甚至影响到后
续决策的制定和实行。高质量的数据来源于数据收集,是数据设计以及数据分析、评估、
修正等环节的强力保证。因此,信息系统数据质量管理尤为重要,这就需要建立一个有效
的数据质量管理体系,尽可能全面发现数据存在的问题并分析原因,以推动数据质量的持
续改进。
2大数据环境下数据质量管理面临的挑战
随着三网融合、移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节
都在急速攀升,随之快速产生的数据呈指数级增长。在信息和网络技术飞速发展的今天,
越来越多的企业业务和社会活动实现了数字化。全球最大的零售商沃尔玛,每天通过分布
在世界各地的6000多家商店向全球客户销售超过2.67亿件商品,每小时获得2.5PB的交易数据。而物联网下的传感数据也慢慢发展成了大数据的主要来源之一。
有研究估计,2015年全球数据量为8ZB,而到2020年则高达35.2ZB,是
2015年数据量的44倍之多。此外,随着移动互联网、Web2.0技术和电子商务
技术的飞速发展,大量的多媒体内容在指数增长的数据量中发挥着重要作用。
大数据时代下的数据与传统数据呈现出了重大差别,直接影响到数据在流转环节中的
各个方面,给数据存储处理分析性能、数据质量保障都带来了很大挑战。大数据与传统数
据对比如表1所示。
由于以上特性,大数据的信息系统更容易产生数据质量问题:
(1)在数据收集方面,大数据的多样性决定了数据来源的复杂性。来源众多、结构
各异、大量不同的数据源之间存在着冲突、不一致或相互矛盾的现象。在数据获取阶段保
证数据定义的完整性、数据质量的可靠性尤为必要。
(2)由于规模大,大数据获取、存储、传输和计算过程中可能产生更多错误。采用
传统数据的人工错误检测与修复或简单的程序匹配处理,远远处理不了大数据环境下的数
据问题。
(3)由于高速性,数据的大量更新会导致过时数据迅速产生,也更易产生不一致数据。
(4)由于发展迅速,市场庞大,厂商众多,直接产生的数据或者产品产生的数据标
准不完善,使得数据有更大的可能产生不一致和冲突。
(5)由于数据生产源头激增,产生的数据来源众多,结构各异,以及系统更新升级
加快和应用技术更新换代频繁,使得不同的数据源之间、相同的数据源之间都可能存在着
冲突、不一致或相互矛盾的现象,再加上数据收集与集成往往由多个团队协作完成,期间
增大了数据处理过程中产生问题数据的概率。
3数据质量管理策略
为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运
行的全过程进行监控,密切关注数据质量的发展和变化,深入研究数据质量问题所遵循的
客观规律,分析其产生的机理,探索科学有效的控制方法和改进措施;必须强化全面数据
质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。
大数据下信息系统的数据处理架构如图1所示。
传统数据仓库中ETL的环节在大数据应用中会根据实际业务需求在不同的环节存在,分别进行粗细粒度不等的数据抽取、转换和加载,以适应容纳处理不同规模、不同结构、
不同流量的数据。
结合大数据的参考框架及数据处理实际需求情况,数据质量管理可以从以下几个方面
着手,以多方协作改进,最终实现系统数据处于持续高效可用的状态。
3.1建立数据质量评价体系
评估数据质量,可以从如下4个方面来考虑:①完整性:数据的记录和信息是否完整,是否存在缺失情况;②一致性:数据的记录是否符合规范,是否与前后及其它数据集保持
统一;③准确性:数据中记录的信息和数据是否准确,是否存在异常或者错误信息;④及
时性:数据从产生到可以查看的时间间隔,也叫数据的延时时长。
有了评估方向,还需要使用可以量化、程序化识别的指标来衡量。通过量化指标,管
理者才可能了解到当前数据质量,以及采取修正措施之后数据质量的改进程度。而对于海
量数据,数据量大、处理环节多,获取质量指标的工作不可能由人工或简单的程序来完成,而需要程序化的制度和流程来保证,因此,指标的设计、采集与计算必须是程序可识别处
理的。
完整性可以通过记录数和唯一值来衡量。比如某类的交易数据,每天的交易量应该呈
现出平稳的特点,平稳增加、平稳增长或保持一定范围内的周期波动。如果记录数量出现