大数据背景下数据质量管理优化对策

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据背景下数据质量管理优化对策

发表时间:2019-05-21T14:40:00.173Z 来源:《防护工程》2019年第3期作者:楼丹陈永杲

[导读] 这需要工作人员应不断提高对数据质量的管理,对数据的各个流程展开合理的分析,从而数据的利用效率。

国网浙江桐乡市供电有限公司 314500

摘要:随着我国经济社会发展,在一定程度上也促进了我信息化技术及互联网技术水平的提升,对带动数据量的增长以及数据类型的增多起着积极的作用,大大提高了数据的复杂性,对我国社会朝着数据化时代的发展有着重要的意义。对此,要想使大数据的应用价值得到充分的发挥,就应做好对数据质量的管理工作,保证数据传输的稳定性和安全性。笔者通过对大数据特征的研究,对现阶段我国数据质量管理所面临的各种问题提出积极的解决对策。

关键词:大数据;数据质量管理;元数据管理

引言:

通过对大数据进行科学管理和有效利用,能够促进决策制定的合理性,通过应用大数据中有价值的信息,从而促进各项工作的顺利完成。但在由于大数据的数量和种类较多,在这些冗杂的信息中往往会存在一些无用信息,对数据的质量带来严重的影响,从而降低了信息价值,使其优势也会受到影响。要想通过优化管理来促进数据质量的提升,是当下我国大数据时代所应思考的重要的问题,并需对其进行广泛的关注。

1 大数据背景下数据质量管理面临的问题

1.1计算难度较大

由于大数据自身存在一定的特点,因此在对其进行质量管理的过程中,应选择使用线性及亚线性算法对其时间及空间的复杂水平展开合理的确定。为了更好的促进运算水平的提升,应结合并行算的方式,从而使数据的质量和算法的准确性都能得到保证,这也使计算的难度得到极大的提升。就现阶段我国数据质量管理现状来看的话,没有对数据的可扩展性展开综合的考虑,无法适应数据量等级需要[1]。

1.2缺乏知识支撑

由于大数据具有一定的多样性且价值密集度不高,因此要想提高其利用效率就应展开全面深入的分析,但当下在尽心各项数据质量管理的过程中,所采用的各项参数及其规则都是通过专家来决定的,自动错误检测修复及规则学习算法需要主数据或清洁的训练集。这也会耗费大量的维护费用,对于所选择则的训练集,现阶段来看还有没建立一个完整的计算方式,无法对其提供有效的支撑,无法适应数据质量管理的需要。

1.3容易出现错误

由于大数据自身存在一定的复杂性,在保存及传输过程中容易出现错误的现象,使数据的准确性受到改变,无法将其应用效果得到充分的发挥。由不同类型数据的数据并不是被独立进行划分的,它们都有着一定的关联,一旦出现错误现象,将会影响整个数据质量,从而降低其精准度,但当下我国所采取使数据质量管理的方式还并不完善,只能够对一些特定的错误进行处理,无法对一些关联性的错误展开良好的管理效果[2]。

2 大数据背景下数据质量管理优化对策

2.1构建数据质量评价体系

图1 数据质量体系

只有做好质量评估体系的完善工作才能从根本上来保证数据管理的规范性,并且数据质量的维度体系的内容较多,如图1所示,在进行数据质量评价体系构建的过程中应尽量从这几方面进行考虑。首先,可以集合唯一值以及记录数来对数据的完整性进行判断,在对其进行属性衡量的过程中,结合为空值所占比例;其次,在校验数据准确性的过程中,应合理的分析数据的准确性,如定义范围准确,值有无存在意义等,这些都是常见的数据错误行驶,此外,对于及时性的检验,可以结合时间间隔来对其进行合理的判断,从而更好的确定数据能否出现延时的现象;最后,在对数据一致性进行衡量的过程中,所用依据为合规记录所占比例,而对于逻辑关系的判定,则可结合合规率来进行合理的判断分析,根据所建立数据质量评价体系,并通过量化指标的方式展现出数据质量,如果出现异常数据时应立即进行警报,从而可以在短时间内找到异常数据的具体位置,并及时进行处理,避免对其他数据质量造成影响[3]。

2.2构建大数据质量知识库

大数据质量管理作为一项持续性的工作,要想在短时间对处理数据质量的问题并保证其精准度,就应构建一个完整的大数据质量知识

库,从而积累丰富的经验。一方面,应做好不同类别的数据质量问题的整理工作,斌将其纳入到大数据质量知识库中,经过长时间的累计充实知识库,即便是再出现类似的数据质量问题时,知识库可以为其提供较为合理的解决方案,促进数据质量管理工作的顺利开展,提高对数据质量问题的处理效率;另一方面,应结合数据质量管理参数及规则,增强对训练集自动选取算法的研究力度,实现大数据知识库的智能、主动学习,从而实现对异常数据展开自动化的检测方式,即便遇到复杂的数据也可以很好的进行处理[4]。

2.3重视并落实元数据管理

元数据的本质是用来进行表述数据,在对数据质量管理过程中,应不断提高对元数据的管理。元数据大体上可分为业务类、管理类及技术类等三方面内容,管理流程、岗位职责等描述概念、规则、关系的数据,均可将其看作管理元数据。而技术元数据主要包括开展数据结构的描述、处理过程的数据等,牢牢把握住整个消费和生产的过程;而业务术语以及业务规则等内容,可将其看作业务元数据,在进行数据质量管理的过程中应不断完善对元数据的管理工作,构建较为先单一的元数据存储系统,使用较为集中化的管理方式对不同类型的元数据展开管理工作,再使用分散管理的方式,结合不同元数据的类型、来源等,制定一个较为合理的处理流程,然后对其展开差异化的处理方式,既保证了元数据的质量,也便于人们理解和利用大数据,保证数据的质量和各个环节能够有效的展开[5]。

3 结语

综上所述,大数据时代已成社会发展的必然走向,信息技术领域的发展也必将为我国社会带来一次重大的变革。使得物联网以及云计算等技术在各个领域中得到非常广泛的应用,对我国经济社会的发展也会起到一定的推动作用。由于大数据的类型较多且复杂水平较高,这需要工作人员应不断提高对数据质量的管理,对数据的各个流程展开合理的分析,从而数据的利用效率。参考文献:

[1]董宏伟.大数据时代下数据质量的挑战[J].数字通信世界,2015(8):268-316.

[2]王宏志.大数据质量管理:问题与研究进展[J].科技导报,2014(34):78-84.

[3]刘金晶,曹文洁.大数据环境下的数据质量管理策略[J].软件导刊,2017(3):176-179.

[4]戚斌.大数据时代下数据质量的挑战[J].信息记录材料,2018(6):74-75.

[5]范令.大数据环境下数据质量关键问题研究[D].中国海洋大学,2015:15-17.

相关文档
最新文档