数据清洗
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅析数据清洗
摘要:本文主要对数据清洗问题进行综述。给出数据清洗的定义和对象,简单介绍了数据清洗的基本原理和数据清洗的过程,针对不同清洗对象的数据清理方法,清洗后数据的评价要求;并对今后数据清洗的研究方向和应用进行展望。
关键词:数据清洗;评价;过程
中图分类号:tp274
随着计算机技术的快速发展,网络技术及数据库技术的普及,我们能够很快拥有海量数据,但是,如何从这些海量数据中得到对我们决策有价值的信息,数据挖掘技术应运而生,为了保证数据挖掘能够达到预期的效果,在进行数据挖掘之前,必须对数据仓库/数据库中的数据源进行必要的清洗。
1 数据清洗的概念
数据清洗(data cleaning/data scrubbing),是在数据仓库/数据库中去除冗余、清除噪音、消除错误和不一致数据的过程。数据清洗并不是简单地选取优质数据,它同时还涉及到对原有数据的删除、添加、分解或重组等。
2 数据清洗的对象
数据清洗的任务是对不满足数据挖掘要求的数据进行清洗,将清洗的结果提交给数据挖掘的下一个环节。根据数据来源不同,数据源分为:
2.1 单数据源。单个数据源的数据质量,主要取决于它的模式设
定,以及对数据源中数据的完整性约束的控制程度。因为数据模式和完整性约束需要控制数据的范围,如果一个数据源没有数据模式,那么对于输入或者存储的数据缺乏相应的限制,这样出现错误数据或者不一致数据的几率就会大大提高。
2.2 多数据源。由于各业务系统在设计、实现时功能的需求、设计的重点不同,多数据源中存在的主要问题是字段名称冲突、属性值和结构的冲突。例如:不同表中使用相同字段表示不同属性,不同名称的字段表示相同属性。
归纳单数据源和多数据源,不符合要求、错误的数据主要包括:空缺值类型的数据、噪声数据、不一致的数据、重复的数据四大类:(1)空缺值数据,这一类数据主要是一些应该有的信息的缺失,如学生的生源地信息、学生的个别成绩值。(2)噪声数据,是在原始数据上偏离产生的数据值,跟原始数据具有相关性。由于噪音偏离的不确定性,导致噪音数据偏离实际数据的不确定性。(3)不一致数据,此类数据产生的主要原因是业务系统不健全、没有数据约束条件或者约束条件过于简单,在输入后没有进行逻辑判断直接写入造成的,比如成绩输入时输入850(期望数值85.0);日期格式不正确,日期越界等。(4)重复数据,是在数据表链接过程中,数据的合并过程中产生。
3 数据清洗的过程
3.1 数据清洗的原理
3.2 数据清洗的流程。一般情况下,数据清洗需要经过以下几个
阶段:
(1)数据分析:通过比较详细的数据分析来检测数据源中的错误或不一致。对于数据(数据样本)的分析一般采用手工检查、借助分析程序检查或者两者相结合的方法,找到数据集和中存在的问题。(2)定义转换规则:根据数据分析得到的结果定义数据清洗的转换规则。根据数据源的个数,数据源中数据的质量,需要为模式相关的数据清洗和转换选定一种算法,从而提高数据自动转换的效率。(3)验证:数据清洗前应该对预先定义的数据清洗转换规则的正确性和清洗的效率应该进行验证和评估。一般是在数据源中选择数据样本进行清洗验证,当测试结果不满足数据清洗要求时需要对原有的数据清洗转换规则进行调整和改进。(4)数据清洗:在数据源上执行预先设计好并且己经得到验证的数据清洗转换规则,在源数据上对数据进行清洗前,需要对源数据进行备份,以防源数据的丢失或损坏。(5)干净数据的回流:当数据被清洗之后,干净的数据应该替换数据源中原有的数据,这样既可以提高原有数据库中数据的质量,还可以避免再次抽取数据时进行重复的清洗工作。
数据清洗是一个反复的过程,需要不断的发现清洗过程中的各类问题,解决问题。数据清洗的过程中一定要做好被清洗数据的备份工作,防止数据的丢失。
3.3 针对不同清洗对象的数据清洗。
4 数据清洗的评价
数据清洗的评价实质上是对清洗之后的数据质量进行评估。数据
质量评价应该包括以下的评估指标:
精确性:客观实体的特征与其具体系统中的数据描述是否相一致。
完整性:实体的描述是否存在记录缺失或者字段缺失。
一致性:相同实体在不同的应用系统中是否一致,相同实体的同一属性值在不同的应用系统是否一致。
有效性:实体的描述或其属性的描述必须满足用户的需求或在给定的范围内。
唯一性:数据必须是唯一的,不能存在重复记录。
当然,除了以上的基本评估指标外,对于不同的领域,数据清洗的要求可能会有些不同。
5 数据清洗的发展和前景
尽管数据清洗越来越受到人们的重视,但是受到数据清洗成本的限制,数据清洗的研究和相关清洗工具的开发主要集中在国外,国内还没有引起足够的重视。特定领域的数据清理依然是科研院所、大中企业、高校研究和应用重点。
参考文献:
[1]jiawei han,micheline kamber.数据挖掘概念与技术[m].范明,孟小峰.北京:机械工业出版社,2010.
[2]张晓明,乔溪.数据清洗方法与构件的综合技术研究[j].石油化工高等学校学报,2005,1,8(2):67-71.
[3]杨宏娜.基于数据仓库的数据清洗技术研究[d].天津:河北工
业大学,2006.
[4]邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[j].计算机工程与应用,2004.
作者简介:殷淑娥(1980.3-),籍贯:甘肃渭源,学历:硕士研究生,研究方向:电子商务,人工智能;田伟(1981.9-),籍贯:甘肃民勤,学历:大学本科,研究方向:数据挖掘物联网。