数据清洗综述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据清洗研究综述

随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统,积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。数据是信息的基础,好的数据质量是各种数据分析如OLAP、数据挖掘等有效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数

据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数

据间的不一致等,导致现有的数据中存在这样或那样的脏数据。它们主要表现为:拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示(重复)、不遵循引用完整性等。

数据清洗(Data Cleaning,Data Cleansing或者Data Scrubbing)的目的是检测数据中存在的错误

和不一致,剔除或者改正它们,以提高数据的质量[1]。

1数据清洗国内外研究现状

数据清洗主要在数据仓库、数据库知识发现(也称数据挖掘)和总体数据质量管理这3个领域研究较多。在数据仓库研究和应用领域,数据清洗处理是构建数据仓库的第一步,由于数据量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注。

1.1国外研究现状

国外对数据清洗的研究最早出现在美国,是从对全美的社会保险号错误的纠正开始[2]。美国信息业和商业的发展,极大地刺激了对数据清洗技术的研究,主要集中在以下4个方面。

(1)检测并消除数据异常

采用统计方法来检测数值型属性,计算字段值的均值和标准差,考虑每个字段的置信区间来

识别异常字段和记录。将数据挖掘方法引入数据清理,如聚类方法用于检测异常记录、模型方法发现不符合现有模式的异常记录、关联规则方法发现数据集中不符合具有高置信度和支

持度规则的异常数据。

(2)检测并消除近似重复记录

即对重复记录进行清洗。消除数据集中的近似重复记录问题是目前数据清洗领域中研究最多

的内容。为了从数据集中消除重复记录,首要的问题就是如何判断两条记录是否近似重复。

(3)数据的集成

在数据仓库应用中,数据清洗首先必须考虑数据集成,主要是将数据源中的结构和数据映射

到目标结构与域中。在这方面已经开展了大量的研究工作。

(4)特定领域的数据清洗

不少数据清洗方案和算法都是针对特定应用问题的,只适用于较小的范围。通用的、与应用领域无关的算法和方案较少。

近年来,国外的数据清洗技术发展得很快,从市场上存在的数据清洗软件可以看出,其中包括商业上的数据清洗软件,也有大学和研究机构开发的数据清洗软件。

1.2国内研究现状

目前,国内对数据清洗技术的研究还处于初级阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其做一些比

较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。

2数据清洗的定义与对象

2.1数据清洗定义

迄今为止,数据清洗还没有公认的定义,不同的应用领域对其有不同的解释。

(1)数据仓库领域中的数据清洗

在数据仓库领域,数据清洗定义为清除错误和不一致数据的过程,并需要解决元组重复问题。当然,数据清洗并不是简单地用优质数据更新记录,它还涉及数据的分解与重组。

(2)数据挖掘领域中的数据清洗

数据挖掘(早期又称为数据库的知识发现)过程中,数据清洗是第一个步骤,即对数据进行预

处理的过程。各种不同的KDD和DW系统都是针对特定的应用领域进行数据清洗的。文献

[3]认为,信息的模式被用于发现“垃圾模式”,即没有意义的或错误的模式,这属于数据清

洗的一种。

(3)数据质量管理领域中的数据清洗

数据质量管理是一个学术界和商业界都感兴趣的领域。全面数据质量管理解决整个信息业务

过程中的数据质量及集成问题。在该领域中,没有直接定义数据清洗过程。有些文章从数据质量的角度,将数据清洗过程定义为一个评价数据正确性并改善其质量的过程。

2.2数据清洗的对象

数据清洗的对象可以按照数据清洗对象的来源领域与产生原因进行分类。前者属于宏观层面的划分,后者属于微观层面的划分。

(1)来源领域

很多领域都涉及到数据清洗,如数字化文献服务、搜索引擎、金融领域、政府机构等,数据

清洗的目的是为信息系统提供准确而有效的数据。

数字化文献服务领域,在进行数字化文献资源加工时,OCR软件有时会造成字符识别错误,或由于标引人员的疏忽而导致标引词的错误等,是数据清洗需要完成的任务。

搜索引擎为用户在互联网上查找具体的网页提供了方便,它是通过为某一网页的内容进行索

引而实现的。而一个网页上到底哪些部分需要索引,则是数据清洗需要关注的问题。例如,

网页中的广告部分,通常是不需要索引的。按照网络数据清洗的粒度不同,可以将网络数据清洗分为两类,即Web页面级别的数据清洗和基于页面内部元素级别的数据清洗,前者以Google公司提出的PageRank算法和IBM公司Clever系统的HITS算法为代表;而后者的思

路则集中体现在作为MSN搜索引擎核心技术之一的VIPS算法上[4]。

在金融系统中,也存在很多“脏数据”。主要表现为:数据格式错误,数据不一致,数据重

复、错误,业务逻辑的不合理,违反业务规则等。例如,未经验证的身份证号码、未经验证

的日期字段等,还有账户开户日期晚于用户销户日期、交易处理的操作员号不存在、性别超过取值范围等。此外,也有因为源系统基于性能的考虑,放弃了外键约束,从而导致数据不一致的结果。

电子政务系统也存在“脏数据”。为了能够更好地对公民负责并且能够与全国的其他警察局

共享数据,英国Hum-berside州警察局使用数据清洗软件清洗大范围的嫌疑犯和犯罪分子的

数据。这次清洗的范围庞大,跨越不同的系统,不仅有该警察局内部系统的数据,还有外部的数据库包括本地的和整个英国范围内的。其中有些数据库能够相连和整合,而有些则不能。例如,“指令部级控制”的犯罪记录数据库是用来记录犯罪事件的,该数据库是和嫌疑犯数

据库分开的。而嫌疑犯数据库也许和家庭犯罪或孩童犯罪数据库是分开的[5]。

(2)产生原因

在微观方面,数据清洗的对象分为模式层数据清洗与实例层数据清洗[6]。数据清洗的任务是过滤或者修改那些不符合要求的数据。不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据3大类。

不完整数据的特征是一些应该有的信息缺失,如机构名称、分公司的名称、区域信息缺失等.错误数据产生的原因是业务系统不够健全,在接收输入后没有进行判断而直接写入后台数据

库造成的,比如数值数据输成全角数字字符、字符串数据后有一个回车、日期格式不正确、

相关文档
最新文档