第6章-数据预处理..
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6.2.1遗漏数据处理
6.2数据清理
(7)利用最可能的值填补遗漏值。可以利用回归 分析、贝叶斯计算公式或决策树推断出该条记录特定属 性的最大可能的取值。例如:利用数据集中其它顾客的 属性值,可以构造一个决策树来预测属性income的遗 漏值。与其他方法相比,该方法最大程度地利用了当前 数据所包含的信息来帮助预测所遗漏的数据,是目前最 为常用的方法。
性值,可以采用以下方法进行遗漏数据处理:
(1)忽略该条记录。当一个记录中有多个属性值 空缺,特别是关键信息丢失时,即使是采用某些方法把
所有缺失的属性值填充好,该记录也不能反映真实情况, 对于数据挖掘算法来说,这样的数据性质很差,应该忽 略该条记录。
6.2.1遗漏数据处理
6.2数据清理
(2)去掉属性。如果所有记录中的某一个属性值 缺失严重,可以认为该属性对知识发现来说已经没有意
设备的和技术的等,如数据输入时的人为错误或计算机 错误,网络传输中的错误,数据收集设备的故障等。
不完整数据:实际应用系统中,由于系统设计的不 合理或者使用过程中的某些因素,某些属性值可能会缺
失或者值不确定。
6.1数据预处理的必要性
不一致数据:由于原始数据来源于多个不同的应用 系统或数据库,信息庞杂,采集和加工的方法有别,数 据描述的格式也各不相同,缺乏统一的分类标准和信息 的编码方案,难以实现信息的集成共享,很难直接用于 数据挖掘。 重复数据:同一事物在数据库中存在两条或多条完 全相同的记录,或者相同的信息冗余的存在于多个数据 源中。
6.1数据预处理的必要性
维度高数据:原始数据中通常记录事物的较为全面
的属性,而在一次挖掘中,这些属性并不是都有用,只
需要一部分属性即可得到希望知道的知识,而且无用属 性的增加还会导致无效归纳,把挖掘结果引向错误的结 论。
6.2数据清理
Leabharlann Baidu
数据预处理的方法主要包括:数据清理(data cleaning)、数据集成(data integration)、数据
变换(data transformation)、数据归约(data
reduction)。
数据清理通过填补遗漏数据、消除异常数据、平 滑噪声数据,以及纠正不一致的数据。
6.2.1遗漏数据处理
6.2数据清理
假设在分析一个商场销售数据时,发现有多个记录 中的属性值为空,如:顾客的收入属性,对于为空的属
6.2.2噪声数据处理
price 的排序后数据(元):4, 8, 15, 21, 21, 24, 25, 28, 34 等深分箱(箱深为3): 箱1:4, 8, 15 箱2:21, 21, 24 箱3:25, 28, 34 等宽分箱(箱宽为10): 箱1:4, 8 箱2:15, 21, 21,24,25 箱3:28, 34 自定义分箱(10以下,10~20,20~30,30~40): 箱1:4, 8 箱2:15 箱3:21, 21, 24,25,28 箱4:34
(5)利用均值填补遗漏值。计算一个属性(值) 的平均值,并用此值填补该属性所有遗漏的值。如:若 一个顾客的平均收入(income)为12000元,则用此值 填补属性中所有被遗漏的值。
6.2.1遗漏数据处理
6.2数据清理
(6)利用同类别均值填补遗漏值。计算同类样本 记录的该属性平均值,用来填充空缺值。如:若要对商 场顾客按信用风险进行分类挖掘时,就可以用在同一信 用风险类别下(如良好)的income属性的平均值,来 填补所有在同一信用风险类别下属性income的遗漏值。
6.2.2噪声数据处理
6.2数据清理
①按平均值平滑:对同一箱值中的数据求平均值, 然后用这个平均值替代该箱子中的所有数据。 ②按边界值平滑:对于箱子中的每一个数据,观察 它和箱子两个边界值的距离,用距离较小的那个边界值 替代该数据。 ③按中值平滑:取箱子的中值,用来替代箱子中的 所有数据。中值也称中数,将数据排序之后,如果这些 数据是奇数个,中值就是最中间位置的那个数;如果是 偶数个,中值应该是中间两个数的平均值。
义,将其直接去掉。
(3)手工填补遗漏值。以某些背景资料为依据, 手工填写空缺值,一般讲这种方法比较耗时,而且对于 存在许多遗漏情况的大规模数据集而言,显然可行较差。
6.2.1遗漏数据处理
6.2数据清理
(4)利用缺省值填补遗漏值。对一个离散属性的 所有遗漏的值均利用一个事先确定好的值来填补。如: 都用OK来填补。但当一个属性遗漏值较多值,若采用这 种方法,就可能误导挖掘进程。因此这种方法虽然简单, 但并不推荐使用,或使用时需要仔细分析填补后的情况, 以尽量避免对最终挖掘结果产生较大误差。
越好,则挖掘的结果就越精确,反之则不可能取
得好的挖掘结果。尤其是在对包含有噪声、不完
整、不一致数据进行数据挖掘时,更需要进行数 据的预处理,以提高数据挖掘对象的质量,并最 终提高数据挖掘所获模式知识的质量。
6.1数据预处理的必要性
噪声数据:噪声是指一个测量变量中的随机错误或
偏离期望的孤立点值,产生噪声的原因很多,人为的、
数据预处理
本章目标: 了解并掌握数据预处理的几种方 法,特别是分箱方法、数据规格化方 法。
数据预处理
6.1数据预处理的必要性 6.2数据清理 6.3数据集成 6.4数据变换 6.5数据归约
6.1数据预处理的必要性
数据挖掘的效果和数据质量之间有着紧密的
联系,所谓“垃圾入,垃圾出”,即数据的质量
第6章 数据预处理
宋杰鲲
®中国石油大学(华东)管理科学与工程系
数据预处理
由于数据库系统所获数据量的迅速膨胀 (已达GB或TB数量级),从而导致了现实世 界数据库中常常包含许多含有噪声、不完整、 甚至是不一致的数据。显然对数据挖掘所涉及 的数据对象必须进行预处理。数据预处理主要 包括:数据清理、数据集成、数据选择、数据 变换、数据归约等。
6.2.2噪声数据处理
6.2数据清理
(1)分箱方法。通过考察相邻数据来确定最终 值。把待处理的数据(某列属性值)按照一定的规则
放进一些箱子中,考察每一个箱子的数据,采用某种
方法分别对各个箱子中的数据进行处理。常用的方法 包括等深分箱法、等宽分箱法以及自定义分箱法。
完成分箱之后,就要选择一种方法对数据进行平 滑,使得数据尽可能接近。常用的方法包括: