-数据预处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
据描述的格式也各不相同,缺乏统一的分类标准和信息
的编码方案,难以实现信息的集成共享,很难直接用于
数据挖掘。
?
重复数据:同一事物在数据库中存在两条或多条完
全相同的记录,或者相同的信息冗余的存在于多个数据
源中。
6.1数据预处理的必要性
?
维度高数据:原始数据中通常记录事物的较为全面
的属性,而在一次挖掘中,这些属性并不是都有用,只
第6章 数据预处理
宋杰鲲
? 中国石油大学(华东)管理科学与工程系
数据预处理
? 由于数据库系统所获数据量的迅速膨胀 (已达 GB 或TB数量级),从而导致了现实世 界数据库中常常包含许多含有噪声、不完整、 甚至是不一致的数据。显然对数据挖掘所涉及 的数据对象必须进行预处理。数据预处理主要 包括:数据清理、数据集成、数据选择、数据 变换、数据归约等。
6.2.1遗漏数据处理
?
(7 )利用最可能的值填补遗漏值。可以利用回归
分析、贝叶斯计算公式或决策树推断出该条记录特定属
性的最大可能的取值。例如:利用数据集中其它顾客的
属性值,可以构造一个决策树来预测属性income 的遗
漏值。与其他方法相比,该方法最大程度地利用了当前
数据所包含的信息来帮助预测所遗漏的数据,是目前最
越好,则挖掘的结果就越精确,反之则不可能取
得好的挖掘结果。尤其是在对包含有噪声、不完
整、不一致数据进行数据挖掘时,更需要进行数
据的预处理,以提高数据挖掘对象的质量,并最
终提高数据挖掘所获模式知识的质量。
6.1数据预处理的必要性
?
噪声数据:噪声是指一个测量变量中的随机错误或
偏离期望的孤立点值,产生噪声的原因很多,人为的、
为常用的方法。
6.2数据清理
6.2.2噪声数据处理
?
(1 )分箱方法。通过考察相邻数据来确定最终
值。把待处理的数据(某列属性值)按照一定的规则
放进一些箱子中,考察每一个箱子的数据,采用某种
方法分别对各个箱子中的数据进行处理。常用的方法
包括等深分箱法、等宽分箱法以及自定义分箱法。
?
完成分箱之后,就要选择一种方法对数据进行平
滑,使得数据尽可能接近。常用的方法包括:
6.2数据清理
6.2.2噪声数据处理
?
①按平均值平滑:对同一箱值中的数据求平均值,
然后用这个平均值替代该箱子中的所有数据。
?
②按边界值平滑:对于箱子中的每一个数据,观察
它和箱子两个边界值的距离,用距离较小的那个边界值
替代该数据。
?
③按中值平滑:取箱子的中值,用来替代箱子中的
数据预处理
? 本章目标: ? 了解并掌握数据预处理的几种方
法,特别是分箱方法、数据规格化方 法。
数据预处理
? 6.1数据预处理的必要性 ? 6.2数据清理 ? 6.3数据集成 ? 6.4数据变换 ? 6.5数据归约
6.1数据预处理的必要性
?
数据挖掘的效果和数据质量之间有着紧密的
联系,所谓“垃圾入,垃圾出”,即数据的质量
所有数据。中值也称中数,将数据排序之后,如果这些
数据是奇数个,中值就是最中间位置的那个数;如果是
偶数个,中值应该是中间两个数的平均值。
6.2数据清理
6.2.2噪声数据处理
price 的排序后数据(元):4, 8, 15, 21, 21, 24, 25, 28, 34 等深分箱(箱深为 3 ):
箱1:4, 8, 15 箱2:21, 21, 24 箱3:25, 28, 34 等宽分箱(箱宽为10 ): 箱1:4, 8 箱2:15, 21, 21,24,25 箱3:28, 34 自定义分箱(10 以下,10~20 ,20~30 ,30~40 ): 箱1:4, 8 箱2 :15 箱3:21, 21, 24,25,28 箱4 :34
设备的和技术的等,如数据输入时的人为错误或计算机
错误,网络传输中的错误,数据收集设备的故障等。
?
不完整数据:实际应用系统中,由于系统设计的不
合理或者使用过程中的某些因素,某些属性值可能会缺
失或者值不确定。
6.1数据预处理的必要性
?
不一致数据:由于原始数据来源于多个不同的应用
系统或数据库,信息庞杂,采集和加工的方法有别,数
6.2数据清理
6.2.1遗漏数据处理
?
(6 )利用同类别均值填补遗漏值。计算同类样本
记录的该属性平均值,用来填充空缺值。如:若要对商
场顾客按信用风险进行分类挖掘时,就可以用在同一信
用风险类别下(如良好)的income 属性的平均值,来
填补所有在同一信用风险类别下属性income 的遗漏值。
6.2数据清理
reduction )。
?
数据清理通过填补遗漏数据、消除异常数据、平
滑噪声数据,以及纠正不一致的数据。
6.2数据清理
6.2.1遗漏数据处理
?
假设在分析一个商场销售数据时,发现有多个记录
中的属性值为空,如:顾客的收入属性,对于为空的属
性值,可以采用以下方法进行遗漏数据处理:
?
(1 )忽略该条记录。当一个记录Fra Baidu bibliotek有多个属性值
?
(3 )手工填补遗漏值。以某些背景资料为依据,
手工填写空缺值,一般讲这种方法比较耗时,而且对于
存在许多遗漏情况的大规模数据集而言,显然可行较差。
6.2数据清理
6.2.1遗漏数据处理
?
(4 )利用缺省值填补遗漏值。对一个离散属性的
所有遗漏的值均利用一个事先确定好的值来填补。如:
都用OK 来填补。但当一个属性遗漏值较多值,若采用这
空缺,特别是关键信息丢失时,即使是采用某些方法把
所有缺失的属性值填充好,该记录也不能反映真实情况,
对于数据挖掘算法来说,这样的数据性质很差,应该忽
略该条记录。
6.2数据清理
6.2.1遗漏数据处理
?
(2 )去掉属性。如果所有记录中的某一个属性值
缺失严重,可以认为该属性对知识发现来说已经没有意
义,将其直接去掉。
种方法,就可能误导挖掘进程。因此这种方法虽然简单,
但并不推荐使用,或使用时需要仔细分析填补后的情况,
以尽量避免对最终挖掘结果产生较大误差。
?
(5 )利用均值填补遗漏值。计算一个属性(值)
的平均值,并用此值填补该属性所有遗漏的值。如:若
一个顾客的平均收入(income) 为12000 元,则用此值
填补属性中所有被遗漏的值。
需要一部分属性即可得到希望知道的知识,而且无用属
性的增加还会导致无效归纳,把挖掘结果引向错误的结
论。
6.2数据清理
?
数据预处理的方法主要包括:数据清理( data
cleaning )、数据集成(data integration )、数据
变换(data transformation )、数据归约(data