第6章-数据预处理.. - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

6.2.1遗漏数据处理

6.2数据清理
（7）利用最可能的值填补遗漏值。可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值。例如：利用数据集中其它顾客的属性值，可以构造一个决策树来预测属性income的遗漏值。与其他方法相比，该方法最大程度地利用了当前数据所包含的信息来帮助预测所遗漏的数据，是目前最为常用的方法。
性值，可以采用以下方法进行遗漏数据处理：

（1）忽略该条记录。当一个记录中有多个属性值空缺，特别是关键信息丢失时，即使是采用某些方法把
所有缺失的属性值填充好，该记录也不能反映真实情况，对于数据挖掘算法来说，这样的数据性质很差，应该忽略该条记录。
6.2.1遗漏数据处理

6.2数据清理
（2）去掉属性。如果所有记录中的某一个属性值缺失严重，可以认为该属性对知识发现来说已经没有意
设备的和技术的等，如数据输入时的人为错误或计算机错误，网络传输中的错误，数据收集设备的故障等。

不完整数据：实际应用系统中，由于系统设计的不合理或者使用过程中的某些因素，某些属性值可能会缺
失或者值不确定。
6.1数据预处理的必要性

不一致数据：由于原始数据来源于多个不同的应用系统或数据库，信息庞杂，采集和加工的方法有别，数据描述的格式也各不相同，缺乏统一的分类标准和信息的编码方案，难以实现信息的集成共享，很难直接用于数据挖掘。重复数据：同一事物在数据库中存在两条或多条完全相同的记录，或者相同的信息冗余的存在于多个数据源中。

6.1数据预处理的必要性

维度高数据：原始数据中通常记录事物的较为全面
的属性，而在一次挖掘中，这些属性并不是都有用，只
需要一部分属性即可得到希望知道的知识，而且无用属性的增加还会导致无效归纳，把挖掘结果引向错误的结论。
6.2数据清理
Leabharlann Baidu
数据预处理的方法主要包括：数据清理（data cleaning）、数据集成（data integration）、数据
变换（data transformation）、数据归约（data
reduction）。

数据清理通过填补遗漏数据、消除异常数据、平滑噪声数据，以及纠正不一致的数据。
6.2.1遗漏数据处理

6.2数据清理
假设在分析一个商场销售数据时，发现有多个记录中的属性值为空，如：顾客的收入属性，对于为空的属

6.2.2噪声数据处理
price 的排序后数据（元）：4, 8, 15, 21, 21, 24, 25, 28, 34 等深分箱（箱深为3）：箱1：4, 8, 15 箱2：21, 21, 24 箱3：25, 28, 34 等宽分箱（箱宽为10）：箱1：4, 8 箱2：15, 21, 21,24,25 箱3：28, 34 自定义分箱（10以下，10~20，20~30，30~40）：箱1：4, 8 箱2：15 箱3：21, 21, 24,25,28 箱4：34

（5）利用均值填补遗漏值。计算一个属性（值）的平均值，并用此值填补该属性所有遗漏的值。如：若一个顾客的平均收入(income)为12000元，则用此值填补属性中所有被遗漏的值。
6.2.1遗漏数据处理

6.2数据清理
（6）利用同类别均值填补遗漏值。计算同类样本记录的该属性平均值，用来填充空缺值。如：若要对商场顾客按信用风险进行分类挖掘时，就可以用在同一信用风险类别下（如良好）的income属性的平均值，来填补所有在同一信用风险类别下属性income的遗漏值。
6.2.2噪声数据处理

6.2数据清理
①按平均值平滑：对同一箱值中的数据求平均值，然后用这个平均值替代该箱子中的所有数据。 ②按边界值平滑：对于箱子中的每一个数据，观察它和箱子两个边界值的距离，用距离较小的那个边界值替代该数据。 ③按中值平滑：取箱子的中值，用来替代箱子中的所有数据。中值也称中数，将数据排序之后，如果这些数据是奇数个，中值就是最中间位置的那个数；如果是偶数个，中值应该是中间两个数的平均值。
义，将其直接去掉。

（3）手工填补遗漏值。以某些背景资料为依据，手工填写空缺值，一般讲这种方法比较耗时，而且对于存在许多遗漏情况的大规模数据集而言，显然可行较差。
6.2.1遗漏数据处理

6.2数据清理
（4）利用缺省值填补遗漏值。对一个离散属性的所有遗漏的值均利用一个事先确定好的值来填补。如：都用OK来填补。但当一个属性遗漏值较多值，若采用这种方法，就可能误导挖掘进程。因此这种方法虽然简单，但并不推荐使用，或使用时需要仔细分析填补后的情况，以尽量避免对最终挖掘结果产生较大误差。
越好，则挖掘的结果就越精确，反之则不可能取
得好的挖掘结果。尤其是在对包含有噪声、不完
整、不一致数据进行数据挖掘时，更需要进行数据的预处理，以提高数据挖掘对象的质量，并最终提高数据挖掘所获模式知识的质量。
6.1数据预处理的必要性

噪声数据：噪声是指一个测量变量中的随机错误或
偏离期望的孤立点值，产生噪声的原因很多，人为的、
数据预处理

本章目标：了解并掌握数据预处理的几种方法，特别是分箱方法、数据规格化方法。
数据预处理

6.1数据预处理的必要性 6.2数据清理 6.3数据集成 6.4数据变换 6.5数据归约
6.1数据预处理的必要性

数据挖掘的效果和数据质量之间有着紧密的
联系，所谓“垃圾入，垃圾出”，即数据的质量
第6章数据预处理
宋杰鲲
®中国石油大学（华东）管理科学与工程系
数据预处理

由于数据库系统所获数据量的迅速膨胀（已达GB或TB数量级），从而导致了现实世界数据库中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。数据预处理主要包括：数据清理、数据集成、数据选择、数据变换、数据归约等。
6.2.2噪声数据处理

6.2数据清理
（1）分箱方法。通过考察相邻数据来确定最终值。把待处理的数据（某列属性值）按照一定的规则
放进一些箱子中，考察每一个箱子的数据，采用某种
方法分别对各个箱子中的数据进行处理。常用的方法包括等深分箱法、等宽分箱法以及自定义分箱法。

完成分箱之后，就要选择一种方法对数据进行平滑，使得数据尽可能接近。常用的方法包括：