数据预处理概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据预处
理的主要 内容:
*
数据预处理的主要内容
一、原始数据的表述 二、数据清理 三、数据变换 四、元组的归约 五、属性的归约
一、原始数据的表述 数据样本是数据挖掘过程的基本组成部分。
每个样本都用几个特征来描述,每个特征有不 同类型的值。
*
常见的数据类型有:数值型和分类型。
数值型包括实型变量和整型变量
数据预处理概述
2020年4月22日星期三
为什么要进行数据挖掘?
现实世界的数据是脏的 不完整: 缺乏属性值,缺乏有意义的属性,或者 只包含了汇总数据 e.g., occupation=“ ” 有噪声: 包含错误的数据或异常值 e.g., Salary=“-10” 不一致: 在代码或者名字中存在矛盾或不一致 e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C” e.g., discrepancy between duplicate records
为什么数据预处理重要?
No quality data, no quality mining results! Quality decisions must be based on quality data
e.g., duplicate or missing data may cause incorrect or even misleading statistics.
例:
*
(二)异常值(孤立点)探测
在大型数据集中,通常存在着不遵循数据模 型的普遍行为的样本,这些样本和其他残余 部分数据有很大不同或不一致,叫做异常点 。
异常点可能是由测量误差造成的,也可能是 数据故有的可变性结果。
例如:在检测银行交易中的信用卡欺诈行为 时,异常点是可能揭示欺诈行为的典型例子 。
例如:如果变量“眼睛颜色”有4个值:黑色、 蓝色、绿色、褐色。
*
特征值 编码
黑色
1000
蓝色
0100
绿色
0010
褐色
0001
*
变量的分类:连续型变量和离散型变量。 连续型变量也认为是定量型或是量度型,
是指在一定区间内可以任意取值的变量 。 离散型变量也叫定性型变量,是指全部可 能取到的不相同的值是有限个的变量。
对数据挖掘的实际应用而言,即使数据量很大, 具有完整数据的案例也非常少,这样就面临数据 的缺失问题。
应用数据挖掘方法之前如何处理这样现象,最简 单的办法是减少数据集,去掉所有有缺失值的样 本。
如果我们不想扔掉这些有缺失值的样本,就必须 找到它们的缺失值,用什么方法来实现呢?
填补缺失值。
*
1、单一填补法
例:
均值填补:
*
(2)随机填补法。
随机填补法是采用某种概率抽样的方式,从 有完整信息的元组中抽取缺失数据的填补值 的方法。
它虽然能够避免均值填补中填补值过于凝集 以及容易扭曲目标属性分布的弱点,使得填 补值的分布与真值分布更为接近。但它却增 大了估计量的方差,并且稳定性不够。
(3)热卡填补法。
注:具有数值型值的特征有两个重要的属 性:其值有顺序关系和距离关系。
*Baidu Nhomakorabea
一个有两个值的分类型变量:
分类型变量的两个值可以平等或不平等。 原则上可以转化成一个二进制的数值型变量
,这种数值型变量有两个值:0或1;
而有N值的分类型变量原则上可以转化成 一个二进制的数值型变量,这种数值型变 量有N个值。
Data warehouse needs consistent integration of quality data Data extraction, cleaning, and transformation comprises the majority of the work of building a data warehouse
注:一种特殊类型的离散型变量是周期变 量,例如:星期、月和年中的日期。
*
与时间有关的数据分类: 静态数据——数据不随时间变化而变化 动态数据(时间数据)——随时间变化而变
化的属性。
注:大多数数据挖掘方法更适用于静态数据 ,在对动态数据进行挖掘时要有特殊的考虑 和预处理。
*
二、数据清理——缺失值的填补
*
异常值的探测方法
第一,一维样本异常点的检测方法
例如:如果所给的数据集用20个不同的值描述年龄特 征: 3, 56, 23, 39, 156, 52, 41, 22, 9,28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37 均值=39.9; 标准差=45.65 阈值=均值±2×标准差
就5 用与之女匹配的观20~察30单位的属是性值来填补中。如果不有会
多6 例相匹女配,可取20~第30一例或随否机取其一。中如果没有会
相7 匹配的女,可以每31~次45减少一个否排序属性,高再找相匹会
配到8 的相元匹组 配男。 的如 ,果则直需31~到要45最重后新一规个定是排排序序属 属性 性, 。中还没有不找会
*
项热目卡填补性法别(hot年de龄ck impu学ta生ti身on分)是规收定入一个或办多卡
个1排序属男性,按其>观45 察值大小否对全部观察高单位排序会
,2 如果选女择的是两31~个45以上的属否性,排序按高属性的入会
选3 顺序依女次进行。20~30
是
低
会
排4序属性男值完全相<同20 的观察单是位称为匹配低,缺失不值会
(1)均值填补法。
均值填补法是根据与含缺失值的目标属性相关性高的 其它属性的信息将样品分为若干组,然后分别计算各 组目标属性的均值,将各组均值作为组内所有缺失项 的填补值。
均值填补的优点是操作简便,并且可以有效地降低其 点估计的偏差。
但它的缺点也比较突出:首先,由于同组中的缺失值 由同一个值填补,填补结果歪曲了目标属性的分布; 其次,也导致在均值和总量估计中对方差的低估。
9
男
31~45
否
中
会
10
女
<20
是
低
会
*
(4)回归填补法。
回归填补法是指在现有观察值基础上,以含 有缺失值的目标属性为因变量,以与目标属 性相关性高的其它属性为自变量,建立最小 二乘回归模型或判别模型,以估计缺失值。
注意:以上几种方法都存在扭曲样本分布的 问题,如均值填补会降低属性之间的相关关 系,回归填补则会人为地加大变量之间的相 关关系等。