厦门大学数据挖掘数据准备
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/12/8
30
2020/12/8
31
根据所用程序的结果和所给的阈值, 可选择S3和S5作为异常点。
2020/12/8
32
2020/12/8
33
三、缺失数据
2020/12/8
34
2020/12/8
35
2020/12/8
36
2020/12/8
37
2020/12/8
38
我们看一个替代的例子
高维空间的物体比低维空间的物体拥有 更大的面积。高维数据有四大属性:
1、数据集的大小随维数呈指数增长, 这个数据集在一个n维空间中生成数据点的 相同密度
例如:n个数据点的一维样本,其密 度令人满意的,那么,要在k维空间中获 得同样的密度,需要nk 个数据点。
2020/12/8
44
2、如果想得到相同比例的数据子样,在高维 空间中需要一个更大的半径才能把一小部分数据点 放入。
20是从外部数据源或另外
一个的内部数据源获得的,那么这些数据必 须是ASCII格式的.ASCII文件也就是平面文 件(flat file)或文本文件,行记录或观察样本, 列或字段表示与记录相关的特征或变 量.ASCII文件有两种基本的长度记录格式, 即固定长度格式和可变长度格式.
X 1 { 1 0 3 } X 2 { 1 , 1 3 } X 3 { 1 , 2 3 } X 4 { 1 , 3 3 } X 1 { 1 , 4 3 }
2020/12/8
39
§3.4 数据变换
一、 标准化
一些数据挖掘方法,需要对数据进 行标准化以获得最佳的效果。
1、小数缩放 小数缩放移动小数点,但是要仍然 保持原始数据的特征。典型的缩放是保 持数值在-1和1范围内。可以用格式描述
2020/12/8
24
4.计算机与人工检查结合. 这也是一种识别孤立点的方法.例如:在实际
应用中,使用信息理论度量可以帮助识别手写符 号库中的异常模式.度量值反映要判断的字符与 已知的符号要相比的“差异”程度.孤立点模式 可能是提供有用的信息(识别有用的数据异常), 也可能是错误的信息.将所识别出的孤立点输出 到一个列表中,然后使用人工对这一列表中的孤 立点进行检查,识别出真正的垃圾,这种人机结 合的方法要比单单使用人工来搜索整个数据库快 得多了.在其后的数据挖掘中,这些垃圾模式将 由数据库中清除掉.
其差值转换为 Xi1 Xi;比率转换为 Xi1 / Xi 。
超立方体的边界长度公式是e(p)=p1/d ,d是维数,p是预先指定的子样本。
2020/12/8
45
3、在高维空间中,数据点与点之间的距离变大。几乎每 一个点都比其他样本点更接近某一个边界。
对容量为n的样本而言,在d维空间中数据点之 间的期望距离为
D(d,n)1(1/n)1/d 2
例如:对于一个10000个点的二维空间期望距 离为
2020/12/8
17
2020/12/8
18
有些情况下的平整算法比较复杂,这将 在以后的章节详细讨论.减少不同的数值数 目意味着同时减少了数据空间的维度,这 对数据挖掘的方法十分有利.这样的平整方 法可用于将连续型特征分解成一系列离散 二元“真假”值的特征.
2020/12/8
19
2. Bin方法.
间隔数据是有相对重要性,没有0点的数 值数据.对它而言,加、减是有意义的操作. 例如,可以用更详细的数字来分析产品质量 的好坏,可以用0-100之间的数字具体分析 产品之间的差距.
2020/12/8
14
4. 连续数据(continuous data).
连续数据是开发预测模型时最常用 的数据,适用于所有基本的算术运算, 包括加、减、乘、除.大多数业务数据如 销售额、余款、差额等都是连续数据.
XiXi /10k
2020/12/8
40
2、最小-最大标准化
最小-最大标准化的格式:
XimX aiX xi)m (m inXii()nXi()
注:这种转换可能会导致标准化值无意识的集中。
2020/12/8
41
3、标准差标准化
标准差标准化的格式是
Xi
Xi
S
X
其中: X 是均值; S 是标准差
2020/12/8
厦门大学数据挖掘数据准备
§3.1 问题的提出
我们在上面已经提及到,随着各种技术的不断发 展,收集数据的技术和渠道日益广泛,比如银行业 通过信用卡消费记录,连锁超市通过POS机记录销 售情况,企业通过专题市场调查或者直接通过向外 购买数据来搜集信息等等,这些收集到的数据储存 到企业的数据库或数据仓库中,构成了企业用于数 据挖掘的源数据.但是由于各种各样的原因,如市场 调查中的无回答,数据输入错误等,导致了源数据 的各种质量问题.例如,数据缺失、异常点的出现等, 都会为数据的挖掘带来困难.
2020/12/8
27
二、异常的分析
2020/12/8
28
2020/12/8
29
2.距离检测法
例如:数据集为: S={S1,S2,S3,S4,S5,S6,S7}
={(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2)} 欧氏距离 d=[(X1-X2)2+(Y1-Y2)2]1/2 取阈值距离为 d=3
22
2020/12/8
23
3.聚类方法.
通过聚类分析可以检测到异常数据,也就 是孤立点.聚类将相似或相邻近的数据聚合到 一起形成了各个聚类集合.直观地看,落在聚 类集合之外的值就被认为是孤立点.孤立点之 值作为噪声处理,将其删除,试用“聚类” 中心值代替.有关聚类分析的思想和方法将在 第五章中详细讨论.
2020/12/8
25
5.回归分析法 可以通过回归关系,根据大量统计数据,
找出变量之间在数量变化方面的统计规律, 从而消除变量之间的随机关系,以达到拟合 函数对数据平滑的目的.例如可以借助线性 回归(linear regression),拟合一个变量与其 他多个变量之间的关系,这样就可以用这一 关系以一组变量值来帮助预测另一个变量. 通过回归分析可以消除随机因素,除去噪声.
2020/12/8
5
二、原始数据的表述
数据样本是数据挖掘过程的基本组成部分
2020/12/8
6
每个样本都用几个特征来描述,每个特征有不 同类型的值。
常见的类型有:数值型和分类型。 数值型包括实型变量和整型变量 注:具有数值型值的特征有两个重要的属性:
其值有顺序关系和距离关系。
2020/12/8
D(2,100)0 00.0005
对于一个10000个点的10维空间期望距离为
D(1,0 100) 000.4
这里要注意:到边界的距离最大的点是在分布 的中心处,所有维数最大距离的规范值是0.5
2020/12/8
46
4、几乎每一个点都是异常点
随着空间维数的增大,预测点到分类点 中心的距离也在增大。
2020/12/8
10
定量型也叫连续型或度量型,是以 数字值为特征,用于开发预测.如果建 立了优先规则,定性型数据也可以转换 成定量型数据.如,性别就可以规定性 别值为1和2,1表示“M”或男性,2表
示“F”或女性.
2020/12/8
11
定量型共有四种
1、标称数据(nominal data).
表示类别或属性的数值数据,如表示性 别的数字值.表示性别的数字值(1或2)就是标 称数据值.标称数据的一个重要特性是它没有 相关重要性.如,即使男性=1,女性=2,也 不意味着女性的值是男性的2倍或更高.对于 建模来说,只有两个值的标称变量应编码为 0和1.
2020/12/8
15
另一种数据分类维度是基于数据与时间有关
的行为特性.我们把那些不随时间的变化而变化的 数据称为静态数据.而另一部分随时间变化而变化 的属性值,我们称之为动态数据或时间数据.在大 多数的数据挖掘算法中都使用的静态数据,若要 使用动态数据,则需要进行特殊的考虑和预处理.
这方面的内容将在后面介绍.
2020/12/8
2
数据准备是模型开发过程中最重要的
步骤之一.从最简单的分析到最复杂的模 型,所使用的数据质量是项目成功的关键. 好的数据和有效的技术一样,决定着一个 模型产生有力结果的能力.因此,在本章 我们探讨数据的准备.
2020/12/8
3
§3.2 数据选择
一、数据读取
数据准备的第一步骤就是获得具有可用格式 的数据.根据所开发的模型类型的不同,可以将所 有的数据中提取或者从外部数据源中寻找数据.如 果要用现有的数据进行数据的开发,就可以直接 从数据仓库里提取需要的数据.一般这些数据都具 有可用的形式,如SAS数据集.如果在外部列表或 潜在客户文件上开发模型,就可以在数据记录 格式上进行一些选择.
42
二、高维度问题
大多数数据挖掘问题的出现是因为有大量的 样本具有不同类型的特征。此外,这些样本 往往是高维度的,这就意味着它们有相当大 数目的可测量特征。
大型数据集中这种高维现象会产生“高维祸 根”(维数灾),这种现象可以用高维空间 几何学来解释,这是数据挖掘问题的典型。
2020/12/8
43
Bin方法也就是分箱方法,是通过利用 相应被平滑数据点的“邻居”(即周围的 值),对一组排序数据进行平滑.排序成 的这些数据被分配到一些“桶”或箱中. 由于Bin方法考察的是相邻的值,因此它 进行局部平滑.
2020/12/8
20
下面给出了一些Bin的方法技术
2020/12/8
21
2020/12/8
2020/12/8
12
2. 序数数据(ordinal data).
序数数据是表示有相对重要性的类 别的数值数据,可用于给强度、重要 性分等级.例如,用1-5表示用户对某产 品的质量评价,分别表示很差、较差、 中等、较好、很好.
2020/12/8
13
3. 间隔数据(interval data).
2020/12/8
26
6.样条方法
样条方法是以适当控制通过一组给定的数据点的曲
线.B样条(Basic splines)在样版权法的理论和应用研究中 起着很基本的作用.局部性质是B样条曲线最重要的性质 之一,在部分参数区域上的一点到多与k+1个控制顶点 有关,与其他的无关,因此改变这部分的控制顶点至多 影响到这部分的曲线,其余不会受到影响.它在每曲线段 内部是无限次可微,并且随着次数k的升高,曲线会越来 越光滑.通过用B样条去拟合数据,可以经过调整增加曲 线的光滑度去除噪声.
2020/12/8
16
§3.3 数据预处理
一、噪声数据的处理
噪声(noise)是一个被测变量中的随机误差或 偏差.下面我们将要讨论给定一个数值型属性,要 如何平滑数据去除噪声的方法.
1.数据的平整
一个数值型的特征y可能包括许多不同的值, 这些数据之间的小小差异也许并不重要,但是却 有可能影响到挖掘方法的性能甚至最终结果.实际 上我们也可以把这些数据之间的差异看成是同一 数值的随机变差,因此有时对这些数据进行平整 处理还是很重要的.
7
分类型变量的两个值可以相等或不等。 一个有两个值的分类型变量原则上可以转化
成一个二进制的数值型变量,这种数值型变 量有两个值:0或1;而有N值的分类型变量 原则上可以转化成一个二进制的数值型变量, 这种数值型变量有N个值。
2020/12/8
8
例如:如果变量“眼睛颜色”有4个值: 黑色、蓝色、绿色、褐色。
注 1:缺点是替代值并不是正确值,会引起数据 的偏差。
注 2:假设这些丢失值对最终的数据挖掘结果没 有任何影响,我们可以将一个丢失值的样本扩展成为 一组人工样本(会引起样本的组合爆炸)。
例如:如果一个三维样本被假定为 X{1 ?3},其 中第二个特征值丢失,这样在特征定义
[0 1 2 3 4]
内产生5个人工样本:
特征值 编码
黑色
1000
蓝色
0100
绿色
0010
褐色
0001
2020/12/8
9
三、数据分类
一种基于变量值的数据分类方法就是 定性(qualitative)和定量(quantitative).定 性数据也可以看作是离散型数据,是用描 述性术语来区分值.例如,性别通常分为男 性(M)和女性(F).有一种特殊的定性数据就 是周期型数据,例如星期、月或年中的日 期.
注意:在处理高维空间的有限样本时, “高维祸根”会带来严重的后果。
从1和2中可以看到对高维度样本进行局 部评估的难度;3和4说明对一个给定的点 做预测响应的困难。 .
2020/12/8
47
2020/12/8
48
2020/12/8
49
三、差值和比率 设数值型变量 X 的数值为 Xi i1,2,..n.,,