属性约简方法概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
属性约简方法概述
属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。
属性约简主要是为了解决高维数据计算的复杂性和准确性问题。
目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。
对数据进行属性约简的意义,主要从以下几个方面考虑:
a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的; b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;
c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响;
d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。
为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。
每个实例包含p 个属性{|x i |=p }。
从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。
下面是几种常用的方法。
(1) PCA 主成分分析
主成分概念是Karl parson 于1901年最先引进。
1933年,Hotelling 把它推广到随机变量。
主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。
通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。
主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。
从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。
定义4-1[44]:设12(,,...,)'p X X X X =为p 维随机向量,它的第i 主成分分量可表示'i i Y u X =,i =1,2,…, p 。
其中i u 是正交阵U 的第i 列向量。
并且满足:
1Y 是12,,...,p X X X 的线性组合中方差最大者;
k Y 是与11,...k Y Y -不相关的12,,...,p X X X 的线性组合中方差最大。
(k =2,3,…p )。
定义4-2[45]: 设∑是随机向量12(,,...,)'p X X X X =的协方差矩阵,其特征值-特征向量对1122(,),(,),...(,)p p e e e λλλ,其中12...0p λλλ≥≥≥≥。
则第i 个主成分为:
1122'...i i i i ip p Y e X e X e X e X ==+++ i =1, 2, …p ………………….式(4-1) 且 var()'i i i i Y e e λ=∑= i =1, 2, …p ;cov(,)'0j j i i Y Y e e =∑= i j ≠。
定义4-3[45]: 设随机向量12(,,...,)'p X X X X =有协方差矩阵∑,其特征值-特征向量对1122(,),(,),...(,)p p e e e λλλ,其中12...0p λλλ≥≥≥≥,i Y 是主成分,则
11221
2
1
1
...var()...var()p
p
pp i
p
i i i X Y σσσλλλ
==++=
=++=∑∑ ………….式(4-2)
定义4-3说明主成分向量的协方差阵∑为对角矩阵Λ。
总体信息量可以用特征值来衡量,相应的特征值反映的是对应主成分的信息量。
进而可以计算每个主成分的贡献率。
定义4-4[44]:记
k
p
i
i i
λλ
=∑ 为第k 主成分的贡献率,
1
k
i
i p
i
i i λλ
==∑∑为前k 个主成分的累
积贡献率。
主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
主成分描述了数据的可变性,通过它可以模拟原始数据。
主成分分析作为最重要的多元统计方法之一,在经济社会、企业管理、工业控制、模式识别等各领域有极其广泛的应用。
(2) 监督条件下的维规约方法(Chi-Square 检测, 信息增益, 增益率) 监督的维规约方法主要用来辨别属性值预测类标识的能力。
设考察的属性为V ,V 有p 个取值V ={V 1,V 2… …V p },数据集有z 个类,用 C ={C 1,C 2… …C z }表示。
nr i 是指当属性V 的值为V r 时,类为C i 的个数,ur i 是指当数据为均匀分布此属性值时期望的类的数目,1≤r ≤p ,1≤i ≤z 。
属性V 的取值分布见表4-1。
表4-1属性V 取值分布表
Table 4-1 Value Distribution Table of Attribute V
a) Chi-Square 检测
卡方检验是一种假设检验方法,它在分类资料统计推断中的应用,包括:两个概率或两个构成比比较的卡方检验;多个概率或多个构成比比较的卡方检验以及分类资料的相关分析等,它引入了一个服从卡方分布的评分准则。
在数据集合D 上,特征f 和类c 的相关性评分公式如下:
()
2
211
(,,)p z
j j i j j
ni ui D c f ui χ==-=∑∑
……………………………式(4-3)
从本质上来看,卡方分布是对数据集的实际属性值类别数目与期望中的属性和类无关时的类别数目差别的评分。
b) 信息增益 (IG)
息增益(information gain )是指期望信息或者信息熵的有效减少量。
从数据分类的角度看,根据它能够确定在什么样的层次上选择什么样的变量来分类。
信息增益度量了某个特征给训练集带来的信息量大小。
它定义为用特征f 划分数据集D 引起熵的约简。
如公式4-4和公式4-5所示。
()
()v values f IG(D,c,f)=H(D,c)-
,Dv H Dv c D
∈∑
…………………………式(4-4)
H 表示熵, p
z
2
i=1j=1
H(D,c)=-
log j
j ni ni ni
ni
∑∑…………………………式(4-5)
信息增益越大,说明属性对最终类别的影响越大。
在分类问题上,可以选作分类的属性。
本文则看作对聚类结果有较大影响的属性,保留起来。
c) 增益率(信息增益比,GR )
以信息增益作为属性划分的尺度,倾向于选择值域中含有较多值的属性。
从信息论的角度讲,就是倾向于选择更加取值混乱的属性。
事实上这种倾向并不一定合理。
信息增益率,用 f 的信息增益除以 f 的初始信息量来消除这种影响。
如公式4-6 -公式4-8所示:
GR(D ,c ,f) = (H(D ,c) - H(D | c )) / H(D, f). ………………………式(4-6)
()()
v values f H(D|c)=-
,Dv H Dv c D
∈∑
……………………………式(4-7)
()21
,log p
r nr nr
H D f n n ==-∑
……………………………式(4-8) 增益率方法不仅考虑了属性的值域的大小,而且还考虑了取值的分布。
它有如下特点:(1)在值域大小相同时,取值分布越均匀,则H (D,f )越大,即当相应地属性重要性最小;(2)属性在自己值域内各种取值全为均匀分布时,即等概率分布时,值域越大则H (D,f )越大,相应地属性重要性越小。
以上两个特点符合人们对重要属性评判的刻度。
其它特征选择方法包括:奇异值分解,是一种现行代数技术,它与PCA有关;嵌入方法,在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性;过滤方法,使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择;包装方法,将目标数据挖掘算法作为黑盒,使用理想算法的方法,但通常并不枚举所有可能的子集来找出最佳属性集。