机器学习与数据挖掘_特征选择与降维.

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

特征选择

特征有效性评价

从信息论角度条件熵 H Y | X i

与“相关性”负相关

信息增益 IGY | X i H Y H Y | X i 相对信息增益 RIG Y | X i H Y H Y | X i / H Y http://www.autonlab.org/tutorials/infogain.html
ak arg max var zk
ak
a1
T z k ak H
ak垂直于所有前面的 “轴”
பைடு நூலகம் 特征降维

主分量分析
var z1 z z1
2 1 i, j 2
ai1a j1 H i H j ai1a j1 H i H j ai1a j1 H i H j H i H j

特征有效性评价

从概率论的角度

相关系数（归一化协方差）

值域范围：[-1, +1] 绝对值越大，相关性越大一般使用其平方作为特征选择指标
cov X i , Y i X i Y
标准差
特征选择

特征有效性评价

从数理统计的角度（假设检验）
x

样本稀疏

总样本：1000 每维划分：4

1维：1000/4 2维：1000/(4*4) 10维：1000/(4^10)
= 250 样本/区间 = 62.5 样本/区间 = 0.001 样本/区间
维数灾难

维数灾难的几个表现

噪声影响

特征空间：101维正负样本在第一维的距离：1 样本在其余维的噪声：10% “噪声距离”：100 0.12 1 即使噪声只有10%，高维空间的“噪声距离”足以掩盖正负样本的本质区别
Sa1 a1 0
S I a1 0
a1是S的最大特征值对应的特征矢量
特征降维

主分量分析

同理可证：所有主分量对应的“轴”都是 S的特征矢量，相应的特征值为其方差
zA H
T
正交阵 A可通过KL变换从协方差矩阵S求
特征降维

主分量分析

如果H是线性相关的：S是降秩的

特征矢量个数小于维数降维

异质特征不能简单地进行PCA

例：颜色直方图和“粗糙度”如何归一化？
特征降维

多模特征的降维

分组降维，组间加权

同质特征用PCA降维，组间自动计算权重如何计算组间权重？须依据最终目的优化 w1 w2 PCA wk …… PCA
PCA
特征降维

权重计算

类EM算法

权重作为待计算变量分类准确率/目标匹配率作为优化目标随机权重计算目标计算修正权重……
机器学习与数据挖掘
特征选择与特征降维
维数灾难

Curse of Dimensionality

随着维数的增加，特征空间的体积指数增加，从而导致各方面的成本指数增加

样本数量存储空间计算量 …… 图灵可计算问题：多项式复杂度

涉及高维空间的算法是不可计算的！？
维数灾难

维数灾难的几个表现

用单一维特征进行分类训练，某种分类准确率指标作为特征的有效性度量复杂度较大不一定有合适的准确率指标
特征选择

选择方法

独立选择

指定维数

如何确定？如何确定？

指定阈值

特征的组合可能比单个的特征有效

联合选择
Guyon-Elisseeff, JMLR 2004; Springer 2006
1i n
H
i
Hn可以由前n-1维完全预测出 Hn不能告诉我们任何额外信息可预测则不携带信息

通过特征选择算法不可能消除相关特征的相关性
Guyon-Elisseeff, JMLR 2004; Springer 2006
特征选择

相关特征的选择

把所有特征的各种可能变换、组合加入特征矢量在这个巨大的特征矢量上进行特征选择

空间采样
0
1
……
1维：4 Monte Carlo: ~40
2维：4*4=16 ~160
10维：4^10=1048576 ~10M
维数灾难

维数灾难的几个表现

索引困难
0
1
……
立方体体积球体积比例
1 1 100%
1 π/4 78.5%
1
5
5! 0.510
0.25%
维数灾难

维数灾难的几个表现

特征有效性评价

IR领域的度量

（逆）文档词频(inverse document frequency)
D idf t log Dt
总文档数
包含词(特征)t的文档数
所有文档都出现的词(如“的”)：D=Dt idft = log(1) = 0 在1%文档中出现的词：D/Dt = 100 idft = log(100) > 0
特征选择

特征有效性评价

IR领域的度量

词强度(term strength)

已知一个词(特征)在某文档(实例)中出现，该词在同类(目标函数值相同)文档中出现的概率为词强度
st P t d

i Yy
| t d
j Yy

特征选择

特征有效性评价

学习相关的度量

分类准确率

用现有解通过操作合成新的解

对新生成的解进行生存选择

迭代直到收敛或已支付预期的计算量
特征选择

模拟退火/遗传算法

理论依据

梯度下降法（爬山法）往往陷入局部极值非梯度下降手段使解“跳”到爬山法可求解范围

不同的非梯度下降手段产生不同的算法局部极值
梯度下降法可求解的范围
特征选择

实际问题偏好较高维数的空间

特征降维
维数灾难

更多的特征可能导致分类性能反而下降
Yiming Yang and Jan Pedersen
“A comparative study on feature selection in text categorization”.
维数灾难

特征降维的途径

f1、 f2可以用评价准则选择，也可以遍历所有特征

计算在F上的分类性能如果分类性能增加： F=F，循环

否则结束
特征选择

联合选择

增/减量法优缺点

复杂度关于维数为 ON 或 ON 2
选单个特征采用评价准则排序的方式为一次选单个特征采用测试全部特征的方式为二次

比NP难还难的问题……

特征的函数组合是无限的核函数（kernel functions）类似于利用原有特征构造各种新特征仅哲学上类似，并无数学依据

变换降维
特征降维

主分量分析(PCA: Principle Component Analysis)

在特征空间，如果特征维之间有相关性，则样本将分布在较低维的(高维)(曲)面上
i, j

i, j

ai1a j1Sij
i, j T a1 Sa1
协方差矩阵
T 如何求极值：var z1 a1 Sa1
约束条件： a1 a1 1
T
特征降维

主分量分析

Lagrange乘数法目标函数约束条件
T T a1 Sa1 a1 a1 1

求导，导数为0处为极值
特征选择

联合选择

减量法

F ={全体特征} 计算在F上的分类性能 F = F -{f}

f可以用评价准则选择，也可以遍历所有特征

计算在F上的分类性能如果分类性能不降低： F=F，循环

否则结束
特征选择

联合选择

增量法

F ={f1} 计算在F上的分类性能 F = F +{f 2}

去除无用特征

特征的必要性：不必要的特征对训练无用特征选择

去除相关分量

特征的相关性：相关的多个特征可以变换成较少的不相关分量特征变换/特征降维
特征选择

从整个特征集中选择最有效的子集

如何评价特征“有效性”？

x 2 测试，…… 互信息量，

如何决定阈值？

指定维数指定“有效性”指标指定性能增量式、减量式性能评价

权重修正算法依据不同的分类器甚至不同的问题，可能需要设计不同的修正算法

更复杂：加入模拟退火/遗传算法过程

对没有好算法的问题的一般解法
本质上是贪心算法

某些组合无法遍历可能陷入局部极值
特征选择

联合选择

全组合遍历

N NP难 O2
Kohavi-John, 1997
特征选择

联合选择

模拟退火/遗传算法（通用的优化算法）

随机生成一批解

可以用梯度下降法迭代到局部极值不要求合成操作具有任何理论依据好的合成操作将极大提高解题效率同上，并可用梯度下降法迭代到局部极值
测试 T测试自己翻课本查公式与相关系数在理论上非常接近，但更偏重于有限样本下的估计
2
特征选择

特征有效性评价

从信息论角度

把机器学习过程看做通信

特征是编码目标函数是信息特征包含的有关目标函数的信息越多，则从特征解出的信息就越多完全编码目标函数需要的额外特征就越少各种信息量/熵衡量指标

模拟退火/遗传算法

应用实例

N皇后问题求解旅行商(TSP)问题求解 ……很多类似NP完全和NP难问题适合于解可能有大量解，但解的比例很小，而整个解空间巨大的问题
特征选择

特征的相关性问题

例：直方图
1 Hi
i
H H1 ,..., H i ,..., H n
Hn 1
特征选择

特征有效性评价

从信息论角度

互信息量(Mutual Information)

KL-距离
KLP X i , Y || P X i PY
P X i , Y MI i P X i , Y log dX i dY P X i PY
特征选择
维数灾难

高维空间的奇异特性
克莱因瓶
Klein bottle
莫比乌斯带 Mö bius strip
N维单位超球的表面积
(http://mathworld.wolfram.com/Hypersphere.html)
维数灾难

数学理论偏好较低维数的空间

要在特征空间进行合理密度的采样，特征维数超过5都是非常困难的问题的复杂性特征的完备性
特征降维

主分量分析

线性变换
原始特征矢量：H H1 ,..., H i ,..., H n 主分量： “轴”：
a1 a11,..., ai1 ,..., an1
a1 arg max var z1
T z1 a1 H ai1H i i
T a1 a1 1
特征选择

特征有效性评价

从概率论的角度

协方差

cov X i , Y E X i EX i Y EY
特征目标函数
两个随机变量不相关：协方差为0 随机变量相关度与协方差正相关问题：协方差是两个变量的总方差如果某变量方差大，则协方差也大
特征选择

无信息损失

如果H各维相关性大，但没有达到完全相关

有很小的特征值对应的特征矢量可以去除降维，有信息损失

相关但非线性相关？

目前还没有好的方法
特征降维

多模特征的降维

同质特征可以方便地使用PCA

同质特征内部是已经归一化的例：直方图，像素值，等等不同的归一化导致不同的主分量异质特征之间没有归一化