机器学习与数据挖掘_特征选择与降维.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特征选择
特征有效性评价
从信息论角度 条件熵 H Y | X i
与“相关性”负相关
信息增益 IGY | X i H Y H Y | X i 相对信息增益 RIG Y | X i H Y H Y | X i / H Y http://www.autonlab.org/tutorials/infogain.html
ak arg max var zk
ak
a1
T z k ak H
ak垂直于所有前面的 “轴”
பைடு நூலகம் 特征降维
主分量分析
var z1 z z1
2 1 i, j 2
ai1a j1 H i H j ai1a j1 H i H j ai1a j1 H i H j H i H j
特征有效性评价
从概率论的角度
相关系数(归一化协方差)
值域范围:[-1, +1] 绝对值越大,相关性越大 一般使用其平方作为特征选择指标
cov X i , Y i X i Y
标准差
特征选择
特征有效性评价
从数理统计的角度(假设检验)
x
样本稀疏
总样本:1000 每维划分:4
1维:1000/4 2维:1000/(4*4) 10维:1000/(4^10)
= 250 样本/区间 = 62.5 样本/区间 = 0.001 样本/区间
维数灾难
维数灾难的几个表现
噪声影响
特征空间:101维 正负样本在第一维的距离:1 样本在其余维的噪声:10% “噪声距离”:100 0.12 1 即使噪声只有10%,高维空间的“噪声 距离”足以掩盖正负样本的本质区别
Sa1 a1 0
S I a1 0
a1是S的最大特征值对应的特征矢量
特征降维
主分量分析
同理可证:所有主分量对应的“轴”都是 S的特征矢量,相应的特征值为其方差
zA H
T
正交阵 A可通过KL变换从协方差矩阵S求
特征降维
主分量分析
如果H是线性相关的:S是降秩的
特征矢量个数小于维数降维
异质特征不能简单地进行PCA
例:颜色直方图和“粗糙度”如何归一化?
特征降维
多模特征的降维
分组降维,组间加权
同质特征用PCA降维,组间自动计算权重 如何计算组间权重? 须依据最终目的优化 w1 w2 PCA wk …… PCA
PCA
特征降维
权重计算
类EM算法
权重作为待计算变量 分类准确率/目标匹配率作为优化目标 随机权重计算目标计算修正权重……
机器学习与数据挖掘
特征选择与特征降维
维数灾难
Curse of Dimensionality
随着维数的增加,特征空间的体积指数增 加,从而导致各方面的成本指数增加
样本数量 存储空间 计算量 …… 图灵可计算问题:多项式复杂度
涉及高维空间的算法是不可计算的!?
维数灾难
维数灾难的几个表现
用单一维特征进行分类训练,某种分类准确率指标 作为特征的有效性度量 复杂度较大 不一定有合适的准确率指标
特征选择
选择方法
独立选择
指定维数
如何确定? 如何确定?
指定阈值
特征的组合可能比 单个的特征有效
联合选择
Guyon-Elisseeff, JMLR 2004; Springer 2006
1i n
H
i
Hn可以由前n-1维完全预测出 Hn不能告诉我们任何额外信息 可预测则不携带信息
通过特征选择算法不可能 消除相关特征的相关性
Guyon-Elisseeff, JMLR 2004; Springer 2006
特征选择
相关特征的选择
把所有特征的各种可能变换、组合加入特 征矢量 在这个巨大的特征矢量上进行特征选择
空间采样
0
1
……
1维:4 Monte Carlo: ~40
2维:4*4=16 ~160
10维:4^10=1048576 ~10M
维数灾难
维数灾难的几个表现
索引困难
0
1
……
立方体体积 球体积 比例
1 1 100%
1 π/4 78.5%
1
5
5! 0.510
0.25%
维数灾难
维数灾难的几个表现
特征有效性评价
IR领域的度量
(逆)文档词频(inverse document frequency)
D idf t log Dt
总文档数
包含词(特征)t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0 在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
特征选择
特征有效性评价
IR领域的度量
词强度(term strength)
已知一个词(特征)在某文档(实例)中出现,该词在同 类(目标函数值相同)文档中出现的概率为词强度
st P t d
i Yy
| t d
j Yy
特征选择
特征有效性评价
学习相关的度量
分类准确率
用现有解通过操作合成新的解
对新生成的解进行生存选择
迭代直到收敛或已支付预期的计算量
特征选择
模拟退火/遗传算法
理论依据
梯度下降法(爬山法)往往陷入局部极值 非梯度下降手段使解“跳”到爬山法可求解范 围
不同的非梯度下降手段产生不同的算法 局部极值
梯度下降法可 求解的范围
特征选择
实际问题偏好较高维数的空间
特征降维
维数灾难
更多的特征可能导致分类性能反而下降
Yiming Yang and Jan Pedersen
“A comparative study on feature selection in text categorization”.
维数灾难
特征降维的途径
f1、 f2可以用评价准则选择,也可以遍历所有特征
计算在F上的分类性能 如果分类性能增加: F=F,循环
否则结束
特征选择
联合选择
增/减量法优缺点
复杂度关于维数为 ON 或 ON 2
选单个特征采用评价准则排序的方式为一次 选单个特征采用测试全部特征的方式为二次
比NP难还难的问题……
特征的函数组合是无限的 核函数(kernel functions)类似于利用原有特征构 造各种新特征 仅哲学上类似,并无数学依据
变换降维
特征降维
主分量分析(PCA: Principle Component Analysis)
在特征空间,如果特征维之间有相关性, 则样本将分布在较低维的(高维)(曲)面上
i, j
i, j
ai1a j1Sij
i, j T a1 Sa1
协方差矩阵
T 如何求极值:var z1 a1 Sa1
约束条件: a1 a1 1
T
特征降维
主分量分析
Lagrange乘数法 目标函数 约束条件
T T a1 Sa1 a1 a1 1
求导,导数为0处为极值
特征选择
联合选择
减量法
F ={全体特征} 计算在F上的分类性能 F = F -{f}
f可以用评价准则选择,也可以遍历所有特征
计算在F上的分类性能 如果分类性能不降低: F=F,循环
否则结束
特征选择
联合选择
增量法
F ={f1} 计算在F上的分类性能 F = F +{f 2}
去除无用特征
特征的必要性:不必要的特征对训练无用 特征选择
去除相关分量
特征的相关性:相关的多个特征可以变换成较 少的不相关分量 特征变换/特征降维
特征选择
从整个特征集中选择最有效的子集
如何评价特征“有效性”?
x 2 测试,…… 互信息量,
如何决定阈值?
指定维数 指定“有效性”指标 指定性能 增量式、减量式性能评价
权重修正算法 依据不同的分类器甚至不同的问题,可能需要设 计不同的修正算法
更复杂:加入模拟退火/遗传算法过程
对没有好算法的问题的一般解法
本质上是贪心算法
某些组合无法遍历 可能陷入局部极值
特征选择
联合选择
全组合遍历
N NP难 O2
Kohavi-John, 1997
特征选择
联合选择
模拟退火/遗传算法(通用的优化算法)
随机生成一批解
可以用梯度下降法迭代到局部极值 不要求合成操作具有任何理论依据 好的合成操作将极大提高解题效率 同上,并可用梯度下降法迭代到局部极值
测试 T测试 自己翻课本查公式 与相关系数在理论上非常接近,但更偏 重于有限样本下的估计
2
特征选择
特征有效性评价
从信息论角度
把机器学习过程看做通信
特征是编码 目标函数是信息 特征包含的有关目标函数的信息越多,则从特征解 出的信息就越多完全编码目标函数需要的额外特 征就越少 各种信息量/熵衡量指标
模拟退火/遗传算法
应用实例
N皇后问题求解 旅行商(TSP)问题求解 ……很多类似NP完全和NP难问题 适合于解可能有大量解,但解的比例很小,而 整个解空间巨大的问题
特征选择
特征的相关性问题
例:直方图
1 Hi
i
H H1 ,..., H i ,..., H n
Hn 1
特征选择
特征有效性评价
从信息论角度
互信息量(Mutual Information)
KL-距离
KLP X i , Y || P X i PY
P X i , Y MI i P X i , Y log dX i dY P X i PY
特征选择
维数灾难
高维空间的奇异特性
克莱因瓶
Klein bottle
莫比乌斯带 Mö bius strip
N维单位超球的表面积
(http://mathworld.wolfram.com/Hypersphere.html)
维数灾难
数学理论偏好较低维数的空间
要在特征空间进行合理密度的采样,特征 维数超过5都是非常困难的 问题的复杂性 特征的完备性
特征降维
主分量分析
线性变换
原始特征矢量:H H1 ,..., H i ,..., H n 主分量: “轴”:
a1 a11,..., ai1 ,..., an1
a1 arg max var z1
T z1 a1 H ai1H i i
T a1 a1 1
特征选择
特征有效性评价
从概率论的角度
协方差
cov X i , Y E X i EX i Y EY
特征 目标函数
两个随机变量不相关:协方差为0 随机变量相关度与协方差正相关 问题:协方差是两个变量的总方差 如果某变量方差大,则协方差也大
特征选择
无信息损失
如果H各维相关性大,但没有达到完全相关
有很小的特征值对应的特征矢量可以去除 降维,有信息损失
相关但非线性相关?
目前还没有好的方法
特征降维
多模特征的降维
同质特征可以方便地使用PCA
同质特征内部是已经归一化的 例:直方图,像素值,等等 不同的归一化导致不同的主分量 异质特征之间没有归一化