机器学习与数据挖掘_特征选择与降维.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

特征选择

特征有效性评价

从信息论角度 条件熵 H Y | X i

与“相关性”负相关

信息增益 IGY | X i H Y H Y | X i 相对信息增益 RIG Y | X i H Y H Y | X i / H Y http://www.autonlab.org/tutorials/infogain.html
ak arg max var zk
ak
a1
T z k ak H
ak垂直于所有前面的 “轴”
பைடு நூலகம் 特征降维

主分量分析
var z1 z z1
2 1 i, j 2
ai1a j1 H i H j ai1a j1 H i H j ai1a j1 H i H j H i H j

特征有效性评价

从概率论的角度

相关系数(归一化协方差)

值域范围:[-1, +1] 绝对值越大,相关性越大 一般使用其平方作为特征选择指标
cov X i , Y i X i Y
标准差
特征选择

特征有效性评价

从数理统计的角度(假设检验)
x


样本稀疏

总样本:1000 每维划分:4


1维:1000/4 2维:1000/(4*4) 10维:1000/(4^10)
= 250 样本/区间 = 62.5 样本/区间 = 0.001 样本/区间
维数灾难

维数灾难的几个表现

噪声影响

特征空间:101维 正负样本在第一维的距离:1 样本在其余维的噪声:10% “噪声距离”:100 0.12 1 即使噪声只有10%,高维空间的“噪声 距离”足以掩盖正负样本的本质区别
Sa1 a1 0
S I a1 0
a1是S的最大特征值对应的特征矢量
特征降维

主分量分析

同理可证:所有主分量对应的“轴”都是 S的特征矢量,相应的特征值为其方差
zA H
T
正交阵 A可通过KL变换从协方差矩阵S求
特征降维

主分量分析

如果H是线性相关的:S是降秩的

特征矢量个数小于维数降维


异质特征不能简单地进行PCA


例:颜色直方图和“粗糙度”如何归一化?
特征降维

多模特征的降维

分组降维,组间加权

同质特征用PCA降维,组间自动计算权重 如何计算组间权重? 须依据最终目的优化 w1 w2 PCA wk …… PCA
PCA
特征降维

权重计算

类EM算法

权重作为待计算变量 分类准确率/目标匹配率作为优化目标 随机权重计算目标计算修正权重……
机器学习与数据挖掘
特征选择与特征降维
维数灾难

Curse of Dimensionality

随着维数的增加,特征空间的体积指数增 加,从而导致各方面的成本指数增加

样本数量 存储空间 计算量 …… 图灵可计算问题:多项式复杂度

涉及高维空间的算法是不可计算的!?
维数灾难

维数灾难的几个表现

用单一维特征进行分类训练,某种分类准确率指标 作为特征的有效性度量 复杂度较大 不一定有合适的准确率指标
特征选择

选择方法

独立选择

指定维数

如何确定? 如何确定?

指定阈值


特征的组合可能比 单个的特征有效

联合选择
Guyon-Elisseeff, JMLR 2004; Springer 2006
1i n
H
i
Hn可以由前n-1维完全预测出 Hn不能告诉我们任何额外信息 可预测则不携带信息

通过特征选择算法不可能 消除相关特征的相关性
Guyon-Elisseeff, JMLR 2004; Springer 2006
特征选择

相关特征的选择


把所有特征的各种可能变换、组合加入特 征矢量 在这个巨大的特征矢量上进行特征选择

空间采样
0
1
……
1维:4 Monte Carlo: ~40
2维:4*4=16 ~160
10维:4^10=1048576 ~10M
维数灾难

维数灾难的几个表现

索引困难
0
1
……
立方体体积 球体积 比例
1 1 100%
1 π/4 78.5%
1
5
5! 0.510
0.25%
维数灾难

维数灾难的几个表现

特征有效性评价

IR领域的度量

(逆)文档词频(inverse document frequency)
D idf t log Dt
总文档数
包含词(特征)t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0 在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
特征选择

特征有效性评价

IR领域的度量

词强度(term strength)

已知一个词(特征)在某文档(实例)中出现,该词在同 类(目标函数值相同)文档中出现的概率为词强度
st P t d

i Yy
| t d
j Yy

特征选择

特征有效性评价

学习相关的度量

分类准确率


用现有解通过操作合成新的解



对新生成的解进行生存选择


迭代直到收敛或已支付预期的计算量
特征选择

模拟退火/遗传算法

理论依据

梯度下降法(爬山法)往往陷入局部极值 非梯度下降手段使解“跳”到爬山法可求解范 围

不同的非梯度下降手段产生不同的算法 局部极值
梯度下降法可 求解的范围
特征选择

实际问题偏好较高维数的空间



特征降维
维数灾难

更多的特征可能导致分类性能反而下降
Yiming Yang and Jan Pedersen
“A comparative study on feature selection in text categorization”.
维数灾难

特征降维的途径

f1、 f2可以用评价准则选择,也可以遍历所有特征

计算在F上的分类性能 如果分类性能增加: F=F,循环

否则结束
特征选择

联合选择

增/减量法优缺点


复杂度关于维数为 ON 或 ON 2
选单个特征采用评价准则排序的方式为一次 选单个特征采用测试全部特征的方式为二次


比NP难还难的问题……

特征的函数组合是无限的 核函数(kernel functions)类似于利用原有特征构 造各种新特征 仅哲学上类似,并无数学依据

变换降维
特征降维

主分量分析(PCA: Principle Component Analysis)

在特征空间,如果特征维之间有相关性, 则样本将分布在较低维的(高维)(曲)面上
i, j

i, j

ai1a j1Sij
i, j T a1 Sa1
协方差矩阵
T 如何求极值:var z1 a1 Sa1
约束条件: a1 a1 1
T
特征降维

主分量分析

Lagrange乘数法 目标函数 约束条件
T T a1 Sa1 a1 a1 1


求导,导数为0处为极值
特征选择

联合选择

减量法

F ={全体特征} 计算在F上的分类性能 F = F -{f}

f可以用评价准则选择,也可以遍历所有特征

计算在F上的分类性能 如果分类性能不降低: F=F,循环

否则结束
特征选择

联合选择

增量法

F ={f1} 计算在F上的分类性能 F = F +{f 2}

去除无用特征

特征的必要性:不必要的特征对训练无用 特征选择

去除相关分量


特征的相关性:相关的多个特征可以变换成较 少的不相关分量 特征变换/特征降维
特征选择

从整个特征集中选择最有效的子集

如何评价特征“有效性”?

x 2 测试,…… 互信息量,

如何决定阈值?

指定维数 指定“有效性”指标 指定性能 增量式、减量式性能评价

权重修正算法 依据不同的分类器甚至不同的问题,可能需要设 计不同的修正算法

更复杂:加入模拟退火/遗传算法过程

对没有好算法的问题的一般解法
本质上是贪心算法


某些组合无法遍历 可能陷入局部极值
特征选择

联合选择

全组合遍历

N NP难 O2
Kohavi-John, 1997
特征选择

联合选择

模拟退火/遗传算法(通用的优化算法)

随机生成一批解

可以用梯度下降法迭代到局部极值 不要求合成操作具有任何理论依据 好的合成操作将极大提高解题效率 同上,并可用梯度下降法迭代到局部极值
测试 T测试 自己翻课本查公式 与相关系数在理论上非常接近,但更偏 重于有限样本下的估计
2
特征选择

特征有效性评价

从信息论角度

把机器学习过程看做通信


特征是编码 目标函数是信息 特征包含的有关目标函数的信息越多,则从特征解 出的信息就越多完全编码目标函数需要的额外特 征就越少 各种信息量/熵衡量指标

模拟退火/遗传算法

应用实例

N皇后问题求解 旅行商(TSP)问题求解 ……很多类似NP完全和NP难问题 适合于解可能有大量解,但解的比例很小,而 整个解空间巨大的问题
特征选择

特征的相关性问题

例:直方图
1 Hi
i
H H1 ,..., H i ,..., H n
Hn 1
特征选择

特征有效性评价

从信息论角度

互信息量(Mutual Information)

KL-距离
KLP X i , Y || P X i PY
P X i , Y MI i P X i , Y log dX i dY P X i PY
特征选择
维数灾难

高维空间的奇异特性
克莱因瓶
Klein bottle
莫比乌斯带 Mö bius strip
N维单位超球的表面积
(http://mathworld.wolfram.com/Hypersphere.html)
维数灾难

数学理论偏好较低维数的空间

要在特征空间进行合理密度的采样,特征 维数超过5都是非常困难的 问题的复杂性 特征的完备性
特征降维

主分量分析

线性变换
原始特征矢量:H H1 ,..., H i ,..., H n 主分量: “轴”:
a1 a11,..., ai1 ,..., an1
a1 arg max var z1
T z1 a1 H ai1H i i
T a1 a1 1
特征选择

特征有效性评价

从概率论的角度

协方差


cov X i , Y E X i EX i Y EY
特征 目标函数
两个随机变量不相关:协方差为0 随机变量相关度与协方差正相关 问题:协方差是两个变量的总方差 如果某变量方差大,则协方差也大
特征选择

无信息损失

如果H各维相关性大,但没有达到完全相关

有很小的特征值对应的特征矢量可以去除 降维,有信息损失

相关但非线性相关?

目前还没有好的方法
特征降维

多模特征的降维

同质特征可以方便地使用PCA


同质特征内部是已经归一化的 例:直方图,像素值,等等 不同的归一化导致不同的主分量 异质特征之间没有归一化
相关文档
最新文档