机器学习与数据挖掘-特征选择与降维
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关系数(归一化协方差)
值域范围:[-1, +1] 绝对值越大,相关性越大
一般使用其平方作为特征选择指标
icXoivXi,YY
标准差
特征选择
特征有效性评价
从数理统计的角度(假设检验)
x 2测试 T测试 自己翻课本查公式 与相关系数在理论上非常接近,但更偏
重于有限样本下的估计
特征选择
复杂度较大 不一定有合适的准确率指标
特征选择
选择方法
独立选择
指定维数
如何确定?
指定阈值
如何确定?
特征的组合可能比 单个的特征有效
联合选择
Guyon-Elisseeff, JMLR 2004; Springer 2006
特征选择
联合选择
减量法
F ={全体特征} 计算在F上的分类性能
从概率论的角度
协方差
两个随机变量不相关:协方差为0 随机变量相关度与协方差正相关 问题:协方差是两个变量的总方差
如果某变量方差大,则协方差也大
c X o i , Y E v X i E X i Y E Y
特征 目标函数
特征选择
特征有效性评价
从概率论的角度
特征选择
联合选择
模拟退火/遗传算法(通用的优化算法)
随机生成一批解
可以用梯度下降法迭代到局部极值
用现有解通过操作合成新的解
不要求合成操作具有任何理论依据 好的合成操作将极大提高解题效率
去除相关分量
特征的相关性:相关的多个特征可以变换成较 少的不相关分量
特征变换/特征降维
特征选择
从整个特征集中选择最有效的子集
如何评价特征“有效性”?
互信息量,x 2 测试,……
如何决定阈值?
指定维数 指定“有效性”指标 指定性能 增量式、减量式性能评价
特征选择
特征有效性评价
空间采样
0
1
……
1维:4 Monte Carlo: ~40
2维:4*4=16 ~160
10维:4^10=1048576 ~10M
维数灾难
维数灾难的几个表现
索引困难
0
1
立方体体积 球体积 比例
1 1 100%
Biblioteka Baidu……
1 π/4 78.5%
1
5 0.510 5!
0.25%
维数灾难
维数灾难的几个表现
特征降维
维数灾难
更多的特征可能导致分类性能反而下降
Yiming Yang and Jan Pedersen “A comparative study on feature selection in text categorization”.
维数灾难
特征降维的途径
去除无用特征
特征的必要性:不必要的特征对训练无用 特征选择
机器学习与数据挖掘
特征选择与特征降维
维数灾难
Curse of Dimensionality
随着维数的增加,特征空间的体积指数增 加,从而导致各方面的成本指数增加
样本数量 存储空间 计算量 …… 图灵可计算问题:多项式复杂度
涉及高维空间的算法是不可计算的!?
维数灾难
维数灾难的几个表现
否则结束
特征选择
联合选择
增/减量法优缺点
复杂度关于维数为 ON或 ON2
选单个特征采用评价准则排序的方式为一次 选单个特征采用测试全部特征的方式为二次
本质上是贪心算法
某些组合无法遍历 可能陷入局部极值
特征选择
联合选择
全组合遍历
NP难 O2N
Kohavi-John, 1997
特征选择
特征有效性评价
IR领域的度量
词强度(term strength)
已知一个词(特征)在某文档(实例)中出现,该词在同 类(目标函数值相同)文档中出现的概率为词强度
st P t d Y i y|t d Y j y
特征选择
特征有效性评价
学习相关的度量
分类准确率
用单一维特征进行分类训练,某种分类准确率指标 作为特征的有效性度量
距离”足以掩盖正负样本的本质区别
维数灾难
高维空间的奇异特性
克莱因瓶 Klein bottle
莫比乌斯带 Mö bius strip
N维单位超球的表面积
()
维数灾难
数学理论偏好较低维数的空间
要在特征空间进行合理密度的采样,特征 维数超过5都是非常困难的
实际问题偏好较高维数的空间
问题的复杂性 特征的完备性
IY G |X i H Y H Y |X i
相对信息增益 R Y |X I i G H Y H Y |X i / H Y
特征选择
特征有效性评价
从信息论角度
互信息量(Mutual Information)
KL-距离
MiIPXi,YloP gP X X iiP ,YYdX idY
F = F -{f}
f可以用评价准则选择,也可以遍历所有特征
计算在F上的分类性能 如果分类性能不降低: F=F,循环
否则结束
特征选择
联合选择
增量法
F ={f1} 计算在F上的分类性能
F = F +{f 2}
f1、 f2可以用评价准则选择,也可以遍历所有特征
计算在F上的分类性能 如果分类性能增加: F=F,循环
样本稀疏
总样本:1000 每维划分:4
1维:1000/4 2维:1000/(4*4) 10维:1000/(4^10)
= 250 样本/区间 = 62.5 样本/区间 = 0.001 样本/区间
维数灾难
维数灾难的几个表现
噪声影响
特征空间:101维 正负样本在第一维的距离:1 样本在其余维的噪声:10% “噪声距离”:1000.12 1 即使噪声只有10%,高维空间的“噪声
KLPXi,Y||PXiPY
特征选择
特征有效性评价
IR领域的度量
(逆)文档词频(inverse document frequency)
idft
log
D Dt
总文档数 包含词(特征)t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0 在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
特征有效性评价
从信息论角度
把机器学习过程看做通信
特征是编码 目标函数是信息 特征包含的有关目标函数的信息越多,则从特征解
出的信息就越多完全编码目标函数需要的额外特 征就越少 各种信息量/熵衡量指标
特征选择
特征有效性评价
从信息论角度
条件熵 HY|Xi
与“相关性”负相关
信息增益
值域范围:[-1, +1] 绝对值越大,相关性越大
一般使用其平方作为特征选择指标
icXoivXi,YY
标准差
特征选择
特征有效性评价
从数理统计的角度(假设检验)
x 2测试 T测试 自己翻课本查公式 与相关系数在理论上非常接近,但更偏
重于有限样本下的估计
特征选择
复杂度较大 不一定有合适的准确率指标
特征选择
选择方法
独立选择
指定维数
如何确定?
指定阈值
如何确定?
特征的组合可能比 单个的特征有效
联合选择
Guyon-Elisseeff, JMLR 2004; Springer 2006
特征选择
联合选择
减量法
F ={全体特征} 计算在F上的分类性能
从概率论的角度
协方差
两个随机变量不相关:协方差为0 随机变量相关度与协方差正相关 问题:协方差是两个变量的总方差
如果某变量方差大,则协方差也大
c X o i , Y E v X i E X i Y E Y
特征 目标函数
特征选择
特征有效性评价
从概率论的角度
特征选择
联合选择
模拟退火/遗传算法(通用的优化算法)
随机生成一批解
可以用梯度下降法迭代到局部极值
用现有解通过操作合成新的解
不要求合成操作具有任何理论依据 好的合成操作将极大提高解题效率
去除相关分量
特征的相关性:相关的多个特征可以变换成较 少的不相关分量
特征变换/特征降维
特征选择
从整个特征集中选择最有效的子集
如何评价特征“有效性”?
互信息量,x 2 测试,……
如何决定阈值?
指定维数 指定“有效性”指标 指定性能 增量式、减量式性能评价
特征选择
特征有效性评价
空间采样
0
1
……
1维:4 Monte Carlo: ~40
2维:4*4=16 ~160
10维:4^10=1048576 ~10M
维数灾难
维数灾难的几个表现
索引困难
0
1
立方体体积 球体积 比例
1 1 100%
Biblioteka Baidu……
1 π/4 78.5%
1
5 0.510 5!
0.25%
维数灾难
维数灾难的几个表现
特征降维
维数灾难
更多的特征可能导致分类性能反而下降
Yiming Yang and Jan Pedersen “A comparative study on feature selection in text categorization”.
维数灾难
特征降维的途径
去除无用特征
特征的必要性:不必要的特征对训练无用 特征选择
机器学习与数据挖掘
特征选择与特征降维
维数灾难
Curse of Dimensionality
随着维数的增加,特征空间的体积指数增 加,从而导致各方面的成本指数增加
样本数量 存储空间 计算量 …… 图灵可计算问题:多项式复杂度
涉及高维空间的算法是不可计算的!?
维数灾难
维数灾难的几个表现
否则结束
特征选择
联合选择
增/减量法优缺点
复杂度关于维数为 ON或 ON2
选单个特征采用评价准则排序的方式为一次 选单个特征采用测试全部特征的方式为二次
本质上是贪心算法
某些组合无法遍历 可能陷入局部极值
特征选择
联合选择
全组合遍历
NP难 O2N
Kohavi-John, 1997
特征选择
特征有效性评价
IR领域的度量
词强度(term strength)
已知一个词(特征)在某文档(实例)中出现,该词在同 类(目标函数值相同)文档中出现的概率为词强度
st P t d Y i y|t d Y j y
特征选择
特征有效性评价
学习相关的度量
分类准确率
用单一维特征进行分类训练,某种分类准确率指标 作为特征的有效性度量
距离”足以掩盖正负样本的本质区别
维数灾难
高维空间的奇异特性
克莱因瓶 Klein bottle
莫比乌斯带 Mö bius strip
N维单位超球的表面积
()
维数灾难
数学理论偏好较低维数的空间
要在特征空间进行合理密度的采样,特征 维数超过5都是非常困难的
实际问题偏好较高维数的空间
问题的复杂性 特征的完备性
IY G |X i H Y H Y |X i
相对信息增益 R Y |X I i G H Y H Y |X i / H Y
特征选择
特征有效性评价
从信息论角度
互信息量(Mutual Information)
KL-距离
MiIPXi,YloP gP X X iiP ,YYdX idY
F = F -{f}
f可以用评价准则选择,也可以遍历所有特征
计算在F上的分类性能 如果分类性能不降低: F=F,循环
否则结束
特征选择
联合选择
增量法
F ={f1} 计算在F上的分类性能
F = F +{f 2}
f1、 f2可以用评价准则选择,也可以遍历所有特征
计算在F上的分类性能 如果分类性能增加: F=F,循环
样本稀疏
总样本:1000 每维划分:4
1维:1000/4 2维:1000/(4*4) 10维:1000/(4^10)
= 250 样本/区间 = 62.5 样本/区间 = 0.001 样本/区间
维数灾难
维数灾难的几个表现
噪声影响
特征空间:101维 正负样本在第一维的距离:1 样本在其余维的噪声:10% “噪声距离”:1000.12 1 即使噪声只有10%,高维空间的“噪声
KLPXi,Y||PXiPY
特征选择
特征有效性评价
IR领域的度量
(逆)文档词频(inverse document frequency)
idft
log
D Dt
总文档数 包含词(特征)t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0 在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
特征有效性评价
从信息论角度
把机器学习过程看做通信
特征是编码 目标函数是信息 特征包含的有关目标函数的信息越多,则从特征解
出的信息就越多完全编码目标函数需要的额外特 征就越少 各种信息量/熵衡量指标
特征选择
特征有效性评价
从信息论角度
条件熵 HY|Xi
与“相关性”负相关
信息增益