随机森林matlab降维,七种降维方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

随机森林matlab降维,七种降维⽅法
之前介绍过关于降维和特征选择,这⾥对⼏种降维⽅法进⾏介绍,与之前的⽅法⼤致相同。

1 缺失值⽐例
该⽅法的是基于包含太多缺失值的数据列包含有⽤信息的可能性较少。

因此,可以将数据列缺失值⼤于某个阈值的列去掉。

阈值越⾼,降维⽅法更为积极,即降维越少。

该⽅法⽰意图如下:
关于缺失值阈值的确定,使⽤的⽅法就是实验不同的值,上图中的⽂字描述写明了过程
1)从0.1到0.9实验阈值,每步长0.1
2)计算特征的缺失率,去除⾼于阈值的特征
3)⽤训练数据训练模型,测试数据对模型性能进⾏评测
4)选择性能最好时对应的阈值
2 低⽅差滤波
该⽅法假设数据列变化⾮常⼩的列包含的信息量少。

因此,所有的数据列⽅差⼩的列被移除。

需要注意的⼀点是:⽅差与数据范围相关的,因此在采⽤该⽅法前需要对数据做归⼀化处理。

算法⽰意图如下:
3 ⾼相关滤波
⾼相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显⽰。

这样,使⽤相似列中的⼀列就可以满⾜机器学习模型。

对于数值列之间的相似性通过计算相关系数来表⽰,对于名词类列的相关系数可以通过计算⽪尔逊卡⽅值来表⽰。

相关系数⼤于某个阈值的两列只保留⼀列。

同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进⾏归⼀化处理。

4 随机森林/组合树 (Random Forests)
⼀种常⽤的降维⽅法是对⽬标属性产⽣许多巨⼤的树,然后根据对每个属性的统计结果找到信息量最⼤的特征⼦集。

例如,我们能够对⼀个⾮常巨⼤的数据集⽣成⾮常层次⾮常浅的树,每颗树只训练⼀⼩部分属性。

如果⼀个属性经常成为最佳分裂属性,那么它很有可能是需要保留的信息特征。

对随机森林数据属性的统计评分会向我们揭⽰与其它属性相⽐,哪个属性才是预测能⼒最好的属性。

关于随机森林计算特征重要性的解释,之前的⼀篇介绍过。

5 P CA
6 反向特征消除
即backward特征选择,⾸先采⽤全部特征进⾏训练,然后每次去除⼀个特征,选取去除⼀个特征后效果最好的特征集,不断迭代这个过程。

7 前向特征构造
即forward特征选择。

从 1
个特征开始,每次训练添加⼀个让分类器性能提升最⼤的特征。

前向特征构造和反向特征消除都⼗分耗时。

它们通常⽤于输⼊维数已经相对较低的数据集。

其他的降维⽅法还包括:
随机投影(Random Projections)、⾮负矩阵分解(N0n-negative
Matrix Factorization),⾃动编码(Auto-encoders),卡⽅检测与信息增益(Chi-square and
information gain), 多维标定(Multidimensional Scaling),
相关性分析(Coorespondence Analysis), 因⼦分析(Factor
Analysis)、聚类(Clustering)以及贝叶斯模型(Bayesian
Models)。

相关文档
最新文档