特征选择

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2017/10/16
数据挖掘中的特征选择
5Hale Waihona Puke Baidu
L1范数。
嵌入式选择与正则化

前面提到了的两种特征选择方法:过滤式中特征选择与后 续学习器完全分离,包裹式则是使用学习器作为特征选择 的评价准则;嵌入式是一种将特征选择与学习器训练完全 融合的特征选择方法,即将特征选择融入学习器的优化过 程中。
2017/10/16
2017/10/16
数据挖掘中的特征选择
7
12.
2017/10/16
数据挖掘中的特征选择
8
L为相似度矩阵对应的拉普拉斯矩阵
2017/10/16
数据挖掘中的特征选择
9
嵌入式无监督特征选择算法
为什么需要进行特征选择

高光谱图像光谱波段数目多、光谱分辨率高、波段宽度窄,能够以
较高的可信度区分和辨识地物目标。但是,高光谱图像的这些优点
是以其较高的数据维数和较大的数据量为代价的,且高光谱图像波 段间相关性较高,造成了信息的冗余。目标识别和分类等图像处理
并不一定需要全部的波段来进行,因此对高光谱图像进行数据降维
2017/10/16 数据挖掘中的特征选择 2
特征选择方法的模型

一般地,特征选择方法可以分为三种模型,分别是:过
滤模型、包裹模型和嵌入模型。
2017/10/16
数据挖掘中的特征选择
3
过滤模型

根据训练集进行特征选择,在特征选择的过程中并不涉
及任何学习算法。即特征子集在学习算法运行之前就被
单独选定。但学习算法用于测试最终特征子集的性能。
数据挖掘中的特征选择
6
L1范数美名又约Lasso Regularization,指的是向量 中每个元素的绝对值之和,这样在优化目标函数的过程中, 就会使得w尽可能地小,在一定程度上起到了防止过拟合 的作用,同时与L2范数(Ridge Regularization ) 不同的是,L1范数会使得部分w变为0, 从而达到了特 征选择的效果。

过滤模型简单且效率很高。由于过滤模型中的特征选择 过程独立于学习算法,这就容易与后面的学习算法产生 偏差,因此为了克服这个缺点提出了包裹模型。
2017/10/16
数据挖掘中的特征选择
4
包裹式选择

与过滤式选择不同的是,包裹式选择将后续的学习器也考 虑进来作为特征选择的评价准则。因此包裹式选择可以看 作是为某种学习器量身定做的特征选择方法,由于在每一 轮迭代中,包裹式选择都需要训练学习器,因此在获得较 好性能的同时也产生了较大的开销。
是十分必要的。

高维的数据集中包含了大量的特征(属性)。比如一个文本数据集中,
每一个文本都可以用一个向量来表示,向量中的每一个元素就是每
一个词在该文本中出现的频率。在这种情况下,这个数据集中就存 在着成千上万的特征。这种高维的数据给数据挖掘带来了“维灾 难”(The Curse of Dimensionality)问题。
相关文档
最新文档