特征选择与稀疏学习

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
每个划分区域对应着特征子集A的某种取值
样本标记Y对应着对数据集的真实划分
通过估算这两个划分的差异,就能对特征子集进行评价;与 样本标记对应的划分的差异越小,则说明当前特征子集越好
信息熵是判断这种差异的一种方式
常见的特征选择方法
将特征子集搜索机制与子集评价机制相结合,即可 得到特征选择方法
按照从小到大顺序排列,可知,各个属性的权重关系如下:
属性9<属性5<属性7<属性4<属性2<属性3<属性8<属性1<属性6 我们选定权重阀值为0.02,则属性9、属性4和属性5剔除。
过滤式选择-- 医学数据分析实例
乳腺癌数据特征分析 从上面的特征权重可以看出,属性6裸核大小是最主要的影响因素,
两个关键环节:子集搜索和子集评价
子集搜索
用贪心策略选择包含重要信息的特征子集
前向搜索:最优子集初始为空集,逐渐增加相关特征
特征集合
Y
当前最优子集 优于上一轮最 优子集? N
结束
后向搜索:从完整的特征集合开始,逐渐减少特征 双向搜索:每一轮逐渐增加相关特征,同时减少无关特征
子集评价
特征子集A 确定了对数据集D的一个划分
包裹式选择
将特征子集搜索机制与子集评价机制相结合,即可 得到特征选择方法
常见的特征选择方法大致分为如下三类: 过滤式 包裹式 直接把最终将要使用的学习器的性能作为特征子集的评价准则 嵌入式
包裹式选择
包裹式特征选择的目的就是为给定学习器选择最有利于其性能、 “量身定做”的特征子集 包裹式选择方法直接针对给定学习器进行优化,因此从最终学习 器性能来看,包裹式特征选择比过滤式特征选择更好 包裹式特征选择过程中需多次训练学习器,计算开销通常比过滤 式特征选择大得多 LVW(Las Vegas Wrapper)是一个典型的包裹式特征选择方法, LVW在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以 最终分类器的误差作为特征子集评价准则
稀疏表达的优势:
数据具有稀疏性,使得大多数问题变得线性可分 稀疏矩阵已有很多高效的存储方法
字典学习
在一般的学习任务中,数据集(如图像)往往是非稀疏的,能否将 稠密表示的数据集转化为“稀疏表示”,使其享受稀疏表达的优势? 为普通稠密表达的样本找到
合适的字典
字典学习

字典学习的解法

压缩感知
压缩感知是由美国学者E. Candes和T. Tao于2004年首先提出的。 “压缩感知”顾名思义是直接感知压缩后的信息,其目的是从尽量 少的数据中提取尽量多的信息。CS 理论证明了如果信号在正交空 间具有稀疏性(即可压缩性),就能以远低于Nyquist采样频率的 速率采样该信号,最后通过优化算法高概率重建出原信号。其基本 思想是一种基于稀疏表示的信号压缩和重构技术,也可以称为压缩 采样或稀疏采样。
相关性最小的属性,然后采用K-means聚类算法对剩下的属性进行聚类 分析。
过滤式选择-- 医学数据分析实例
乳腺癌数据集特征提取 采用ReliefF算法来计算各个特征的权重,权重小于某个阈值的特征
将被移除,针对乳腺癌的实际情况,将对权重最小的2-3种剔除。
将ReliefF算法运行20次,得到了各个特征属性的权重趋势图
将特征子集搜索机制与子集评价机制相结合,即可 得到特征选择方法
常见的特征选择方法大致分为如下三类: 过滤式
特征选择过程与学习器训练过程有明显的分别
包裹式
嵌入式
将特征选择过程与学习器训练过程融为一体,两者在同一个优化 过程中完成,在学习器训练过程中自动地进行特征选择
嵌入式选择

岭回归 (ridge regression)
压缩感知
压缩感知是由美国学者E. Candes和T. Tao于2004年首先提出的。 “压缩感知”顾名思义是直接感知压缩后的信息,其目的是从尽量 少的数据中提取尽量多的信息。CS 理论证明了如果信号在正交空 间具有稀疏性(即可压缩性),就能以远低于Nyquist采样频率的 速率采样该信号,最后通过优化算法高概率重建出原信号。其基本 思想是一种基于稀疏表示的信号压缩和重构技术,也可以称为压缩 采样或稀疏采样。 压缩感知引起了信号采样及相应重构方式的本质性变化,即:数 据的采样和压缩是以低速率同步进行的,这对于降低信息获取系统 的采样成本和资源都具有重要意义。 由于压缩感知技术突破了传统香农采样定理的限制,其理论研究 已经成为应用数学、数字信号处理、数字图像处理等领域的最热门 的方向之一,同时其应用领域涉及到图像压缩、医学图像处理、生 物信息处理、高光谱影像、地球物理数据分析、压缩雷达、遥感和 计算机图像处理等诸多方面。
常见的特征选择方法大致分为如下三类: 过滤式 包裹式
嵌入式
常见的特征选择方法
将特征子集搜索机制与子集评价机制相结合,即可 得到特征选择方法
常见的特征选择方法大致分为如下三类: 过滤式
先对数据集进行特征选择,然后再训练学习器,特征选择过程与 后续学习器无关。
先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型。 包裹式 嵌入式
[Tikhonov and Arsenin, 1977]
稀疏表示
将数据集D考虑成一个矩阵,每行对应一个样本,每列对应一个特征。
特征选择说考虑的问题是特征具有稀疏性,即矩阵中的许多列与当前 学习任务无关,通过特征选择去除这些列,则学习器训练过程仅需在 较小的矩阵上进行,学习任务的难度可能有所降低,设计的计算和存 储开销会减少,学得模型的可解释性也会提高。 矩阵中有很多零元素,且非整行整列出现。
包裹式选择-- LVW
LVW基本步骤
在循环的每一轮随机产生一个特征子集
在随机产生的特征子集上通过交叉验证推断当前特征子集的误差 进行多次循环,在多个随机产生的特征子集中选择误差最小的特 征子集作为最终解 采用随机策略搜索特征子集,而每次特征子集的评价都需要训练 学习器,开销很大。
嵌入式选择
过滤式选择-- Relief算法
Relief (Relevant Features) 方法是一种著名的过滤式特征选择 方法。
Relief算法最早由Kira提出,最初局限于两类数据的分类问题。
Relief算法是一种特征权重算法(Feature weighting algorithms), 根据各个特征和类别的相关性赋予特征不同的权重(相关统计量), 权重小于某个阈值的特征将被移除。 Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能 力。
徐 淼
Байду номын сангаас十一章:特征选择与 稀疏学习
特征
特征
描述物体的属性
特征的分类
相关特征: 对当前学习任务有用的属性 无关特征: 与当前学习任务无关的属性 颜色 纹理 触感
根蒂 声音
无关特征
当前任务:西瓜是否是好瓜
西瓜的特征
相关特征
坏瓜
好瓜
特征选择
特征选择
从给定的特征集合中选出任务相关特征子集 必须确保不丢失重要特征
压缩感知

压缩感知
压缩感知的核心问题

压缩感知的核心问题

压缩感知的核心问题

压缩感知—图像重构实例
本章小结

原因
减轻维度灾难:在少量属性上构建模型 降低学习难度:留下关键信息 颜色 纹理 触感 根蒂 声音
无关特征
当前任务:西瓜是否是好瓜
西瓜的特征
相关特征
坏瓜
特征选择:选择当 前任务相关特征
好瓜
特征选择的一般方法
遍历所有可能的子集
计算上遭遇组合爆炸,不可行
可行方法
产生初始候选 子集 评价候选子集 的好坏 基于评价结果 产生下一个候 选子集
Relief的关键是如何确定权重(相关统计量)?
过滤式选择-- Relief算法

过滤式选择-- Relief算法的多类拓展
过滤式选择-- 医学数据分析实例
选用的数据:威斯康星州乳腺癌数据集,数据来源美国威斯康星大学医
院的临床病例报告,每条数据具有9个属性。
数据处理思路:先采用ReliefF特征提取算法计算各个属性的权重,剔除
说明乳腺癌患者的症状最先表现了裸核大小上,将直接导致裸核大小 的变化,其次是属性1和属性8等,后几个属性权重大小接近。
几个重要的属性进行分析:
块厚度属性的特征权重在0.19-25左右变动,也是权重极高的一个, 说明该特征属性在乳腺癌患者检测指标中是相当重要的一个判断依据。 进一步分析显示,在单独对属性6,和属性1进行聚类分析,其成功 率就可以达到91.8%。
相关文档
最新文档