机器学习中的特征选择 ppt课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
与过滤模型相比,精度高、但 效率低。
根本区别在于对学习算法的使 用方式
PPT课件
13
评价函数—混合模型
混合模型把这两种模型进行组合, 先用过滤模式进行初选,再用封装 模型来获得最佳的特征子集。
PPT课件
14
常用评价函数
特征的评价函数分为五类:
相关性;距离;信息增益;一致性;分类错误率 前四种属于过滤模型,分类错误率属于封装模型
Why
在机器学习的实际应用中,特征数量往往较多,其中可 能存在不相关的特征,特征之间也可能存在相互依赖,容易 导致如下的后果:
分析特征、训练模型耗时长 模型复杂、推广能力差 引起维度灾难
PPT课件
3
维度灾难
随着维数的增加,特征空间的体积指数增加,从而导致各 方面的成本指数增加
样本数量 存储空间 计算量 ……
从概率论的角度
相关系数:
值域范围:[-1, +1]
i


covX i ,Y X i Y

绝对值越大,相关性越大
PPT课件
15
常用评价函数
从数理统计的角度(假设检验) T检验
x2 检验
与相关系数在理论上非常接近,但更偏重于有限样本 下的估计
T检验统计量:
Feature Selection for Classification
PPT课件
李军政 2017.5.10
1
1 单综击述此处添加文字内容 2 单特击征此选处择添流加程文字内容 3 单几击种此常处用添的加特文征字选内择容算法
4 单总击结此处添加文字内容
PPT课件
2
综述
What
从全部特征中选取一个特征子集,使构造出来的模型更 好。
No
Yes
Stop Rule
Validation
PPT课件
6
两个主要步骤
产生过程
特征子集的产生可以看作是一个搜索过程,搜索空间中 的每一个状态都是一个可能特征子集。
搜索的算法分为完全搜索(Complete),启发式搜索 (Heuristic),随机搜索(Random) 3大类。
评价函数
总文档数 包含词(特征)t的文档数
词强度(term strength)
已知一个词(特征)在某文档(实例)中出现,该词在同类(目标 函数值相同)文档中出现的概率为词强度
s t

Pt

di Y y
|t

dj Y y
PPT课件
18
常用评价函数
学习相关的度量
PPT课件
11
评价函数—过滤模型
根据特征子集内部的特点来衡量其好坏, 如欧氏距离、相关性、信息熵等
特征子集在学习算法运行之前就被选定 学习算法用于测试最终特征子集的性能
特点:简单、效率高,但精度差
PPT课件
12ຫໍສະໝຸດ Baidu
评价函数—封装模型
学习算法封装在特征选择的过 程中,用特征子集在学习算法 上得到的挖掘性能作为特征子 集优劣的评估准则。
其中,n为样本容量, 、 为样本均值和方差, 为总 体方差。
PPT课件
16
常用评价函数
从信息论角度
条件熵
与“相关性”负相关
信息增益
IGY | X i H Y H Y | X i
相对信息增益 RIG Y | X i H Y H Y | X i / H Y
PPT课件
9
搜索算法之随机算法
随机算法
随机产生序列选择算法(RGSS)
随机产生一个特征子集,然后在该子集上执行SFS与SBS算法
模拟退火算法(SA)
以一定的概率来接受一个比当前解要差的解,因此有可能会跳出这个 局部的最优解,达到一个全局次最优解
遗传算法(GA)
共同缺点:依赖于随机因素,有实验结果难以重现
互信息量(Mutual Information)
MI i

P X i ,Y log
P X P X i
i ,Y P Y
dX
idY
PPT课件
17
常用评价函数
IR领域的度量
(逆)文档词频(inverse document frequency)
idf t

log
D Dt
评价函数是评价一个特征子集好坏的准则 特征的评估函数分为五类:相关性,距离,信息增益,
一致性和分类错误率。
PPT课件
7
搜索算法之完全搜索
完全搜索分为穷举搜索与非穷举搜索两类
广度优先搜索(BFS ) 分支限界搜索(BAB) 定向搜索 (BS) 最优优先搜索(Best First Search)
PPT课件
10
评价函数
作用是评价产生过程所提供的特征子集的好坏
按照其工作原理,评价函数可以分为三种模型:
过滤模型(Filter Model) 封装模型(Wrapper Model ) 混合模型(Embedded Model )
被称为特征选择的经典三刀:
飞刀(Filter) 弯刀(Wrapper) 电刀(Embedded )
BS: 首先选择N个得分最高的特征作为特征子集,将其加入一个限制 最大长度的优先队列,每次从队列中取出得分最高的子集,然后穷 举向该子集加入1个特征后产生的所有特征集,将这些特征集加入队 列。
PPT课件
8
搜索算法之启发式搜索
启发式搜索
序列前向选择(SFS)
序列后向选择(SBS)
双向搜索(BDS)
L和R怎么确定??
增L去R选择算法 (LRS)
L和R的选择是关键
序列浮动选择(Sequential Floating Selection)
决策树(DTM)
L,在,特R使训再征S两<得练在子1种评样树集> 形算价本上。式法函集运一:从数上行般空值运剪使集最行枝用开优算信C4始。法息.5或,。 增( L其每则 益>他轮最 作R决先终 为) 策加决 评树入策 价生L树 函个成各 数特算分 。征法支,,处然待的后决特从策征中树就去充是除分选R生出个长来特后的征
如何从中选出有用的特征??
PPT课件
4
1 单综击述此处添加文字内容 2 单特击征此选处择添流加程文字内容 3 单几击种此常处用添的加特文征字选内择容算法
4 单总击结此处添加文字内容
PPT课件
5
特征选择流程
Original Feature Set
Subset Generator
Evaluation
相关文档
最新文档