特征选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
算法步骤
步骤2:检验和后继节点相应的准则函数值是否小于B。 i 1 J ( X x q 0 若 ,则转向步骤4;否则,若 i qi ) B ,则置 l qi , i i 1 然后转向步骤3,否则从 X 中去掉 xqi ,即
i
X i1 X i x
i 1 qi
若 i 1 D d,则转向步骤5,否则置 i 1 ,然后转向 步骤1。
步骤 4 回溯 置 i i 1; ri ri 1; i i 1; 若 i 1,则终止算法; i 1 否则,把 xqi 放入到当前的特征集,即
i 1 X i X i 1 xqi 置 i 1,转向步骤3。
特征选择——分支定界法
算法步骤
步骤 5 修改界值 置 B J ( X Dd ),把X D d 作为当前最好的特 征组 X d ,置 l qi ,转向步骤3。
i 1 1
c)
J ( Xi x ) J ( Xi x )
i 1 2
J ( Xi x )
i 1 qi
J ( Xi x )
i 1 ri
从 i 中去掉 Qi ,并修改 ri
i 1 i Qi
ri 1 ri qi
特征选择——分支定界法
特征选择——分支定界法
在下面的算法中,显然 i 和 X i 是已知的。 算法是从0级开始的,并从右边的第一支开始 计算,D是原始特征的数目,d是所要选择出 的特征数目,J是可分性准则函数,r0=D, 0 是全部特征集合, X0 0 。
特征选择——分支定界法
算法步骤
步骤1 a) 利用公式 qi ri (D d i 1) 计算 qi ; b) 根据下式计算 Qi :
该方法与最近邻法结合,根据特征子集的分类 表现来选择特征 用顺序后退法搜索特征子集: 从全体特征开始,每次剔除一个特征,使得所 保留的特征集合有最大的分类识别率(基于最 近邻法)。依次迭代,直至识别率开始下降为 止 用leave-one-out 方法估计平均识别率: 用N-1个样本判断余下一个的类别,N次取平均
Tabu搜索算法
Tabu(禁忌)搜索算法的基本框架 步骤 1 令迭代步数 i 0 ,Tabu 表为 T ,给 出初始解为x,并令最优解 xg x ;
步骤 2 从x的邻域中选择一定数量的解构成候选集 合N(x); 步骤 3 若N(x)=Φ ,则转2,否则从N(x)中找出最 优解x’; 步骤 4 若 x ' T ,并且 x ' 不满足激活条件,则令 N ( x) N ( x) {x '} ,转3,否则,令 x x ' 。
则
J ( X k xDk )
X k 1 X k x1
特征选择——次优搜索算法
顺序后退选择法与顺序前进选择法的比较
在计算过程中,可以估计每次去掉一个特征时,所 造成的可分性的降低; 顺序后退法是在高维空间中进行的,所以计算量较 大。
特征选择的几种新算法
模拟退火算法 Tabu(禁忌)搜索算法 遗传算法
Tabu搜索算法
Tabu(禁忌)搜索算法
算法的基本思想:一个解的某个“邻域”中一般存 在性能更好的解。因此,Tabu搜索算法仅仅在一些 解的邻域中进行。为了避免搜索过程的重复,从而 能够搜索更大的解空间,因此该算法要求记录近期 的搜索过的解。 使用一个表,Tabu表,记录这一搜索过程的解。 如果一个解在Tabu表中,说明该解在近期被访问过。 一旦被收入Tabu表中,在某个时间段内禁止访问该 解。
10.2 特征选择
特征选择是从原始特征中挑选出一些最 有代表性,分类性能最好的特征来。 每个特征的状态是离散的—选与不选 从N个特征中选取k个,共 种组合。若 不限定个数,则共2N种。-NP 问题 这是一个典型的组合优化问题
特征选择的方法大体可分两大类
Filter方法:不考虑所使用的学习算法。通常给 出一个独立于分类器的指标μ来评价所选择的 特征子集S,然后在所有可能的特征子集中搜 索出使得μ最大的特征子集作为最优特征子集。 Wrapper方法:将特征选择和分类器结合在一 起,即特征子集的好坏标准是由分类器决定的, 在学习过程中表现优异的的特征子集会被选中。
遗传算法
遗传算法发展的简要回顾
1950s,将进化原理应用于计算机科学的初步努力。 50年代末到60年代初,Holland应用模拟遗传算子研究适应性。 1967年,Bagley的论文中首次提出了遗传算法这一术语。 1975年,Holland的经典著作《自然和人工系统中的适应性》 出版,系统阐述了遗传算法的基本理论和方法。 1975年,DeJong的博士论文《遗传自适应系统的行为分析》, 将Holland的模式理论与他的计算试验结合起来。 1983年,Holland的学生Goldberg将遗传算法应用于管道煤气 系统的优化,取得了很好的效果。
该算法是一种自上而下的方法。从全体特征中每次舍弃一个 特征,所删除的特征应该使得仍然保留特征组的J值最大。 假设已删除了k个特征,得到特征组 X k ,将 X k 中的各个特 j 1, 2, , D k 按照下述的J值进行排序: 征 xj ,
J ( X k x1 ) J ( X k x2 )
使得J较大的前m个特征作为选择结果,但是 这样所得到的m个特征一般未必时最好的。
特征选择
穷举法:
从D个特征中选择d个,所有可能的组合数为 CD, 10 如D=20, d=10,这时有 C20 184756 种特征的 组合方法。把184756种特征组合的可分性准则 函数全部计算出来,然后看哪一种特征组合的准 则函数值最大,我们就应该选择这种组合的前10 个特征。
该算法考虑了所选特征与已入选特征之间的相关性。一般 来说,比前面所提出的单独选择方法要好。 缺点:对于已经入选的特征无法删除或替换。 注意:上述的SFS算法每次增加一个特征,实际上可以每 次增加多(r)个特征。
特征选择——次优搜索算法
顺序后退选择法(Sequential Backward Selection,SBS)
d
特征选择——分支定界法
分支定界法:是一种自上而下的启发式搜索算法,具 有回溯功能,可使所有可能的特征组合都被考虑到。 由于合理的组织了搜索过程,使得有可能不必计算某 些组合,而又不影响得到最优的结果。 分支定界法的必备条件:所使用的准则函数必须是具 有单调性的。即,从D个特征中选择d个特征组成d维 特征向量,再由这d个特征中选择k个特征组成k维向量, 对应的准则函数应满足: D>d>k J D Jd Jk
Tabu搜索算法
步骤 5 如果 x 的性能比 xg 的性能好,则令 xg x ; 步骤 6 如果Tabu表的长度等于规定长度,则删去表 中最早搜索过的解; 步骤 7 令 T T {x} ; xg为最终解, 步骤 8 若满足终止条件,则算法结束, 否则,令 i i 1 ,转2。
一种Filter算法: FOCUS
该算法致力于寻找一个能够正确区分所 有类别的最小特征集合。 例如,若区分每个人的特征有:姓名、 性别、籍贯、工作单位、身份证号…… 则该算法会选择:身份证号 搜索时先看一个特征能否正确区分样本, 若不能,则考察两个特征……以此类推
一种Wrapper算法:OBLIVION
Leabharlann Baidu
特征选择
需要解决的问题
如何确定选择的标准(前面学习过的类别可 分性准则); 需要找到一个比较好的算法,以便在较短的 时间内找出一组最优的特征。
特征选择
两种最为显见的选择方法:单独选择法 与穷举法。
单独选择法指的是把n个特征单独使用时的 可分性准则都计算出,从大到小排序,如:
J ( x1 ) J ( x2 ) J ( xm ) J ( xn )
特征选择——分支定界法
注意:在搜索过程中,如果发现了某个叶节点 所对应的准则函数值J>B,则可以断言:J是当 前搜索到的最优特征组,于是可以修改x*和B; 继续搜索,直到全树搜索结束。 分支定界法,一般将其称为最优搜索算法。
特征选择——分支定界法
算法步骤:假设当前处于某一级i的某个节点上。对 于 k 0,1, , i 1各级的所有后继节点所舍弃的特征已 经求出,并存在存储器内。 i 1 i 1 i 1 Q ( x , x , , x i 1 2 qi ) 表示第i级的当前所讨论节 点的 qi个后继节点所舍弃的特征; X i 表示处于第i级的当前所讨论节点在舍弃i个特 征后所具有的特征集, 表示处于第i级的当前所讨论节点的后继节点 i 可以舍弃的特征集合, ri 表示这个集合的基数。
J ( X k x1 ) J ( X k x2 )
J ( X k xDk )
则下一步的特征组选为
X k 1 X k x1 注意:算法开始时 X 0 , k d 时算法结束
特征选择——次优搜索算法
顺序前进法(Sequential Forward Selection, SFS)
特征选择——分支定界法
分析
优点:该算法可以求出最优解。 缺点:在很多情形,该算法的计算量太大, 难以实现。
特征选择——次优搜索算法
单独最优特征组合 顺序前进法 顺序后退法
特征选择——次优搜索算法
单独最优特征组合
最为简单的方法,是计算各个特征单独使用时的准 则函数值,并将其排序,取前d个作为所要选择的 特征。但是,一般为而言即使各特征是单独使用的, 这一结论也不是最优的。要保证所选则的特征的最 优性,必须使得可分性准则函数值满足:
特征选择——分支定界法
算法步骤
步骤3 i 1 x 把 qi 放回到 i 1中,即 i 1 i 1 i 1 xqi
ri 1 ri 1 1
置 l l 1 qi qi 1 若 l 0 ,则转向步骤2,否则转向步骤3。
特征选择——分支定界法
算法步骤
特征选择——分支定界法
分支定界法:若某一支已经搜索到叶节点,例 如,右侧的第一支的叶节点,该节点的特征组 为x*=(x1,x2)T,计算相应的准则函数值并将其 作为界:B=J(x*)。这时,树中的某个节点, 例如节点A,节点所表示的特征组为(x1,x4,x5)T; 计算出节点A相应的准则函数值JA,若JA≤ B, 则节点A以下各点都不必计算,这是由于准则 函数的单调性所确定的。
J ( X ) J ( xi )
i 1
D
or
J ( X ) J ( xi )
i 1
D
特征选择——次优搜索算法
顺序前进法(Sequential Forward Selection, SFS)
这是一种简单的自下而上的搜索算法,每次从未入选的 特征中选择一个特征,使得它与已入选的特征组合在一 起时,对应的J值最大,直到特征数增加到d为止。 设已经选择了k个特征的特征组为 X k ,未入选的D-k个 j 1, 2, , D k ,按照它们与已入选的特征组合后 特征 x j , 的J值的大小排序:
Tabu搜索算法
Tabu(禁忌)搜索算法的分析pp:208
遗传算法(进化计算)
遗传算法(进化计算)
遗传算法主要是从达尔文的生物进化论得到 启示。生物在漫长的进化过程中,经过遗传 和变异,按照“物竞天泽,适者生存”这一 规则演变,逐渐从最简单的低级生物发展到 复杂的高级生物。基于这种思想,发展了用 于优化的遗传算法。
许多特征选择算法力求解决搜索 问题,经典算法有:
分支定界法 顺序后退法 顺序前进法 模拟退火法 Tabu搜索法 遗传算法
Ch8 特征的选择与提取之特征选择
特征选择的任务:从n个特征中选择出 m(m<n)个最有效的特征。 方法:根据专家的知识挑选那些对分类 最有效的、最有影响的特征;用数学的 方法进行筛选、比较找出对分类最有影 响的特征。
特征选择——分支定界法
分支定界法:整个搜索过程可以使用树来表示, 下图表示一个从5个特征中选择2个特征的例子, 节点上的标号表示去掉的特征序号。每一级在 上一级的基础上再去掉一个特征。级数正好是 已经去掉的特征数。
特征选择——分支定界法
0
1 2 3 4
2 A 3
3 4 4
3
3
5
4
5
5 5
5
5
5
步骤2:检验和后继节点相应的准则函数值是否小于B。 i 1 J ( X x q 0 若 ,则转向步骤4;否则,若 i qi ) B ,则置 l qi , i i 1 然后转向步骤3,否则从 X 中去掉 xqi ,即
i
X i1 X i x
i 1 qi
若 i 1 D d,则转向步骤5,否则置 i 1 ,然后转向 步骤1。
步骤 4 回溯 置 i i 1; ri ri 1; i i 1; 若 i 1,则终止算法; i 1 否则,把 xqi 放入到当前的特征集,即
i 1 X i X i 1 xqi 置 i 1,转向步骤3。
特征选择——分支定界法
算法步骤
步骤 5 修改界值 置 B J ( X Dd ),把X D d 作为当前最好的特 征组 X d ,置 l qi ,转向步骤3。
i 1 1
c)
J ( Xi x ) J ( Xi x )
i 1 2
J ( Xi x )
i 1 qi
J ( Xi x )
i 1 ri
从 i 中去掉 Qi ,并修改 ri
i 1 i Qi
ri 1 ri qi
特征选择——分支定界法
特征选择——分支定界法
在下面的算法中,显然 i 和 X i 是已知的。 算法是从0级开始的,并从右边的第一支开始 计算,D是原始特征的数目,d是所要选择出 的特征数目,J是可分性准则函数,r0=D, 0 是全部特征集合, X0 0 。
特征选择——分支定界法
算法步骤
步骤1 a) 利用公式 qi ri (D d i 1) 计算 qi ; b) 根据下式计算 Qi :
该方法与最近邻法结合,根据特征子集的分类 表现来选择特征 用顺序后退法搜索特征子集: 从全体特征开始,每次剔除一个特征,使得所 保留的特征集合有最大的分类识别率(基于最 近邻法)。依次迭代,直至识别率开始下降为 止 用leave-one-out 方法估计平均识别率: 用N-1个样本判断余下一个的类别,N次取平均
Tabu搜索算法
Tabu(禁忌)搜索算法的基本框架 步骤 1 令迭代步数 i 0 ,Tabu 表为 T ,给 出初始解为x,并令最优解 xg x ;
步骤 2 从x的邻域中选择一定数量的解构成候选集 合N(x); 步骤 3 若N(x)=Φ ,则转2,否则从N(x)中找出最 优解x’; 步骤 4 若 x ' T ,并且 x ' 不满足激活条件,则令 N ( x) N ( x) {x '} ,转3,否则,令 x x ' 。
则
J ( X k xDk )
X k 1 X k x1
特征选择——次优搜索算法
顺序后退选择法与顺序前进选择法的比较
在计算过程中,可以估计每次去掉一个特征时,所 造成的可分性的降低; 顺序后退法是在高维空间中进行的,所以计算量较 大。
特征选择的几种新算法
模拟退火算法 Tabu(禁忌)搜索算法 遗传算法
Tabu搜索算法
Tabu(禁忌)搜索算法
算法的基本思想:一个解的某个“邻域”中一般存 在性能更好的解。因此,Tabu搜索算法仅仅在一些 解的邻域中进行。为了避免搜索过程的重复,从而 能够搜索更大的解空间,因此该算法要求记录近期 的搜索过的解。 使用一个表,Tabu表,记录这一搜索过程的解。 如果一个解在Tabu表中,说明该解在近期被访问过。 一旦被收入Tabu表中,在某个时间段内禁止访问该 解。
10.2 特征选择
特征选择是从原始特征中挑选出一些最 有代表性,分类性能最好的特征来。 每个特征的状态是离散的—选与不选 从N个特征中选取k个,共 种组合。若 不限定个数,则共2N种。-NP 问题 这是一个典型的组合优化问题
特征选择的方法大体可分两大类
Filter方法:不考虑所使用的学习算法。通常给 出一个独立于分类器的指标μ来评价所选择的 特征子集S,然后在所有可能的特征子集中搜 索出使得μ最大的特征子集作为最优特征子集。 Wrapper方法:将特征选择和分类器结合在一 起,即特征子集的好坏标准是由分类器决定的, 在学习过程中表现优异的的特征子集会被选中。
遗传算法
遗传算法发展的简要回顾
1950s,将进化原理应用于计算机科学的初步努力。 50年代末到60年代初,Holland应用模拟遗传算子研究适应性。 1967年,Bagley的论文中首次提出了遗传算法这一术语。 1975年,Holland的经典著作《自然和人工系统中的适应性》 出版,系统阐述了遗传算法的基本理论和方法。 1975年,DeJong的博士论文《遗传自适应系统的行为分析》, 将Holland的模式理论与他的计算试验结合起来。 1983年,Holland的学生Goldberg将遗传算法应用于管道煤气 系统的优化,取得了很好的效果。
该算法是一种自上而下的方法。从全体特征中每次舍弃一个 特征,所删除的特征应该使得仍然保留特征组的J值最大。 假设已删除了k个特征,得到特征组 X k ,将 X k 中的各个特 j 1, 2, , D k 按照下述的J值进行排序: 征 xj ,
J ( X k x1 ) J ( X k x2 )
使得J较大的前m个特征作为选择结果,但是 这样所得到的m个特征一般未必时最好的。
特征选择
穷举法:
从D个特征中选择d个,所有可能的组合数为 CD, 10 如D=20, d=10,这时有 C20 184756 种特征的 组合方法。把184756种特征组合的可分性准则 函数全部计算出来,然后看哪一种特征组合的准 则函数值最大,我们就应该选择这种组合的前10 个特征。
该算法考虑了所选特征与已入选特征之间的相关性。一般 来说,比前面所提出的单独选择方法要好。 缺点:对于已经入选的特征无法删除或替换。 注意:上述的SFS算法每次增加一个特征,实际上可以每 次增加多(r)个特征。
特征选择——次优搜索算法
顺序后退选择法(Sequential Backward Selection,SBS)
d
特征选择——分支定界法
分支定界法:是一种自上而下的启发式搜索算法,具 有回溯功能,可使所有可能的特征组合都被考虑到。 由于合理的组织了搜索过程,使得有可能不必计算某 些组合,而又不影响得到最优的结果。 分支定界法的必备条件:所使用的准则函数必须是具 有单调性的。即,从D个特征中选择d个特征组成d维 特征向量,再由这d个特征中选择k个特征组成k维向量, 对应的准则函数应满足: D>d>k J D Jd Jk
Tabu搜索算法
步骤 5 如果 x 的性能比 xg 的性能好,则令 xg x ; 步骤 6 如果Tabu表的长度等于规定长度,则删去表 中最早搜索过的解; 步骤 7 令 T T {x} ; xg为最终解, 步骤 8 若满足终止条件,则算法结束, 否则,令 i i 1 ,转2。
一种Filter算法: FOCUS
该算法致力于寻找一个能够正确区分所 有类别的最小特征集合。 例如,若区分每个人的特征有:姓名、 性别、籍贯、工作单位、身份证号…… 则该算法会选择:身份证号 搜索时先看一个特征能否正确区分样本, 若不能,则考察两个特征……以此类推
一种Wrapper算法:OBLIVION
Leabharlann Baidu
特征选择
需要解决的问题
如何确定选择的标准(前面学习过的类别可 分性准则); 需要找到一个比较好的算法,以便在较短的 时间内找出一组最优的特征。
特征选择
两种最为显见的选择方法:单独选择法 与穷举法。
单独选择法指的是把n个特征单独使用时的 可分性准则都计算出,从大到小排序,如:
J ( x1 ) J ( x2 ) J ( xm ) J ( xn )
特征选择——分支定界法
注意:在搜索过程中,如果发现了某个叶节点 所对应的准则函数值J>B,则可以断言:J是当 前搜索到的最优特征组,于是可以修改x*和B; 继续搜索,直到全树搜索结束。 分支定界法,一般将其称为最优搜索算法。
特征选择——分支定界法
算法步骤:假设当前处于某一级i的某个节点上。对 于 k 0,1, , i 1各级的所有后继节点所舍弃的特征已 经求出,并存在存储器内。 i 1 i 1 i 1 Q ( x , x , , x i 1 2 qi ) 表示第i级的当前所讨论节 点的 qi个后继节点所舍弃的特征; X i 表示处于第i级的当前所讨论节点在舍弃i个特 征后所具有的特征集, 表示处于第i级的当前所讨论节点的后继节点 i 可以舍弃的特征集合, ri 表示这个集合的基数。
J ( X k x1 ) J ( X k x2 )
J ( X k xDk )
则下一步的特征组选为
X k 1 X k x1 注意:算法开始时 X 0 , k d 时算法结束
特征选择——次优搜索算法
顺序前进法(Sequential Forward Selection, SFS)
特征选择——分支定界法
分析
优点:该算法可以求出最优解。 缺点:在很多情形,该算法的计算量太大, 难以实现。
特征选择——次优搜索算法
单独最优特征组合 顺序前进法 顺序后退法
特征选择——次优搜索算法
单独最优特征组合
最为简单的方法,是计算各个特征单独使用时的准 则函数值,并将其排序,取前d个作为所要选择的 特征。但是,一般为而言即使各特征是单独使用的, 这一结论也不是最优的。要保证所选则的特征的最 优性,必须使得可分性准则函数值满足:
特征选择——分支定界法
算法步骤
步骤3 i 1 x 把 qi 放回到 i 1中,即 i 1 i 1 i 1 xqi
ri 1 ri 1 1
置 l l 1 qi qi 1 若 l 0 ,则转向步骤2,否则转向步骤3。
特征选择——分支定界法
算法步骤
特征选择——分支定界法
分支定界法:若某一支已经搜索到叶节点,例 如,右侧的第一支的叶节点,该节点的特征组 为x*=(x1,x2)T,计算相应的准则函数值并将其 作为界:B=J(x*)。这时,树中的某个节点, 例如节点A,节点所表示的特征组为(x1,x4,x5)T; 计算出节点A相应的准则函数值JA,若JA≤ B, 则节点A以下各点都不必计算,这是由于准则 函数的单调性所确定的。
J ( X ) J ( xi )
i 1
D
or
J ( X ) J ( xi )
i 1
D
特征选择——次优搜索算法
顺序前进法(Sequential Forward Selection, SFS)
这是一种简单的自下而上的搜索算法,每次从未入选的 特征中选择一个特征,使得它与已入选的特征组合在一 起时,对应的J值最大,直到特征数增加到d为止。 设已经选择了k个特征的特征组为 X k ,未入选的D-k个 j 1, 2, , D k ,按照它们与已入选的特征组合后 特征 x j , 的J值的大小排序:
Tabu搜索算法
Tabu(禁忌)搜索算法的分析pp:208
遗传算法(进化计算)
遗传算法(进化计算)
遗传算法主要是从达尔文的生物进化论得到 启示。生物在漫长的进化过程中,经过遗传 和变异,按照“物竞天泽,适者生存”这一 规则演变,逐渐从最简单的低级生物发展到 复杂的高级生物。基于这种思想,发展了用 于优化的遗传算法。
许多特征选择算法力求解决搜索 问题,经典算法有:
分支定界法 顺序后退法 顺序前进法 模拟退火法 Tabu搜索法 遗传算法
Ch8 特征的选择与提取之特征选择
特征选择的任务:从n个特征中选择出 m(m<n)个最有效的特征。 方法:根据专家的知识挑选那些对分类 最有效的、最有影响的特征;用数学的 方法进行筛选、比较找出对分类最有影 响的特征。
特征选择——分支定界法
分支定界法:整个搜索过程可以使用树来表示, 下图表示一个从5个特征中选择2个特征的例子, 节点上的标号表示去掉的特征序号。每一级在 上一级的基础上再去掉一个特征。级数正好是 已经去掉的特征数。
特征选择——分支定界法
0
1 2 3 4
2 A 3
3 4 4
3
3
5
4
5
5 5
5
5
5