集成学习的多分类器动态融合方法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本的分布 ,使得下一次迭代更加关注这些样本 ,而正确标号
的样本的权值分布下降 。这样 ,分类器的训练越来越集中
到一些难于分类的样本点上[4] ,在 AdaBoo st 迭代过程的后
期 ,训练的分类器主要集中在某一小区域的样本上 ,对这些
样本具有较好的分类能力 ,但不是对所有训练集中的样本
点都具有很好的分类能力 。为了 说 明 该 问 题 , 对 glass 、
本文基于 AdaBoo st 集 成 算 法 提出 改 进 的 动 态 集 成 算法 。首先利用 AdaBoost 算法训练多分类器 ,然 后 , 根
收稿日期 :2005 11 07 ; 修回日期 :2006 03 24 。 基金项目 :陕西省自然科学基金 (2005 F51) ; 国防预研基金 (51406030104DZ0120) 资助课题 作者简介 :方敏 (1965 ) ,女 ,教授 ,主要研究方向为网络与模式识别 。E2mail : mfang @mail . xidian. edu. cn
设 xi , i = 1 , 2 , …, k 是待测样本 x 3 的 k 个近邻中第 i 个近邻 ,根据式 (2) ,计算待测样本 x 3 和第 i 个近邻的相似 度 S ( x 3 , xi) ; S ( x3 , xi ) 大于设定的相似度门限的近邻作 为 x 3 有效近邻 ,形成有效邻域 N ( x 3 ) 。
·1 760 ·
系统工程与电子技术
第 28 卷
据当前输入样本 ,动态选择分类器组合 ,并确定分类器 的权重 。基于分 类 器 局 部 分 类 准 确 率 ( classifier’s local accuracy ,CL A) 和 多 分 类 器 行 为 , 为 集 成 学 习 算 法 训 练 多分类器提出一种基于待测样本局部分类精度的动态 集成方法 。
i =1
(2)
2. 2 基于多分类器行为分析的有效邻域确定
将与待测样本近邻的一组训练样本构成的区域称为待
测样本的邻域 。由于在待测样本邻域中 ,通常会有这样一
些样本 ,多个分类器判定待测样本与这些样本不属于同类 ,
那么这些样本与待测样本不属于同类的可能性就比较大 ,
这些样本势必会对分类器的选择和其权重的确定造成影
(西安电子科技大学计算机学院 , 陕西 西安 710071)
摘 要 : AdaBoo st 集成学习方法中 ,分类器一经学习成功 ,其投票权值就已确定 ,同一分类器对所有待测样 本均有相同的投票权值 。对于难于分类样本 ,具有良好分类性能的少数分类器权值却较低 。提出适用Leabharlann Baidu集成学 习方法的权重自适应调整多分类器集成算法 。根据多分类器行为信息 ,产生待测样本局部分类精度的有效判定 区域 ,基于有效判定区域选择不同的分类器组合 ,并调整其相应权重 ,利用样本集上的统计信息来动态指导分类 集成判决 。实验结果表明 ,该算法提高了集成分类性能 。
hi ( x) = ( ci1 , ci2 , …, cim ) ,0 ≤cij ≤1 , j = 1 ,2 , …, m 其中 ,cij 表示在分类器 hi 作用下样本 x 属于类ωj 的概率 。 通常选择最大概率所对应的标号作为样本 x 的类别标号 。
对于 x ∈X , 设 oi ( x) ∈{ 1 , 2 , …, m} 表示分类器 hi 对 样本 x 的分类标签 ,分类器 hi ( x) 的行为定义为
oi ( x) = arg max ( cij ) , j = 1 , …, m j
则称 oi ( x) ∈{ 1 ,2 , …, m} 为分类器 hi 在样本 x 上的行为 。 而 M CB ( x) = { o1 ( x) , …, oL ( x) } 为 L 个分类器在样本 x 上 的行为 。设
N ( x 3 ) = { x | S ( x 3 , x) > = 相似度门限} (3)
第 28 卷 第 11 期 2006 年 11 月
文章编号 :10012506X(2006) 1121759203
系统工程与电子技术 Systems Engineering and Elect ro nics
Vol. 28 No . 11 Nov. 2006
集成学习的多分类器动态融合方法研究
方 敏
Key words : ensemble learning ; dynamic classifier integration ; local classification accuracy
0 引 言
集成学习方法是根据样本训练多分类器来完成分类 任务 ,这些分类器具有一定的互补功能 ,在减少分类误差 上比较成功[1] 。AdaBoo st 算法就是一个比较成功的集成 学习算法 。它通过对训练样本集重复取样 ,训练多个具有 差异性的 分 类 器 集 。分 类 器 输 出 通 常 采 用 多 数 投 票 规 则[2] ,每个基分类器产生自己的分类结果 ,这些分类结果 被融合形成最终的集成分类结果 。由于分类器学习一旦 成功 ,其投票权值就已确定[3] ,对于所有的输入模式均采 用同样的投票权重 ,因此 ,它所采用的投票规则不能针 对待测样本考虑局部专家意见 。由于 AdaBoost 采 用 的 投票技术不能够考虑输入样本空间的不同 ,当一个输入 样本很难分类时 ,多数投票可能给出错误的预测 ,然而 , 有些分类器在一个样本的某个局部区域有较好的分类
关键词 : 集成学习 ; 动态分类器集成 ; 局部分类精度 中图分类号 : TP391 文献标识码 : A
Study of integration method f or multiple classif iers on ensemble learning
FAN G Min ( I nst. of Com p uter S cience , X i di an Uni v . , X i’an 710071 , Chi na)
性能 ,出了这个区域其分类准确率可能较差 ,其局部区 域分类的准确性被其他区域的非精确性所淹没 ,这样的 分类器往往具 有 很 小 的 权 值 。有 些 分类 器 在 大 多 数 区 域分类正确 ,在少数区域分类不准确 ,一般具有较大的 投票权值 ,这样的分类器在某些区域可能会出现分类准 确率较差的问题 。为此 ,文献 [ 3 , 5 ] 提 出 了 多 分 类 器 动 态集成方法 。其主要思路为 ,决策委员会中的每个分类 器都有自己较好的分类子区域 ,估计每个基分类器在待 测样本邻域上的分类准确率 ,并依此选择最终投票的分 类器或调整每个基分类器的权值 。文献 [ 6 ] 提出了将动 态选择 ( DS) 、动态投票 ( DV) 等方法用于改进多分 类 器 集成 ,利用这 些 方 法 对 Boosting 算 法 训 练 的 C4 . 5 基 分 类器进行动态选择和投票 。
1 , oi ( x1 ) = oi ( x2 ) Bi ( x1 , x2 ) = 0 , oi ( x1 ) ≠ oi ( x2 )
i = 1 , …, L
(1)
对于样本 x1 和 x2 ,定义两个样本的基于 MCB 之间的相似 度为
L
∑ S ( x1 , x2 )
=
1 L
Bi ( x1 , x2 )
Abstract : As soon as a classifier is t rained by AdaBoost ensemble learning algorit hm , it has a constant weight for all test instances. A few of classifiers which have better classification perfor mance for some instances hard to classified have usually small weight s. A new dynamic weight self2adjusting algorit hm is p resented for ensemble learning met hod. The effective deter mining area of t he test instance is co mp uted auto matically based on t he classificatio n behavior of classifier s. So me co mbine classifier s are selected and t heir weight s are adjusted based on t he effective deter mining area of t he test instance. An integration decision is made by using of t he sta2 tistics infor mation of set s of instances. The experiment result shows t hat ensemble classification performance is imp roved by use of t his algorit hm.
2 多分类器行为分析及有效邻域确定
2. 1 多分类器行为分析 为了能够选择适合于待测样本的分类器 ,需要准确描
述每个分类器的分类行为 ,给出分类器对训练样本的估计 分类误差 。
设ωj 为 m 个目标类标签 , j ∈1 , 2 , …, m , H = { hi , i = 1 ,2 , …, L} 为 L 个不同的分类器 , 分类器 hi 对样本 x 的分 类输出为
雷达辐射源仿真数据集两个数据集分类器的训练误差
进行分析 。图 1 给 出 了 一 个集 成 中 迭 代 训 练 的 各 个 分
类器训练误差的走势 。横轴为 AdaBoost 迭代过 程 中 训
练的各个分类器序号 ,纵轴为相应序号分类器产生的训
练误差 。
图 1 集成中各序号分类器训练误差的变化
从图中可见 ,后期训练出来的分类器的训练误差上升 较快 。分析 AdaBoo st 集成算法 ,若分类器 ht 的测试误差 为εt , 则置αt = ( 1ε-tεt ) , 集成时 ht 的权重取为 log (1/αt ) 。 具有较小训练误差的分类器 ,其权重大于具有较大训练误 差的分类器 。一旦分类器学习成功 ,这个投票权值就已确 定 ,对于所有的输入模式均采用同样的投票权重 。Ada2 Boost 算法后期训练出的分类器 ,主要集中在某些难于分类 的少数样本上 ,出现重复选择这些样本现象 ,忽略了其它样 本 ,它能很好地分类这一局部区域的样本 ,而对所有样本并 不一定有很好的分类能力 ,这类分类器往往具有较小的权 重 。因此 ,局部区域分类的准确性被其他区域的非精确性 所淹没 。
1 集成学习方法中分类器权值分析
在 AdaBoo st 算法中 ,分类器 ht 的加权分类误差为
∑ εt =
D t ( i)
i∶ht ( xi ) ≠yi
式中 : Dt ( i) ———第 t 轮样本 i 的分布 。分布 Dt + 1 ( i) 通过增
加不正确分类样本的 Dt ( i) 计算得到 ,即增加分类错误的样
响[8 10] 。因此 ,应剔除待测样本邻域中的干扰样本 ,以形成 其有效的近邻区域 。
根据式 (1) 和式 (2) ,两个样本的 MCB 之间的相似度的 取值范围为[ 0 ,1 ] 。当 S ( x1 , x2 ) 取值为 1 时 ,表明每一个分 类器都认为两个样本属于同一类 ; 当 S ( x1 , x2 ) 取值为 0 时 ,表明每一个分类器都将两个样本判为不同的类 ; S ( x1 , x2 ) 的值越接近 0 ,说明分类器对这两个样本的分类判断差 异越大 ;反之 ,当 S ( x1 , x2 ) 取值为 1 时 , 表明每一个分类器 都将两个样本判为同一类 。利用样本之间相似度的判定 , 可以剔除那些与待测样本多分类器行为相似度小于阈值的 邻域样本 。