基于聚类选择的分类器集成

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于聚类的选择性分类器集成
分类器集成采用“过产生 ,再选择 ”的策略。假设经过过产生阶段已生成了一组分类器。为了使再选择阶段得到的分类器具有错误差异性 ,即不同的分类器产生的错误是不相关的 ,把特
源自文库
收稿日期 : 2006208216; 修返日期 : 2006211225 基金项目 : 国家自然科学基金资助项目 (60074013, 10371106) ;江苏省高校自然科学基金资助项目 (07KJB520133) ;扬州大学自然科学基金资助项目 ( KK0413160) 作者简介 :王正群 (19652) ,男 ,江苏如东人 ,副教授 ,博士 ,主要研究方向为模式识别、机器学习 ( yzwzq@126. com ) ;张天平 ( 19642) , 男 , 江苏泰兴人 ,教授 , 博士 ,主要研究方向为自适应控制、模糊控制理论 ;乐晓蓉 (19812) ,女 ,江苏苏州人 ,硕士研究生 ,主要研究方向为人工智能.
Output: set of selected classifiers Sd. a) Produce the set F of m classifiers from the p rocess " overp roduce" based on S. b) Form k regions based on cluster. c) Calculate the error p robability for m classifiers in each region. d) Get the set Fd of ld p re2selecting dim ission classifiers corresponding to each region. e) Calculate the dism iss score for each classifier f in F. for k′= 1 to k if f∈Fd , then score ( f) = score ( f) + 1. end of for
Input: data set S , number of cluster centers k, number of overp roduce classifiers m , number of selected classifiers l, number of p re2selecting dis2 m ission classifiers ld in each region.
Abstract: The feature space was partitioned into disjoined regions, which gave the dism ission scores of classifiers in the en2 semble. Total score decided by all regions orders the p referential rank for classifiers dism ission, by which a set of classifiers was selected from original classifiers. Theoretic analysis and experiment results show that the classifiers ensemble method is ef2 ficient for pattern recognition. Key words: classifiers ensemble; clustering; classifiers selection; diversity; neural network

实际应用中总是希望设计的模式识别系统能获得最好的分类性能。为了实现这个目标 ,经典的方法是设计出一系列的分类器后 ,选择具有最好性能的分类器作为最终使用的分类器。然而 ,不同的分类器本质上提供了对模式分类的补偿信息 ,它们的集成有可能获得比单一分类器更好的性能 [1 ] 。因此 ,分类器集成 [2 ]引起了研究人员的广泛关注 ,已经成为模式识别和机器学习领域的研究热点。
第 24卷第 12期 2007年 12月

计算机应用研究 App lication Research of Computers

Vol. 24 No. 12 Dec. 2007

基于聚类选择的分类器集成 3
王正群 , 张天平 , 乐晓蓉
(扬州大学信息工程学院 , 江苏扬州 225009)
摘要 : 提出了一种基于聚类选择的分类器集成方法 ,通过聚类把模式特征空间划分成不相交的区域 ,对于初始分类器集合 ,各区域给出分类器的删除分值 ,各分类器总分值确定其删除优先级别 ,由删除优先级别选择一组分类器组成集成。理论分析和实验结果表明 ,基于聚类选择的分类器集成方法能够更好地对模式进行分类。关键词 : 分类器集成 ; 聚类 ; 分类器选择 ; 差异性 ; 神经网络中图分类号 : TP18 文献标志码 : A 文章编号 : 100123695 (2007) 1220085203

Classifiers ensemble by clustering and selection
WANG Zheng2qun, ZHANG Tian2p ing, LE Xiao2rong
( College of Inform a tion Engineering, Yangzhou U niversity, Yangzhou J iangsu 225009, Ch ina)
设定基于所有模式区域的备选可删除分类器个数为 ld ( ld > 1) 。一个分类器包含于各区域备选可删除分类器中人次数的总和是它的分值。根据分类器的删除分值确定分类器删
除的优先次序。这样既考虑了各分类本身的精度 ,又考虑了各分类器在不同区域的错误差异性。
1 算法
经过以上分析 ,给出 CECS算法的伪码描述 :
1 算法原理
经过对特征空间的划分 ,得到了 k 个不同的模式区域 , k 的大小决定特征空间划分的粗细程度。一个可用于实际模式
分类系统的分类器具有能够被接受的识别率 , 只要 k足够大 , 总能保证分类器在一些区域的识别率为 100% 。
假设已生成 m 个分类器 ,希望选择出 l个分类器组成最终集成。 Patridge和 Yates[8 ]提出了一种选择性分类器集成方法 , 他们从 m 个分类器中选出 l个分类能力最好的分类器组成最后集成。本文的算法思想是基于 k个不同的模式区域投票选择出 l个分类器组成最后集成 , 也就是从 m 个分类器中删除 m - l个分类器组成最后集成。

对于间接策略 ,过产生阶段可以采用直接策略生成集成的各种方法生成集成中个体分类器 ;再选择阶段是对过产生阶段的优化 ,其目的是为了得到最好的分类器集成 ,即分类识别性能最好的分类器。因此识别的准确率或最小错误率是最直接的标准。由于认识到集成中个体分类器差异性与集成性能之间的关系 ,研究人员试图用差异性引导再选择阶段对分类器的选择 [5 ] 。对差异性量化的形式各种各样 [6 ] ,不同的差异性度量的性质以及它们之间的关系 ,特别是它们与集成性能的关系还需要进一步研究。既然用直接策略生成的集成中有可能存在性能相近的分类器 ,对集成中个体分类器进行聚类就有可能从集成中选取一部分分类器重新组成新的集成 ,并且其中的个体分类器性能各不相同。 Giacinto和 Roli[4 ]提出了一种基于分类器相关错误概率聚类的选择性集成方法 ,取得了较好的效果 ,他们把在过产生阶段生成的分类器成对进行考虑。但集成中个体分类器是一个整体 ,对各分类器分别进行考察不能体现它们的整体行为特性。为此 ,提出一种新的基于聚类的选择性分类器集成 ( classifiers ensemble based on clustering and selec2 tion, CECS)方法 ,既考虑了经选择形成的分类器集成中个体分类器的错误差异性 ,又考虑了集成行为的整体性。
上述生成分类器集成的方法采取的是直接生成集成中个体分类器策略 ;生成的个体分类器不一定是错误差异的 ,即不同的个体分类器在特征空间产生的错误不一定分布在不同的区域。特别地 ,在集成中可能存在分类能力相似的分类器。对于一个实际的模式识别系统 ,在保证其分类能力的前提下 ,集成中个体分类器数目越少 ,系统的复杂性越低。既然直接策略不能得到最优的分类器集成 ,研究人员提出了另一种分类器集成设计策略 ———间接策略 ,即“过产生 ,再选择 ”(overp roduce and choose)策略 [4] 。

© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

·86·

计算机应用研究

第 24卷

征空间划分成子区域 ,希望分类器错误出现在不同的子区域。

f) Sort F in scores ascending order. g) Select l classifier in F with less score as S d.
算法中 ,数据集聚类数目 k、过产生分类器数目 m、最后经选择生成的集成中个体分类器数目 l、删除分类器数目 ld ,都是需要预先设定的参数。设定 k为数据类别数的两倍 , ld 为 l + 3。 l决定于集成的规模。
1 特征空间划分
划分特征空间采用聚类方法 ,MacQueen[7]提出的 k2均值算法是一个著名的聚类学习算法。它根据相似度距离迭代地更新向量
集的聚类中心。当聚类中心不再变化或满足某些停止条件时 ,则停止迭代过程得到最终的聚类结果。k2均值算法的具体步骤为 :
a)随机选择 k个数据项作为聚类中心 ; b)根据相似度距离公式 ,将数据集中的每一项数据分配到离它最近的聚类中去 ; c)计算新的聚类中心 ; d)若聚类中心未发生改变 ,算法结束 ;否则跳转到 b) 。由于所选择的相似度距离公式的不同 , k2均值算法所得到的聚类结果将存在较大的差异。为了简化讨论 ,本文采用欧氏距离作为 k2均值算法的相似度距离公式。但值得注意的是 , 本文工作对其他距离公式同样适用。
假设已生成 m 个分类器 f1 , f2 , …, fm , 再假设在区域 S1 中只有 f1 , f2 , …, fn 的识别率为 100% 。如果 n > m /2,对这 m 个分类器的输出采用多数投票法 , 结合结果与删除 fn +1 , f2 , …, fm 后剩余分类器输出结合的结果相同。因此对于区域 S1 , fn +1 , f2 , …, fm 是备选的可删除分类器。对其他区域的模式识别 ,其中有些分类器可能有很好的性能。
经步骤 e)的处理 ,某些分类器的分值有可能相同。笔者采用它们在训练数据集上的识别率确定其删除的先后次序。

实验

为了验证 CECS算法的有效性 ,把用该算法生成的分类器集成与 Patridge等人 [8]提出的算法 (choose the best)生成的分类器集成以及直接由过产生得到的分类器组成的集成 (overp roduce en2 semble)与这组分类器中最好的分类器 (best)进行了比较。设定在过产生阶段生成的分类器数目为 40,在再选择阶段选取的分类器数目为 20,所有分类器均为多层感知器神经网络。
分类器集成比单个分类器更有效的充分必要条件是集成中的分类器不仅是精确的而且是错误差异的。一般构造满足上述条件的分类器方法有 [2 ] : 不同的分类器采用不同的训练数据 ;不同的分类器采用不同特征向量的模式表示 ;采用不同类型的分类器或对同一分类器采用不同的结构。显然可以同时使用几种方法生成分类器集成。对于神经网络分类器 , Par2 tridge[3 ]比较了各种方法生成错误差异分类器的能力 ,他指出不同的分类器采用不同的训练数据、不同的分类器采用不同的类型是其中最好的两种方法。