基于聚类选择的分类器集成
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于聚类的选择性分类器集成
分类器集成采用“过产生 ,再选择 ”的策略 。假设经过过产 生阶段已生成了一组分类器 。为了使再选择阶段得到的分类器 具有错误差异性 ,即不同的分类器产生的错误是不相关的 ,把特
源自文库
收稿日期 : 2006208216; 修返日期 : 2006211225 基金项目 : 国家自然科学基金资助项目 (60074013, 10371106) ;江苏省高校自然科学基 金资助项目 (07KJB520133) ;扬州大学自然科学基金资助项目 ( KK0413160) 作者简介 :王正群 (19652) ,男 ,江苏如东人 ,副教授 ,博士 ,主要研究方向为模式识别 、机器学习 ( yzwzq@126. com ) ;张天平 ( 19642) , 男 , 江苏 泰兴人 ,教授 , 博士 ,主要研究方向为自适应控制 、模糊控制理论 ;乐晓蓉 (19812) ,女 ,江苏苏州人 ,硕士研究生 ,主要研究方向为人工智能.
Output: set of selected classifiers Sd. a) Produce the set F of m classifiers from the p rocess " overp roduce" based on S. b) Form k regions based on cluster. c) Calculate the error p robability for m classifiers in each region. d) Get the set Fd of ld p re2selecting dim ission classifiers corresponding to each region. e) Calculate the dism iss score for each classifier f in F. for k′= 1 to k if f∈Fd , then score ( f) = score ( f) + 1. end of for
Input: data set S , number of cluster centers k, number of overp roduce classifiers m , number of selected classifiers l, number of p re2selecting dis2 m ission classifiers ld in each region.
Abstract: The feature space was partitioned into disjoined regions, which gave the dism ission scores of classifiers in the en2 semble. Total score decided by all regions orders the p referential rank for classifiers dism ission, by which a set of classifiers was selected from original classifiers. Theoretic analysis and experiment results show that the classifiers ensemble method is ef2 ficient for pattern recognition. Key words: classifiers ensemble; clustering; classifiers selection; diversity; neural network
实际应用中总是希望设计的模式识别系统能获得最好的 分类性能 。为了实现这个目标 ,经典的方法是设计出一系列的 分类器后 ,选择具有最好性能的分类器作为最终使用的分类 器 。然而 ,不同的分类器本质上提供了对模式分类的补偿信 息 ,它们的集成有可能获得比单一分类器更好的性能 [1 ] 。因 此 ,分类器集成 [2 ]引起了研究人员的广泛关注 ,已经成为模式 识别和机器学习领域的研究热点 。
第 24卷第 12期 2007年 12月
计算机应用研究 App lication Research of Computers
Vol. 24 No. 12 Dec. 2007
基于聚类选择的分类器集成 3
王正群 , 张天平 , 乐晓蓉
(扬州大学 信息工程学院 , 江苏 扬州 225009)
摘 要 : 提出了一种基于聚类选择的分类器集成方法 ,通过聚类把模式特征空间划分成不相交的区域 ,对于初 始分类器集合 ,各区域给出分类器的删除分值 ,各分类器总分值确定其删除优先级别 ,由删除优先级别选择一组 分类器组成集成 。理论分析和实验结果表明 ,基于聚类选择的分类器集成方法能够更好地对模式进行分类 。 关键词 : 分类器集成 ; 聚类 ; 分类器选择 ; 差异性 ; 神经网络 中图分类号 : TP18 文献标志码 : A 文章编号 : 100123695 (2007) 1220085203
Classifiers ensemble by clustering and selection
WANG Zheng2qun, ZHANG Tian2p ing, LE Xiao2rong
( College of Inform a tion Engineering, Yangzhou U niversity, Yangzhou J iangsu 225009, Ch ina)
设定基于所有模式区域的备选可删除分类器个数为 ld ( ld > 1) 。一个分类器包含于各区域备选可删除分类器中人次 数的总和是它的分值 。根据分类器的删除分值确定分类器删
除的优先次序 。这样既考虑了各分类本身的精度 ,又考虑了各 分类器在不同区域的错误差异性 。
1 算法
经过以上分析 ,给出 CECS算法的伪码描述 :
1 算法原理
经过对特征空间的划分 ,得到了 k 个不同的模式区域 , k 的大小决定特征空间划分的粗细程度 。一个可用于实际模式
分类系统的分类器具有能够被接受的识别率 , 只要 k足够大 , 总能保证分类器在一些区域的识别率为 100% 。
假设已生成 m 个分类器 ,希望选择出 l个分类器组成最终 集成 。 Patridge和 Yates[8 ]提出了一种选择性分类器集成方法 , 他们从 m 个分类器中选出 l个分类能力最好的分类器组成最 后集成 。本文的算法思想是基于 k个不同的模式区域投票选 择出 l个分类器组成最后集成 , 也就是从 m 个分类器中删除 m - l个分类器组成最后集成 。
对于间接策略 ,过产生阶段可以采用直接策略生成集成的 各种方法生成集成中个体分类器 ;再选择阶段是对过产生阶段 的优化 ,其目的是为了得到最好的分类器集成 ,即分类识别性 能最好的分类器 。因此识别的准确率或最小错误率是最直接 的标准 。由于认识到集成中个体分类器差异性与集成性能之 间的关系 ,研究人员试图用差异性引导再选择阶段对分类器的 选择 [5 ] 。对差异性量化的形式各种各样 [6 ] ,不同的差异性度 量的性质以及它们之间的关系 ,特别是它们与集成性能的关系 还需要进一步研究 。既然用直接策略生成的集成中有可能存 在性能相近的分类器 ,对集成中个体分类器进行聚类就有可能 从集成中选取一部分分类器重新组成新的集成 ,并且其中的个 体分类器性能各不相同 。 Giacinto和 Roli[4 ]提出了一种基于分 类器相关错误概率聚类的选择性集成方法 ,取得了较好的效 果 ,他们把在过产生阶段生成的分类器成对进行考虑 。但集成 中个体分类器是一个整体 ,对各分类器分别进行考察不能体现 它们的整体行为特性 。为此 ,提出一种新的基于聚类的选择性 分类器集成 ( classifiers ensemble based on clustering and selec2 tion, CECS)方法 ,既考虑了经选择形成的分类器集成中个体分 类器的错误差异性 ,又考虑了集成行为的整体性 。
上述生成分类器集成的方法采取的是直接生成集成中个体 分类器策略 ;生成的个体分类器不一定是错误差异的 ,即不同的个 体分类器在特征空间产生的错误不一定分布在不同的区域 。特别 地 ,在集成中可能存在分类能力相似的分类器。对于一个实际的 模式识别系统 ,在保证其分类能力的前提下 ,集成中个体分类器数 目越少 ,系统的复杂性越低。既然直接策略不能得到最优的分类 器集成 ,研究人员提出了另一种分类器集成设计策略 ———间接策 略 ,即“过产生 ,再选择 ”(overp roduce and choose)策略 [4] 。
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
·86·
计算机应用研究
第 24卷
征空间划分成子区域 ,希望分类器错误出现在不同的子区域 。
f) Sort F in scores ascending order. g) Select l classifier in F with less score as S d.
算法中 ,数据集聚类数目 k、过产生分类器数目 m、最后经 选择生成的集成中个体分类器数目 l、删除分类器数目 ld ,都是 需要预先设定的参数 。设定 k为数据类别数的两倍 , ld 为 l + 3。 l决定于集成的规模 。
1 特征空间划分
划分特征空间采用聚类方法 ,MacQueen[7]提出的 k2均值算法 是一个著名的聚类学习算法 。它根据相似度距离迭代地更新向量
集的聚类中心。当聚类中心不再变化或满足某些停止条件时 ,则 停止迭代过程得到最终的聚类结果。k2均值算法的具体步骤为 :
a)随机选择 k个数据项作为聚类中心 ; b)根据相似度距离公式 ,将数据集中的每一项数据分配 到离它最近的聚类中去 ; c)计算新的聚类中心 ; d)若聚类中心未发生改变 ,算法结束 ;否则跳转到 b) 。 由于所选择的相似度距离公式的不同 , k2均值算法所得到 的聚类结果将存在较大的差异 。为了简化讨论 ,本文采用欧氏 距离作为 k2均值算法的相似度距离公式 。但值得注意的是 , 本文工作对其他距离公式同样适用 。
假设已生成 m 个分类器 f1 , f2 , …, fm , 再假设在区域 S1 中只有 f1 , f2 , …, fn 的识别率为 100% 。如果 n > m /2,对这 m 个分类器的输出采用多数投票法 , 结合结果与删除 fn +1 , f2 , …, fm 后剩余分类器输出结合的结果相同 。因此对于区域 S1 , fn +1 , f2 , …, fm 是备选的可删除分类器 。对其他区域的模式 识别 ,其中有些分类器可能有很好的性能 。
经步骤 e)的处理 ,某些分类器的分值有可能相同 。笔者 采用它们在训练数据集上的识别率确定其删除的先后次序 。
实验
为了验证 CECS算法的有效性 ,把用该算法生成的分类器集 成与 Patridge等人 [8]提出的算法 (choose the best)生成的分类器集 成以及直接由过产生得到的分类器组成的集成 (overp roduce en2 semble)与这组分类器中最好的分类器 (best)进行了比较。设定在 过产生阶段生成的分类器数目为 40,在再选择阶段选取的分类器 数目为 20,所有分类器均为多层感知器神经网络。
分类器集成比单个分类器更有效的充分必要条件是集成 中的分类器不仅是精确的而且是错误差异的 。一般构造满足 上述条件的分类器方法有 [2 ] : 不同的分类器采用不同的训练 数据 ;不同的分类器采用不同特征向量的模式表示 ;采用不同 类型的分类器或对同一分类器采用不同的结构 。显然可以同 时使用几种方法生成分类器集成 。对于神经网络分类器 , Par2 tridge[3 ]比较了各种方法生成错误差异分类器的能力 ,他指出 不同的分类器采用不同的训练数据 、不同的分类器采用不同的 类型是其中最好的两种方法 。
分类器集成采用“过产生 ,再选择 ”的策略 。假设经过过产 生阶段已生成了一组分类器 。为了使再选择阶段得到的分类器 具有错误差异性 ,即不同的分类器产生的错误是不相关的 ,把特
源自文库
收稿日期 : 2006208216; 修返日期 : 2006211225 基金项目 : 国家自然科学基金资助项目 (60074013, 10371106) ;江苏省高校自然科学基 金资助项目 (07KJB520133) ;扬州大学自然科学基金资助项目 ( KK0413160) 作者简介 :王正群 (19652) ,男 ,江苏如东人 ,副教授 ,博士 ,主要研究方向为模式识别 、机器学习 ( yzwzq@126. com ) ;张天平 ( 19642) , 男 , 江苏 泰兴人 ,教授 , 博士 ,主要研究方向为自适应控制 、模糊控制理论 ;乐晓蓉 (19812) ,女 ,江苏苏州人 ,硕士研究生 ,主要研究方向为人工智能.
Output: set of selected classifiers Sd. a) Produce the set F of m classifiers from the p rocess " overp roduce" based on S. b) Form k regions based on cluster. c) Calculate the error p robability for m classifiers in each region. d) Get the set Fd of ld p re2selecting dim ission classifiers corresponding to each region. e) Calculate the dism iss score for each classifier f in F. for k′= 1 to k if f∈Fd , then score ( f) = score ( f) + 1. end of for
Input: data set S , number of cluster centers k, number of overp roduce classifiers m , number of selected classifiers l, number of p re2selecting dis2 m ission classifiers ld in each region.
Abstract: The feature space was partitioned into disjoined regions, which gave the dism ission scores of classifiers in the en2 semble. Total score decided by all regions orders the p referential rank for classifiers dism ission, by which a set of classifiers was selected from original classifiers. Theoretic analysis and experiment results show that the classifiers ensemble method is ef2 ficient for pattern recognition. Key words: classifiers ensemble; clustering; classifiers selection; diversity; neural network
实际应用中总是希望设计的模式识别系统能获得最好的 分类性能 。为了实现这个目标 ,经典的方法是设计出一系列的 分类器后 ,选择具有最好性能的分类器作为最终使用的分类 器 。然而 ,不同的分类器本质上提供了对模式分类的补偿信 息 ,它们的集成有可能获得比单一分类器更好的性能 [1 ] 。因 此 ,分类器集成 [2 ]引起了研究人员的广泛关注 ,已经成为模式 识别和机器学习领域的研究热点 。
第 24卷第 12期 2007年 12月
计算机应用研究 App lication Research of Computers
Vol. 24 No. 12 Dec. 2007
基于聚类选择的分类器集成 3
王正群 , 张天平 , 乐晓蓉
(扬州大学 信息工程学院 , 江苏 扬州 225009)
摘 要 : 提出了一种基于聚类选择的分类器集成方法 ,通过聚类把模式特征空间划分成不相交的区域 ,对于初 始分类器集合 ,各区域给出分类器的删除分值 ,各分类器总分值确定其删除优先级别 ,由删除优先级别选择一组 分类器组成集成 。理论分析和实验结果表明 ,基于聚类选择的分类器集成方法能够更好地对模式进行分类 。 关键词 : 分类器集成 ; 聚类 ; 分类器选择 ; 差异性 ; 神经网络 中图分类号 : TP18 文献标志码 : A 文章编号 : 100123695 (2007) 1220085203
Classifiers ensemble by clustering and selection
WANG Zheng2qun, ZHANG Tian2p ing, LE Xiao2rong
( College of Inform a tion Engineering, Yangzhou U niversity, Yangzhou J iangsu 225009, Ch ina)
设定基于所有模式区域的备选可删除分类器个数为 ld ( ld > 1) 。一个分类器包含于各区域备选可删除分类器中人次 数的总和是它的分值 。根据分类器的删除分值确定分类器删
除的优先次序 。这样既考虑了各分类本身的精度 ,又考虑了各 分类器在不同区域的错误差异性 。
1 算法
经过以上分析 ,给出 CECS算法的伪码描述 :
1 算法原理
经过对特征空间的划分 ,得到了 k 个不同的模式区域 , k 的大小决定特征空间划分的粗细程度 。一个可用于实际模式
分类系统的分类器具有能够被接受的识别率 , 只要 k足够大 , 总能保证分类器在一些区域的识别率为 100% 。
假设已生成 m 个分类器 ,希望选择出 l个分类器组成最终 集成 。 Patridge和 Yates[8 ]提出了一种选择性分类器集成方法 , 他们从 m 个分类器中选出 l个分类能力最好的分类器组成最 后集成 。本文的算法思想是基于 k个不同的模式区域投票选 择出 l个分类器组成最后集成 , 也就是从 m 个分类器中删除 m - l个分类器组成最后集成 。
对于间接策略 ,过产生阶段可以采用直接策略生成集成的 各种方法生成集成中个体分类器 ;再选择阶段是对过产生阶段 的优化 ,其目的是为了得到最好的分类器集成 ,即分类识别性 能最好的分类器 。因此识别的准确率或最小错误率是最直接 的标准 。由于认识到集成中个体分类器差异性与集成性能之 间的关系 ,研究人员试图用差异性引导再选择阶段对分类器的 选择 [5 ] 。对差异性量化的形式各种各样 [6 ] ,不同的差异性度 量的性质以及它们之间的关系 ,特别是它们与集成性能的关系 还需要进一步研究 。既然用直接策略生成的集成中有可能存 在性能相近的分类器 ,对集成中个体分类器进行聚类就有可能 从集成中选取一部分分类器重新组成新的集成 ,并且其中的个 体分类器性能各不相同 。 Giacinto和 Roli[4 ]提出了一种基于分 类器相关错误概率聚类的选择性集成方法 ,取得了较好的效 果 ,他们把在过产生阶段生成的分类器成对进行考虑 。但集成 中个体分类器是一个整体 ,对各分类器分别进行考察不能体现 它们的整体行为特性 。为此 ,提出一种新的基于聚类的选择性 分类器集成 ( classifiers ensemble based on clustering and selec2 tion, CECS)方法 ,既考虑了经选择形成的分类器集成中个体分 类器的错误差异性 ,又考虑了集成行为的整体性 。
上述生成分类器集成的方法采取的是直接生成集成中个体 分类器策略 ;生成的个体分类器不一定是错误差异的 ,即不同的个 体分类器在特征空间产生的错误不一定分布在不同的区域 。特别 地 ,在集成中可能存在分类能力相似的分类器。对于一个实际的 模式识别系统 ,在保证其分类能力的前提下 ,集成中个体分类器数 目越少 ,系统的复杂性越低。既然直接策略不能得到最优的分类 器集成 ,研究人员提出了另一种分类器集成设计策略 ———间接策 略 ,即“过产生 ,再选择 ”(overp roduce and choose)策略 [4] 。
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
·86·
计算机应用研究
第 24卷
征空间划分成子区域 ,希望分类器错误出现在不同的子区域 。
f) Sort F in scores ascending order. g) Select l classifier in F with less score as S d.
算法中 ,数据集聚类数目 k、过产生分类器数目 m、最后经 选择生成的集成中个体分类器数目 l、删除分类器数目 ld ,都是 需要预先设定的参数 。设定 k为数据类别数的两倍 , ld 为 l + 3。 l决定于集成的规模 。
1 特征空间划分
划分特征空间采用聚类方法 ,MacQueen[7]提出的 k2均值算法 是一个著名的聚类学习算法 。它根据相似度距离迭代地更新向量
集的聚类中心。当聚类中心不再变化或满足某些停止条件时 ,则 停止迭代过程得到最终的聚类结果。k2均值算法的具体步骤为 :
a)随机选择 k个数据项作为聚类中心 ; b)根据相似度距离公式 ,将数据集中的每一项数据分配 到离它最近的聚类中去 ; c)计算新的聚类中心 ; d)若聚类中心未发生改变 ,算法结束 ;否则跳转到 b) 。 由于所选择的相似度距离公式的不同 , k2均值算法所得到 的聚类结果将存在较大的差异 。为了简化讨论 ,本文采用欧氏 距离作为 k2均值算法的相似度距离公式 。但值得注意的是 , 本文工作对其他距离公式同样适用 。
假设已生成 m 个分类器 f1 , f2 , …, fm , 再假设在区域 S1 中只有 f1 , f2 , …, fn 的识别率为 100% 。如果 n > m /2,对这 m 个分类器的输出采用多数投票法 , 结合结果与删除 fn +1 , f2 , …, fm 后剩余分类器输出结合的结果相同 。因此对于区域 S1 , fn +1 , f2 , …, fm 是备选的可删除分类器 。对其他区域的模式 识别 ,其中有些分类器可能有很好的性能 。
经步骤 e)的处理 ,某些分类器的分值有可能相同 。笔者 采用它们在训练数据集上的识别率确定其删除的先后次序 。
实验
为了验证 CECS算法的有效性 ,把用该算法生成的分类器集 成与 Patridge等人 [8]提出的算法 (choose the best)生成的分类器集 成以及直接由过产生得到的分类器组成的集成 (overp roduce en2 semble)与这组分类器中最好的分类器 (best)进行了比较。设定在 过产生阶段生成的分类器数目为 40,在再选择阶段选取的分类器 数目为 20,所有分类器均为多层感知器神经网络。
分类器集成比单个分类器更有效的充分必要条件是集成 中的分类器不仅是精确的而且是错误差异的 。一般构造满足 上述条件的分类器方法有 [2 ] : 不同的分类器采用不同的训练 数据 ;不同的分类器采用不同特征向量的模式表示 ;采用不同 类型的分类器或对同一分类器采用不同的结构 。显然可以同 时使用几种方法生成分类器集成 。对于神经网络分类器 , Par2 tridge[3 ]比较了各种方法生成错误差异分类器的能力 ,他指出 不同的分类器采用不同的训练数据 、不同的分类器采用不同的 类型是其中最好的两种方法 。