单实例分类算法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第33卷第4期2009年8月
南京理工大学学报(自然科学版)
Journal of Nanjing University of Science and Technol ogy (Natural Science )
Vol .33No .4Aug .2009
收稿日期:2008-10-17 修回日期:2009-05-18 基金项目:国家自然科学基金(60603029) 作者简介:潘志松(1973-),男,博士,副教授,主要研究方向:模式识别,网络安全,E 2mail:Hot pzs@hot m ail .com 。
单实例分类算法研究
潘志松1
,燕继坤2
,杨绪兵3
,缪志敏1
,陈 斌
3
(1.解放军理工大学指挥自动化学院,江苏南京210007;2.西南电子研究所,四川成都610041;
3.南京航空航天大学计算机科学与技术学院,江苏南京210016)
摘 要:针对不平衡分类问题的极端情况,即用于训练的样本极少甚至只有一个实例,该文提出
了一种单实例分类算法,这种方法使用球面作为分类面,在目标类的单实例在球内和反类尽量位于球面外的约束条件下,最大化该分类球面的半径,该方法能够有效地处理线性可分的数据分布。当输入样本分布结构呈高度非线性时,该算法通过核映射将低维输入空间中的非线性可分问题变换为高维特征空间中可能的线性可分问题,并以内积形式刻画,最终在特征空间上通过核技巧获得原问题的解决。通过对标准数据集和实际数据集的实验,验证了单实例分类算法在处理数据不平衡问题上的有效性。
关键词:单实例;核方法;分类;支持向量中图分类号:TP 18 文章编号:1005-9830(2009)04-0444-06
Cl assi fi cati on Algorith m Based on Si n gle Sample
P AN Zhi 2s ong 1
,Y AN J i 2kun 2
,Y ANG Xu 2bing 3
,M I A O Zhi 2m in 1
,CHEN B in
3
(1.I nstitute of Command Aut omati on,P LA University of Science and Technol ogy,Nanjing 210007,China;
2.The W est 2South Electr onics I nstitute,Chengdu 610041,China;
3.Depart m ent of Computer Science and Engineering,Nanjing University of Aer onautics &A str onautics,Nanjing 210016,China )Abstract:I n order t o s olve the extre me situati on that only a few target exa mp les or only one can be used in training the classificati on,a single sa mp le classificati on algorithm is p resented here .Spheri 2cal surfaces are app lied as classified hypers phere,and the largest radius can be obtained encl osing the single sa mp le under the restricti on that all outliers are outside the hy pers phere .It fails when the distributi on of input patterns is comp lex .The classifier app lies kernel means,perfor m ing a nonlinear data transfor mati on int o s ome high di m ensi onal feature s pace,increases the p r obability of the linear separability of the patterns within the feature s pace and theref ore s olves the original classificati on p r oble m.The paper verifies that the algorith m can effectively deal with the unbalanced data classifi 2cati on on vari ous synthetic and UC I datasets .
Key words:single sa mp les;kernel means;classificati on;support vect ors
总第167期潘志松 燕继坤 杨绪兵 缪志敏 陈 斌 单实例分类算法研究
机器学习中往往假定有几个类,每类有若干训
练实例,而且根据P AC 学习理论,为了达到比较高
的准确率,希望有比较多的训练实例[1]
。但在实际应用中,有时也会出现“单实例”的问题。例如,人脸识别、指纹识别等生物特征一般为每个人采集一个训练样本。这时虽然有很多个类,但每类只有一个训练样本,把这个问题称为“单实例分类问
题”[2]
,这也是数据不平衡分类中的极端问题。
在模式识别应用中,多类别的分类问题可以转化为多个两分类问题,即将c 类问题化为c -1个两分类问题,每个分类器只对其中的两个类别进行分类,这种做法当样本数量较多时比较有效。但是当样本数量稀少,即每个分类器都只有很少的样本用来训练。特别是只有一个样本的时侯,训练得到的分类效果较差甚至不能工作,如图1。针对每一类样本比较少或者只有一个的特点,笔者设想对于每个类别,,而所有其它的样本作为反类实例用于训练,这样就增加了训练样本的个数,可以提高总体分类器的分类能
力,然后再对这些单实例分类器进行集成学习[3,4]
,就可以实现对多类别的分类。所以本文只针对两分类的单实例分类算法展开研究。对于该单实例分类器,它的训练实例的正类为目标类训练实例,即单实例,反类为所有其它类的训练实例的总和。由于两类训练的实例数严重不平衡,因此原问题可
以转化为一个不平衡分类的问题。
图1 单实例问题的多类别情况
对于数据严重不平衡的分类问题,可以借鉴单类分类器的思想。单类分类器的主要目的就是定义一个围绕该目标类物体的边界,接受尽量多的目标类样本,而尽可能地拒绝其它类。Tax 等提出的
支持向量数据描述(Support vect or data descri p ti on,简称S VDD )试图寻找一个封闭的超球面来包围目标集
[4]
,只有落入超球体以内的实例才属于目标
类,超球面的确定仅依靠目标类的训练数据。为了减少错误的接受,要尽量缩小球的体积。超球面由球心a 和半径R 决定,在约束条件下最小化结构风
险误差,和S V M 类似,通过解决二次优化问题可得到a 、R 的解。这样要求数据分布在欧氏空间呈球形分布,如果目标集不是“球形”的,则使用核方法,把特征向量向高维映射,并进一步使用核函数替代内积运算。核方法隐含地通过核函数实现了一个从低维输入空间到高维特征空间的映射,既避免了计算上的维数灾难,又使问题在特征空间中得
到简化并得到有效的解决[5]
。
本文借鉴了单类分类器的思想,提出了“单实例”条件下的分类算法,其也通过一个球形分类面进行分类,但和S VDD 不同的是,该算法从两分类问题出发,用球面包围“单实例”的同时,使得所有的反类都位于球面之外,在这两个条件下,最大化球的半径。由于只有一个“稀少”的正类实例,需要充分利用这一个实例,使之确定在定义的球内,同时最大化求得体积来优化分类器的泛化性能。论文通过推导给出了分类决策面的表达式,并在国际标准数据集上进行了实验,验证了该单实例分类算法的有效性。
1 单实例分类算法
图2给出了单实例分类的示意,考虑两分类的特殊情况:正类实例只有一个,定义标号为“+”,如图所示,但有很多反类实例,标号为“-”。笔者设想用一个球面包围正类,为了使形成的分类面能够正确分类但又不会拒绝正类,所以在使反类都位于球面之外的条件下,使这个球的半径尽可能的大。由于只有一个“稀少”的正类实例,需要充分利用这一个实例,使之尽可能包含在定义的球内
。
图2 单实例分类示意图
设x i (i =1,2,…,n )为反例,x +
为正例。目
的是设计一个球体的分类面,保证反类都位于球面之外和正例样本能够被包含在球内的条件下,使这个球的半径尽可能的大。
符号说明:负类样本x 1,x 2,…,x n ,单个正类
544