基于自适应特征选择和SVM的图像分类的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第27卷第1期计算机应用与软件V01.27No.12010年1月ComputerApplicationsandSoftwareJan.2010
基于自适应特征选择和SVM的图像分类的研究
潘崇朱红斌
(丽水学院计算机与信息工程学院浙江丽水323000)
摘要提出多特征结合的图像分类方法,分别提取颜色特征和LBP纹理特征,同时提出Adaboost算法对特征进行选择,选择最能表示图像的特征,这样既降低了特征的维数,又提高了分类的精度。最后对基于SVM的多类图像分类方法进行了研究,提出在二类支持向量机的基础上构造多类分类器的方法,实验结果表明,提出的方法能够很好地用于图像分类。
关键词图像分类支持向量机特征选择Adaboost算法
oNIMAGECLASSIFICATIONBASEDoNADAPTIVEFEATURESELECTIoN
ANDSUPPORTVECTORMACHINE
PanChongZhuHongbin
(CollegeofComputerandInformationEngineering,LishuiUniversity,Lishui
323000,撕昭,China)
AbstractAnimageclassificationmethodofmulti.featuremergeneeisproposedinthispaper,itextractsrespectivelythecolourfeatureandLBPtexturefeature,meanwhileAdaboostalgorithmisputforwardforfeatureselecting.Bychoosingthefeaturewhichrepresentsimagethebest.itc明bothreducefeature’Sdimensionandimproveclassificationprecision.Intheendofthispaper,themethodofmulti。classimageclas・sificationbasedonsupportvectormachineisstudied,andtheapproachofconstructingthemulti-classclassifierbasedontwo。classSVMisproposed.Experimentalresultsshowthattheproposedapproach
hasgoodperformanceinimageclassification・
KeywordsImageclassificationSupportvectormachineFeatureselectionAdaboostalgorithm
0引言
随着数字图像处理技术的发展和实际应用的需要,图像分类识别技术应运而生。例如从遥感图像中识别出各种农作物、森林资源、矿产资源等,用人工地震波形图寻找有油的岩层结构,根据医学x光图像分析各种病变,邮政系统中的信函自动分拣等等,都需要对图像中的各种对象进行区别分类。图像的计算机分类,是模式识别技术在图像领域中的具体运用,它的目的是研制能够自动处理图像信息的计算机系统,以便代替人们完成图像的分类和识别的任务【1.21。
基于内容的|冬I像分类对图像数据库的检索、图像过滤、图像识别等具有霞要意义,研究人员已做了一些有意义的工作。文献[3]中基于图像的颜色和主方向特征利用KNN分类器实现了室内/室外的图像分类。文献[4]使用支持向量机分类器实现r基于颜色直方图的图像分类系统。文献[5]中利用Bayes-tan分类器实现了基于空间颜色矩和边缘方向直方图的室内/室外、城市/自然风景图像分类。这些方法都只用到了图像的颜色特征,由于各种对象的复杂性以及干扰因素的多样性,使得这些分类方法的分类精度较低。
本文提出多特征结合的图像分类方法,分别采用颜色特征和LBP纹理特征,同时采用Adaboost对特征进行选择,选择最能表示图像的特征,这样既降低了特征的维数,又提高J,分类的精度。最后提fIj在一类支持向量机的基础|二构造多类分类器的方法,实验表明,提出的方法具有良好的分类性能。1自适应特征选择
1.1特征
本文采用二种不同类型特征空间中的特征:颜色特征和LBP纹理特征。这二种特征均可以进行快速计算。
1.1.1颜色特征
我们采用文献[6]据出的颜色特征空间中的方法,颜色特征空间:
Fl兰{埘1R+硼2G+tl,381wj∈[一2,一1,0,+I,+2]}(1)式中埘。对应于一2到2之间的整数,这样的组合可以达到53种,但最终选择了其中的49种特征作为我们的颜色特征旧1。
1.1.2LBP纹理特征
LBP(1_x,calbinarypaRern)"1作为纹理算子可以很好地用来分析图像纹理特征。假定给定图像函数l(x,Y),为了刻画图像像素点在某邻域内的灰度变化,考虑像素点的mxm邻域,LBP纹理算子计算公式如下:
2m一1
LBP(x。,儿)=∑s(,P一,c)2’
其中Ic、L分别为中心(‰,Y。)处及邻域内各像素点的灰度值,s(茁)为一个二值函数,定义如下:
收稿日期:2008—08—23。潘崇,硕士,主研领域:图形图像,嵌入式系统。
万方数据
第1期
潘崇等:基于自适应特征选择和SVM的图像分类的研究
245
一…城s(x)=…{10x
,>…0x<033LBP财一如三1妫蝴朋’81月9嚣■≥。
㈤对于一个×邻域,
纹理算子模板及计算过程如图刍吒^一”%’”
…7
所示,具体的LBP算法详见文献[7]。
下,求解函数(6)的最大值。
圈田
uP篁子的3x3邻域U}P-(11110001)2;I+164-32+64+128=241
图I
LBP算子的3×3邻域及计算过程
1.2特征选择
已知有f个训练样本{茁。,Y。f,…,f≈,Yt},其中Y,={o,I}为类别标识;同时在训练样本中共有m个假样本,凡个真样本;然后利用Adaboost方法对样本进行训练,选择特征,具体算法如
下:
给定(茁。,Y.),(算:,Y2),…,(算,,Y。),Y。=0,1表示样本为反例样本和正例样本。(鼍,Y。)表示第i个图像样本,1≤i≤z,z为样本的个数。
・初始化彬¨2寺,壶分别对应,,r=o,1,其中Wl,i表示第
1次第i个样本对应的权值;
・Fort=lTor
(1)对每一特征,用吼训练吩,具有岛=雕‘[~(算。)≠
Y。],W。表示第t次样本对应的权值。1≤j≤n,rt为备选特征总数。其中^,表示特征.,的弱分类假设,I|li可表示为:
吣)=砝嚣k鹏
其中Z(并)为特征值,q为阈值,n为不等式方向符号因子。
(2)选择矗。(‘)=h^(‘),对于Vj#k,吼<q,且占,=占‘。
(3)更新毗“i=Wt,∥”‘,其中E=o,I表示对样本错分或
正确划分,且=÷。
・最后的分类函数结果为:
Jl(茗)=∑a,h。(茗)≥÷∑口f
其中q=log÷,这样我们得到了r个特征。2支持向量机
SVM是从线性可分情况下的最优分类面发展而来的,对于非线性的问题,其首先通过核函数将样本数据映射到高维特征空间中,在高维特征空问构造最优分类面。设输入的模式集合㈠}ER4由两类点组成,如果Xi属于第一类,则Y。=l;如果茗。属
于第二类,则Yi=一1,则训练样本集为h,Y。};i=1,2,…,n,并
∈舻,Y∈l+1,一l},满足:
Y。[(埘X毛)+b]一1≥0
i=1,2,…,Ⅳ
(3)
当样本不是线性可分时,可以通过引人正的松弛因子£允许错分样本的存在。这时公式(3)变为:
Yf[(WX茗‘)+6]一1+f.≥0
i=l,2,…,^r
(4)
满足式(3)且使分类间隔2/H彬JJ最大的分类面就叫最优分类面,利用Lagrange优化方法可以将上述最优分类面问题转
Q(n)=∑口;一1/2∑n。哆),;”(≈×芍)
(6)
i#I
lJ21
得到最优分类函数:
以石)
t
=sign(∑or,’y。_j}(¨.)+b‘)
(7)
l=l
其中:sign()为符号函数,其取值决定石的类属;.|}(x,算。)为核函
数,通过非线性变换中:∥一F将样本数据映射到高维李间中,然后在高维窄间寻找最优平面。常用的核函数有:多项式核函数K
(并,),)=(掣+1)4、高斯核函数exp(一1/(20.2)忪一y02)。
3基于SVM的图像分类
利用SVM解决多类分类问题,目前丰要有两种途径:(1)
把多个2一类SVM分类器进行组合,研究的内容包括对组合方式
的改进以及对每个2,类SVM分类器的改进;(2)利用文献[9]
提出的将2一类SVM从优化公式直接进行推广。目前主要有以下二种多类SVM分类方法:
(1)一对一
构造所有可能的2.类SVM分类器,每个分类器的训练数据集都只取相应的两类。这时共需要构造N=k(%一1)/2个2-类SVM分类器。在构造第i类与第』类之间的2.类SVM分类器
时,训练集中的数据只来自相应的两类,并将第i类与第.『类内的点分别标记为+1和一1。测试时,将测试数据分别代入上述的N=k(k一1)/2个2.类SVM分类器进行测试,累计各类别的得分,选择得分最高所对应的类别为测试数据的所属类别。
(2)一对多
对于居.类问题,构造矗个2.类SVM分类器,每个类对应其
中的一个,将它与其它的类分开;其中第i个2-类SVM分类器
是把第i类中的样本都标记为+l,而其它所有的样本都标记为一1。也就是说,第i个2-类SVM分类器所构造的分类超平面,把第i类与其它的(i一1)类分割开。测试时,对测试数据分别计算对应于各个2.类分类器的决策函数值并选择最大的函数
值所对应的类别作为测试数据的所属类别。
本文采用一对多的方法构造分类器,这样可以减少分类器
的个数,提高分类速度。本文实现多类目标分类,设库中所有图像共有Ⅳ类,记为T={A。,A:,…,A。}。对,v类图像构造Ⅳ个2一类SVM分类器,记为:M={M,M,…,Ⅳ。},第i个2一类SVM
分类器用第i类中的样本作为正的训练样本,而将其他的样本作为负的训练样本。对给定的一个语义类A,∈T,构造其SVM
分类器,则其分类问题中i]JI练集可表示为V={(石,,Y,),(戈:,
Y2),…,(‰,扎)}。其中:矗表示支持向量机中的训练样本的数目。若Y‘=1,则表示Xi属于语义类A。;若Y。=一1,则表示t不
输出
基于S,个支持向量的线性变换
底层特征向量
图2
SVM分类模型图
螽
惫万方数据