超像素词包模型与SVM分类的图像标注

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

超像素词包模型与SVM分类的图像标注
於敏;于凤芹;陈莹
【摘要】为了改善基于词包模型与支持向量机(SVM)分类一幅图对应一个标签的
单标签分类问题,提出了一种基于超像素词包模型与SVM分类的图像标注算法.将
超像素分割结果作为词包模型的基本单元,用词包模型生成的视觉词汇表示超像素
区域特征,保留了图像中的同质区域,很好地利用了图像的区域特征.仿真结果表明,该方法能有效改善基于词包模型与SVM分类的单标签分类问题,且分类的准确性有所提高.
【期刊名称】《传感器与微系统》
【年(卷),期】2016(035)012
【总页数】3页(P63-65)
【关键词】超像素分割;词包模型;支持向量机分类;视觉词汇;图像分类;图像标注
【作者】於敏;于凤芹;陈莹
【作者单位】江南大学物联网工程学院,江苏无锡214122;江南大学物联网工程学院,江苏无锡214122;江南大学物联网工程学院,江苏无锡214122
【正文语种】中文
【中图分类】TP212
图像标注通过对图像的底层特征进行语义建模,用生成的语义模型来标注图像内容。

图像标注技术在医学图像标注、数字图书馆、机器人视觉场景理解、数码相片检索等方面具有广泛的应用前景。

按照语义学习方法不同,图像标注可分为基于传统的
分类方法[1~5]、基于概率统计模型方法、基于图学习算法[3]等三种方法。

最典型分类模型的就是1998年Chapelle O提出的模型,该模型对一个特定的概念训练支持向量机(SVM),属于这个概念的训练图像被认为是正例。

针对图像分类标签较少的问题,文献[1]提出SVM多分类组的方法,使用多级分类的方法对图像先进行多次分类,提高分类结果的准确性。

文献[2]提出融合基于多示例学习和基于全局特征的SVM分类结果对图像进行分类,提高了SVM分类结果的准确性。

由于传统的基于SVM分类方法,一幅图使用一个固定维数的向量进行描述,并没有考虑图像区域的特征和类别。

文献[4]第一次将词包模型引入计算机视觉领域,通过对图像特征聚类生成的视觉词汇来描述表达图像。

文献[5]提出空间金字塔匹配方法,对图像进行均匀分块,并将所有分块的特征拼接成图像的最终特征形式,提高了分类效果。

本文采用超像素作为图像分类的基本单元,不同的区域用不同的标签表示。

该方法首先用词包模型进行建模构建视觉词汇;然后对测试图像进行超像素分割,用视觉词汇表示区域特征;最后对区域分别进行SVM分类,选择图像中出现频率较多的类别作为该图像分类的最终结果。

1.1 生成视觉单词
Dense Sift[5]特征是Sift特征的改进,现已经被广泛的运用。

DenseSift对图像特征采用密集提取的方法,从左到右,从上到下依次遍历整幅图像,对固定网格中的特征点进行Sift描述得到大量的局部描述特征,产生128维的特征向量。

对特征向量采用k-means聚类算法生成视觉词典,然后采用向量量化编码对图像底层特征进行编码,将每个局部特征只映射到与其距离最相近的视觉单词,完成底层特征的编码。

1.2 超像素区域生成
本文采用简单线性迭代聚类(simple linear iterative clustering,SLIC)的超像素算
法[8]需要预想设定图像分割的区域数K。

一幅图像含有N个像素点,要将这幅图
像分割成K个超像素,那么每个超像素中像素点的数目大约为N/K,两个相邻的
聚类中心的距离大约为。

所以,可以通过对图像进行网格间距为S的采样得到初
始聚类中心,对聚类中心周围的2S×2S区域的像素点与聚类中心进行比较,得到颜色相似且距离相近的像素点,生成新的聚类区域。

引用距离测量D来计算像素
点与聚类中心的距离,用颜色距离和空间距离的加权形式来表示,计算公式为
式中 K为聚类中心,i为聚类中心周围的区域中的像素,dlab为像素与聚类中心
的颜色距离,dxy为像素与聚类中心的空间距离,m为可变参数,用来调节颜色
距离和空间距离的权值。

如某个超像素区域i中有ni个像素点,每个像素点有128维的Sift特征x,最后
用ni×128维向量表示区域特征Xi=[xi,x2,…,xni]T(其中i=1,…,K,ni为第i个超像素区域中像素点的个数)。

用训练图像建立的词包模型,生成个数为M的视觉单词。

每个视觉单词由128维的Sift特征表示,用M×128维向量表示视觉词典的特征
Y=[y1,y2,…,yii]T(其中ii=1,…,M,yii为第ii个视觉词汇的128维的Sift特征)。

对每个区域特征采用向量量化编码[7],用视觉单词的集合来对图像底层特征进行
描述,计算区域特征Xi与视觉词典特征Y的欧几里得距离,找到每个像素点特征与其距离最相近的视觉单词。

统计视觉单词出现的频率,得到区域中单词ii出现
频率fii,用视觉单词直方图BOWi(其中i=1,2,…,K)来表示超像素的区域特征。


体地区域特征Xi与视觉词典特征Y的欧几里得距离di为
Xi=[x1,x2,…,xni]
Y=[y1,y2,…,yii]T
超像素的区域特征计算公式
BOWi={fi1,fi2,…,fii,…,fit-1,fit}
式中 Xi为第i个区域特征,xni为第i个超像素区域中第ni个像素点的128维的
Sift特征,Y为视觉词典特征,ii为视觉词汇的个数,yii为第ii个视觉词汇的128维的Sift特征,BOWi为视觉单词直方图,表示第i个超像素区域的特征,其中fii 为区域中单词ii出现的频率。

将表示的K个超像素区域特征BOWi分别送入已知类的SVM分类器[9]中,得到
每个区域的分类标签。

可以累积区域分类结果的每个不同标签出现的个数,选择图像中出现频率较多的类别作为该图像分类的最终结果。

本仿真实验图库采用微软剑桥研究院(Microsoft Research Cambridge,MSRC)图像分类测试库[10],在Win7系统下用Matlab2010a版本进行仿真实验。

MSRC
有20类图像样本。

为了使实验具有说服性,从这个数据库中随机选取10类来进
行实验。

这十类图像数据分别为:草、树木、飞机、汽车、自行车、羊、标签、狗、水、船。

图1中列举了一些本文算法在MSRC图像库的检测结果,其中,前3行是多标签标注的结果,包括草、树木和飞机等复杂背景的图像。

第4行是单标签的
图像分类。

图2为本文算法与文献[4]分类结果进行比较,其中,第一列为原图,第二列为文献[4]的仿真结果图,第三列是本文的标注结果,由图可知文献[4]只能对
图像进行单个类别的分类,如图1、图2所示该算法实现了图像多标签预测,有效改善SVM的单标签分类问题。

本文采取准确率来衡量算法性能,它的范围是[0,1],取值越大说明识别效果越好。

表1是仿真实验的结果与算法文献[4] 、文献[11]与文献[5]分别在MSRC图像库
进行结果比较,结果表明,本文算法充分利用了超像素的区域特征,所以在准确率方面也有所提升。

仿真实验结果表明:本文算法能有效改善分类算法的单标签分类问题,且分类效果也有所提高。

但是该算法只是利用了图像的Sift特征,并没有利用图像的其他特征,有待新的研究和改进。

於敏(1988-),女,江苏南通人,硕士研究生,主要研究方向为图像信号与信息处理。

【相关文献】
[1] Kingsky G,Edward Y C,Beitao ing one class and two class SVMs for multiclass image annotation[J].IEEE Transactions on Knowledge and Data
Engineering,2005,17(10):1333-1346.
[2] Qi X,Han Y.Incorporating multiple SVMs for automatic image annotation[J].Pattern Recognition,2007,40(2):728-741.
[3] Liu J,Li M,Liu Q.Image annotation via graph learning[J].Pattern
Recognition,2009,9(31):218-228.
[4] Csurka G,Dance C R,Fan L X.Visual categorization with bags of
keypoints[C]∥Processing of the 8th European Conference on Computer Vision,2004:1-22.
[5] Svetlana L,Cordelia S,Jean P.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]∥Proceedings of IEEE Conference on Computer Visual and Pattern Recognition,2006:2169-2178.
[6] Lowe D G.Distinctive image features from scale-invariant keypionts[J].International Journal of Computer Vision,2004,60:91-110.
[7] Andrea Vedaldi ,Brian Fulkerson.Vlfeat:An open and portable library of computer vision algorithms[C]∥Proceedings of the 18th ACM International Conference on Multimedia,2010:1469-1472.
[8] Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods[J].IEEE Transactions on Pattern and Machine
Intelligence,2012,34(11):2274-2282.
[9] Chih C C,Chih J L.LIBSVM :A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(27):1-27.
[10] Shotton J,Winn C R,Criminisi A.Textonboost:Joint appearance shape and context modeling for mulit-class object recognition and segmentation[C]∥European Conference on Computer Vision,2006:1-15.
[11] Grauman K,Darrell T.The pyramid match kernel:Discriminative classification with sets of image features[C]∥Proceeding of the Tenth IEEE International Conference on Computer Vision,2005:1458-1465.。

相关文档
最新文档