一种基于BoW模型的图像分类方法研究

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一种基于BoW模型的图像分类方法研究

图像分类是图像检索的基础，成功的图像检索是从海量的数字图像中提取有效信息的必要手段。针对当前图像分类领域存在的效率低下的问题，提出了一种基于BoW模型的图像分类方法。在BoW模型中，采用加权的K均值聚类方法完成特征与视觉单词之间的映射；然后对聚类产生的视觉单词进行阈值验证，去除冗余的词汇，生成最终的视觉词典。

标签：BoW模型；图片分类；特征提取；K均值聚类

引言

对人类而言，眼睛在捕获外界传来的视觉信息之后，会将这些信息移交给大脑进行处理，大脑在对眼睛看到的图片中进行解读之后，将会在短期记忆里描述图片里有些什么内容。大脑在记忆图片里的内容时，实际上也是将视觉信息转存为它所采用的独特表示方式。相应的，在计算机视觉领域，人眼的功能由摄相机等成像设备模拟，大脑的分析过程则采用计算机去模拟，计算机通过对摄像机获取的数据信息进行处理，从而给出图像的内容的解释。因此要找到一种合适的表达方式，让计算机能够像人脑一样来表述圖像的内容。只有合适的表达方式，才能让计算机实现基于内容的进一步的图像操作。

BoW模型就是一种比较常用的图像特征描述子。起初BoW模型是针对文档信息处理和文本检索而建立的。它忽略了语法和语序，仅以单词为基本单位来对文本进行描述。推广到图像处理中的BoW模型是通过图像的局部特征向视觉单词的映射实现的，下面将从BoW模型出发，分析说明一种基于BoW模型的图像分类方法。

1 BoW模型

BoW（bag of words）模型最先由Csurka等[2]从自然语言处理领域引入到图像分类领域。BoW模型是一种以单词为模型的描述向量。将图像类比为由若干单词组成的文档，然后从每幅图像的视觉单词频率直方图中得到图像的描述向量，最后得到图像所映射的类别。使用BoW模型对图像进行分类可以取得较好的分类效果。

采用BoW模型的关键点是提取图像的视觉单词描述。通常的做法是采用SIFT算法提取图像的局部特征，通过SIFT提取特征后，每幅图像都由一个128维特征向量集合描述，此时对这个向量集合进行K均值聚类，最后将得到K个聚类中心作为视觉单词，所有视觉单词的集合就是视觉词汇表。由于聚类的不精确性，以及缺乏先验知识时K值设置的随意性，视觉词汇表往往具有一定程度上的冗余。图像的分类是在生成视觉词典之后完成的。通常是采取与生成词典时一样的算法来提取特征，然后做出图像的视觉单词频率直方图，得到图像分类的结果。如果在特征提取过程中混入了噪声，最后的结果可能会出现偏差。基于以

上分析，本文所提出的采用BoW模型实现图像分类的方法，首先是对特征进行加权，采用加权后的K均值聚类，生成初始的视觉词典，然后根据一定的检验判定原则，对视觉单词进行验证，删去冗余词汇，构成最终的视觉词典。

2 加权的K均值聚类

在视觉词汇表构建时，使用最广泛是无监督聚类算法，例如K均值算法。然而，在实际图像中特征描述符中的每个特征维度的取值范围不同，并且对于图像分类来说，每个维度具有不同的重要性。但传统的K聚类方法将所有的特征一视同仁不加区分。因此，为了构建更加有效的视觉词典，本文采用加权的K 均值算法，该算法采用明科斯基距离对特征进行加权。

4 实验结果与总结

为了更好地说明本文所提出的基于BoW模型的图像分类方法的有效性，随机从数据库Caltech 101以及Caltech 256中抽取样本来进行验证。对每个样本组，分别采用本文所提的对视觉词典的生成做出優化的方法和传统的没有任何改进的基于BoW模型的图像分类方法来进行图像分类训练识别实验。

实验结果证明，无论视觉词汇表是大还是小，用加权的K均值聚类的效果都比使用普通的K均值聚类的效果要好。这说明，本文所提出的采用加权的K 均值方法来生成视觉词典是能够取得更优的效果的。

参考文献

[1]王莹，基于BoW模型的图像分类方法研究[D].哈尔滨工程大学，2012.

[2]Csurka G，Dance C，Fan L，et al.Visual categoriza-tion with bags of keypoints[C].ECCV 04 Workshopon Statistical Learning in Computer Vision.Prague，Czech，2004：59-74.

[3]李科，游雄，杜琳.基于多特征组合与优化BoW模型的影像分类技术研究[J].系统仿真学报，2016，28（6）：1386-1393.

[4]李宇，王宏琦，孙显.利用多尺度语义模型的复杂图像目标自动提取方法[J].武汉大学学报（信息科学版），2012，37（9）：1064-1067.