利用模型选择确定视觉词袋模型中词汇数目_许明

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3 本文提出的方法
视觉词袋模型中词汇数目的选取出现在特征描述的量化
过程中，常见的量化方法是 K-means 聚类，词汇数目即对应的
聚类数目，需要用户提供。更一般的考虑则是选择一个好的
模型来反映数据的真实分布，其中聚类数目反映模型的复杂
度，因此聚类数目的确定可以看作模型的选择问题。假设数
据集 D 和模型集合 {Mi} 及对应的参数 {θi} ，对于每个模型定
作者简介：许明（1987—），男，硕士研究生，主要研究领域为计算机视觉、模式识别；韩军伟（1977—），男，博士，教授；郭雷（1956—），男，博士，教授；尹文杰（1987—），女，硕士研究生。E-mail：xuming406@126.com
收稿日期：2011-04-27；修回日期：2011-06-16
148 2011，47（31）
Computer Engineering and Applications 计算机工程与应用
⦾图形、图像、模式识别⦾
利用模型选择确定视觉词袋模型中词汇数目
许明，韩军伟，郭雷，尹文杰 XU Ming，HAN Junwei，GUO Lei，YIN Wenjie
西北工业大学自动化学院，西安 710129 School of Automation，Northwestern Polytechnical University，Xi’an 710129，China
摘要：视觉词袋（Visual Bag-of-Words）模型在图像分类、检索和识别等计算机视觉领域有了广泛的应用，但是视觉词袋模型中词汇数目往往是根据经验确定或者采用有监督的交叉学习选取。提出一种确定视觉词袋模型中词汇数目的无监督方法，利用模型选择的思想来解决问题。使用高斯混合模型描述具有不同词汇数目的视觉词袋，计算各模型贝叶斯信息准则的值，选取贝叶斯信息准则最小值对应的词汇数目。与交叉验证的监督学习在图像分类实验的对比结果说明该方法准确有效。关键词：视觉词袋模型；模型选择；高斯混合模型；贝叶斯信息准则 DOI：10.3778/j.issn.1002-8331.2011.31.042 文章编号：1002-8331（2011）31-0148-03 文献标识码：A 中图分类号：TP37
许明，韩军伟，郭雷，等：利用模型选择确定视觉词袋模型中词汇数目
2011，47（31） 149
有旋转、尺度、平移等不变性，同时对仿射变换，噪声存在一定的稳定性。SIFT 特征计算主要分为图像特征点的选取和图像特征区域的描述两个部分。图像特征点的选取步骤如下：首先对图像建立一个图像金字塔模型，然后对图像在相邻尺度空间上做差分，选取尺度空间中的极值点，最后将极值点周围的一定范围的区域作为特征区域。图像特征区域的描述按照如下流程实现：首先计算该特征区域的梯度方向直方图，选取幅度超过其方向直方图最大值 80% 的方向作为该特征区域的主方向，一个特征区域可能存在多个主方向即存在多个描述，然后按主方向和垂直主方向将特征区域等分为 16(4 × 4) 个区域，最后分别统计每个区域上方向直方图并量化到 [0255] 之间，其中每个区域的方向直方图长度为 8，得到 128(16 × 8) 维的特征区域描述向量。本文对文献[9]提供的 SIFT 特征算法进行了改进，特征区域描述按主方向及垂直方法分成了 4(2 × 2) 个区域，从而得到特征区域描述为 32(4 × 8) 维的向量，其两者特征描述的对比，如图 1 所示。
C
=
ln
p(θMAP)
+
m 2
ln(2π)
-
1 2
ln
|A|
（2）（3）
其中 M 是 θ 中参数的个数，θMAP 是 θ 极大似然估计，A 是对
负的后验分布求二阶倒数得到的 Hessian 矩阵。根据信息含
量忽略掉部分不重要项[10-11]，式（2）可进一步简化为：
ln
p(D)
@
ln
p(D|θMAP)
1 引言
近年来，随着计算机网络的飞速发展和数字图像获取技术的进步，图像资源正以惊人的速度增长，与图像视觉内容分析相关的应用越来越多。而所有这些应用的基础是图像视觉内容的有效表达。图像视觉内容的表达常常利用图像的底层特征，常见的有基于全局的颜色[1]、纹理[2]、形状[3]等特征，基于局部区域的 SIFT[4]特征。视觉词袋模型[5]是目前最为流行的图像底层特征之一，它的基本原理：借鉴“字典”的思想，提取图像局部特征并进行量化处理，形成“字典”中的一组基本词汇，进而图像可以类似于文本的表示方法即统计基本词汇出现的频数。最近 5 年来，基于视觉词袋模型的图像表示方法被深入地研究并在图像分类、检索和识别等计算机视觉领域有了广泛的应用，其中 Li 等[6]提出的基于贝叶斯方法的从少量样本中无监督学习目标类别，Fergus 等[7]提出的从 Google 图像搜索引擎中学习目标类别，Philbin 等[8]提出的基于大词汇和空间信息匹配的目标检索方法等。
义似然函数 p(D|θiMi) 和先验函数 p(θi|Mi) ，计算 p(D|Mi) 。假设模型 Mi 是均分分布，忽略其影响，因此根据贝叶斯公式得到 p(D) ： [10]
p(D) = p(D|θ) p(θ)dθ
（1）
根据拉普拉斯估计[10]得到：
ln p(D) @ ln p(D|θMAP) + C
Antelope
Beach
Bead
Fitness
图 2 部分实验数据
4.2 基于支持向量机的图像分类
图像分类常用的分类器是支持向量机[12]，其简单描述为假设 n 个数据点 {x1x2xn} ，其中每个 xi 对应的 yi Î{-11} ，估计一个最大阈值分类面 ω•x - b = 0 中的参数 ω 和 b 使 yi = -1 和 yi = 1 两类数据点尽可能的分开。本文图像分类实验选取 LibSvm[13]提供的 C-SVM 线性分类器。
（8）
（a）16 个区域
（b）4 个区域
图 1 SIFT 特征描述对比
确定了图像底层特征之后，视觉词袋模型的具体建立过程如下：首先提取图像数据库中的每幅图像的底层 SIFT 特征，然后对得到的 SIFT 特征在特征空间中进行聚类，常用的聚类算法是 K-means 算法，从而得到一个视觉“字典”，其中“字典” 中的每个元素为一个视觉词汇，也就是聚类中心，最后，统计图像中各个视觉词汇出现的频数，得到一个图像的描述向量，其维数为词汇的数目。
取梯度下降法，共轭梯度法，迭代法，EM 算法等算法来获取收
敛的解。对于高斯混合模型往往选用 EM 算法[10]得到参数估
计 θMAP 。对于高斯混合模型，公式（5）中的模型复杂度可计算
如下：
m = (K - 1) + Kd +
K(d + 1)d 2
（7）
其中 d 为特征的维度。
最佳模型选择如下：
M * = arg min{BICM}
尽管视觉词袋的方法十分强大，如何自动确定词汇数目的问题仍然没有很好的解决。对于图像分类的应用，由于图
像的类别信息已知，常常通过交叉验证的方法确定视觉词袋模型中词汇数目，实质上，该方法是一种有监督的实验手段，没有理论基础；而对于图像检索和识别往往无法获取图像的类别信息，有监督的交叉验证方法很难实现，因此词汇数目往往只能凭经验选取。词汇数目选择不合适，往往会给分类，检索和识别的准确度带来较大的损失。因此在视觉词袋模型建立过程中，怎样选取合适的词汇数目显得尤为重要。
根据 Schwarz 提出的贝叶斯信息准则[11]，式（4）等价于：
BICM = -2 ln p(D|θMAP) + m ln(n)
（5）
其中 n 为图像数目，m 是对应的模型 M 的参数数目。BIC 由
两个因素决定，其一是模型解释数据的能力，其二是模型的复
杂度。 BIC 值越小，说明模型越优良（简单且推广能力强）。
采用高斯混很模型来实现公式（5），概率空间中的分布
p(D|θ) 可表示为：
K
å p(D|θ) = πk N(D|μkΣk) k=1
（6）
其中，K 为高斯混合模型中高斯核的个数，πk 为第 k 个高斯
核的先验概率，N(x|μkΣk) 为第 k 个高斯核的概率密度函数。
通常选用极大似然法估计模型中参数 θ ，参数的求解往往选
XU Ming，HAN Junwei，GUO Lei，et al.Determine word number of Visual Bag-of-Words model by model selection method.Computer Engineering and Applications，2011，47（31）：148-150.
Abstract： Visual Bag-of-Words model has been widely used in image classification，retrieval and recognition.However，its word number usually is selected by user experience or determined using the supervised cross-validation scheme.In this paper， an unsupervised method is proposed to infer the word number of Visual Bag-of-Words model（BoW） based on the idea of model selection.Firstly，Gaussian Mixture Models（GMM） are built accounting for BoWs with different word number.Afterwards，Bayesian Information Criterion（BIC） is adopted to select the best model that has the minimum BIC value.Compared with cross-validation approach using image classification，the result demonstrates the effectiveness of the proposed approach. Key words：Visual Bag-of-Words；model selection；Gaussian Mixture Mode（l GMM）；Bayesian information criterion
-
m 2
ln(n)
（4）
4 实验结果及分析
由于没有现成的方案来验证本文的方法有效性，本文选择图像分类问题来测试，通过与有监督的交叉验证方法对比。
4.1Fra Baidu bibliotek实验数据及环境
本实验环境使用 AMD 2.6 GHz CPU，2 GB 的内存电脑， Widows XP 系统下利用 MATLAB 2008 作为开发环境，图像库选取了 Corel 数据集中的 3 200 幅图像，包含了 32 个类别，其中每个类别包含 100 幅图像。该数据库包括了常见的一些图像类别，有很好的实用性。为了显示数据的可靠性，随机从 Corel 数据库中选取（Antelope、Beach、Bead、Fitness）4 个类别图像，同时从每个类别中随机挑选 5 幅图像，如图 2 所示。
鉴于此，提出了一种确定视觉词袋模型中词汇数目的无监督方法。此方法借鉴模型选择的思想利用贝叶斯信息准则解决问题。首先建立在不同词汇数目下的高斯混合模型，然后计算不同模型的贝叶斯信息准则值，选择最小值对应的模型作为最佳模型，而最佳模型的高斯成分数目就被选为最佳的词汇数目。提出的方法为此问题解决提供了理论依据，而且 Corel 数据库中 32 个类别中的 3 200 幅图像的分类实验验证了本文方法的准确性和有效性。
2 视觉词袋模型
视觉词袋模型往往选取图像底层的 SIFT[4]特征，该特征具
基金项目：国家自然科学基金（the National Natural Science Foundation of China under Grant No.61005018）；西北工业大学引进高层次人才科研启动费资助项目。