基于语义的图像标注关键技术研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国科技论文在线
http://www.paper.edu.cn
基于语义的图像标注关键技术研究
付杰*
(哈尔滨理工大学计算机科学与技术学院,哈尔滨 150080) 5 摘要:基于语义的图像检索技术的关键是图像的语义标注,在本文中,提出了一种基于概率
潜在语义分析(PLSA)与高斯混合模型(GMM)相结合的图像语义标注方法,先用 PLSA 对训 练图片进行潜在语义发现,然后对每一类别的图片用 GMM 进行表示,分别计算测试图片的 CMM 模型的最大后验概率,并以此为依据对图片进行标注。在 Corel 图片集上的实验结果 表明,本文所提出的方法能对图片进行较好的语义标注。 10 关键词:图像标注;概率潜在语义分析;高斯混合模型 中图分类号:TP391
这里,潜在语义的数目取为 50。 分别统计每一类别下的图片的数目,对于同一类别的图片,用 EM 算法对其特征向量进
行聚类,得到表示每一概念类的 GMM 的参数 (πi , µi , ∑i )c ,i = 1,...,Cl ; c = 1,...,C 。其中 Cl 110 是每个概念类 GMM 的分量数目, C 是要标注的概念类的数目[6]。这里, Cl 统一取为 5。
参数。给定一个图片的特征向量集合 x1, x2 ,..., xn ,对θ 的最在似然参数估计如下:
85
∑ θML = arg max L(x1, x2,..., xn |θ ) = arg max log G(xi )
(8)
i
EM 算法通过迭代来获取θML 值,它包括 E 步和 M 步。E 步的计算公式如(9)所示,M
65 于两个步骤直至收敛:
(1) 在 E 步,利用当前估计的参数值来计算隐含变量的后验概率。
∑ P(z | d, w) =
P(z)P(z | d)P(w | z) z, P(z,)P(z, | d)P(w | z, )
(3)
(2) 在M步,利用上一步的期望最大化当前的参数估计。
∑∑ P(w | z) =
其中 x 表示该图像某区域的特征向量,PX|W (x | wc ) 可由公式(7)计算得到,wc 表示第 c
(11)
∧
∑ ∑ ∑ j ←
ω n
t =1 tj
(
xt
−
∧
µ j )(xt
−
∧
µ j )T
ω n
t =1 tj
(12)
在运用 EM 算法前要初始化模型参数。本文采用 K-均值(K-means)算法来初始化模型
参数。下面的图给出了一个样本图片的 GMM 描述的例子,每个用不同颜色表示的区域代表
GMM 的一个分量。
对于测试图片,计算
log PW|X (wc | B) = log PX |W (B | wc ) + log PW (wc ) − log PX (B)
(13)
其中 B 是该测试图片的特征向量集合,
∑ log PX|W (B | wc ) = log PX|W (x | wc )
(14)
x∈B
115
gaussian mixture model.Calculated the maximum posteriori probability for test images,and as a basis
for image annotation.Finally,experiments conducted on the Corel dataset demonstrate the effectiveness
mixture model (GMM) for image annotation.First,the train image latent semantics extraction with a
20 probabilistic lantent sematic analysis method and then the picture for each category were expressed by
d n(d , w)P(z | d , w) d ,w, n(d , w, )P(z | d , w, )
(4)
70
∑∑ P(z | d) =
w n(d , w)P(z | d, w) z, ,w n(d , w)P(z, | d , w)
(5)
∑ ∑ P(z) =
d,w n(d , w)P(z | d , w) d ,w n(d , w)
60 P(zk | di ) 表示文档中的潜在语义分布概率,也解释为文档中具有相应潜在语义的概率。
概率潜在语义分析根据极大似然估计原则,通过求取如下对数似然函数的极大值来计算
PLSA 的参数:
∑ ∑ n(di , wj ) logP(di , wj )
(2)
d∈D w∈W
在有隐含变量的模型中,极大似然估计的标准过程是期望最大(EM)算法,EM 算法交替
(6)
相对于潜在语义分析中的 SVD 分解,EM 算法具有线性的收敛速度,且简单易实现,
能使似然函数达到局部最优。
-2-
中国科技论文在线
http://www.paper.edu.cn
2 图片的 GMM 表示
75
每张图片在特征空间中都可以被表示为一个 GMM。GMM 模型一般表达式如下[5]:
∑K
G(x |θ ) = πi
Abstract: The key of semantic-based image retrieval is image semantic annotation.In this paper,we
proposed an method based on combination probabilistic latent semantic analysis (PLSA) and Gaussian
95
图 1 一样本图片和其对应的 GMM 表示
3 实验结果
本文所选取的实验数据来自于在图像标注中通用的 Corel 图像数据集。这其中包括了 50 个类别的图像,每个类别 100 幅,总共有 5000 幅图像,全部标注字的数量为 374 个,每幅
-3-
中国科技论文在线
http://www.paper.edu.cn
练图片,依据其标注字信息,用 PLSA 对其进行潜在语义发现,得到 P(w | z) 和 P(z | d ) 。
105 对每幅训练图片,以计算得到的 P(z | d ) 为依据来决定其类别的归属,即使得图片 i 取到最
大值 P(zk | di ) 的 k 即为其所属的类别。同时 P(wj | zk ) 为类别 k 下的标注字的分布规律。
步按公式(10)、(11)和(12)来更新模型参数。
∑ ωij =
π jG(xt | µ j , ∑ j )
Kπ
i=1
jG( xt
|
µj,∑j)
j = 1,..., K t = 1,..., n
(9)
∑ ∧
πj
←
1 n
n
wk.baidu.comωtj
t =1
(10)
90
∧
∑∑ µ j ←
ω x n
t =1 tj t
ω n
t =1 tj
给定一个文档集合 D = {d1, d2 ,..., dM } 和一个词集合W = {w1, w2 ,..., wN } 以及一个文 档 和 词 的 共 现 矩 阵 N = (nij ) , n(di , wj ) 表 示 词 wj 在 文 档 di 中 出 现 的 频 率 。 使 用 55 Z = {z1, z2 ,..., zk } 表示潜在语义的集合, K 为人指定的一个常数。概率潜在语义分析假设
1 概率潜在语义分析(PLSA)
自然语言处理(NLP)的很多应用都需要探究隐藏在字、词背后的涵义,简单的字面匹配 绝难奏效,关键在于同义词和一词多义的把握,潜在语义分析(LSA)为此提供了部分解决问 题的方法,即利用奇异值分解(SVD)将高维度的词汇—文档共现矩阵映射到低维度的潜在语 50 义空间,使得表面毫不相关的词体现出深层次的联系[4]。概率潜在语义分析(PLSA)作为潜在 语义分析(LSA)的变种,拥有更坚实的数学基础及易于利用的数据生成模型,且已被证实能 够为信息提供更好的词汇匹配。
“文档—词”对之间是条件独立的。在上面假设的前提下,可使用下列公式来表示“文档— 词”的条件概率:
K
∑ P(di , wj ) = P(di ) P(wj | zk )P(zk | di )
(1)
k =1
式(1)中的 P(wj | zk ) 为潜在语义在词上的分布概率,也解释为词对潜在语义的贡献度。
π K
i=1 i
=1。
80
•µi 是一个 d 维的特征向量以及 ∑i 是一个 d × d 的正则矩阵。
在图片的 GMM 表示过程中,一个图片的所有像素点通过其表示的特征向量被聚类成几
个均匀的区域,每个均匀区域都可以用一个高斯分布 (πi , µi , ∑i ) 来表示,这个图片的所有
区域的集合就可以用一个高斯混合模型(GMM)来表示。用 EM 算法来学习高斯混合模型的
Research on Semantic-Based Image Annotation
FU Jie
15
(School of Computer Science and Technology,Harbin University of Science and Technology,
Harbin 150080)
of the method.
Key words: Image Annotation;Probabilistic Latent Semantic Analysis;Gaussian Mixture Model
25
0 引言
随着互联网的普及与图像处理设备的日趋廉价化,网络上的图片信息正以几何级的数量 在增长。如何有效的组织、管理、与使用这些图片也成为了一个急需解决的问题。对于用户 而言,如何快捷有效的找到自己所感兴趣的图片显然是其最关心的问题。因此图片检索技术 30 也日趋成为了近年来的研究热点。图像检索技术总体来说有基于内容的图像检索与基于文本 的图像检索两种方式。基于内容的图像检索存在着“语义鸿沟”的问题,而如今文本检索技 术发展的相对成熟,因此,借鉴文本检索技术的思想,基于文本的图像检索技术日趋成为研 究的热点。为了克服图像检索中存在的“语义鸿沟”问题,一种基于语义的图像检索技术就 应运而生了。其基本思想是将待检索的图像分别加上其对应的语义标签,从而利用文本检索 35 的技术进行图像检索。基于语义的图像检索技术其中的关键在于图像的语义标注,早期的人 工标注方法不仅费时费力,而且由于每个人对图像的理解方式都不相同,标注结果存在着很 大的二义性与不精确性,因此,找到一种自动化的标注技术就显得势在必行。这其中有基于 机器学习方法进行的标注[1],基于统计理论方法进行的标注[2],基于潜在空间模型进行的标 注等等[3]。这些标注方法中,大部分都需要事先知道训练图像的分类情况,然而在大多数情 40 况下,这一点事先都是不知道的。而且计算量都很大。本文提出了一种基于概率潜在语义分 析(PLSA)和高斯混合模型(GMM)相结合的自动图像语义标注方法,对于训练图像,先用
作者简介:付杰(1986-),男,硕士研究生,主要研究方向:数字图像处理,人工智能,模式识别. E-mail: hustfujie@126.com
-1-
中国科技论文在线
http://www.paper.edu.cn
PLSA 对其进行潜在语义发现,确定整个训练图像集的分类情况,然后,再分别计算每一类 图像的 GMM 表示。对于测试图像,分别计算其 GMM 模型的后验概率,并以此作为分类的 依据,从而完成图像的语义标注。下面,将从本文涉及到的基本理论,算法步骤,实验结果 45 等方法来进一步详细的阐述。
100 图片平均有 3-5 个标注字。每幅图片都用 N-cuts 方法进行了分割,只有大于阈值的区域被 保留,通常每幅图片有 5-10 个区域。每个区域的图像特征用一个 36 维的特征向量进行表 示(包括颜色、形状、位置等)。 从 5000 幅图片中选出 4500 幅作为训练图片,剩下的 500 幅作为测试图片。首先,对训
i =1
(2π
1 )d
|
∑i
|
exp{−0.5( x
−
µi )T
∑i ( x
−
µi )}
(7)
其中π i 、 µi 、 ∑i 分别表示第 i 个高斯分量的权重、均值向量和方差矩阵, x 表示 d 维
的特征向量, K
是高斯模型的分量数目。参数集合θ
=
{π
i
,
µi
,
∑i
}K i =1
组成如下:
∑ •πi > 0,
http://www.paper.edu.cn
基于语义的图像标注关键技术研究
付杰*
(哈尔滨理工大学计算机科学与技术学院,哈尔滨 150080) 5 摘要:基于语义的图像检索技术的关键是图像的语义标注,在本文中,提出了一种基于概率
潜在语义分析(PLSA)与高斯混合模型(GMM)相结合的图像语义标注方法,先用 PLSA 对训 练图片进行潜在语义发现,然后对每一类别的图片用 GMM 进行表示,分别计算测试图片的 CMM 模型的最大后验概率,并以此为依据对图片进行标注。在 Corel 图片集上的实验结果 表明,本文所提出的方法能对图片进行较好的语义标注。 10 关键词:图像标注;概率潜在语义分析;高斯混合模型 中图分类号:TP391
这里,潜在语义的数目取为 50。 分别统计每一类别下的图片的数目,对于同一类别的图片,用 EM 算法对其特征向量进
行聚类,得到表示每一概念类的 GMM 的参数 (πi , µi , ∑i )c ,i = 1,...,Cl ; c = 1,...,C 。其中 Cl 110 是每个概念类 GMM 的分量数目, C 是要标注的概念类的数目[6]。这里, Cl 统一取为 5。
参数。给定一个图片的特征向量集合 x1, x2 ,..., xn ,对θ 的最在似然参数估计如下:
85
∑ θML = arg max L(x1, x2,..., xn |θ ) = arg max log G(xi )
(8)
i
EM 算法通过迭代来获取θML 值,它包括 E 步和 M 步。E 步的计算公式如(9)所示,M
65 于两个步骤直至收敛:
(1) 在 E 步,利用当前估计的参数值来计算隐含变量的后验概率。
∑ P(z | d, w) =
P(z)P(z | d)P(w | z) z, P(z,)P(z, | d)P(w | z, )
(3)
(2) 在M步,利用上一步的期望最大化当前的参数估计。
∑∑ P(w | z) =
其中 x 表示该图像某区域的特征向量,PX|W (x | wc ) 可由公式(7)计算得到,wc 表示第 c
(11)
∧
∑ ∑ ∑ j ←
ω n
t =1 tj
(
xt
−
∧
µ j )(xt
−
∧
µ j )T
ω n
t =1 tj
(12)
在运用 EM 算法前要初始化模型参数。本文采用 K-均值(K-means)算法来初始化模型
参数。下面的图给出了一个样本图片的 GMM 描述的例子,每个用不同颜色表示的区域代表
GMM 的一个分量。
对于测试图片,计算
log PW|X (wc | B) = log PX |W (B | wc ) + log PW (wc ) − log PX (B)
(13)
其中 B 是该测试图片的特征向量集合,
∑ log PX|W (B | wc ) = log PX|W (x | wc )
(14)
x∈B
115
gaussian mixture model.Calculated the maximum posteriori probability for test images,and as a basis
for image annotation.Finally,experiments conducted on the Corel dataset demonstrate the effectiveness
mixture model (GMM) for image annotation.First,the train image latent semantics extraction with a
20 probabilistic lantent sematic analysis method and then the picture for each category were expressed by
d n(d , w)P(z | d , w) d ,w, n(d , w, )P(z | d , w, )
(4)
70
∑∑ P(z | d) =
w n(d , w)P(z | d, w) z, ,w n(d , w)P(z, | d , w)
(5)
∑ ∑ P(z) =
d,w n(d , w)P(z | d , w) d ,w n(d , w)
60 P(zk | di ) 表示文档中的潜在语义分布概率,也解释为文档中具有相应潜在语义的概率。
概率潜在语义分析根据极大似然估计原则,通过求取如下对数似然函数的极大值来计算
PLSA 的参数:
∑ ∑ n(di , wj ) logP(di , wj )
(2)
d∈D w∈W
在有隐含变量的模型中,极大似然估计的标准过程是期望最大(EM)算法,EM 算法交替
(6)
相对于潜在语义分析中的 SVD 分解,EM 算法具有线性的收敛速度,且简单易实现,
能使似然函数达到局部最优。
-2-
中国科技论文在线
http://www.paper.edu.cn
2 图片的 GMM 表示
75
每张图片在特征空间中都可以被表示为一个 GMM。GMM 模型一般表达式如下[5]:
∑K
G(x |θ ) = πi
Abstract: The key of semantic-based image retrieval is image semantic annotation.In this paper,we
proposed an method based on combination probabilistic latent semantic analysis (PLSA) and Gaussian
95
图 1 一样本图片和其对应的 GMM 表示
3 实验结果
本文所选取的实验数据来自于在图像标注中通用的 Corel 图像数据集。这其中包括了 50 个类别的图像,每个类别 100 幅,总共有 5000 幅图像,全部标注字的数量为 374 个,每幅
-3-
中国科技论文在线
http://www.paper.edu.cn
练图片,依据其标注字信息,用 PLSA 对其进行潜在语义发现,得到 P(w | z) 和 P(z | d ) 。
105 对每幅训练图片,以计算得到的 P(z | d ) 为依据来决定其类别的归属,即使得图片 i 取到最
大值 P(zk | di ) 的 k 即为其所属的类别。同时 P(wj | zk ) 为类别 k 下的标注字的分布规律。
步按公式(10)、(11)和(12)来更新模型参数。
∑ ωij =
π jG(xt | µ j , ∑ j )
Kπ
i=1
jG( xt
|
µj,∑j)
j = 1,..., K t = 1,..., n
(9)
∑ ∧
πj
←
1 n
n
wk.baidu.comωtj
t =1
(10)
90
∧
∑∑ µ j ←
ω x n
t =1 tj t
ω n
t =1 tj
给定一个文档集合 D = {d1, d2 ,..., dM } 和一个词集合W = {w1, w2 ,..., wN } 以及一个文 档 和 词 的 共 现 矩 阵 N = (nij ) , n(di , wj ) 表 示 词 wj 在 文 档 di 中 出 现 的 频 率 。 使 用 55 Z = {z1, z2 ,..., zk } 表示潜在语义的集合, K 为人指定的一个常数。概率潜在语义分析假设
1 概率潜在语义分析(PLSA)
自然语言处理(NLP)的很多应用都需要探究隐藏在字、词背后的涵义,简单的字面匹配 绝难奏效,关键在于同义词和一词多义的把握,潜在语义分析(LSA)为此提供了部分解决问 题的方法,即利用奇异值分解(SVD)将高维度的词汇—文档共现矩阵映射到低维度的潜在语 50 义空间,使得表面毫不相关的词体现出深层次的联系[4]。概率潜在语义分析(PLSA)作为潜在 语义分析(LSA)的变种,拥有更坚实的数学基础及易于利用的数据生成模型,且已被证实能 够为信息提供更好的词汇匹配。
“文档—词”对之间是条件独立的。在上面假设的前提下,可使用下列公式来表示“文档— 词”的条件概率:
K
∑ P(di , wj ) = P(di ) P(wj | zk )P(zk | di )
(1)
k =1
式(1)中的 P(wj | zk ) 为潜在语义在词上的分布概率,也解释为词对潜在语义的贡献度。
π K
i=1 i
=1。
80
•µi 是一个 d 维的特征向量以及 ∑i 是一个 d × d 的正则矩阵。
在图片的 GMM 表示过程中,一个图片的所有像素点通过其表示的特征向量被聚类成几
个均匀的区域,每个均匀区域都可以用一个高斯分布 (πi , µi , ∑i ) 来表示,这个图片的所有
区域的集合就可以用一个高斯混合模型(GMM)来表示。用 EM 算法来学习高斯混合模型的
Research on Semantic-Based Image Annotation
FU Jie
15
(School of Computer Science and Technology,Harbin University of Science and Technology,
Harbin 150080)
of the method.
Key words: Image Annotation;Probabilistic Latent Semantic Analysis;Gaussian Mixture Model
25
0 引言
随着互联网的普及与图像处理设备的日趋廉价化,网络上的图片信息正以几何级的数量 在增长。如何有效的组织、管理、与使用这些图片也成为了一个急需解决的问题。对于用户 而言,如何快捷有效的找到自己所感兴趣的图片显然是其最关心的问题。因此图片检索技术 30 也日趋成为了近年来的研究热点。图像检索技术总体来说有基于内容的图像检索与基于文本 的图像检索两种方式。基于内容的图像检索存在着“语义鸿沟”的问题,而如今文本检索技 术发展的相对成熟,因此,借鉴文本检索技术的思想,基于文本的图像检索技术日趋成为研 究的热点。为了克服图像检索中存在的“语义鸿沟”问题,一种基于语义的图像检索技术就 应运而生了。其基本思想是将待检索的图像分别加上其对应的语义标签,从而利用文本检索 35 的技术进行图像检索。基于语义的图像检索技术其中的关键在于图像的语义标注,早期的人 工标注方法不仅费时费力,而且由于每个人对图像的理解方式都不相同,标注结果存在着很 大的二义性与不精确性,因此,找到一种自动化的标注技术就显得势在必行。这其中有基于 机器学习方法进行的标注[1],基于统计理论方法进行的标注[2],基于潜在空间模型进行的标 注等等[3]。这些标注方法中,大部分都需要事先知道训练图像的分类情况,然而在大多数情 40 况下,这一点事先都是不知道的。而且计算量都很大。本文提出了一种基于概率潜在语义分 析(PLSA)和高斯混合模型(GMM)相结合的自动图像语义标注方法,对于训练图像,先用
作者简介:付杰(1986-),男,硕士研究生,主要研究方向:数字图像处理,人工智能,模式识别. E-mail: hustfujie@126.com
-1-
中国科技论文在线
http://www.paper.edu.cn
PLSA 对其进行潜在语义发现,确定整个训练图像集的分类情况,然后,再分别计算每一类 图像的 GMM 表示。对于测试图像,分别计算其 GMM 模型的后验概率,并以此作为分类的 依据,从而完成图像的语义标注。下面,将从本文涉及到的基本理论,算法步骤,实验结果 45 等方法来进一步详细的阐述。
100 图片平均有 3-5 个标注字。每幅图片都用 N-cuts 方法进行了分割,只有大于阈值的区域被 保留,通常每幅图片有 5-10 个区域。每个区域的图像特征用一个 36 维的特征向量进行表 示(包括颜色、形状、位置等)。 从 5000 幅图片中选出 4500 幅作为训练图片,剩下的 500 幅作为测试图片。首先,对训
i =1
(2π
1 )d
|
∑i
|
exp{−0.5( x
−
µi )T
∑i ( x
−
µi )}
(7)
其中π i 、 µi 、 ∑i 分别表示第 i 个高斯分量的权重、均值向量和方差矩阵, x 表示 d 维
的特征向量, K
是高斯模型的分量数目。参数集合θ
=
{π
i
,
µi
,
∑i
}K i =1
组成如下:
∑ •πi > 0,