自动图像标注算法研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Σ f (x) = bncos (anπ·x) n=1
其中
x
为实数,a
为奇整数,0<b<1,ab>1+
3 2
π 在 (- ∞,
+∞) 内处处连续但又处处不可导。
这个反例对当时的数学界造成了很大的影响。此后,人们又创造出
很多这种类型的例子,这些“病态函数”的提出,是数学家们更清楚的
n Mn Ln
仪仪Σ P (w|b) =
p (axj=)i t (w = w nj|b= b)ni
n = 1j = 1i = 1
其中 N 表示图像数量,Mn 表示在第 n 张图片中出现的单词数量,
Ln 表示第 n 张图片中视觉词元的数量。p (axj=)i 表示在图片 n 中给定
视觉词元 bi 与给定单词 w j 的赋值概率,而 t (w =w nj|b=b)ni 表示给定
随着 Inte rne t 的普及,信息资源急剧丰富,如何从海量的数据信
息中处理、分类图片,以供人们找到有价值的图像信息已越来越迫切,
自动图像标注应运而生。自动图像标注也被称为图像的自动注释,目的
是找到低级的视觉特征和高层语义的相关性,实现对图片分类。自动标
注图像技术涉及机器学习,图像处理,人工智能和信息检索等方面的内
J∈T
j=1
m
Σ P
(fi|J)
=1 m
k=1gveJ
exp(-(gk-fj)TΣ-1(gk-fi)) 姨(2π)D Σ
其中 fi 表示待标注图像 Iq 中第 j 个区域的特征,gk 表示训练图像 J
中第 k个区域的特征,D表示区域特征向量 fi 的维数,∑为协方差矩
阵。
(六) 多重伯努利分布 ( MBR M ) 方法
视觉词元 b 的情况下,出现单词 w 的条件概率。根据 p (w |b) 可知单
词与视觉词元之间的联合概率,然后据此对图像进行标注。
(三) 概率潜在语义分析
Monay 和 Gatica- Pe re z 介绍了隐变量链接图像特征单词捕捉共
现信息的方法。方法基于潜在语义分析 (LSA),LSA 来自自然语言处
成功地描述图像。大多数算法的出发点是一个训练集图片,它们已经用
简单的特征关键词标注过,用非结构化的文本数据,描述图片的内容;
接下来的步骤是应用图像分析技术从一个未见过的图像提取相同的特征
信息。图像分析技术是用于提取图像特征的,如颜色,质地和形状,以
模拟图像特征条件的分布。特征的获得可从整体图片,全局性获得;也
其他自动图像标注体制执行另一个算法,假定每个标注是一个固
定的长度。举例来说,如果标注的长度是 K,则选长度为 K具有最大概
率值的单词为标注。另一种方式是确定一个阈值,所有概率高于阈值的
关键字被视为标注。
最后是独立于方法来确定标注,用图片自动标注系统生成一组关
键字集,帮助理解图像描绘的场景。
一、 自动图像标注算法
可从块,分割图片为不规则部分;或从片,矩形的分割图象;然后比较
所有以前创建的模型中的每个关键字,产生当前待标注图像里每个关键
字的概率值,最终确定标注结果。
另一些算法采用一个 1 或 0 组成的阵列产生最后输出,阵列长度
与词汇表中单词数相同,指示当前图像中的对象术语是否存在,据此产
生一个概率评价,对每个概念是否在图像内提供一个信度。
CLP 利用了词汇相关性,考虑了词汇出现频率的平衡问题, 对标记
物体特性化描述的低频词汇对应信息不会被高频词汇淹没,提高了图像
标注性能.公式为:
P (w k|)I
Σ = K(I,J) 仪Ω(tr(Tk)t(J))-Ω(tr(Tk-1)t(J)) 仪 JeT
其中,K(I,J) 为图像 I 与图像 J 之间的相似性函数,Tk 取 1 到 k
行图像分割,提取全局特征后聚类,每个类具有相同的图片特征,成为
视觉词,对个各类进行编码,建立视觉词码表。然后通过最大似然方法
估计文本与视觉词的后验概率,建立文本与视觉词的联系。对未标注图
像,提取视词,比对同视词先前计算好的后验概率,取较大概率值对应
的前几个文本做标注结果,从而完成对图片的标注。公式为:
间的整数,Ω(x) 为一凹函数.
(八) WordNet 的方法 (WNM) 该模型用 WordNe t 的结构化语义信息衡量词汇关系,首先将图像 用 TM 模型算法标注,然后基于 WordNe t,综合多种语义度量计算每 个词汇与其它词汇间的语义相关度,最后利用语义一致性确定标注结果。 公式为:R=MIWR·MWWR,其中 MWWR 是基于 WordNe t 得到的 语义相关矩阵,而 MIWR 是 TM 算法标注结果,当 MIWR(i,j)=1,词 w j为图像 Ii的标注结果,否则为 0。 二、 局限性 经过在 Core l 数据集实验,各种算法不准确处主要有两类。第一 类:认识物体场景错误。例如:在博物馆的大理石地板表面混淆为一层 冰,或把海上吹的海浪混淆为沙漠中的沙丘。这是使用低层次特征与关 键词的相关性导致的直接后果,难以区分视觉类似的概念。解决方法是 精炼系统的图像分析参数。第二类:不同程度的标注松散。标注的两个 物体在一起,现实世界中是极难发生或不可能的。产生原因是每个标注 是独立产生的,不考虑背景因素。解决方法是添加背景参数进行分析。 现今算法都有各自的优点,但仍需不断地改进,更好的提高查全率和查 准率。
Fe ng 等用多贝努利分布 (MBRM) 方法,标注效果比 CRM 好。
MBRM 与 CRM 在图像分割和分配注释中不同。CRM 分割图像为语
义连贯区域而 MBRM 实行固定大小的矩形网格分割图像。这矩形分割
方法显著减少了计算时间。CRM 使用多项式分布而 MBRM 使用多重
伯努利分布。MBRM 重点是标注中信息的存在与否,而不是看它们呈
后,每个单词和每个类的条件概率被估计,一个单词 i 在一簇类 j 出现
的次数除以在簇类 j中单词的总数。对未见过的图像分配单词的过程类
似数据学习问题。新的图象分为部分,特征提取,找到每个分割部分的
最近簇类,计算这些最近簇类的条件概率的平均值。最后,选出具有最
大条件概率平均值的单词。公式为:
P (w i|c)j =
计算出所有单词的概率估计值 P (w |)I 后来产生标注,一种是据
此概率分布从单词集合中随机抽取单词,直至已经获取指定长度的标注 为止;另一种是对此概率值进行排序,然后根据排序结果选择最具代表 性的单词作为图像的自动标注结果。
(五) 连续空间相关模型
Lavre nko 等使用了连续空间相关模型 (CRM) 建设连续概率度
有单词在质心 cj 的总数量,ni 表示单词 cj 在所有数据中的总数量,N
w
Σ 即 nk 表示对于所有数据,包含每个单词在每次出现时重复计数的整 k=1
个单词数量。
(二) 机器翻译模型
Duygulu 等改进了共现方法,采用机器翻译模型,适用于把单词
翻译成称为块的图像区域。标注算法首先建立训练图片集,每张图片进
容,具有很强的研究价值和商业应用价值。例如对互联网上图像的分析
并标注,实现图像广告的投放,既用户在点击风景图片后,可自动标注
与图片信息相似的旅游地的旅行社广告供用户参考;也可用于知识产权
保护,检查新商标是否与原有商标图案过分相似;也可对海量数据库图
片进行分类检索;医学图像分析处理等。
自动图像标注的主要挑战是要建立一个模型能够分配视觉术语,
自动图像标注算法研究
吴效莹 李士勇
(河南科技学院,河南新乡 453003)
[摘 要] 首先介绍 AIA (Automatic Image Annotation) 在计算机视觉技术中的应用及其定义,其次对 AIA 方法进行了研究论述,着重论述 了 CMR M、CR M、MBR M 等主要的图像标注方法;最后探讨方法的局限性。 [关键词] AIA;CMR M;CR M;MBR M;CLP;WordNet
函数来描述产生 blob 特征,优于使用聚类算法生成 blob 的 CMRM 模
型显著。Me tzle r和 Manm atha 提出了一种推理网络的方法来链接区
域和它们的标注, 通过网络传播信度到代表关键词的网络节点,对未
看过的图像标注。公式为:
t

Σ 仪 W*=
a
rg
mav
wV
P (w |J)
P (fi|J) P (J)
语言信息检索问题来重新考虑,运用跨媒体关联模型 (CMRM) 进行
注释工作,该模型通过计算 blobs 和语义概念的联合概率进行图像标
注。公式为:
Σ p (w |)i ≈p (w |b1…bm) ∝P (w,b1,…,bm) = P (J) P JeT
m
仪 (w |J)
P (bi|J)
i=1
P (w |J) = (1- aJ)
率,据此再推断各个词汇的标注概率。
(四) 跨媒体相关模型
CMRM (Cros s Me dia Re le vance Mode l,跨媒体相关模型) 算
法比较常见,是 J e on 等人介绍的一种交叉媒体相关模型 (CMRM:
cros s - m e dia re le vance m oda)l ,改善了 Duygulu 等的结果,作为跨
多项式分布是否显著,并且图像特征的概率估计使用非参数核密度估
计,其中要求待标注图像 Iq 与一组包含多个关键词集合 w B 的联合概
率,公式为:
P (Iq,w)B
教育教学
仪 仪 t
Σ 仪 仪 仪 = P(J) Pv(v|J) (1-Pv(v|J)) p(fi|J)
JeT
vewg
vewg
j=1
(七) 互相关传播模型 (CLP)
P(cj|wi)P(wi)
w

(mji/ni)(ni/N)
w
Σ Σ P(cj|wk)P(wk)
(mjk/nk)(nk/N)
k=1
k=1
Σ =
mji
w
= mji mj
mjk
k=1
40 2009 年 10 月 ( 下 )
w
Σ 其中,mji 是单词 wi 在质心 cj 的总数量,Mj 即 m jk,表示所 k=1
理和分析图像和图像注释术语间的关系。增加了一个概率模型的 LSA
导致发展出概率潜在语义分析 (PLSA)。有人提出利用隐变量分析对
图像进行索引,首先用文本标注与 blob 直方图矢量的拼合表示图像,
然后对混合矢量用 pLSA 分析,得到相应概率模型。对新图像标注时,
将对应文本标注信息的图像特征矢量置为 0,得到对应隐变量的条件概
#(w,J) T
+aJ
#(w,T) T
P (b|J) = (1- βJ)
#(b J
,J)
+βJ
#(w,T) T
其中 P (Fra Baidu bibliotek) 表示从训练图像集合中随机抽样图片 J,其中, #
(w,J)表示单词 w 在图像 J 的标注信息中出现的实际次数 (一般情况
下为 0 或者 1,因为相同单词极少在同一图片标题中出现多次),#
(w,T) 表示单词 w 在所有训练集合 T中出现的总次数。类似地,#
(b,J) 表示图像 J 中一些区域由视觉词元 b 表示的实际数量,#(b,
T)表示视觉词元 b 在整个训练集合中出现的总次数。 J 表示所有单
词和视觉词元在图像 J 中出现的总次数,而 T 表示单词集合和视觉
词元在训练集合中出现的总次数。平滑参数 αJ 和 βJ 决定了最大似然 估计值和分别相对单词和视觉词元的后验概率的插值程度。
反例:级数 (1- 1) + (1- 1) + (1- 1) +…=0 ,但去括号后的级 数 1- 1+1- 1+…和不存在。
由这个反例可得出收敛级数可以加括号,但不能任意去括号;而 发散级数可以去括号,但不能任意加括号的结论。
五、 促进新理论的产生 例 6. 在 19 世纪以前,数学界长期认为:“连续函数除个别点外, 总是可导的。”魏尔斯特拉斯于 1860 年给出了一个著名的反例:
[参考文献]
[1] 卢汉清,刘静.基于图学习的自动图像标注计算机学报[J].2008. [2] 赵玉凤.图像检索中自动标注技术的研究.北京交通大学博士学位论文.
(上接第 26 页) 它的项任意加括号后,所成的级数仍收敛,其和不变。
这个定理的实质就是“加法满足结合律”,实际上这个运算律是有 条件限制的,即在有限项的加减法中成立,而在无限项的加减法中不一 定成立,即这个定理的逆命题不成立。
自动标注算法很多,基于如下方向:共现模型、相关模型,生成
式模型,传播式模型,词汇间关系等。常用算法有如下几种:
(一) 共现模型
最早使用共现信息的是 Mori 等人,他们分划每个培训的图像为
3x3 到 7x7 相等矩形部分为开始,然后提取所有部分的特征,每一部分
从原来的图像中继承所有的单词,采取基于矢量量子的聚类方法。此
相关文档
最新文档