基于潜在主题融合的跨媒体图像语义标注
基于人工智能的图像语义标注技术研究
基于人工智能的图像语义标注技术研究本文将探讨基于人工智能的图像语义标注技术研究。
人类视觉是一种非常强大的工具,我们可以轻而易举地识别数千个物体和场景,而且我们可以很容易地将这些物体和场景用语言来描述。
人工智能的发展使得计算机也可以做到这一点。
通过深度学习和神经网络等人工智能技术,我们可以让计算机识别和描述图像中的物体和场景。
本文将介绍这种技术的背景、工作原理和应用。
一、技术背景图像语义标注技术是计算机视觉领域的一个热门研究方向。
相比于传统的图像识别技术,它更注重对图像的深层次理解和语义理解。
传统的图像识别算法通常只能准确识别简单的物体,而对于复杂的场景和物体,很难做到精准识别。
而基于人工智能的图像语义标注技术可以更深入地理解图像,识别和描述图像中的物体和场景,可以帮助我们更好地理解图像。
二、工作原理基于人工智能的图像语义标注技术主要分为两个步骤:图像特征提取和图像语义标注。
下面我们将分别介绍这两个步骤。
1.图像特征提取图像特征提取是图像语义标注技术的第一个关键步骤。
在这一步骤中,计算机会将图像转化为一个向量,这个向量称为图像的特征向量。
特征向量包含了图像的各种特征,如颜色、纹理、形状等。
图像特征提取有很多种方法,常用的有卷积神经网络(CNN)、循环神经网络(RNN)等。
2.图像语义标注图像语义标注是图像语义标注技术的第二个关键步骤。
在这一步骤中,计算机会利用图像特征向量对图像进行语义描述。
实现语义标注的算法有很多种,如端到端的神经网络算法、基于分类的算法和基于生成的算法等。
三、应用场景图像语义标注技术有很多应用场景。
下面我们将介绍几个常见的应用场景。
1.图像检索:图像检索是指通过图像的视觉信息来搜索相似的图像。
基于人工智能的图像语义标注技术可以帮助我们更准确地搜索相关的图像,提高图像检索的准确率和效率。
2.自动化图像注释:自动化图像注释是指通过计算机自动给图像添加注释。
基于人工智能的图像语义标注技术可以帮助我们更好地理解图像,并自动生成描述性的注释。
基于潜在主题融合的跨媒体图像语义标注
基于潜在主题融合的跨媒体图像语义标注刘杰;杜军平【期刊名称】《电子学报》【年(卷),期】2014(000)005【摘要】图像语义标注是图像语义分析研究中的一个重要问题。
在主题模型的基础上,本文提出一种新颖的跨媒体图像标注方法来进行图像间语义的传播。
首先,对训练图像使用主题模型,抽取视觉模态和文本模态信息的潜在语义主题。
然后,通过使用一个权重参数来融合两种模态信息的主题分布,从而学习到一种融合主题分布。
最后,在融合主题分布的基础上训练一个标注模型来给目标图像赋予合适的语义信息。
在标准的MSRC和Corel5K数据集上将提出的方法与最近著名的标注方法进行比较实验。
标注性能的详细评价结果表明提出方法的有效性。
%Image semantic annotation is an important issue in image semantic analysis research .Based on the topic model , this paper proposes a novel cross-media image annotation approach for propagating the semantics among images .First ,the topic model is used to capture the latent semantic topics from the visual and textual modal information in the trainingimages .Then ,a fused topic distribution is learned by merging the topic distribution of each modality using a weight parameter .Finally ,an annotation model based on the fused topic distribution is trained to assign the target images using appropriate semantics .A comparison of the proposed approach with the recent state-of-the-art annotation approaches on the standard MSRC and Corel5K datasets is presented , anda detailed evaluation of the performance shows the validity of our approach .【总页数】5页(P987-991)【作者】刘杰;杜军平【作者单位】北京邮电大学计算机学院,北京 100876; 中国电子科技集团公司第三十研究所,四川成都 610041;北京邮电大学计算机学院,北京 100876【正文语种】中文【中图分类】TP37;TP391.4【相关文献】1.基于多特征融合的图像语义标注 [J], 胡全;邱兆文;王霓虹2.应用图学习算法的跨媒体相关模型图像语义标注 [J], 李玲;宋莹玮;杨秀华;陈逸杰3.基于分类融合和关联规则挖掘的图像语义标注 [J], 秦铭;蔡明4.基于概率潜在语义分析模型的分类融合图像标注 [J], 吕海峰;蔡明;5.基于跨媒体相关模型的相似度融合图像标注 [J], 吕海峰;蔡明因版权原因,仅展示原文概要,查看原文内容请购买。
基于 Boosting学习的图片自动语义标注
基于 Boosting学习的图片自动语义标注茹立云;马少平;路晶【期刊名称】《中国图象图形学报》【年(卷),期】2006(011)004【摘要】图片自动语义标注是基于内容图像检索中很重要且很有挑战性的工作.本文提出了一种基于Boosting学习的图片自动语义标注方法,建立了一个图片语义标注系统BLIR(boosting for linguistic indexing image retrievalsystem).假设一组具有同一语义的图像能够用一个由一组特征组合而成的视觉模型来表示.2D-MHMM(2维多分辨率隐马尔科夫模型)实际上就是一种颜色和纹理特殊组合的模板.BLIR系统首先生成大量的2D-MHMM模型,然后用Boosting算法来实现关键词与2D-MHMM模型的关联.在一个包含60000张图像的图库上实现并测试了这个系统.结果表明,对这些测试图像,BLIR方法比其他方法具有更高的检索正确率.【总页数】6页(P486-491)【作者】茹立云;马少平;路晶【作者单位】清华大学计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084;清华大学计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084;清华大学计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084【正文语种】中文【中图分类】TP37【相关文献】1.基于语义学习的自动图像标注技术研究述评 [J], 张志武;阚德涛2.基于半监督学习模型的自动图片标注研究 [J], 朱松豪;梁志伟3.基于Boosting学习的靶子自动检测算法研究 [J], 肖潇;赵明昌4.基于模糊机制和语义密度聚类的汉语自动语义角色标注研究 [J], 王旭阳; 朱鹏飞5.语义相似度领域基于XGBOOST算法的关键词自动抽取方法 [J], 王成柱;魏银珍因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于区域特征关联的图像语义标注方法
一种基于区域特征关联的图像语义标注方法
陈世亮;李战怀;袁柳
【期刊名称】《计算机工程与应用》
【年(卷),期】2007(043)002
【摘要】图像语义的标注需要解决图像高层语义和底层特征间存在的语义鸿沟.采用基于图像分割、并结合图像区域特征抽取的方法,建立图像区域语义与底层特征间的关联,采用基于距离的分类算法,计算区域特征间的相似性,并对具有相同或相近特征的区域的语义采用关联关键字的方法进行区分,用关键字实现图像语义的自动标注.
【总页数】4页(P53-56)
【作者】陈世亮;李战怀;袁柳
【作者单位】西北工业大学,计算机科学与技术学院,西安,710072;空军工程大学,导弹学院,陕西,三原,713800;西北工业大学,计算机科学与技术学院,西安,710072;西北工业大学,计算机科学与技术学院,西安,710072
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种基于GMM的图像语义标注方法 [J], 陈晓;张尤赛;邹维辰
2.基于分类融合和关联规则挖掘的图像语义标注 [J], 秦铭;蔡明
3.一种基于本体与描述文本的网络图像语义标注方法 [J], 陈叶旺;钟必能;王靖;李
海波
4.一种适合弱标签数据集的图像语义标注方法 [J], 田枫;沈旭昆
5.基于多模态关联图的图像语义标注方法 [J], 郭玉堂;罗斌
因版权原因,仅展示原文概要,查看原文内容请购买。
基于决策融合的图像自动标注方法
基于决策融合的图像自动标注方法欧阳宁;罗晓燕;莫建文;张彤【期刊名称】《计算机工程与应用》【年(卷),期】2013(000)021【摘要】A method for automatic image annotation based on decision fusion is proposed combining the Multimedia Descrip-tionInterface(MPEG-7)and MM(Mixture Model). In the process of image annotation, two independent MM mixture models are estimated for the images belonging to a theme and mapping is setted up from low-level features to high-level semantics space. Automatic image annotation is achieved by fusing the annotation results from color and text MM mixture model in the way of local decision fusion. The way of local decision fusion is proven to utilize fully the color feature and texture feature and improve the performance of image annotation by the experiments on the image data sets.%结合多媒体描述接口(MPEG-7)和MM(Mixture Model)混合模型,实现了基于决策融合的图像自动标注。
基于FCM聚类的跨模态人物图像标注方法
基于FCM聚类的跨模态人物图像标注方法赵昀;张翌翀【期刊名称】《微型电脑应用》【年(卷),期】2015(31)3【摘要】With the explosive growth of multimodal people image data available, how to integrate multimodal information sources to achieve more accurate people image annotation becomes an important research issue. In this paper, a new framework is developed to support more precise automatic cross-modal people image annotation. It focuses on analyzing the associated text and image contents associated with multimodal people image and extracting the valuable information from both texts and images. For enhancing the whole performance of the cross-modal people image annotation approach, it particularly emphasizes on establishing an efficient measurement and optimization mechanism by Fuzzy C-Means Clustering Algorithm to verify the feasibility of matching between names and faces involved in multimodal people images. The experiments on a large number of official public data from Yahoo News have obtained very positive results.%提出一种新颖的基于模糊C均值(Fuzzy C-Means,FCM)聚类算法的跨模态人物图像标注方法,使用相关的人脸特征及文本语义,结合具有问题针对性的算法,建立有效的跨模态人物图像标注机制,进而对人物类图像标注性能进行提升。
融合主题和视觉语义的图像自动标注方法
NO V .2 Ol 3
融 合 主 题 和 视 觉 语 义 的 图 像 自动 标 注 方 法
赵 鹏 , 王文彬 , 朱伟伟
1 ( 安 徽 大 学 计 算 智 能 与信 号 处 理教 育 部重 点 实验 室 合 肥 2 3 0 0 3 9 ) 。 , ( 安 徽 大 学 计 算 机 科 学 与技 术 学 院
第 2 5卷 第 1 1 期
2 0 1 3年 1 1月
计 算机 辅 助设 计与 图形 学学报
J o u r n a l o f Co mp u t e r — Ai d e d De s i g n& C o mp u t e r Gr a p h i c s
Vo 1 . 2 5 NO . 1 1
。 ( S c h o o l o f C o mp u t e r S c i e n c e a n d T e c h n o l o g y, An h u i Un i v e r s i t y,He f e i 2 3 0 6 0 1 )
Abs t r a c t :To r e duc e t he i nf l ue nc e o f t he s e ma nt i c ga p i n i ma ge r e t r i e v a l ,t hi s p a pe r p r e s e nt s a n
基于深度学习的图像语义标注方法
基于深度学习的图像语义标注方法图像语义标注是一种将图像与对应文本描述相对应的技术。
传统的图像标注方法主要依赖于手工设计的特征提取器和机器学习模型,但这些方法在处理复杂场景和多义词方面存在一定的局限性。
近年来,深度学习方法在图像语义标注中取得了巨大的进展。
本文将介绍基于深度学习的图像语义标注方法,并分析其应用和优缺点。
基于深度学习的图像语义标注方法主要包括两个关键步骤:图像特征提取和文本生成。
在特征提取阶段,深度卷积神经网络(CNN)被广泛用于提取图像的高层语义特征。
CNN通过多层卷积和池化操作,可以从原始图像中提取出丰富的局部和全局特征。
其中,一种常用的CNN模型是VGGNet,它通过多个卷积和池化层来实现图像特征的提取。
除了VGGNet外,还有一些其他的CNN模型,如ResNet和Inception等,它们在图像特征提取任务中也取得了很好的性能。
在图像特征提取之后,需要将特征映射到文本空间中。
为此,可以使用循环神经网络(RNN)或注意力机制来生成图像的描述。
RNN是一类特殊的神经网络,可以通过对序列数据的连续处理来建模序列之间的关系。
在图像语义标注任务中,RNN被用于将图像特征与文本描述进行建模。
具体而言,可以使用长短时记忆网络(LSTM)或门控循环单元(GRU)作为RNN的基本单元。
这些模型可以对图像特征进行编码,并生成与图像相对应的文本描述。
除了RNN,注意力机制也被广泛应用于图像语义标注中。
注意力机制通过计算图像中不同区域与对应文本描述之间的相关性,来实现加权聚焦图像的描述生成。
具体而言,首先利用CNN提取图像特征,然后通过计算特征和文本之间的相似度,得到注意力权重。
最后,将注意力权重应用于图像特征,生成描述文本。
基于深度学习的图像语义标注方法具有以下优点。
首先,深度学习方法可以自动学习特征表示,不需要手工设计特征提取器。
这使得模型更具通用性,可以适应不同的图像类型和场景。
其次,深度学习方法可以学习到更高层次的语义特征,能够更好地捕捉图像中的语义信息。
基于多源融合的跨媒体内容检索技术研究
基于多源融合的跨媒体内容检索技术研究一、跨媒体内容检索技术概述跨媒体内容检索技术是一种新兴的信息检索技术,它允许用户通过多种媒体类型(如文本、图像、音频和视频)进行信息搜索和检索。
这种技术的发展得益于大数据时代的到来以及多媒体内容的爆炸性增长,使得用户对于信息检索的需求更加多样化和复杂化。
1.1 跨媒体检索技术的核心特性跨媒体检索技术的核心特性主要包括以下几个方面:- 多源融合:能够整合来自不同来源的多媒体数据,包括但不限于网络、数据库、社交媒体等。
- 语义理解:通过对多媒体内容的深入分析,理解其语义信息,实现跨媒体的语义关联。
- 智能检索:利用先进的算法和模型,实现对用户查询的智能理解和匹配,提高检索的准确性和效率。
1.2 跨媒体检索技术的应用场景跨媒体检索技术的应用场景非常广泛,包括但不限于以下几个方面:- 社交媒体监控:通过跨媒体检索技术,可以监控和分析社交媒体上的文本、图像和视频内容。
- 新闻内容聚合:聚合不同来源的新闻内容,提供统一的检索入口,帮助用户快速获取信息。
- 电子商务推荐:结合用户的历史行为和偏好,推荐相关的商品或服务。
二、跨媒体内容检索技术的实现跨媒体内容检索技术的实现是一个复杂的过程,涉及到多个技术环节和步骤。
2.1 跨媒体数据的采集与预处理跨媒体数据的采集是整个技术实现的基础。
需要从不同的数据源收集文本、图像、音频和视频等多媒体数据,并进行必要的预处理,如格式转换、数据清洗等。
2.2 跨媒体内容的特征提取特征提取是理解多媒体内容的关键步骤。
通过使用计算机视觉、自然语言处理等技术,提取图像的视觉特征、文本的语义特征、音频的声学特征等。
2.3 跨媒体内容的语义理解语义理解是实现跨媒体检索的核心。
通过构建知识图谱、运用深度学习等技术,对多媒体内容进行深入的语义分析,实现不同媒体类型之间的语义关联。
2.4 跨媒体检索模型的构建构建跨媒体检索模型需要综合考虑不同媒体类型的特点和用户查询的需求。
图像自动语义标注技术综述
p p r I sv l a ef rt er s a c e swhod voet h e e rh i sfed a e. ti au bl o h e e r h r e t ot er s a c t l . n hi i
K e o ds i a es ma t ; e a tca n tto i a ere a yw r : m g e n i s m n i n o in;m ger tiv l c a
S UN u - ig DU u n J nD n , Ja
(co l f o ue c n e n cn lg , n nP l eh iUnvri ,i zo4 4 0 , hn ) S h o o mp tr i c dt h oo yHea oy c c i s yJ ou 50 0 C ia C Se a e tn e t a
针对 目前广 泛研究 的图像语义标注 技术 ,从其分类 、关键 技术 、存在 问题 及发展方 向进行 了进行 了论述 ,以期 为从事该方 向研究 的人 员提供一定 的借 鉴意义和参考价值 。 关键 词:图像语义 ;语义 标注 ;图像检 索
Re e o t m a i m a m a i viw n Au o tcI geSe ntcAnno a i n Te h que t to c ni s
用 于医学、通 信、工农业生产 、航天 、教育、军事等
多个 领域 。为了更好管理和利用这些海量 图片信息 , 建立 有效的分类和检索方式 已成为迫 切需要解决 的问
户而言 ,提供实例 图像并不是 一件容 易的事 ,而且 图
像低层视觉特征 与图像 的高层 语义间还 存在 “ 义鸿 语
沟 ’l ,所 以采 用低层特 征进 行检索 并不能充分的表 ’
基于中低层结合的图像感兴趣区域标注
基于中低层结合的图像感兴趣区域标注周洁;王士同【摘要】Image marking of the region of interest is an important research topic in image processing in recent years.The combination of low and middle levels can ensure the result has both of their information.First,we get the middle-level coarse saliency map by using the boosting Harris to make a convex hall and superpixels clustered by GBR.And then we weight different Gaussian filters to get the low-level saliency map.The final saliency map is combinated by middle-level saliency map and low-level saliency map.Experiments on the public databases coming from Microsoft Research Asia show that the proposed algorithm performs better than state-of-art algorithms not only on subjective evaluation but also on objective evaluation,and it is effective at the eliminate of background noise and outstanding at making the saliency regions high light.%图像感兴趣区域标注是近年来图像处理领域的重要研究课题之一.利用中低层次信息相结合的方式确保中低层信息相互补充,可以得到可靠结果.中层次显著图由改进的Harris角点形成的凸包区域与GBR超像素聚类结果相结合得到,低层次信息由不同权重的高斯差分滤波器对图像进行处理得到.最后通过加权融合两个层次显著图得到最终结果.本文利用微软亚洲研究院公开数据库对实验结果进行验证,并选取其他前沿方法进行对比,从主观和客观角度对实验结果进行判断,本文方法结果较好,可准确定位显著度区域并高亮表示,同时可有效消除背景噪声.【期刊名称】《数据采集与处理》【年(卷),期】2018(033)002【总页数】10页(P379-388)【关键词】感兴趣区域;显著图;GBR;改进FT【作者】周洁;王士同【作者单位】江南大学数字媒体学院,无锡,214122;江南大学数字媒体学院,无锡,214122【正文语种】中文【中图分类】TP181引言对于人类来说,视觉是最重要的接受信息的途径之一,人类对于视觉所接受的信息在人脑中的处理方式便是形成图像。
基于多特征融合的图像语义标注
t gc l a r n xuef tr it e e v co.E p r na rs l s o sta terte a o g i ut l i o r e t ea d t tr e u o i n e tr x e me t e u h w t h e i l f mae wt m l p n of u e a en g i l t h rv i h ie
maina d C mp trE gn e n ,N r es oet iest t n o ue n ie r g ot atF rs y Unv ri o i h r y,Habn 1 0 4 ri 5 0 0,P R. C ia / J un lo r e s . hn ) / o 3 ( 0 .一 8~8 o s U i s t 一20 ,6 1 ) 8 er y e y 9
A n w c l r e tr xr cin meh d w s a pi d t ma e s ma t a ei g w t u p r v co c ie b n e r e o o au e e t t t o a p l o i g e ni lb l i s p o e trma h n vi tg a f a o e c n h t
胡 全 邱 兆 文 王霓 虹
( 北林 业 大 学 , 尔 滨 ,5 0 0 东 哈 10 4 )
摘 要 采 用 了新的颜 色特征提取 方法, 融合 图像 的颜 色和 纹理特征作为 图像 的特征 向量 , 用支持 向量机 实 现 图像语义信息 的标 注。实验结果表明 , 多特征 图像捡 索要 比单 一特 征检 索效 果好 , 在颜 色特征 的基础上 引入 纹 理特征和形状特征后 可有效提 高检 索效率 , 而且 采用支持 向量机融合 多特征可成功 用于 图像语义的标注 关键词 基 于 内容的 图像检 索; 多特征 融合 ; 支持 向量机 ; 图像 语义标注 分类号 T3 1 P 9 I g e ni L bl gB sdO ut l F aueF s n HuQ a , i ho e , n i n ( o ee fno. ma eS ma t a e n ae nM lpe e tr ui / un QuZ aw n WagNh g C I g fr c i i o o oI
基于跨媒体相关模型的相似度融合图像标注
三 、图像相似度计算方法
3.1常用的相 似度计算方法 3.1.1欧几里得距离 欧氏距离是最常用的距离计算公式 ,衡量的是多维空间 中 各个点之 间的绝 对距离 ,当数据点非常稠密且 连续时 ,这种计 算方式是非 常好 的选 择。该公式最初用于计算欧几里 德空间 中 两个点的距 离 ,假设 X,Y是 n维空间的两个点 ,它们之间的欧 几里德距离是 :
二 、跨 媒 体 相 关 模 型
在 图像语 义标 注 问题 中,训练数 据集 通常 是 由图像 和文 本 组成 。例如 。一个 包含 了 n幅图像 的训 练集 ,通 常 可 以
表示为{( , ),...( , ))。其中,表示I图像,W 表
示其 标 注词 。图像 的标 注词 可 以是一 个或 多个 。假设 每个 标 注词 是一 个类 别 ,那 么 图像语 义标 注实 际上 就是 找到 图像 最 有 可能属 于 哪个 (或 哪些 )类 别 。用数 学语 言 描述 ,即求解
性 能 。 关键 词 :图像 自动标注 ;相似度 ;颜 色直方 图;跨媒 体相 关模 型
一 、 前 言
图像 自动标注就是计算机系统根据 已标注 图像和对应标签 的关系 ,预测未标注 图像对 应的标签并标 注图像 。但 由于存在 语 义鸿沟 ,视觉特征相 似的图像很可能在语 义上是不相关 的。 为了获得语义相关 的检 索结果 ,同时避免 大量 的手工标注 ,图 像 自动标注成为 目前关 键的具有挑战性 的课题 ㈦。I)LIy; u等 将 对象识别模 型描述 为机器翻译 ,在这个模 型 中,图像被分割 成区域 ,这些 区域使用各种 特征被分类 为区域 类型 ;然后使用 基 于 EM 的方法来 学 习与 图像 一起 提供 的区域类 型和关 键 字 之 间 的映射 。Jeon等人 提 出 的跨媒 体 相 关模 型 fcross—mesa relevarlce model,简 称 CMRM)也采 用分 割 区域来表 示 图像 ,但 与翻译 模型不 同 ,它并 不认 为图像 的关键词 和区域之间是一对 一 的对应关系 ,而是通 过学 习关键词和 区域 的联合 概率分布为 整幅图像标注若干关键词 ,但是 CMRM需要将图像的特征进行 聚类 ,标注 的质量将在很大程度上受限于聚类的好坏。Lavrenko 等人 随 后 提 出类 似 的连 续 空 间相 关 模 型 continuous—space relevance model,简称 cRM)。李 志欣 等 在 PLSA模 型和 PLSA— WORDS模 型的基础上 提出了 PLSA—FUSION标 注方 法 ,该方法 分 别从 文本模态和视觉模 态 中学习两组潜在 主题并 融合为一个 潜在 主题空 间 ,并 使用 BOW 模型对不 同 的特 征进行集 成 ,但 图像特 征数据在量化过程 中仍 会丢失重要信 息 ,从 而影 响图像 标注 和检索的性能 。为 了解 决上述遇到 的问题 ,本 文提 出了一 种基于跨媒体相关模型 的相似度融合图像标注算 法。
基于跨度的语义角色标注方法
基于跨度的语义角色标注方法(Span-based Semantic Role Labeling)是一种用于自然语言处理任务的技术,旨在对句子中的每个单词或短语进行语义角色的标注。
传统的基于跨度的语义角色标注方法通常由以下步骤组成:
1. 词性标注:首先对输入的句子进行词性标注,以获得每个单词的词性信息。
这有助于确定每个单词的语法功能和角色可能性。
2. 句法分析:接下来,使用句法分析器对句子进行分析,以获得句子中各个单词之间的依存关系。
这些依存关系可以帮助确定语义角色的范围和关系。
3. 候选跨度生成:根据句法分析结果,生成所有可能的语义角色跨度候选。
这些候选跨度通常是由谓词(动词)及其相关参数(名词短语)组成的。
4. 跨度评分与选择:为每个候选跨度计算一个得分,该得分表示该跨度是特定语义角色的可能性。
这个得分可以通过各种机器学习方法(如神经网络模型)来预测。
5. 语义角色分类:最后,为每个候选跨度分配最可能的语义角色标签。
这可以通过对得分最高的候选跨度进行分类来实现。
基于跨度的语义角色标注方法在自然语言处理任务中广泛应用,如问答系统、信息抽取和机器翻译等。
它能够提供对句子中各个单词或短语的语义角色信息,有助于理解句子的含义和结构。
1。
应用图学习算法的跨媒体相关模型图像语义标注
应用图学习算法的跨媒体相关模型图像语义标注李玲;宋莹玮;杨秀华;陈逸杰【期刊名称】《光学精密工程》【年(卷),期】2016(024)001【摘要】针对传统跨媒体相关模型(CMRM)只考虑图像的视觉信息与标注词之间的相关性.忽略标注词之间所具有的语义相关性的问题,本文提出了一种新的基于图学习算法的CMRM图像语义标注方法.该方法首先根据运动领域图片训练集中的标注词,建立运动领域本体来标注图像;然后采用传统的CMRM标注算法对训练集图像进行第一次标注,获得基于概率模型的图像标注结果;最后,根据本体概念相似度,利用图学习方法对第一次标注结果进行修正,在每幅图像的概率关系表中选择概率最大的N个关键词作为最终的标注结果,完成第二次标注.实验结果表明,本文提出的模型的查全率和查准率均高于传统的CMRM算法.【总页数】7页(P229-235)【作者】李玲;宋莹玮;杨秀华;陈逸杰【作者单位】吉林大学通信工程学院,吉林长春130012;吉林大学通信工程学院,吉林长春130012;吉林大学网络中心,吉林长春130012;吉林大学通信工程学院,吉林长春130012【正文语种】中文【中图分类】TP391【相关文献】1.基于联合媒体相关模型的图像自动标注改进算法 [J], 贾克斌;安震2.基于图理论学习模型的胃窥镜图像自动标注 [J], 王李冬3.基于跨媒体相关模型的相似度融合图像标注 [J], 吕海峰;蔡明4.快速图像标注的改进跨媒体相关模型 [J], 包翠竹;宋海玉;牛军海;夏秀;林耀宗;王炳飞5.VirtualDose:一个新的计算CT扫描所致器官剂量的软件工具更多〉〉相关学者白玫朱国英章伟敏魏岚刘彬费晓璐彭志刚马晓晖肖德涛熊小兵相关检索词防护护士最优化螺旋应用软件人体模型辐射防护职业暴露辐射剂量计算软件tomography 有效剂量前提遗传算法器官快速计算x-ray computed 体素职业危害 radiation dosage [J],因版权原因,仅展示原文概要,查看原文内容请购买。
基于深度学习的图像语义标注方法研究
基于深度学习的图像语义标注方法研究图像语义标注是图像理解和自动化处理的重要任务之一,其主要目标是为图像中的各个物体、场景和动作准确地添加语义标签。
深度学习作为计算机视觉领域的热门技术,已经在图像语义标注中取得了显著的成果。
本文将探讨基于深度学习的图像语义标注方法的研究进展,并从不同的角度进行分类和比较。
首先,基于深度学习的图像语义标注可以分为两大类:基于特征提取和基于端到端学习。
基于特征提取的方法主要通过将图像转化为低维特征向量,然后使用传统的分类器进行标注。
这些方法通常使用卷积神经网络(CNN)来提取图像特征,如AlexNet、VGGNet和ResNet 等。
然后,将这些特征输入到支持向量机(SVM)或决策树等分类器中进行训练和预测。
这种方法的好处是可以利用预训练的CNN模型,但缺点是需要手动选择和设计特征提取器。
与基于特征提取的方法相比,基于端到端学习的方法更加直接和端到端,即将整个图像作为输入,并直接输出标签。
这些方法主要使用卷积神经网络(CNN)或递归神经网络(RNN)进行图像语义标注。
CNN通常用于提取图像特征,而RNN用于建立图像和标签之间的关系。
常用的结构有CNN-RNN、Attention-based CNN和多模态融合网络等。
这种方法的好处是可以充分利用图像的空间和时间信息,但缺点是需要大量的训练数据和计算资源。
其次,基于深度学习的图像语义标注方法还可以根据网络结构进行分类。
最常用的结构是编码-解码框架,其中编码器用于提取图像特征,解码器用于生成语义标签。
编码器通常使用CNN进行图像特征提取,而解码器可以使用RNN生成标签序列。
此外,还可以使用注意力机制来增强编码-解码框架,从而更好地捕捉图像和标签之间的关系。
注意力机制可以根据图像的不同区域或标签的重要性来调整权重,从而在生成标签时更加准确。
除了网络结构,数据增强和迁移学习也在基于深度学习的图像语义标注方法中发挥着重要作用。
数据增强是通过对训练数据进行旋转、缩放、平移和翻转等操作来扩大训练样本的多样性,从而提高模型的泛化能力。
基于深度学习的图像识别与标注研究
基于深度学习的图像识别与标注研究近年来,深度学习在计算机视觉领域取得了巨大的突破,其中图像识别和标注是深度学习的重要应用之一。
通过深度学习算法,计算机能够自动识别和标注图像中的对象、场景和特征,使得图像处理和分析变得更加智能化和高效。
图像识别是指通过计算机算法对图像内容进行理解和分类的过程。
深度学习模型通过学习大量的图像数据,能够提取并学习图像中的高级特征和抽象表示。
在图像识别任务中,卷积神经网络(CNNs)是最常用的深度学习模型之一。
CNNs以层级化的方式学习图像特征,从低级的边缘和纹理特征到高级的形状和语义特征。
通过多个卷积层和池化层的堆叠,CNNs能够自动提取图像中的特征,从而实现图像的自动识别。
深度学习在图像标注任务中也取得了重大进展。
图像标注是指通过为图像添加文字描述来准确地表达图像的内容和语义信息。
深度学习模型可以通过将图像和文字描述之间建立联系,学习到这些关系来实现自动图像标注。
根据图像和标注之间的对应关系,我们可以使用循环神经网络(RNNs)来学习图像和标注之间的语义表示。
RNNs通过将之前的信息传递到当前步骤,从而在生成标注时考虑到上下文信息,提高了标注的准确性。
基于深度学习的图像识别和标注研究可应用于多个领域。
在医学领域,深度学习可以帮助医生识别医学影像中的疾病和异常情况,提高诊断准确性。
在自动驾驶领域,深度学习可以实现自动识别道路、车辆和行人等,为无人驾驶技术提供基础。
在电子商务领域,深度学习可以对商品图像进行自动标注,提高检索和推荐系统的效果。
然而,基于深度学习的图像识别与标注研究仍然面临一些挑战。
首先,深度学习需要大量的标注图像数据来进行训练,而这些数据往往需要人工标注,成本较高。
其次,深度学习模型需要强大的计算资源和高效的算法优化,才能取得较好的性能。
此外,深度学习模型通常是黑盒模型,缺乏可解释性,这在一些对模型解释性要求较高的领域存在一定的局限性。
为了进一步推动基于深度学习的图像识别与标注研究,有几个方面的工作值得关注。
基于图像分割的语义标注方法
基于图像分割的语义标注方法彭晏飞;孙鲁【期刊名称】《计算机应用》【年(卷),期】2012(32)6【摘要】In order to effectively resolve the "semantic gap" in image retrieval, this paper studied a new method for semantic annotation. Based on image segmentation, the method constructed image dictionary during the training phase, through analysis and description of color, texture and wavelet contour, established the two-stage annotation model combining comparison of wavelet contour and probability. It adopted corresponding method for different images by phases. The experimental results indicate the method can significantly improve recall and precision, and the maximum of precision is 23. 6 percent. Besides, the model can understand image better and it also has good annotation effect and retrieval performance.%为有效解决图像检索中存在的“语义鸿沟”问题,提出了一种新的语义标注方法.该方法以图像分割为基础,在训练阶段构建图像字典,通过对图像单元颜色、纹理、小波轮廓的分析和描述形成一种结合小波轮廓比对和概率统计的二阶段标注模型,模型针对不同类别的图像分阶段采用相应的标注方法.经实验,应用该模型进行图像检索查全率和查准率都有明显提高,其中查准率最高可提升23.6%,证明该方法更接近人对图像内容的理解,具有良好的标注效果和检索性能.【总页数】4页(P1548-1551)【作者】彭晏飞;孙鲁【作者单位】辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105;辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105【正文语种】中文【中图分类】TP391.41【相关文献】1.基于语义转换的语义标注方法 [J], 蔺国梁;于泳海;李恒杰2.基于遗传算法的知识库语义多粒度标注方法研究 [J], 黄秀彬;王笑一;李承桓;孙荣;曹璐3.基于Bert模型的框架语义角色标注方法 [J], 高李政;周刚;黄永忠;罗军勇;王树伟4.基于级联网络和语义层次结构的图像自动标注方法 [J], 翟晴;顾广华;孙雅倩;任贤龙5.基于Self-Attention的多语言语义角色标注联合学习方法 [J], 蒲相忠;梁春燕;李鑫鑫;赵磊;王栋因版权原因,仅展示原文概要,查看原文内容请购买。
基于语义关系图的跨模态张量融合网络的图像文本检索
基于语义关系图的跨模态张量融合网络的图像文本检索刘长红;曾胜;张斌;陈勇【期刊名称】《计算机应用》【年(卷),期】2022(42)10【摘要】跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。
现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。
针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。
首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。
将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。
实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。
【总页数】7页(P3018-3024)【作者】刘长红;曾胜;张斌;陈勇【作者单位】江西师范大学计算机信息工程学院;南昌工程学院工商管理学院【正文语种】中文【中图分类】TP391.3【相关文献】1.基于潜在语义的双层图像-文本多模态检索语义网络2.基于多特征图金字塔融合深度网络的遥感图像语义分割3.基于改进的有效区域基因选择与跨模态语义挖掘的图像属性标注4.基于跨模态语义增强的图像检索方法5.基于粒度感知和语义聚合的图像-文本检索网络因版权原因,仅展示原文概要,查看原文内容请购买。
融合语义主题的图像自动标注
融合语义主题的图像自动标注李志欣;施智平;李志清;史忠植【期刊名称】《软件学报》【年(卷),期】2011(22)4【摘要】由于语义鸿沟的存在,图像自动标注已成为一个重要课题.在概率潜语义分析的基础上,提出了一种融合语义主题的方法以进行图像的标注和检索.首先,为了更准确地建模训练数据,将每幅图像的视觉特征表示为一个视觉"词袋";然后设计一个概率模型分别从视觉模态和文本模态中捕获潜在语义主题,并提出一种自适应的不对称学习方法融合两种语义主题.对于每个图像文档,它在各个模态上的主题分布通过加权进行融合,而权值由该文档的视觉词分布的熵值来确定.于是,融合之后的概率模型适当地关联了视觉模态和文本模态的信息,因此能够很好地预测未知图像的语义标注.在一个通用的Corel图像数据集上,将提出的方法与几种前沿的图像标注方法进行了比较.实验结果表明,该方法具有更好的标注和检索性能.%Automatic image annotation has become an important issue, due to the existence of a semantic gap.Based on probabilistic latent semantic analysis (PLSA), this paper presents an approach to annotate and retrieve images by fusing semantic topics. First, in order to precisely model training data, each image is represented as a bag of visual words. Then, a probabilistic model is designed to capture latent semantic topics from visual and textual modalities, respectively. Furthermore, an adaptive asymmetric learning approach is proposed to fuse these semantic topics. For each image document, the topic distribution of each modality is fused by multiplyingdifferent weights,which is determined by the entropy of the distribution of visual words. Consequently, the probabilistic model can predict semantic annotations for an unseen image because it associates visual and textual modalities properly. This approach is compared with several other state-of-the-art approaches on a standard Corel dataset. The experimental results show that this approach performs more effectively and accurately.【总页数】12页(P801-812)【作者】李志欣;施智平;李志清;史忠植【作者单位】中国科学院,计算技术研究所,智能信息处理重点实验室,北京,100190;中国科学院,研究生院,北京,100049;中国科学院,计算技术研究所,智能信息处理重点实验室,北京,100190;中国科学院,计算技术研究所,智能信息处理重点实验室,北京,100190;中国科学院,研究生院,北京,100049;中国科学院,计算技术研究所,智能信息处理重点实验室,北京,100190【正文语种】中文【中图分类】TP391【相关文献】1.基于视觉语义主题的图像自动标注 [J], 孙君顶;李海华;靳姣林2.基于潜在主题融合的跨媒体图像语义标注 [J], 刘杰;杜军平3.融合主题和视觉语义的图像自动标注方法 [J], 赵鹏;王文彬;朱伟伟4.基于语义链接网的图像自动标注 [J], 徐海蛟; 何佳蕾; 区德辉; 彭世锋5.基于级联网络和语义层次结构的图像自动标注方法 [J], 翟晴;顾广华;孙雅倩;任贤龙因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于潜在主题融合的跨媒体图像语义标注刘 杰1,2,杜军平1(1.北京邮电大学计算机学院,北京100876;2.中国电子科技集团公司第三十研究所,四川成都610041) 摘 要: 图像语义标注是图像语义分析研究中的一个重要问题.在主题模型的基础上,本文提出一种新颖的跨媒体图像标注方法来进行图像间语义的传播.首先,对训练图像使用主题模型,抽取视觉模态和文本模态信息的潜在语义主题.然后,通过使用一个权重参数来融合两种模态信息的主题分布,从而学习到一种融合主题分布.最后,在融合主题分布的基础上训练一个标注模型来给目标图像赋予合适的语义信息.在标准的MSRC和Corel5K数据集上将提出的方法与最近著名的标注方法进行比较实验.标注性能的详细评价结果表明提出方法的有效性.关键词: 图像语义标注;跨媒体;主题模型;加权融合中图分类号: TP37;TP391.4 文献标识码: A 文章编号: 0372-2112(2014)05-0987-05电子学报URL:http://www.ejournal.org.cn DOI:10.3969/j.issn.0372-2112.2014.05.024LatentTopicFusion-BasedCross-MediaImageSemanticAnnotationLIUJie1,2,DUJun-ping1(1.SchoolofComputer,BeijingUniversityofPostsandTelecommunications,Beijing100876,China;2.No.30InstituteofChinaElectronicsTechnologyGroupCorporation,Chengdu,Sichuan610041,China)Abstract: Imagesemanticannotationisanimportantissueinimagesemanticanalysisresearch.Basedonthetopicmodel,thispaperproposesanovelcross-mediaimageannotationapproachforpropagatingthesemanticsamongimages.First,thetopicmodelisusedtocapturethelatentsemantictopicsfromthevisualandtextualmodalinformationinthetrainingimages.Then,afusedtopicdistributionislearnedbymergingthetopicdistributionofeachmodalityusingaweightparameter.Finally,anannotationmodelbasedonthefusedtopicdistributionistrainedtoassignthetargetimagesusingappropriatesemantics.Acomparisonoftheproposedapproachwiththerecentstate-of-the-artannotationapproachesonthestandardMSRCandCorel5Kdatasetsispresented,andadetailedevaluationoftheperformanceshowsthevalidityofourapproach.Keywords: imagesemanticannotation;crossmedia;topicmodel;topic-weightedfusion1 引言 在图像语义分析研究中图像语义标注是一种重要的手段.其中,一个关键的问题[1]是通过建立视觉特征和语义关键词的某种关联关系来决定图像属于某个语义概念.因此,一个有效的语义标注模型,应该将目标语义空间与图像特征空间关联起来,在训练和测试数据之间有效地传播语义信息,帮助跨越“语义鸿沟”[2].基于相关模型的方法[3]是目前图像语义标注领域的一个研究热点.此种方法挖掘图像视觉特征集合与语义标注间的关联关系.该领域的一些早期工作[4]包括翻译模型(Translationmodel,TM),跨媒体相关模型(Cross-mediarelevancemodel,CMRM)和连续空间相关模型(Con-tinuous-spacerelevancemodel,CRM).后来,出现了著名的多伯努利相关模型(MultipleBernoullirelevancemodel,MBRM)[5].近期,又出现了结合空间马尔科夫核的统一相关模型(GeneralizedrelevancemodelwithspatialMarkovkernel,GRM-SMK)[6].以上工作逐步提高了图像语义标注的性能.主题模型是从文档语义分析中衍生出来的一种流行的机器学习技术[7],并被广泛的用于图像标注领域[8],其中比较有代表性的工作是PLSA-WORDS模型[9].特别的,潜在狄利克莱分配模型(LatentDirichletallocation,LDA)[10]作为一种具有代表性的主题模型被成功的用于挖掘文本和图像数据中的潜在语义主题信息[11].收稿日期:2013-01-07;修回日期:2013-06-17;责任编辑:马兰英基金项目:国家973重点基础研究发展计划(No.2012CB821200,No.2012CB821206);国家自然科学基金(No.61320106006)第5期2014年5月电 子 学 报ACTAELECTRONICASINICAVol.42 No.5May 2014 本文提出一种基于潜在主题加权融合的跨媒体图像标注模型(LDA-basedLatentTopic-WeightedFusion,LDA-LTWF).关键在于决定标注关键词和目标图像之间的内在联系,这种内在联系帮助决定了底层图像特征和高层语义之间的一个中间过渡层.本文所提出的跨媒体图像标注方法的示意图如图1所示.2 潜在主题加权融合 训练数据的标注关键词通过文本词袋模型表示[7].通过融合图像的加速稳健特征[12]和多分辨率直方图矩特征[13]来生成一种复合底层特征[14],而后用视觉词袋模型对图像进行表示[15].利用基于Gibbs抽样的LDA模型计算文本模态和视觉模态数据的潜在主题分布[16].2畅1 潜在主题加权融合在训练阶段,对每一幅图像学习融合潜在主题分布P(z|v).然后,对于每一个融合潜在主题z学习视觉词汇的后验分布P(x|z)和文本标注词的后验分布P(w|z).在标注阶段,首先生成每幅图像的视觉词汇表达vnew={x1,x2,…,xN}.然后,利用在训练阶段得到的P(x|z)为每幅图像计算融合潜在主题分布P(z|vnew).最后,根据每个潜在融合主题z的文本标注词分布P(w|z)计算测试图象的文本标注词分布P(w|vnew).选择具有最大后验概率的文本词汇作为目标图像的语义标注词.潜在主题加权融合过程如图2所示.假设视觉模态包含k个主题,文本模态包含l个主题.则融合主题空间就有t=k+l个主题.视觉模态的主题分布是Px(z|v),而文本模态的主题分布是Pw(z|v).对于图像vi,视觉模态的主题分布是Px(z|vi),而文本模态的主题分布是Pw(z|vi).该图像在融合主题空间的主题分布可由下式得出:p(zt|vi)=τpx(zt|vi), t=1,2,…,k(1-τ)pw(zt-k|vi),t=k+1,k+2,…,k+l(1)在式(1)中,τ表示图像vi的融合主题分布中视觉模态部分的权重.τ由下式计算得出:τ=α-H(x(vi))α(2)在式(2)中,H(x(vi))是图像vi的视觉词汇分布的信息熵.α是H(x(vi))的上界,通过交叉验证得出.2畅2 图像语义标注给定训练集合L={(v1,c1),(v2,c2),…,(vN,cN)},V={v1,v2,…,vN}为图像集合,C={c1,c2,…,cN}为标签集合.每个ci包含若干关键词{wi},关键词集合为W={w1,w2,…,wN}.测试集合为VT,VT∩V=.标注过程细节如下: 步骤1 对于vi∈V,计算其视觉词汇表达vi={x1,x2,…,xN}.对于标注信息ci,生成文本表达ci={w1,w2,…,wM}. 步骤2 利用LDA模型计算概率分布P(zx|v)、P(x|zx)、P(zw|v)和P(w|zw). 步骤3 使用式(2)计算权重参数τ.使用式(1)融合概率分布P(zx|v)和P(zw|v),生成融合分布P(z|v). 步骤4 由步骤三中得出的P(z|v),利用MCMC算法计算对应的视觉词分布P(x|z)和文本词分布P(w|z). 步骤5 在标注阶段,对测试图像vt∈VT,计算其视觉词汇表达vt={x1,x2,…,xN}. 步骤6 利用MCMC算法以及步骤四中得出的P(x|z)来计算其融合主题分布P(z|vt). 步骤7 计算关键词集合W中每个关键词的后验概率,计算式如下:p(w|vt)=∑Nn=1p(w|zn)p(zn|vt)(3) 步骤8 选择具有最大后验概率的关键词来标注测试图像vt.889 电 子 学 报2014年3 实验 本文使用MSRC数据集[17]和Corel5K数据集[18].使用准确率、召回率、F度量和召回率非零的关键词数量来评价标注方法的性能.3畅1 超变量和交叉验证两个超变量分别是视觉词汇的数量和潜在主题的数量.同时,还要决定视觉词汇分布信息熵的上界.首先,使用传统的K-means算法来对图像特征进行聚类.聚类数依次为100、200、400、600、700、800、900和1000,使用F度量值作为评价指标.对于MSRC数据集,使用10个主题学习文本模态,使用50个主题学习视觉模态;对于Corel5K数据集,使用50个潜在学习文本模态,使用50个主题学习视觉模态.表1显示了取自10折交叉验证平均值的比较结果.当k大于800时,两个数据集的F度量值有微弱的提高,但是计算花销却显著增加.因此,对于MSRC和Corel5K数据集,本文使用k=800作为视觉词汇数的最佳取值. 表1 不同视觉词汇数量在10折交叉验证中的平均F度量值MSRCCorel5Kk=1000.290.11k=2000.400.19k=4000.480.24k=6000.550.27k=7000.580.29k=8000.590.30k=9000.590.30k=10000.590.30 然后确定视觉词汇分布的信息熵的上界.视觉词汇分布的信息熵用H(x(vi))表示,满足0≤H(x(vi))≤lnk[16].其中,k表示视觉词汇的数目.因此,式(2)中需要的视觉词汇分布信息熵的上界为α=ln800.接着,对于MSRC和Corel5K数据集,估计最佳潜在主题的数目.其中,对于两个数据集,视觉模态的潜在主题数从10增加到120,间隔为10.对于MSRC数据集,文本模态的潜在主题数从10增加到20,间隔为1;对于Corel5K数据集,文本模态的潜在主题数从10增加到120,间隔为10.图3显示了在MSRC和Corel5K数据集上文本和视觉模态潜在主题数目的联合交叉验证中取得的F度量值比较结果.从图3(a)中可以看出,对于MSRC数据集,当文本模态的主题数为18,且视觉模态的主题数为60时,F度量值为最优.从图3(b)中可以看出,对于Corel5K数据集,当文本模态的主题数为40,且视觉模态的主题数为60时,F度量值为最优.3畅2 标注性能在MSRC数据集上,使用仅利用视觉模态成分的LDA-LTWF模型(L-VM)、MBRM模型和GRM-SMK模型与LDA-LTWF模型进行比较.不同模型的标注结果取自10折交叉验证的平均值,如表2所示.表2 MSRC数据集上的标注结果比较平均准确率平均召回率平均F度量值L-VM0.400.470.44MBRM[5]0.430.530.48GRM-SMK[6]0.610.620.62LDA-LTWF0.650.700.68 从表2中可以看出LDA-LTWF模型的标注性能大幅超过L-VM模型.这证明训练数据的视觉信息和文本信息的融合确实发挥了作用,并且能够较使用单一模态信息取得更好的标注性能.利用威尔考克森符号秩检验(P<0.05)对标注结果进行测试,LDA-LTWF模型在平均准确率、平均召回率和F度量值等指标上比其他模型中的最优者依次高出7%、13%和10%.同时,所有关键词的召回率均不为零.在Corel5K数据集上使用L-VM模型、MBRM模型、GRM-SMK模型以及PLSA-WORDS模型[9]与LDA-LTWF模型进行比较,结果如表3所示.利用威尔考克森符号秩检验(P<0.05)对标注结果进行测试.LDA-LTWF模型在平均准确率、平均召回率和F度量值等指标上比其他模型中的最优者依次高出7%、12%和10%.同时,989第 5 期刘 杰:基于潜在主题融合的跨媒体图像语义标注PLSA-WORDS模型、L-VM模型、MBRM模型、GRM-SMK模型和LDA-LTWF模型的召回率非零的关键词数依次为105、120、122、143和146.图4显示了Corel5K数据集上图像原始标注与LDA-LTWF模型标注的比较结果.LDA-LTWF模型能够为一些图像标注上原始标注中没有的关键词,并且这些关键词是合理的.表3 Corel5K数据集上的标注结果比较平均准确率平均召回率平均F度量值PLSA-W[9]0.140.200.17L-VM0.220.250.24MBRM[5]0.240.250.25GRM-SMK[6]0.300.330.31LDA-LTWF0.320.370.343畅3 权重参数的讨论用每幅图像的灰度mesh图来直观表示图像的视觉内容.在Corel5K数据集上的大量实验表明利用式(2)计算出的权重取值训练标注模型,当视觉词汇分布的信息熵小于2时,图像的语义标注性能较好.这表明潜在主题融合分布中的视觉模态成分在图像语义学习过程中发挥了主要作用.如果信息熵大于4,标注模型的性能仍然较好,则融合分布中视觉模态成分的权重较低,文本模态成分发挥较大作用.当信息熵的取值在2到4之间时,标注性能不甚令人满意.这表明视觉词汇分布的信息熵在2到4之间的图像有着很强的内容复杂性.因此,很难通过简单的权重取值来确定每种模态数据的贡献,从而难以学习到每幅图像所包含的准确的语义.本文通过测试4幅样例图像来表明权重参数τ对标注性能的影响,如图5所示. 在图5(a)中,“庭院”类图像视觉词汇分布的信息熵H(x(vi))为3.2,因此其τ值为0.52,其标注平均准确率为0.55.在图5(b)中,“马匹”类图像视觉词汇分布的信息熵H(x(vi))为2.8,因此其τ值为0.58,其标注平均准确率为0.67.所以由于上述两类图像视觉内容的复杂性,使得难以学习到合适的权重取值.在图5(c)中,“森林”类图像视觉词汇分布的信息熵H(x(vi))为5.4,因此其τ值为0.19,其标注平均准确率为0.70.这种情况中标注性能的改进是得益于文本模态数据的贡献.在图5(d)中,“飞机”类图像视觉词汇分布的信息熵H(x(vi))为0.60,因此其τ值为0.91,其标注平均准确率为0.73.这种情况中标注性能的改进是得益于视觉模态数据的贡献.4 结论 本文提出基于潜在主题加权融合的跨媒体图像语义标注方法,该方法的关键是对文本和视觉模态的潜在主题分布进行加权融合.其中,各模态信息的潜在主题分布由LDA主题模型抽取.然后利用融合潜在主题分布构建跨媒体图像语义标注模型.最后使用MSRC数据集和Corel5K数据集对该模型进行实验验证.实验结果证明了所提标注方法的有效性.参考文献[1]ATousch,SHerbin,JAudibert.Semantichierarchiesforimageannotation:Asurvey[J].PatternRecognition,2012,45(1):333-345.[2]JTang,ZZha,DTao.Semantic-gap-orientedactivelearningformulti-labelimageannotation[J].IEEETransactionsonIm-ageProcessing,2012,21(4):2354-2360.[3]DSZhang,MdMIslam,GJLu.Areviewonautomaticimageannotationtechniques[J].PatternRecognition,2012,45(1):346-362.[4]AMakadia,VPavlovic,SKumar.Baselinesforimageannota-099 电 子 学 报2014年tion[J].InternationalJournalofComputerVision,2010,90(1):88-105.[5]SFeng,RManmatha,VLavrenko.MultipleBernoullirelevancemodelsforimageandvideoannotation[A].InProc.IEEEConf.onComputerVisionandPatternRecognition[C].Wash-ington,DC,USA:IEEE,2004:1002-1009.[6]ZWLu,HSIHorace.Automaticimageannotationbasedongeneralizedrelevancemodels[J].JournalofSignalProcessingSystems,2011,65(1):23-33.[7]JZhong,QGSun,XLi,LSWen.AnovelfeatureselectionmethodbasedonprobabilitylatentsemanticanalysisforChi-nesetextclassification[J].ChineseJournalofElectronics,2011,20(2):228-232.[8]XKe,SZLi,DLCao.Atwo-levelmodelforautomaticimageannotation[J].MultimediaToolsandApplications,2012,61(1):195-212.[9]FMonay,DGPerez.Modelingsemanticaspectsforcross-me-diaimageindexing[J].IEEETrans.PatternAnalysisandMa-chineIntelligence,2007,29(10):1802-1817.[10]DMBlei.Probabilistictopicmodels[J].CommunicationsoftheACM,2012,55(4):77-84.[11]DPutthividhy,HTAttias,SSNagarajan.Topicregressionmulti-modallatentDirichletallocationforimageannotation[A].InProc.IEEEConf.onComputerVisionandPatternRecognition[C].LaJolla,CA,USA:IEEE,2010:3408-3415.[12]HBay,AEelaars,LVGool.Speed-uprobustfeatures(SURF)[J].ComputerVisionandImageUnderstanding,2008,110(3):346-359.[13]YJiang,RWang,PZhang.Texturedescriptionbasedonmul-tiresolutionmomentsofimagehistograms[J].OpticalEngi-neering,2008,47(3):037005.[14]JLiu,JPDu,XRWang.Researchontherobustimagerepre-sentationschemefornaturalscenecategorization[J].ChineseJournalofElectronics,2013,22(2):341-346.[15]WJWen,DXu,YJTang,SYLiu,SHFeng.Mutualinfor-mationbasedcodebooksconstructionfornaturalscenecatego-rization[J].ChineseJournalofElectronics,2011,20(3):419-424.[16]MBChristopher.PatternRecognitionandMachineLearning[M].NewYork,USA.Springer.2006.[17]JShotton,JWinn,CRother,ACriminisi.Textonboost:Jointappearance,shapeandcontextmodelingformulti-classobjectrecognitionandsegmentation[A].InProc9thEuropeanConf.onComputerVision[C].Graz,Austria:Elsevier,2006:1-15.[18]PDuygulu,KBarnard,JFGdeFreitas,DAForsyth.Objectrecognitionasmachinetranslation:Learningalexiconforafixedimagevocabulary[J].LectureNotesinComputerSci-ence,2006,2353:349-354.作者简介刘 杰 男,1984年出生,博士,工程师,中国电子科技集团公司第三十研究所,主要研究方向:智能信息处理、机器学习、网络通信.E-mail:sleetext2@163.com杜军平(通信作者) 女,1963年出生,博士,教授/博士生导师,北京邮电大学计算机学院,主要研究方向:人工智能、智能信息系统.E-mail:junpingdu@126.com199第 5 期刘 杰:基于潜在主题融合的跨媒体图像语义标注。