语义图像检索研究进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语义图像检索研究进展
【摘要】本文探讨了基于语义图像检索相关技术,并且通过对语义图像检索技术的了解,我们讨论了语义图像检索存在的问题与其的发展方向。本文的研究具有重要的理论价值,同时为语义图像检索的发展起到启迪的作用。
【关键词】语义;图像检索;研究;进展
一、前言
在当今社会发展不断快捷的今天,人们有时候需要快速地检索出自己需要的图像,但是现在的图像信息是巨大的,这时候我们就需要某项技术能够帮助人们更快的找到我们需要的图像,基于语义的图像检索技术就是检索图像的方式之一,相信通过对其的研究能够达到更好的图像检索效果。
二、基于语义图像检索相关技术
1、图像语义模型
由于人们对图像内容的理解有着不同的层次,有人从图像的颜色去理解,有人从图像的对象去理解,也有人从图像所表现出来的行为去理解,也就是说图像的语义是具有不同层次的。王惠锋、孙正兴在他们的文章中给出了一个图像语义层次模型所示。他们把图像的语义定义为六个层次,从上到下依次为,特征语义,是指图像低层物理特征(颜色、形状、纹理)及其之间的相互组合,如蓝色的天空、红色的太阳;对象语义,是指图像当中出现的具有一定意义的对象,如一条狗、一座山;空间关系语义,是指图像各个对象之间的空间关系,如人旁边有条狗,狗旁边有只猫;场景语义,是指所有图像中对象所在的背景环境,如学校、森林;行为语义,是指图像内容所表现出的某种行为。
2、图像语义表示
如何描述图像的语义对语义的提取以及检索的效率有着十分重要的影响。语义的表示不仅要把图像的内容准确而客观的描述出来,对不同的内容有着不同的抽象,而且表示形式应当尽量简单、直观,同时考虑不同用户的不同需求。目前图像语义的表示方法大概有以下几种。
(1)文本形式。文本形式是最简单,也是最直观的图像语义表示方法。它是用关键字对整幅图像或图像的区域进行注解,另外还可以利用WordNet[26]将关键字之间的语义关系联系起来,而且它具有一定地同义词解析以及模糊匹配的能力。目前大多数的图像检索系统都是采用这种方法来表示图像语义的,比如IRIS 系统。但其不足之处也相当明显,它对具有复杂丰富内容的图像显得无能为力,而且自动获取这些关键字也存在着相当大的困难。
(2)知识表示方法。它是基于人工智能中的一些知识表示方法,如语义网
络、框架、数理逻辑以及基于Agent 表示等。近年来,研究人员提出了采用模糊布尔模型和概率布尔模型。
3、图像语义的提取方法
语义提取的最终目标是要将图像库中的每一幅图像用一定的语义表示。目前对图像语义的提取主要包括3个关键的处理过程:图像的视觉特征提取、图像中对象的识别以及基于域知识的推理。图像检索中的语义内容提取算法可以分成三大类:根据图像的底层特征直接自动提取语义内容、建立基于关键字的语义网络、基于语义向量的方法。
(1)底层视觉特征到高层语义的直接映射
图像的语义通常在一个高层次上描述图像内容,无论提取到的底层特征是什么,都很难用这些特征直接推导出语义。因此,现已提出的图像语义的提取方法多侧重于将底层的视觉特征直接映射到高层语义。即系统提取图像底层特征,而用户加人高层知识,通过采用语义分类技术,从底层特征中不断地分类学习从而获得高层语义阅。
大多数情况下,获取图像高层语义都需要使用机器学习技术,通过有监督和无监督的学习将图像归并到某种语义类,在一定程度上获得图像的语义标注信息。
①图像的分类
由于语义相关的图像具有相似的可视特征,使得根据提取的底层特征对图像进行语义分类成为可能。有监督的分类方法首先通过学习、训练事先给定的经过语义标注的一组样本图像,获得图像语义分类器,然后利用分离器将未标注或未归类的图像归并到某一语义类,即可获取图像的语义信息。
②图像的聚类
图像聚类是典型的无监督学习技术,它的原理是将图像集分组为多个聚类,使得位于同一聚类内的图像相似度尽可能大,而位于不同聚类的图像的相似度尽可能小,然后利用统计方法为每个聚类添加一个类标签,以获得各个图像聚类中的语义信息。图像聚类最常用的技术是传统的k一means聚类及其变形。
(2)基于关健字的语义网络
语义网络由一组与图像库中图像链接的关键字表示,并为每个链接赋予权值W,表示此关键字与图像的相关程度。一幅图像可以对应多个关键字,一个关键字也可以对应多幅图像。
首先通过对图像库中的一部分图像进行手工标注关键字,建立初始语义网
络。然后对语义网络进行训练,通过相关反馈技术来完善语义网络。随着检索次数的增多,关键字的个数也会增多,关键字与图像的链接也会增多,并利用相关反馈信息自动调整权值使关键字与图像间的相关程度更加符合实际情况,语义网络会越来越充实高效。
3、图像相似性测度
图像相似性测度是指以量化的方式来衡量两幅图像之间的相似程度,图像检索的最终目的就是寻找图像库中与查询目标相似图像的过程,因此,选择一个合适的相似性测度标准对图像的检索效果有很大的影响。一般来说,不同类型的特征应该采用不同的相似性测度准则,需根据具体情况进行选择,所以可以把相似性测度标准粗略的划分为两类,即基于低层特征的相似性测度和基于语义的相似性测度。
三、存在的问题和研究方向
基于内容的图像检索(CBIR)系统的目标是能最大限度地减小图像简单视觉特征和用户检索丰富语义之间的鸿沟。从前面的讨论中可以看到:解决图像检索的“语义鸿沟”,还需要很多方面的研究取得突破,主要体现在下面几个方面:图像对象建模和识别、语义抽取规则,用户检索模型和统一的性能评价标准。当然,图像语义的研究必须考虑人对图像的理解机制,这就要涉及到心理学和人的视觉认知模型。
1、图像中的对象识别
对象建模和识别是实施图像语义处理的基础和核心问题。理想状态下,应该先建立对象的三维模型,然后根据模型的不同视角,与分割良好的图像中的对象区域来进行匹配。但由于现实对象的多样性,即使是同一物件对象,在不同的视角、光照、距离、背景等情况下获得的图像,其形状、大小、纹理及颜色等视觉特征都会有不同程度的变化,因此存在很大的困难。
2、语义抽取规则
从图像中提取语义信息,实际上是利用先验知识将低层视觉特征映射到高层语义。上面提到的IRIS系统,就使用了一个复杂的外部知识库,然后基于知识库中的规则来进行自然场景的解释。对于人来说,这样的知识已经在日常生活中日积月累获得。但是对于一个语义检索系统,目前通常的做法是事先提供这样的知识库。这类知识库的生成一般比较困难,通常要利用专家知识或进行大量的试验。通过人工干预生成语义知识库工作量大,并且在不同情况下也不通用。
3、用户模型
由于语义是面向用户的,即不同的用户有不同的语义需求,如何让系统准确把握用户语义需求的内涵和粒度是系统能力的一个重要方面。对于提交范例图像