基于内容的视觉信息检索综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
鲁东大学信息与电气工程学院2014-2015学年第1学期
《学科前沿讲座》课程论文
课程号:2260131-02
任课教师周树森成绩
正文
基于内容的视觉信息检索综述
宋浩
(信息与电气工程学院,计算机科学与技术,2012级1201班,20122212689)
摘要:互联网和多媒体技术的快速发展以及图像采集量的迅猛增加,已促使基于内容的视觉信息检索成为最受关注的研究领域之一。网络资源的极大丰富以及图像检索技术不断发展成熟,使得图像检索技术的应用领域不断扩大,这为基于内容的图像检索技术的继续研究提供条件。
基于内容的视觉信息检索(CBIR)是指直接采用图像内容进行图像信息查询的检索,即在图像数据库中检索与用户所提交样本图像在内容上一致或相似的图像集合的过程,通过对图像底层特征的比较来实现检索。主要研究技术包括特征抽取、相似度量、图像匹配、用户反馈。目前CBIR技术和方法的研究虽然已有不少算法,但总体效果还是不尽如人意。仅基于色彩特征的检索方法是CBIR的主要方法之一,它所抽取的特征向量是颜色直方图,虽然能够较好地反映图像中各种颜色的频率分布,而且对图像中对象的旋转以及观察位置的变化不敏感,但无法保留各像素。CBIR技术可追溯到1992年。这项技术是为了解决报刊等媒体集团大量图片检索的难题而衍生出来的。
本文主要介绍基于内容的视觉信息检索技术的研究发展和问题、综合介绍及检索引擎的工作原理,应用前景和对其他领域的影响。
关键词:图像检索系统;检索引擎;基于内容的图像信息检索;对其他领域的影响。
1.研究发展和系统简介:
二十一世纪是一个多元化的信息社会,对图像的需求将是前所未有的巨大的,图像数据库也将得到长足的发展。因此,图像检索系统具有广阔的应用前景。这就使得图片采集、存储以及分享变得越来越容易,例如Flickr 网络相册和Panoramio 地图相册都已经收集了数百万的图片。大量图片的涌现,就带来如何组织和管理图像库的问题,如何有效地从庞大的图像数据库中浏览、检索和分类所需的图像成为急需解决的问题。
1.1研究发展
20 世纪70 年代出现的早期图像检索技术是基于文本的检索方法(text-based image retrieval),这种方法是对每幅图像进行人工标注,从而将图像检索转换为文本检索的过程。它是将用户输入的关键词与数据库或其他目标文本进行比较,并根据信息的内容给出文字描述,通过检索其描述文字进而找到所需的多媒体信息,但这种检索难以充分揭示和描述信息中有代表性的特征,并带有很大的主观性。尽管这种方法直接有效,并且基于文本的检索技术也在不断地进步,但是仍然有许多问题难以解决。随着多媒体技术快速发展,如数码相机,数字摄像机,拍照手机等设备的普及,使得图像数据库快速膨胀,如果再对每幅图像都进行人工标注将是件非常昂贵、耗时的工作,于是出现了很多没有明确标注的图片。此外人工标注有很大主观歧义性,不同的搜索引擎对同一幅图像的标注不同,导致同一幅图像又会有多种标注。
为了解决上述问题,90 年代初研究者又提出新的基于内容的图像检(Content Based Image Retrieval ,CBIR)方法,这种新方法是利用图像的视觉特征进行检索的[Basu et al,2004]。常用的图像视觉特征有颜色、纹理、形状以及空间分布等信息,通过这些底层特征集的某种合适距离判断图像之间的相似性,然后根据这种相似性给出检索结果。近年来,基于内容的图像检索系统得到了迅猛发展,大部分系统都是基于范例的查询。图像检索系统最主要的缺陷就是存在多种鸿沟,并引出了一些问题]:(1)感觉鸿沟(sensory gap):真实目标和来自场景记录的描述信息之间的不一致;
(2)语义鸿沟(semantic gap):图像的底层视觉特征和其高层语义之间存在着很大差异。
前者是由于记录信息的局限性影响到图像内容的识别,后者引发的问题是如何能从视觉内容中获取用户对图片的理解。这些问题直到现在都没有很好的解决办法,严重阻碍了基于内容的图像检索系统的发展以及实际应用和推广。近年来,为了缩小这些不一致带来的问题,研究者提出多种反馈方法和利用无监督或半监督方式提取文本关键词内容的方法。这种将视觉特征和文本描述结合起来的方法在解决每个独立系统的语义鸿沟时是非常有效的。但是这种方法仍然具有基于文本检索的缺点,因此这种结合的方法只能部分地解决语义鸿沟问题。
由于流媒体技术的发展、宽频传输频颈的突破和媒体信息量的增大,基于内容的多媒体检索方法正在逐步探究和兴起。它将利用图像、音频、视频等元素进行检索,实现真正意义上的多媒体信息检索,以满足人们对知识的多层面的需求。从1994 年至今,基于内容的图像检索技术得到了快速发展,但是要作为现实世界真正实用的检索系统,还需要考虑很多问题。如检索系统用到的关键技术、对检索结果的评价标准、现实世界对实用图像检索系统的要求以及图像检索引发的新研究领域等。
1.2基于内容的视觉信息检索系统简介
基于内容的图像信息系统主要有索引、查询检索三大模块组成。
1.2.1索引模块
在索引模块中,系统通过基于内容的图像索引技术自动地提取图像中的内容特征并存储于多媒体数据库中。由于不同的用户对同一张图片内容的认识不尽相同,而数字档案馆的用户又遍布全球各地。因此索引模块通常对同一份图像资料提取多种特征。特征提取后则要建立基于图像特征的索引。另外,对提取的多种图像还要进行特征组合,使系统能够调用合成的特征和特征表示来支持查询。
1.2.2查询模块
查询模块是实现人机交互的重要接口。基于内容的图像检索系统一般提供两种查询接口:特征查询和示例查询。特征查询是由用户直接给出要查询的图像的具体特征,通常用于图像学研究等专业领域的检索系统中。示例查询是由用户提供要查询的例子图像,查询模块根据例子图像自动提取其特征,然后在数据库中查找出所有与例子特征相似的图像。另外,当用户的检索目的比较含糊或不太熟悉数据库中的信息结构和信息类型时,浏览还可以初始化查询。即用户可以通过先浏览数据库来选择一个图像作为示例查询中的例子,然后提交给系统进行查询。
1.2.3检索模块
当用户提交查询条件后,检索模块便在数据库中查找所有与目标匹配的图像。所谓匹配,是根据图像之间内容特征的相似匹配,通常采用计算特征之间的距离来确定。特征距离越小,查询对象与目标对象之间的相似度越大;反之,则认为查询对象与目标对象无关。由于距离度量是一种相似性比较方法,所以检索结果往往包含一些与检索要求不相关的图像,检索模块利用相关反馈技术优化查询:基本思想是,在检索过程中,系统根据用户的查询要求返回检索结果,用户可以对检索结果进行评价和标记,并将这些信息反馈给系统,系统则根据这些反馈信息进行学习,并返回新的查询结果,从而使得检索结果更加满足用户的要求。相关反馈是提高系统查询效果强有力的方法。