多媒体论文

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

课题论文

基于内容的图像检索技术综述

【摘要】随着多媒体技术的飞速发展,传统的基于文本的图像检索技术已经不能满足需求,因此基于内容的图像检索(Content-Based Image Retrieval,简称CBIR)应运而

生,并且迅速成为研究重点。本文叙述了关于CBIR的体系结构、技术流程及关键

技术

【关键词】基于内容的图像检索技术

1.引言

在当今数字化与网络化时代,多媒体已成为互联网信息高速公路上所传送数据的主要部分。例如:图像、音频和视频等多媒体内容目前在www中占据15%[243],且该数据还在飞速增长。同时,以网络、通信和多媒体数据处理为中心的多媒体应用业发展迅速:如视频点播、数字化图书馆、多媒体检索和虚拟现实等。

多媒体检索方式和方法很多,在这里我们主要讨论一下基于内容的图像检索方式。首先,解释一下什么是基于内容的多媒体检索,所谓基于内容的多媒体分析检索是指多媒体数据(如视频、音频流等)所蕴含的物理的和寓意的内容进行计算机分析理解,以方便用户查询,其本质是对无序的多媒体数据流结构化,提取语义信息,保证多媒体内容能被快速检索。

不同于文本信息,多媒体语义内容是通过多种媒质(如视频图像、音频和文字等)共同表达与补充。因此,对于多媒体信息分析就要对蕴含在多媒体数据流内的所有媒质特征进行分析,这些媒质包括:视频流中的图像帧,音频信号流,从视频图像中提取的字幕,由音频信号转录得到的语音和三维虚拟物体等信息。在对这些媒质提取特征之后,就可以只用这些特征来表征原有媒质,进而将连续的多媒体数据流分割称有语义信息的单位(如镜头和场景、语音与音乐等),最后将这些语义单位识别分类成先前定义的模板类型,为它们建立索引,方便检索与浏览。与文本信息检索相比,多媒体分析检索要复杂得多,一般分为四个主要步骤;多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据索引结构的构造与检索。如图所示:

早期图像检索使用的是文本标注方法,90年代初期,随着大规模数字图像库的出现,有些问题变得越来越尖锐,为克服这些问题,基于内容的图像检索技术(content-based image retrieval,简称CBIR )应运而生。区别于原有系统中多图像进行人工标注的方法,基于内容的检索技术自动提取每幅图像的视觉内容作为其索引,如色彩、纹理和形状等。两者比较,我们应该能认识到,基于内容的图像检索系统具有与传统基于文本检索系统完全不同的构架。首先,由于图像依赖其视觉特征而非文本描述进行索引,查询将根据图像视觉特征的相似度进行。用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后有系统查找与例子图像在视觉内容上比较相似的图像,按相似度大小排列返回给用户。这就是所谓的通过例子图像的检索(query by image example )。另外,基于内容的检索系统一般通过可视化界面和用户进行频繁的交互,以便于用户能够方便地构造查询、评估检索结果和改进检索的结果。

2.CBIR 的体系结构

CBIR 系统一般包括四个模块:一是图像处理模块,包括输入图像和图像特征的提取,图像输入过程是将图像输入到系统当中,类似于文本检索系统中文本录入过程,特征提取对用户或系统标明的图像对象进行特征提取处理。二是检索模块主要实现检索匹配过程,根据相关计算方法,实现提问与记录的匹配和筛选,最终得到符号要求的结果反馈给用户。三是对象库与特征库。CBIR 中的对象库存储了输入的图像资源,特征库包含了用户输入图像特征以及在处理过程中自动提取的特征。四是知识库的目的是为了将检索限定在任何领域范围内,

避免不同的检索要求以及不同的领域背景可能会导致对多媒体内容语义产生的不同要求。

用户

3.CBIR的技术流程

CBIR一般由以下几个步骤组成:一是初始检索提问。用户查找一个对象时,通过示例或特定的查询语言形成一个检索提问。二是相似性匹配。将查询特征和特征库汇总的特征按照一定的匹配算法进行相似匹配。三是结果输出。将满足一定相似性条件的一组候选结果按相似度大小排列后返回给用户。四是特征调整。对系统返回的结果可通过浏览来挑选,直至找到满意的结果,或从候选结果中选择一个示例,经过特征调整,形成一个新的查询。五是重新检索。逐步缩小查询范围,知道用户对查询结果满意或放弃为止。总之,CBIR是一个逐步由粗到精细的过程。

4.CBIR的关键技术

以图像特征作为索引,对静态图像进行检索是目前使用的最多方法。图像特征包括:图像的画面内容特征(如图像颜色分布、纹理结构、形状等);图像的主体对象特征(如图像所描述的人、车、建筑等);图像的著录特征(如作者、时间、地点等);以及图像的移动和组合特征(如影像中的场景)。传统图像检索局限在图像的著录特征上,而基于内容的图像检索技术则主要依据图像的画面内容特征和主题对象特征来进行检索。目前,比较成熟的特征索引是颜色、纹理和一些低层的、简单的形状特征和物体间方位关系。这些特征具有计算简单、性能稳定的特点,但这些特征有局限性,因此,近年来的研究则逐渐转向基于区

域、目标的图像表示、语义描述等。检索则引进用户反馈等方法。

4.1基于颜色特征检索

从人类视觉角度来看,颜色特征是人类感知和区分不同物体的一种基本视觉特征。世界也因为有了颜色而显得多彩多姿。颜色是一种重要的视觉信息属性,相对于其他特征,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较强的鲁棒性,而且颜色特征计算简单,因此成为现有的检索系统中应用最广泛的特征。

最早采用色彩进行图像检索的技术是由Swain 和Ballard 提出的基于色彩直方图相交方法,核心思想是在一定的色彩空间对图像各种色彩出现的频数进行统计。目前的图像检多是基于颜色直方图,颜色直方图法具有运算速度快、存储空间要求低的特点,并且具有图像的尺度及旋转变化不敏感等特点,因此得到了广泛关注。但是,基于不同颜色空间的检索系统的查询效果不同,没有统一的标准,增加了对各种检索系统评价的难度。此外,它只包含了该图像中某一色彩出现的频数,而丢失了像素所在的位置信息,检率较高。要进一步提高检索精度及其实用性,在实际应用中应和其它检索方法相结合,效果会更好。

颜色直方图作为图像索引的主要思想是根据颜色直方图统计颜色空间中每种颜色出现的概率,然后对颜色之间的距离采用直方图相交来度量每个颜色直方图之间的相似性。直方图描述了图像颜色(或灰度)统计特征,反映了图像颜色的统计分布和基本色调。具体地,对于一幅图像I,其颜色(或灰度)由L级( C1, C2,···, CL ) 组成,Ci为第i级颜色值. 在整幅图中, 具有Ci 值的象素个数为hi, 则一组象素的统计值h1, h2, ···,hL 就称为该图像的颜色直方图。用H ( h1, h2,···, hL )表示。选取合适的颜色空间后, 将采用有效的算法提取颜色特征, 典型的表达方法有颜色直方图法( Co lorH istogram ),颜色矩( Co lorMoments),颜色聚合向量CCV, 颜色相关图等。

相关文档
最新文档