基于内容的多媒体检索技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于内容的多媒体检索技术
摘要:
基于内容检索是多媒体研究中的新兴热点,会逐渐在很多领域中得到广泛的应用,本文主要介绍了基于内容的多媒体信息检索的概念、特点、查询和检索过程、基于内容的检索、基于视频的检索以及基于内容的多媒体信息检索的研究方向。
关键词:基于内容的检索;多媒体;图像检索;视频检索
1.引言
多媒体技术和Internet的发展将人们带入巨大的多媒体信息海洋,并进一步导致了超大型多媒体信息库的产生,光凭关键词是很难做到对多媒体信息的描述和检索的,这就需要有一种针对多媒体的有效的检索方式。如何有效的帮助人们快速、准确地找到所需要的多媒体信息,成了多媒体信息库所要解决的核心问题。
2.多媒体检索技术原理与方法
多多媒体检索是一种基于内容特征的检索(CBR:content-based retrieval)。所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。
与传统的信息检索相比,CBR有如下特点:
(1)相似性检索:CBR采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。
(2)直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。
(3)满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的应用要求。
(4)大型数据库(集)的快速检索:CBR往往拥有数量巨大、种类繁多的多媒体数据库,能够实现对多媒体信息的快速检索。
基于内容的检索体系通常如下图所示:
Figure 1基于内容的检索体系
2.1基于内容的静态图像检索
基于内容的图像检索必须要对图像进行基于内容的识别和解释,特征提取在图像检索中占有重要地位。图像检索所用到的基本特征有颜色、纹理、形状、图像的语义等等。
2.2颜色检索
颜色是描述一幅图像最直观、有效的特征,由于颜色具有一定的稳定性,所以是基于内容的图像检索中应用最广泛的特征。对颜色进行检索主要是利用颜色空间直方图进行匹配。颜色数据在查询时,颜色特征的提取主要有互补颜色空间直方图、直方图交叉法、直方图距离比较法、二次型距离算法等。采用基于颜色分布的匹配将获得更接近于被检索内容的视觉效果。
2.3纹理检索
纹理是描述图像的另一重要特征,图像的纹理特征主要包括粗糙性、规则性、线条相似性、凸凹性、方向性和对比度。常用的检索方法有共生矩阵均值方差法、频谱
分析和结构方法以及基于视觉模型的多分辨率分析、随机场模型等。纹理检索在图像分析和识别中起着重要的作用,它被广泛应用于气象云图、卫星遥测图像等。
2.4形状检索
形状是描述图像的本质特征之一,可用面积、离心率、圆形度、形状矩、曲率、分形维等全局和局部特征来表示,基于形状的检索对象可以分为基于二维形状和基于三维形状的检索。形状检索的基础是图像边缘的提取,常用检索方法有针对图像边缘轮廓线进行的检索和针对图形矢量特征进行的检索。
2.5基于内容的视频检索
视频又称动态图像,通常包含了动画和影像,是一组序列图像按时间顺序的连续表现,其表示与图像序列、时间关系都有关。帧、镜头和场景是视频信息的基本组成部分,在视频播放中,多个图形按先后顺序快速而连续地出现和消失,而这些单个的图形就是组成视频的最小单元———帧,其中对动态画面起到变化、转折和决定作用的称为关键帧;镜头表示通过摄像机的移动操作形成一个事件或连续的动作,它由一系列连续的帧组成;场景包含了多个镜头的组合,完整的视频是由一个或多个场景组成的。基于内容的视频检索就是要通过对视频数据中所包含的视觉内容进行分析和特征提取,查找到符合要求的相似内容片段。因此,其处理技术包括视频结构的分析、视频数据的自动索引和视频聚类。
2.6基于内容的音频检索
音频是另外一种重要的媒体。音频可以分为三种类型:波形声音、语音、音乐。波形声音是将模拟声音数字化后得到的数字音频信号,它可以代表语音、音乐、自然界和合成的声响;语音具有字词、语法等语素,语音经过识别可以转换为文本,文本也是语音的一种脚本形式;音乐具有节奏、旋律或和声等要素,是人声和乐器音响等配合所构成的一种声音,可以用乐谱来表示。音频信息检索可以分为基于语音技术的检索、音频检索和音乐检索。语音检索是以语音为中心的检索,采用语音识别等处理技术;音频检索是以波形声音为对象,用声学特征来检索;音乐检索是以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来检索。
3.应用前景
基于内容的多媒体检索技术的日益成熟不仅将创造出巨大的社会价值,而且将改
变人们的生活方式。因为它与传统数据库技术相结合,可以方便地实现海量多媒体数据的存储和管理,与传统Web搜索引擎技术相结合,它可以用来检索HTML网页中丰富的多媒体信息。基于内容的多媒体检索技术将会在以下领域中得到广泛应用:多媒体数据库、知识产权保护、数字图书馆、数字档案馆、网络多媒体搜索引擎、交互电视、艺术收藏和博物馆管理、遥感和地球资源管理、远程教育、远程医疗、远程购物、天气预报、多媒体编辑(个人电子新闻业务、媒体写作)以及军事指挥系统等等。多媒体信息检索技术的应用使多媒体信息检索系统、多媒体数据库,可视信息系统、多媒体信息自动获取和索引系统等应用逐渐变为现实。
4.结语
基于内容的多媒体检索是一个新兴的研究领域,在国内外仍处于研究、探索阶段, 因此在基于内容的检索领域中仍然存在许多问题。这些问题主要包括多媒体特征的描述和特征的自动提取、多媒体的同步技术、匹配和结构的选择问题, 以及按多相似性特征为基础的索引、查询和检索等。作为一个新兴的研究领域,同时由于其检索对象和范围的多样性,基于内容的多媒体检索还要解决多种检索手段相结合的问题, 以提高检索效率。此外,更好地理解检索内容以及使检索性能更接近人类视觉的特征,也是未来研究中需要解决的问题。
参考文献:
[1]基于内容的多媒体检索的研究现状和应用前景(张宁)
[2]用文本检索方法实现基于内容的图像检索(黄斌,杨世洪,吴钦章)
[3]基于内容的多媒体信息检索(黄丽娟)
[4]基于内容的多媒体检索和索引的研究(罗菁,王雅)