基于内容的多媒体检索

合集下载

多媒体数据库及基于内容检索

多媒体数据库及基于内容检索

多媒体数据库的软件环境
文件管理系统
– Windows 的文件管理器或资源管理器; – 图形、图像浏览工具软件; – 文件系统方式一般只适用于小的项目管理或较特殊的数据对象, 所表示的对象及相互之间逻辑关系比较简单,如管理单一媒体信 息;
建立特定的逻辑目录
传统的字符、数值数据库管理系统
– 把文件管理系统和传统的字符、数值数据库管理系统结合起来; – 由文件管理系统来建立和管理非常规数据(音频、视频、图形等 ),把数据文件的全文件名作为一个字符串数据纳入传统的数据 库系统进行管理。
第六章多媒体数据库 及基于内容检索
信息量爆炸式增长
数据库系统
数据库作为一种独立的应用领域已得
到了计算机界的认可,数据库已和计 算机、网络一起成为用户应用系统的 三大支柱。 数据库系统(DBS)由四个要素组成:用 户、数据库、数据库管理系统(DBMS )以及支持它的 硬件和软件。DBMS 是管理数据库的系统软件,它是DBS 中最主要的成分。
多媒体数据库的基本功能
多媒体数据库系统除必须满足物理数据独立性和逻辑数据
独立性外,还应满足媒体数据独立性。
– 物理数据独立性是指物理数据组织(存储模式)改变时,不影响 概念数据组织(逻辑模式); – 逻辑数据独立性是指概念数据组织改变时,不影响用户程序使用 的视图(外模式); – 媒体数据独立性是指在多媒体数据库管理系统的设计和实现时, 要求系统能保持各种媒体的独立性和透明性,即用户的操作可最 大限度地忽视各种媒体的差别,而不受具体媒体影响和约束;同 时要求他不受媒体变换的影响,实现复杂数据的统一管理。 – 由于多媒体数据库的数据种类繁多,语义关联丰富,内部结构表 示各异,故各种模式及映像比传统数据库复杂得多,涉及的数据 量也大得多,要真正做到物理数据独立性、逻辑数据独立性和媒 体数据独立性并非易事。

信息检索的革命 --基于内容的多媒体信息检索

信息检索的革命 --基于内容的多媒体信息检索

基于内容的视频检索常用关键技术
---- 目前人们普遍认为视频结构的模型化或形式化是解决基于内容视频检索问题的关键,为此需要解决以下关键技术。
---- 1.关键帧抽取与镜头分割
---- 文本索引使用关键词作为标识句子、段落、文档的指针,同理,在视频流信息中,关键帧起着与关键词类似的作用。人们常用关键帧来标识场景、故事等高层语义单元。比帧高级一些的视频基本单元是镜头,通常视频流中的镜头由在时间上连续的视频帧组成,它代表一个场景中在时间上和空间上连续的动作,对应着摄像机的一次纪录起停操作。镜头之间可存在多种类型的过渡方式,最常见的是切变(Cut),表现为在相邻2帧间发生突变性的镜头转换。此外,还存在一些较复杂的过渡方式,如淡入、淡出等。
国内外已开发出的原型系统
---- 1.QBIC系统
---- IBM Almaden研究中心研究开发的,是基于内容检索系统的典型代表。QBIC系统允许使用例子图像、用户构建的草图和图画、选择的颜色和纹理模式、镜头和目标运动和其他图形信息等,对大型图像和视频数据库进行查询。
---- 2.Photobook系统
---- 3.形状特征提取
---- 一般说来,形状的表示可分为基于边界的和基于区域2类,前者使用形状的外部边界,而后者使用整个区域。
---- 4.相关反馈
---- 仅仅基于图像低层特征很难给出令人满意的结果,主要原因是图像低层特征和高层语义间存在着很大的差距。为了解决这个问题,一方面需要研究出更好更有效的图像表示方法,另一方面我们可以通过人机交互的方式来捕捉和建立低层特征和高层语义之间的关联,这就是所谓的相关反馈技术。相关反馈技术最初用于传统的文本检索系统中,它的基本思想是,在检索过程中,系统根据用户的查询要求返回检索结果,用户可以对检索结果进行评价和标记,并将这些信息反馈给系统,系统则根据这些反馈信息进行学习,并返回新的查询结果,从而使得检索结果更加满足用户的要求。1998年Rui Yong在MARS系统中首次将相关反馈应用于基于内容的图像检索中,自此采用相关反馈技术进行检索的研究开始多起来。基于内容检索中的相关反馈技术大致可分为4种类型: 参数调整方法、聚类分析方法、概率学习方法和神经网络方法。

基于内容的多媒体检索技术综述

基于内容的多媒体检索技术综述

基于内容的多媒体检索技术综述摘要本文通过分析基于内容的多媒体信息检索技术的特点,阐述了基于内容的多媒体信息检索的图像检索技术、视频检索技术以及其发展趋势。

关键词多媒体信息检索技术;图像检索;视频检索1关于基于内容的多媒体信息检索技术所谓基于内容的信息检索,是对文本、图像、音频、视频等媒体对象进行内容语义的分析和特征的提取,并基于这些特征进行相似性匹配的信息检索技术。

它与传统数据库基于关键词的检索方式相比,具有如下特点:1)突破了关键词检索基于文本特征的局限,直接从媒体内容中提取特征线索,使检索更加接近媒体对象。

2)提取特征的方法多种多样。

3)人机交互式检索。

通过人机交互的方式来捕捉和建立多媒体信息低层特征和高层语义之间的关联,即所谓相关反馈技术。

其目的是在检索过程中根据用户的查询要求返回一组检索结果,用户可以对检索结果进行评价和标记,然后反馈给系统,系统根据这些反馈信息进行学习,再返回新的查询结果,从而使检索结果更接近用户的要求。

4)相似性匹配检索。

基于内容的检索是按照一定的匹配算法将需求特征与特征库中的特征元数据进行相似性匹配,满足一定相似性的一组初始结果按照相似度大小排列,提供给用户。

这与关键词的精确匹配算法有明显不同。

5)逐步求精的检索过程。

用户通过浏览初始结果,可以从中挑选相似结果,或者选择其中一个结果作为示例,进行特征的调整,并重新进行相似性匹配,经过多次循环后不断缩小查询范围,做到逐步求精,最终得到较为理想的查询结果。

2基于内容的图像检索基于内容的图像检索技术是通过分析图像的内容,提取其颜色、形状、纹理等可视特征,建立特征索引,存储于特征库中;在检索时,用户只需把自己对图像的模糊印象描述出来,就可以通过多次的近似匹配,在大容量图像库中查询到所需图像。

2.1基于颜色特征的检索基于颜色特征的检索算法中通常用颜色直方图来表示图像的颜色特征。

直方图能较好地反映图像中各颜色的频率分布,横轴表示颜色等级,纵轴表示在一个颜色等级上,具有该颜色的像素在整幅图像中所占的比例。

基于内容的多媒体检索技术

基于内容的多媒体检索技术

基于内容的多媒体检索技术摘要:基于内容检索是多媒体研究中的新兴热点,会逐渐在很多领域中得到广泛的应用,本文主要介绍了基于内容的多媒体信息检索的概念、特点、查询和检索过程、基于内容的检索、基于视频的检索以及基于内容的多媒体信息检索的研究方向。

关键词:基于内容的检索;多媒体;图像检索;视频检索1.引言多媒体技术和Internet的发展将人们带入巨大的多媒体信息海洋,并进一步导致了超大型多媒体信息库的产生,光凭关键词是很难做到对多媒体信息的描述和检索的,这就需要有一种针对多媒体的有效的检索方式。

如何有效的帮助人们快速、准确地找到所需要的多媒体信息,成了多媒体信息库所要解决的核心问题。

2.多媒体检索技术原理与方法多多媒体检索是一种基于内容特征的检索(CBR:content-based retrieval)。

所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。

基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。

在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。

与传统的信息检索相比,CBR有如下特点:(1)相似性检索:CBR采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。

(2)直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。

(3)满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。

媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的应用要求。

基于内容的多媒体信息检索技术在广电海量媒体内容管理中的应用

基于内容的多媒体信息检索技术在广电海量媒体内容管理中的应用
l 1i |
l =I 1 .  ̄-n = z-: 。 i !
lc Z A V
在检 索界面中 ,提供下列查询功能 : 1) 文本关键 词查询 ; 2) 样本图像查询 ; 3) 关键帧查询 ;
个 集群 管理子 系统 ,它负 责对各个 服务 器 的状 态进 行监 控 ,
将采集到 的数据上载到 选定 的服 务器。服务器将 收到的视频 数据存储 到磁盘 ,并作 内容分析 、处 理 ,生成相应 的索引数
据 库。浏览检 索服务根据 索引从视频 数据库 中提取 出用户需 要的视频片段。
音进行识 别的知识等 。如何有效地 获取 、管理 和维护这 些知 识 是 非常重要的 ,需 要通过大量 的前期 训练、人工 交互 、自
4) 闻标题查询等。 新
下载 功能是指 用户将感兴 趣的节 目片段从服 务器传送 到 客户端存储。
12系统架构 . 系统硬件结构组成框 图如 图 2所示。 根 据输入节 目套数和 归档时 间要 求的不 同,可 以配备 的 服 务器数量 为 1 1 ,存储 空间变化范 围为 5 0 ~ T 。整 ~0 0 GB 5 B 个 系统 可以配备的采集工作站数量为 1 在 4台服务器 内实现 镜像备份 ,所 以任何一
台服务器暂 时停止工作都不会对系统造成影 响。
整个 系统 的工 作 框 图 如 图 3所 示 。
所 有 的服务 器处于 集群工作 方式 ,所 有 的采 集终 端也处 于并行工作方式。采集终端根据当前服务器信息和负载状态 ,
套数 为 1 8 。 - 0
内容 生成就是 将视频 节 目内容 和特 定的数据 增值业务 内
容结合起来 ,形成新的内容 。
4 浏 览 与 检 索 引擎

多媒体数据库及基于内容检索

多媒体数据库及基于内容检索

多媒体数据库及基于内容检索在当今数字化信息爆炸的时代,多媒体数据如图片、音频、视频等在我们的日常生活和工作中无处不在。

为了有效地管理和利用这些海量的多媒体信息,多媒体数据库应运而生。

同时,基于内容的检索技术也成为了从多媒体数据库中快速准确获取所需信息的关键手段。

多媒体数据库是一种能够存储、管理和处理多媒体数据的数据库系统。

与传统的关系型数据库不同,多媒体数据库需要处理的数据类型更为复杂多样,包括图像、音频、视频、文本等。

这些数据不仅具有大容量、高维度的特点,还存在着语义丰富、结构复杂等问题。

因此,多媒体数据库在数据模型、存储结构、索引机制等方面都有着独特的设计和实现方式。

在数据模型方面,多媒体数据库通常采用面向对象的数据模型或者扩展的关系模型来描述多媒体数据的复杂结构和语义关系。

例如,对于图像数据,可以将其表示为对象,包含图像的属性(如分辨率、色彩模式等)、图像的内容特征(如颜色直方图、纹理特征等)以及与其他数据的关联关系。

存储结构方面,由于多媒体数据的大容量特点,传统的磁盘存储方式可能无法满足性能要求。

因此,多媒体数据库常常采用分布式存储、缓存技术、数据压缩等手段来提高数据的存储和访问效率。

索引机制对于多媒体数据库的性能至关重要。

针对不同类型的多媒体数据,需要设计专门的索引结构。

例如,对于图像数据,可以基于颜色、形状、纹理等特征建立索引;对于音频数据,可以基于频率、时长、节奏等特征建立索引;对于视频数据,可以基于关键帧、镜头切换、运动轨迹等特征建立索引。

基于内容的检索是多媒体数据库中的核心技术之一,它允许用户根据多媒体数据的内容特征而非仅仅是元数据(如文件名、创建时间等)来进行检索。

基于内容检索的基本思想是首先对多媒体数据进行特征提取,然后将提取的特征与用户输入的查询特征进行匹配,从而找到相关的多媒体数据。

在特征提取方面,需要根据不同类型的多媒体数据采用不同的方法。

对于图像数据,可以提取颜色、形状、纹理等特征;对于音频数据,可以提取频谱、音色、节奏等特征;对于视频数据,可以提取关键帧特征、镜头特征、运动特征等。

基于内容的多媒体信息检索

基于内容的多媒体信息检索
包括 基 于文 本 的检索 T BR和 基 于 内 根 据 相 关 性 排 序 后 返 回 给 用 户 。 需 要 容 的 检 索 CB R 两 种 。T BR实 现 原 理 使 用 到 的主 要 技 术 包 括 图像 处 理 、模 相 对 简单 ,技 术 成 熟 ,但 由于 数 据 自 式识 别 、计 算机 视 觉 、 图像 理解 等 。 身 无 法 进 行 文 本 描 述 ,缺 乏 统 一 标 准 。 常 见 的 多媒 体 信 息 主 要 包 括 图像 、
般 包 括 图像 信 息 、音 频 信 息 和 视 频 进 行 ,费 时 费 力 , 且 缺 乏 客 观 性 ,故
信 息 等 。 由于 多 媒 体 数 据 在 组 织 结 构 检索 结 果存 在 不稳 定性 。 和 表 达 形 式 上 都 与 传 统 的 文 字 数 据 不 同 ,所 以 如 何 从 庞 大 的 信 息 集 合 中快
摘 要 :多媒 体 信 息 检 索 已 经成 为 生 活和 工 作 中不 可 或缺 的

2 多媒体检索技术概 述
2 . 1多 需
求 向量 ,并 将 需 求 向量 与 索 引 库 中 的
部 分 ,基 于 内 容 的 多媒 体 检 索 ,
内容 的检 索 图像 特征 提取 匹配
技 术
确 性 却可 以大 大 提高 。
频 的媒 体 特 征 主 要包 括 镜 头 、场景 、 镜 头 的运 动等 。
2 . 2基 于文水 的 多媒体检索
基 于 文 本 的 检 索 是 目前 网络 检 索 系统 中 的 主 流 方 式 。它 的 实 现 方 式 是
图 像 噪 声 以及 颜 色 分 布 不 均 匀 对 图像 方 图 。我 们 在 这 个 过 程 中 常 使 用 的方 元 , 纹 理 就 是 纹 理 元 规 律 性 分 布 的 结 特征 提 取造 成 的影 响 。 ( 3)特 征 提取 法 包 括 颜 色 直 方 图 、颜 色 矩 、颜 色集 、 果 。 纹 理 特 征 具 有 旋 转 不 变 性 ,且 抗 颜 色聚 合 向量 、颜 色相 关 图等 。 ( 1)颜 色直 方 图 噪 能 力强 ,但 受 图 像 分 辨 率 的影 响 较

基于内容的检索技术与多媒体数据库

基于内容的检索技术与多媒体数据库
科技信息
计 算机 与 Байду номын сангаас络
基 于内 窖昀 植 索 技 术 与多 媳 傩 数据 库
华 东师 范大 学教 育信 息技术 学 系 上 海农林 职业技 术 学院应 用外语 系 张翠 玉
[ 摘 要] 本文主要讨论 了 多媒体数据库的检索技术 中, 在 围绕图像、 视频 、 音频等 多 媒体信息 , 实现对多媒体数据库基于内容的检索。 [ 关键词 ] 多媒体 基于 内容的检 索 视频 音频 查询接 口 多媒体是将计算机 、 电视机 、 录像机 、 录音机 和游 戏机 等技术融 为 体 , 电脑与用户之间可以相互交流的操作环境 。 形成 它可以接收外部 图像 、 声音 、 录像及各种 媒体信息 , 经计算机加 工处 理后以图片 、 文字 、 声音 、 动画等 多种方 式输 出 , 实现输入输 出方式 的多元 化 , 改变 了计算 机只能输入输 出文字 、 数据 的局限 , 计算 机开始 能说会 唱起来 。在计算 机和通信领域 , 我们所指的信息 的正 文、 图形 、 声音 、 图像 、 画, 可以 动 都 称为媒体 。 从计算机和通信设备处理信息的角度来看 , 我们可以将 自 然 界和人类社会原始信息存在 的形式——数据 、 文字 、 有声的语言 、 音响 、 绘 画、 动画 、 图像( 静态 的照片和动态 的电影 、 电视和录像 ) , 等 归结为三 种最基本的媒体 :声 、图 、 。传统 的计算机 只能够处理单媒体—— 文 “ ” 电视能够传播声 、 文集成信息 , 文 , 图、 但它不是多媒体系统 。通过 电 视, 我们只能单向被 动地接受信息 , 不能双 向地 、 主动地处理信息 , 没有 所谓的交互性。可视电话虽然有交互性 , 但我们仅仅能够听到声音 , 见 到谈话人 的形象 , 也不是 多媒体 。所谓多媒体 , 是指能够 同时采集 、 处 理、 编辑 、 存储 和展示两个或 以上不 同类型信息媒体的技术 , 这些 信息 媒体包括文字 、 声音 、 图形 、 图像 、 动画和活动影像等。 多媒 体数据包含有 图像 、 视频 、 音频等十分丰富的信息内容 , 有着 : 数据量大 、 数据类型多 、 数据类型差别大 、 输入和输出复杂等特点 。 多媒 体数据大多具有难 以用符号描述的特征 , 如图像中的颜 色分布 , 视频中 的运动 、 音频 中的音调等 , 由于它们属 于非格式化数据 , 以对其 进行 所 查询和处理 就相 当困难 , 即基于内容 的检索 问题。 多媒体 数据库 M BM h nd a bs 是建立多媒体应用软件 系 D ( u i ei D t ae i a a ) 统最重要 的工具 。 它是数据库技术与多媒体技术结合 的产物。 多媒 体数 据库不是对现有的数据进行界面上的包装 ,而是从 多媒体数据 与信 息 本身的特性 出发 , 考虑将其 引入到数据库中之后而带来 的有关问题。多 媒体数据库从本质上来说 , 要解 决三个 难题 。第一是 信息媒体 的多样 化, 不仅仅是数值数据和字符数据 , 要扩 大到多媒体数据 的存储 、 组织 、 使用和管理 。 第二要解决 多媒体数据集成或表现集成 , 实现多媒体 数据 之间的交叉调用和融合 , 成粒度越细 , 集 多媒体一体 化表现才越强 , 应 用 的价值也才越大。第 三是多媒体数据与人之 间的交互性。 随着互联网的发展 , 对多媒体数据的检索要求越来越多。在传统 的 数据库检索 中, 一般采用 的是基于标识符 、 属性 、 字等形式的检索 关键 方 法, 这些方法只与数据类 型和数据结构有关 , 不需要对 内容作任何分 析。这种传统的基于结构化 的关 系数据库检索方式并不适合非结构化 的多媒体数据的检索 , 为多媒体数据的检索提 出了新的要求。 这就 多媒 体数据库在其应用中并不满足 于这些简单 的检索方式 ,而需要分析媒 体 的语 义内容 , 得到更深 的检索层次 。如 “ 查找包含人脸的所有 图像 ” , 这种检 索就涉及到图像 的内容 , 它很难用一般 的形式进行描述。 概括地 说: 涉及媒体 内容和语义理解 的检索都可以归纳为基于内容的检索 。 基 于内容检索 , 就是从多媒体数据 中提取 出特定 的信息线索 , 然后 根据这些线索从大量的数据库 中, 检索 出具有相似特征 的多媒体数据 。 基于内容 的检索是一门新 的信息检索技术 。它 以认知科学 、 用户模型 、 模式识别 、数据库管理 系统 、信息检索等领域 的研究方法和技术为基 础, 研究新的媒体数据 的表示 与数据存储模式 、 有效 可靠 的查询方法 、 智 能查 匐接 口等。 基 于内容 的检 索是对媒 体对象 的内容及 上下文语 义环境 进行检 二 索, 如 像 中的颜色 、 纹理 、 形状 , 视频中的镜头 、 场景 、 头的运动 , 镜 声 音 中的音调 、 响度 、 音色等 。基 于内容 的检索 突破 了传统 的基于文本检 索技术 的局 限 , 直接对 图像 、 视频 、 频 内容进 行分析 , 音 抽取特 征和语 义, J 利月 这些内容特征建立索引并进行检索 。在这一检索过程 中, 它主 要 以图像 处理 、 模式识别 、 计算 机视觉 、 图像理解等学科 中的一些方法 为部分基础技术 , 多种技术的合成。 是 、 与传统的信息检索相 比, 基于内容的检索有如下特点 : f 从媒体 内容中提取信息线索 。基于 内容 的检索突破 了传统 的基 1 ) 于关键词 检索的局限 , 直接对 图像 、 频 、 视 音频进行分析 , 取特征 , 抽 使 得检索更加媒体对象。 f1 2提取特征的方法多种多样 。 以图像 的提取为例 , 可以提取形状特 征、 颜色特征 、 轮廓特征等 。 f) 3人机交互进行。 一般地人类对 于特征 比较敏感 , 能迅速分辨 出目 标 的轮廓 、 音乐的旋律等 , 但对 于大量的对象 , 一方 面难 以记 住这些特 征, 另一方面人工从 大量数据 中查找 目 标效率非常低。因此 , 使用基于 内容检索 的系统时 , 与计算机相互配合 , 人 进行启发式检索是一种有效

基于内容的多媒体检索技术

基于内容的多媒体检索技术

基于内容的多媒体检索技术在当今数字化信息爆炸的时代,多媒体数据呈现出海量增长的态势。

图像、音频、视频等多媒体内容充斥着我们的生活,如何从这庞大的信息海洋中快速、准确地找到我们所需的内容,成为了一个迫切需要解决的问题。

基于内容的多媒体检索技术应运而生,它为我们提供了一种高效、智能的解决方案。

多媒体检索,简单来说,就是根据多媒体对象的内容特征来进行搜索和查找。

传统的基于文本的检索方式,往往依赖于人工对多媒体内容进行标注和描述,这种方式不仅费时费力,而且容易出现主观性和不准确的问题。

基于内容的多媒体检索技术则直接从多媒体数据本身提取特征,如颜色、形状、纹理、音频的频率、音色,视频的镜头、场景等,然后根据这些特征进行匹配和检索。

在图像检索方面,颜色是一个重要的特征。

比如,我们要查找一张以蓝色为主色调的图片,系统会分析图像中像素的颜色分布,将那些蓝色占比较大的图片筛选出来。

形状特征也是常用的,像圆形、方形、三角形等几何形状,或者更复杂的物体轮廓。

纹理特征则可以帮助区分具有不同材质或表面特性的图像,比如光滑的、粗糙的、有规律的、无规律的纹理。

音频检索中,频率特征起着关键作用。

不同的声音具有不同的频率分布,比如高音和低音。

音色特征能反映出声音的特质,像钢琴声和小提琴声就有明显不同的音色。

此外,音频的节奏、时长等也是重要的检索依据。

视频检索相对更为复杂,因为它融合了图像和音频的特征。

视频中的镜头切换、场景变化、人物动作等都可以作为检索的特征。

比如,我们要查找一个篮球比赛中投篮的镜头,系统会分析视频中的画面和动作,找出符合条件的片段。

基于内容的多媒体检索技术的实现离不开一系列的关键技术。

特征提取是第一步,这就好比从海量的数据中提取出关键的“指纹”。

特征的表示和存储也至关重要,要以一种高效、便于比较和计算的方式来保存这些特征。

相似性度量则用于判断两个多媒体对象的特征是否相似,从而确定是否匹配。

为了提高检索的准确性和效率,索引结构的设计也非常重要。

多媒体信息检索

多媒体信息检索

关于基于内容的多媒体信息检索的认识钟雨祺(14图书情报硕士 2014281040147)多媒体技术、网络技术和信息数字化处理等高新技术的飞速发展,使得多媒体数量激增,特别在网络上信息不再只是单纯的文本信息,图形图像、视频、声音等多媒体信息逐渐占有越来越大的比重,一种基于内容的多媒体数据库查询与检索技术———CBR (Content Based Retrieval)应运而生。

1 基于内容的多媒体信息检索1.1基于内容的图像检索图像检索一般是基于图像的颜色特征、纹理特征、形状特征和空间关系特征四种特征。

颜色特征是图像检索中应用最为广泛的视觉特征。

纹理特征是一种不依赖于颜色或亮色的反映图像中同质现象的视觉特征,它包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。

形状特征有两种表示方法:一种是轮廓特征的,一种是区域特征的。

图像中对象的所在位置和对象之间的空间关系同样是图像检索中非常重要的特征。

空间关系特征有两种检索方法:一是首先对图像进行自动分割,划分出其中所含的对象或颜色区域,然后根据这些区域对图像索引;二是简单地将图像均匀划分若干规则小块,对每个图像小块提取特征建立索引。

1.2基于内容的视频检索视频检索实际上属于图像的范畴。

视频除了具有一般静态图像的特征外,还具有动态性,所以视频又称动态图像。

视频检索的方法主要有三种:①基于关键帧的检索。

关键帧通常是一幅图像,因而可以采用与图像检索相似的方法。

一旦检索到目标关键帧,用户就可以利用播放器观看它所代表的视频片段。

②基于运动的检索。

它基于镜头和视频对象的时间特征来检索,包括检索摄像机的移动操作和场景移动,以及用运动方向和运动幅度等特征来检索运动的主体对象。

③浏览。

一般采用分层结构和集束分类技术。

1.3基于内容的音频检索音频检索是以波形声音为对象的检索。

波形声音是对模拟声音数字化而得到的数字音频信号,这里的音频可以代表语音、音乐、自然界和合成的音响。

基于文本的多媒体检索与基于内容的多媒体检索的比较_0

基于文本的多媒体检索与基于内容的多媒体检索的比较_0

基于文本的多媒体检索与基于内容的多媒体检索的比较【摘要】:随着多媒体信息的不断增长,基于内容的多媒体信息检索技术成为信息检索领域的一个热点。

文章在对基于文本的多媒体信息检索和基于内容的多媒体信息检索详细比较分析的基础上,探讨了多媒体信息检索的发展趋势。

【关键词】:多媒体检索;基于文本;基于内容传统的基于文本的多媒体信息检索已经不能完全满足用户的要求,基于内容的多媒体检索技术成为当前多媒体信息检索的研究热点。

因此,对这两种多媒体检索技术进行比较分析,为确定未来多媒体信息检索发展方向提供一定的借鉴。

1. 传统基于文本的多媒体检索1.1 基于文本的多媒体检索的原理由于早期信息检索处理的对象只有文本,所以基于文本的多媒体信息检索技术便应运而生,并且仍然是当前最基本、最常用的一种多媒体信息检索方式。

这种基于文本的信息检索技术首先对多媒体进行人工分析,并抽取反映该多媒体物理特性(拍摄方式、载体规格和文件大小等)和内容特性(责任者、代表多媒体内容的关键词或主题词等)的文本信息,然后对这些文本信息按照学科领域进行分类,或提取关键字进行文字著录或标引,建立类似于文本文献的标引著录数据库,从而将对多媒体信息的检索转变成对文本信息的检索。

在这种检索方式中,通过数据库中的关键字段与多媒体建立链接,从而通过检索数据库中的关键文本字段来获取多媒体信息。

这种方式的检索具体可以采用四种途径进行检索:a)利用文件扩展名和超文本标识。

如图像文件的“.bmp” 、“.gif”、“.tif” 、“.jpg”、视频文件的“.avi”、“.mov” 、“.mpeg”、声音文件的“.wav”、“.mp3” 、“.mid”等。

用这种方法只能保证检索到的结果是含有该格式的文件,而检索结果的内容则可能由于文件名的不同而由差别。

b)将多媒体文件名和文字解说中带有的媒体信息作为关键词。

c)多媒体所在网页的标题或多媒体数据附近的文本。

标题往往能反映网页的内容,通过这些关键词也能得到检索结果。

基于内容的多媒体检索技术

基于内容的多媒体检索技术

基于内容的多媒体检索技术在当今信息爆炸的时代,多媒体数据如图片、音频、视频等的数量呈指数级增长。

如何从海量的多媒体数据中快速准确地找到我们需要的信息,成为了一个亟待解决的问题。

基于内容的多媒体检索技术应运而生,为我们提供了一种有效的解决方案。

基于内容的多媒体检索技术是一种直接根据多媒体数据的内容特征进行检索的方法,它与传统的基于文本标注的检索方式有很大的不同。

传统的检索方式往往依赖于人工对多媒体数据进行标注,然后通过对标注文本的关键字匹配来实现检索。

这种方式不仅效率低下,而且标注的准确性和完整性也难以保证,容易导致检索结果的不准确和不全面。

而基于内容的多媒体检索技术则通过对多媒体数据本身的内容进行分析和提取特征,如颜色、形状、纹理、音频的频率、视频的帧等,然后建立相应的索引,从而实现快速准确的检索。

在图像检索方面,基于内容的检索技术通常会先对图像进行特征提取。

例如,对于颜色特征,可以通过计算图像中颜色的分布、主色调等来描述;对于形状特征,可以使用边缘检测、轮廓提取等方法来获取;纹理特征则可以通过分析图像中像素的重复模式和变化规律来确定。

这些特征被提取出来后,会被转化为一种可以进行比较和匹配的形式,存储在数据库中。

当用户输入一张查询图像时,系统会提取其特征,并与数据库中的特征进行比对,找出相似的图像返回给用户。

音频检索也是基于内容的多媒体检索技术的一个重要应用领域。

音频的特征包括频率、幅度、时长、节奏等。

通过对这些特征的分析,可以实现对音乐、语音等音频数据的检索。

比如,用户想要查找一首特定旋律的歌曲,系统可以通过对输入的旋律特征进行分析,在数据库中找到与之匹配的音频文件。

视频检索相对来说更为复杂,因为视频不仅包含图像和音频信息,还有时间维度上的变化。

在视频检索中,除了要提取图像和音频的特征外,还需要考虑镜头切换、场景变化等因素。

例如,可以通过关键帧提取、镜头分割等技术来对视频进行分析,提取出有代表性的特征,以便进行检索。

浅析数字图书馆中基于内容的多媒体检索技术研究

浅析数字图书馆中基于内容的多媒体检索技术研究

浅析数字图书馆中基于内容的多媒体检索技术研究论文关键词:数字图书馆信息检索基于内容的多媒体检索论文摘要:数字图书馆的迅猛进展使得多媒体信息资源的组织与管理成为数字图书馆进展的一个关键性问题,而多媒体信息检索技术也就成为数字图书馆中的核心技术,因此在数字图书馆中引入基于内容的多媒体检索技术成了必要。

1基于内容的多媒体检索原理传统的多媒体检索技术,主如果通过对多媒体进行人工分析,对多媒体物理特征和内容特征进行文字著录或标引,成立类似于文本文献的标引著录数据库,并通过检索这些数据库以取得多媒体编号,进而利用这些编号索取实际多媒体。

这种检索技术存在不足:①特征不具有代表性,带有主观性;②人工处置速度慢;③特征信息得不到充分利用;④结果信息提取慢。

基于此原因有必要研究基于内容特征的检索(CBR,Content-BasedRetrieval),克服传统检索方式的不足,提高多媒体检索效率。

CBR是指直接按照描述媒体对象内容的各类特征(如图像颜色,纹理,形状等)进行检索,它能从数据库中查找到具有指定特征或含有特定内容的图像(包括视频片段),区别于传统的基于关键字的检索手腕,融合了多媒体理解、模式识别等技术。

一般说来,基于内容的图像信息检索主如果按照图像的颜色、纹理、形状开展;而对视频信息检索主要通过对视频分割、视频聚类、关键帧抽取、运动特性抽取、最后完成视频检索。

数字图书馆拥有海量多媒体信息资源,只有充分利用基于内容的多媒体检索技术,才能挖掘海量资源库中的信息资源,为广大读者服务。

2基于内容的多媒体检索分类及检索方式按照检索对象的不同,基于内容的多媒体检索又能够分为基于内容的文本检索、基于内容的图像检索、基于内容的视频检索和基于内容的音频检索四种检索。

文本检索基于内容的文本检索是涉及文档内容查询的检索技术。

其检索模型的构造是基于内容文本信息检索的核心技术,包括3个方面的内容:文档与用户查询的表示、查询匹配策略和匹配结果的相关度表示。

基于内容的多媒体检索

基于内容的多媒体检索

多媒体对象中的特征
视觉类媒体的特征:颜色、形状、纹理、空 视觉类媒体的特征:颜色、形状、纹理、 间约束、运动、对象(如太阳 如太阳)、场景、 间约束、运动、对象 如太阳 、场景、语义 (如日出 等等; 如日出)等等 如日出 等等; 听觉类媒体的特征:音调、音量、音色、 听觉类媒体的特征:音调、音量、音色、旋 和谐度、语义(如爆炸声 如爆炸声)等 律、和谐度、语义 如爆炸声 等。
基于内容的多媒体检索
多媒体对象
分割 检索结果
提取
基于内的多媒体 检索 匹配检索
内容描述
相关的关键技术
数据模型 特征提取和语义获取 基于内容的编码 查询说明模式 索引和性能 集成查询 扩展性和灵活性
内容特征提取系统的体系结构
基于内容的多媒体检索的特点
是一种相似度检索。 是一种相似度检索。采用了近似匹配的方法而不是 传统的精确匹配。 传统的精确匹配。 直接从内容中提取信息线索,直接对文本、图像、 直接从内容中提取信息线索,直接对文本、图像、 视频、音频、进行分析,从中抽取内容特征。 视频、音频、进行分析,从中抽取内容特征。然后 利用内容特征建立索引并进行检索。 利用内容特征建立索引并进行检索。 满足用户的多层次检索需求, 满足用户的多层次检索需求,检索系统通常由媒体 特征库、和知识库组成。 库、特征库、和知识库组成。 大型数据库的快速检索,拥有数量巨大、 大型数据库的快速检索,拥有数量巨大、种类繁多 的多媒体数据库, 的多媒体数据库,能够实现对多媒体信息的快速检 索。
基于内容的检索技术的提出
也存在许多缺点: 但TBR也存在许多缺点:首先,以图像所在的网 也存在许多缺点 首先, 页为依据,对图像进行自动标注, 页为依据,对图像进行自动标注,这种标注往往是很 不准确的;其次,用文本表示图像的方式也不能满足 不准确的;其次, 用户对图像原始特征信息的检索。 用户对图像原始特征信息的检索。 为了克服基于文本的多媒体检索技术的局限性, 为了克服基于文本的多媒体检索技术的局限性, 研究者们提出了基于内容的检索,例如把图像的视觉 研究者们提出了基于内容的检索, 特征,如颜色、纹理结构和形状、空间等, 特征,如颜色、纹理结构和形状、空间等,作为图像 的内容表示,进行匹配、查找, 的内容表示,进行匹配、查找,即实现基于内容的检 索(CBR)。 。

基于内容的多媒体检索技术

基于内容的多媒体检索技术

基于 内容的多媒体检索技术
汪维华 汪维清 ,
0 75 (.重庆文 理 学 院 数 学与计 算机 科 学 系 ,重庆 4 2 6 ; 2 1 0 18 .西南 大学 计 算机 与信 息科 学学 院 ,重 庆 4 0 1)
摘 要 : 于 内容的 多媒 体信 息检 索在 图像 检 索 中意义 重 大 , 基 其检 索的依 据 主要 是 多媒 体 的特 征 向量值 , 因此 多媒 体信 息 特 别是 图像 的特征 向 量的 组织 直接 影 响到数 据检 索的效 率 。对基 于 内容 的多媒 体检 索技 术 进行 了研 究 , 同时借 鉴基 于 关
Ab t a t Co t n — a e l me i e r v l e h o o y i e y i o ma e r t e a e h o o y b t h l me i f r t n sr c : n e t s d mu t d ar t e a c n l g sv r mp a i g e iv l c n l g , u e mu t d a i o ma i b i i T r t t i n o c n tu t n l t dt e aeo t e o sr c i mi t f h l me i f r a i nr t e a. T emu t d a ere a c n l g u id r t e a c oo y o i e h r mu t d ai o i n m t r v 1 h l me i tiv le h o o i s d e , e i v l e h l g o ei i r t y st r t n b s do e wo d f r d t e ns a c e s i e o sr c emutme i i e v co , wh c r v s h t f h f r a e nk y r s s e e e , h n a e r ht ei g v n t c n tu t h l ir r o t i d aeg n e t r ih i o e er eo t ei o — mp t a n

基于内容的多媒体信息检索5篇范文

基于内容的多媒体信息检索5篇范文

基于内容的多媒体信息检索5篇范文第一篇:基于内容的多媒体信息检索基于内容的多媒体信息检索摘要:基于内容检索是多媒体研究中的新兴热点,会逐渐在很多领域中得到广泛的应用,本文主要介绍了基于内容的多媒体信息检索的概念、特点、查询和检索过程、基于内容的检索、基于视频的检索以及基于内容的多媒体信息检索的研究方向。

关键词:基于内容的检索;多媒体;图像检索;视频检索引言随着信息时代的到来,信息多元化程度加深,人们不再满足于单一的文本交流。

多媒体技术的出现,使得信息的表达方式更生动、更容易被人们所理解,因此必将成为信息存在的主要方式。

多媒体技术的发展和不断成熟对传统的信息检索系统产生了巨大的冲击,同时也对图象信息的检索、声音信息的获得以及各种媒体信息的检索查询等提出了新的挑战。

于是,对多媒体信息的检索需要研究新的手段——需要借助计算机对多媒体信息从底层到高层进行处理、分析和理解以有效获取其内容,并根据内容实现方便快捷的检索,基于内容的多媒体信息检索便应运而生了。

基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。

它的研究目标是提供在没有人类参与的情况下能自动识别或理解图像重要特征的算法。

目前,基于内容的多媒体信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状和空间关系上,对于视频数据,还有[1]视频分割、关键帧提取、场景变换探测以及故事情节重构等问题。

由此可见,这是一门涉及面很广的交叉学科,需要以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。

1基于内容检索的概述 1.1概念所谓基于内容的检索,就是从媒体数据库中提取出特定的信息检索,然后根据这些线索从大量存储在[2] 数据库中的媒体进行查找,检索出具有相似特征的媒体数据。

基于内容的多媒体检索的研究现状和应用前景

基于内容的多媒体检索的研究现状和应用前景

收稿日期:2005-12-06作者简介:张宁(1964-),男,汉族,江苏无锡人,工程师,毕业于无锡轻工大学(现江南大学),主要从事网络教育工作,负责网络课件的研究和开发,主要研究方向是多媒体技术(流媒体技术),网络技术,数据库技术等。

基于内容的多媒体检索的研究现状和应用前景张 宁(江南大学继续教育与网络教育学院,江苏无锡214036) 摘 要:主要介绍了基于内容的多媒体检索的技术特点、检索方法和多媒体内容描述接口等,为人们通过多媒体检索信息提供了方便快捷的途径。

关键词:多媒体;基于内容;检索;应用中图分类号:TP39 文献标识码:A 文章编号:1004-2237(2006)03-0079-05 随着互联网的兴起和数据库检索技术的迅猛发展,从根本上改变了信息的传播方式,促进了信息的传递和速度的更新。

基于内容的多媒体信息检索作为一种新型的检索技术特别强调其信息的新颖性、实用性和广泛性,以单纯的文本检索为主要方法的检索已不再成为主流。

因此,如何实现多媒体信息的数字化查询,面向广大的用户开展真正有效的多媒体信息检索服务已成为现代网络技术发展的关键。

采用多媒体检索方法将使人们查阅最新、最全、最准的信息资料,接触最先进的思想、方法,感受最新的具有世界水平的科技成果。

其检索方法简单、直观、方便,极大地提高了工作学习的效率。

基于内容的多媒体检索作为一种现代化的检索工具为人类的交流思想、传播知识提供了方便快捷的途径,成为知识经济的重要内容之一。

1 基于内容的多媒体检索的产生在1990年以前,没有任何人能够检索互联网上的信息,直到Alan Emtage 等人发明了Arehie ,它在当时只能实现简单意义上的FTP 文件检索。

随着w orld Wide Web 的出现和发展,基于网页的信息检索工具出现并迅速发展起来。

它主要是以网络目录的信息进行检索的,其利用率较低。

1995年以后,随着搜索引擎技术和数据库技术的发展,基于文本的检索方法得到了快速发展。

基于内容的多媒体检索技术探索

基于内容的多媒体检索技术探索

网络天地191基于内容的多媒体检索技术探索◆李慧玲一、引言多媒体技术、网络技术和信息数字化处理的高新技术的飞速发展,使得因特网上的多媒体数据激增,网络信息不再只是单纯的文本信息,图形图像、视频、声音等多媒体数据逐渐在因特网中占有越来越大的比重,它们或独立出现,或嵌入网页文档,新的图像和影像每天都在增加和更新。

多媒体数据具有数据量巨大,数据种类多,输入输出复杂等特点;并且多媒体数据(如图像、视频、音频等)对于不同的人可能有不同的理解,所以要把所有不同的解释都用关键字(文本或数字)来表示显然是不可能的。

而且,关键字不能有效地表示动态多媒体数据的时序特征,也不支持语义关系,显然,利用关键字的检索方式很难快速、准确的在海量的信息检索出所需的多媒体数据。

因此需要开发出一种新的检索技术来检索多媒体数据。

为了适应这一需求,人们提出了基于内容的多媒体数据检索思想,一种基于内容的多媒体数据库查询与检索技术——CBR 应运而生了。

基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。

它的研究目标是提供在没有人类参与的情况下能自动识别或理解多媒体重要特征的算法。

二、CBR 的特点与传统的信息检索相比,CBR 有如下特点: 1.直接从内容中提取信息线索CBR 直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。

2.相似性检索CBR 采用一种近似匹配f 或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。

3.大型数据库(集)的快速检索求 4.满足用户多层次的检索要三、CBR 的体系结构基于内容的多媒体检索技术的目的不是去理解或识别多媒体数据目标。

其关注点是能否基于内容快速发现目标信息,在用户可以接受的响应时间内,从海量的多媒体数据数据库中查询到符合用户需求的多媒体数据。

无论多媒体数据是图形、图像、声音还是视频,基于内容的多媒体检索系统一般都应由三个部分组成:由媒体库、特征库和知识库组成。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于内容的多媒体检索摘要对基于内容的多媒体检索的有关概念、特点进行介绍,基于内容的分析方法的提出,在压缩域上直接对MPEG音频信号进行分析,达到多媒体实时分析检索目的。

算法分为三步:首先利用压缩域特征对音频信号进行分割,然后应用分层方法把分割出来的音频片段粗分成音乐、语音和其它三个基本类别;由于话者身份是语音信号中的重要检索线索,最后利用隐马尔可夫链实现了与文本无关的话者识别,并用识别出来的话者身份对语音信号和其相应的视频进行标注。

关键词音频检索概念多媒体基于内容的检索压缩域隐马尔可夫链话者识别多媒体检索引言随着计算机应用技术的发展与互联网速度的提高,用户可以访问到的文本、音频和视频等多媒体信息不断增加。

这样,计算机用户在处理信息时所面临的主要问题已经从早期的信息匮乏转变为从海量信息中快速合理检索出需要信息。

于是,从90年代初开始,基于内容的图像(视频)检索成为多媒体领域研究的热点之一[1][2]。

在基于内容的图像(视频)检索中,颜色、纹理、形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理。

基于内容的多媒体检索原理与特点多媒体检索是一种基于内容特征的检索(CBR:content-based retrieval)。

所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。

基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。

在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。

与传统的信息检索相比,CBR有如下特点:(1) 相似性检索:CBR采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。

(2) 直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。

(3) 满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。

媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的应用要求。

(4) 大型数据库(集)的快速检索:CBR往往拥有数量巨大、种类繁多的多媒体数据库,能够实现对多媒体信息的快速检索。

基于内容分析方法的提出我们知道视频、音频都是按时间顺序来组织的,传统方法查找其中某个片断都是通过快进或快到等顺序来浏览内容查找,这种方法不仅要求用户注意力高度集中,而且特别浪费时间。

由于视频、音频内容包含复杂丰富的信息数据,对视频、音频检索已成为实际应用中一个难题,而基于内容分析方法是目前视频、音频检索主要发展趋势。

如何解决多媒体信息内容描述问题,目前主要是采用基于内容分析视频处理与检索方法,这种方法是近年来随着多媒体数据处理技术发展而提出的。

基于内容分析的方法是从另一个角度来认识多媒体信息,从早期基本颜色检索,到综合利用多种多媒体特征进行检索。

如:颜色、纹理、形状、场景、镜头、帧等特征信息。

目前该技术已经发展到实用阶段,其中多媒体内容描述接口MPEG-7是目前被广泛接受的一种国际标准,其核心就是基于多媒体内容分析。

MPEG序列媒体标准是目前最为广泛应用的视/音频媒体标准,目前广泛应用的主要有MPEG-I、MPEG-II、MPEG-4等,它们都是对数字运动图像及伴音编码进行压缩的一种国际标准,其中MPEG-4采用按照具有一定时间关系和空间关系的对象来进行视、音频编码的处理方式。

而MPEG-7是在MPEG-4基础上发展起来,MPEG-7重点是对视音频信息内容进行不同程度描述与定义,而与多媒体信息的编码和存储方式无关。

由于音频也蕴含了大量的语义信息,近年来,基于内容的音频检索[3]也受到越来越多的关注,其主要思想是通过提取音频流中的时域(频域)特征来描述音频内容。

由于多媒体本质是由文本,视频和音频等多种媒质交互融合而成的,它们之间存在或多或少的语义关联,一种媒质和另外一种媒质可以表示同一语义,媒质之间可以相互索引,如[4]中通过音频分类实现为视频数据建立索引。

但是,无论是基于内容的图像(视频)检索或是基于内容的音频检索,目前还是基于视觉或听觉感知特征相似度比较的检索,而我们对多媒体内容的描述是基于其所蕴涵的语义信息的。

因此,将多媒体数据流分类成预先定义的语义模型是多媒体检索面临的挑战[5]。

语义概念模型可以分为三类:一是高级语义,这种语义是不同时间和空间几个多媒体事件高度抽象概念化的结果,如“厄尔尼诺气候的形成”,它需要探讨人脑的思维机制;二是中级语义,这种语义是高级语义中所涉及的人或事件的分别描述,不涉及几个事件的交叉,如“某个主持人某类新闻报导”或“某场足球比赛”;最后是低级语义,它是利用视觉或听觉信息对多媒体数据进行初步分类,如“音乐”、“语音”或“海滩”等。

对多媒体数据进行语义标注实现了多媒体从无结构到结构化的过程,可以有效组织多媒体数据流,方便检索。

另外,随着网络技术的普及,对多媒体数据(特别是音频数据)进行实时分析也成为了需要[6]。

传统多媒体检索中提取的特征基本上是基于非压缩域的,随着多媒体应用技术的发展,MPEG凭借其易于传输存储的优点而成为多媒体数据压缩通用标准[7]。

用非压缩域方法来对MPEG数据流进行语义标注时,必须先解码,才能提取特征和对特征分析,造成运算量无谓增大,不能保证实时效果。

同时,MPEG对音频部分的编码结合了听觉心理学,编码时就考虑了人的听觉感知特性,所以直接在MPEG压缩域上提取特征,可以使这些感知特性不会丢失,保证对音频信息的正确理解。

在音频数据流中,说话人是非常重要的语义信息,如不同的节目主持人会报导不同内容的新闻节目(体育,天气预报和时事等)。

通过对讲话人语音的分析,自动确认出话者身份,既可以用话者身份对音频进行中级语义标注,也可以对其相应的视频信息流进行分类,实现不同媒质之间的索引。

基于此,本文提出了一种直接在压缩域上进行多媒体分析的方法:首先,MPEG数据流被分成视频和音频两部分,然后对压缩域音频流进行分割与粗分,并且对识别出来的语音片段中的话者身份进行确认;最后用确认出来的话者身份对相应的语音音频和视频进行标注(如图一)。

图一压缩域特征多媒体检索分类流程压缩域音频特征提取所谓音频特征就是用来表征原始音频信息的数据。

根据特征空间的不同,音频特征可以分为时域、频域和时频三类:时域特征包括短时能量、过零率和线性预测系数等;频域特征包括线性预测(LPC)倒谱系数和MFCC 等;时频特征包括短时傅立叶变换和小波系数等。

近年来,为了更真实反映原始音频数据流首先被耳蜗处理,然后才在大脑处形成“音频场景”的事实[10],仿照人的听觉感知模型[11],一些特征被提取出来。

于是,根据是否使用感知模型,音频特征可以分为物理和感知两类。

物理特征包括短时能量、过零率、基本频率等,它来源于音频信号本身;感知特征包括音调和音高等,它依赖于人的听觉模型。

要指出的是,有些时频特征也属于感知特征,如小波变换每层分解相当于一个恒Q 滤波器,符合人耳听觉感知特性。

MPEG 音频压缩利用了“心理声学模型(psychoacoustics model )”,在MPEG 压缩领域上直接提取特征,可以保留这些感知特性,更好象人的听觉感知系统一样,实现对音频语义内容的理解。

首先把MPEG 数据流分解成视频和音频两部分。

其中音频流数据是MPEG -2 Layer III ,采样频率为22050Hz 。

按照传统语音处理中对信号处理分成短时“帧”的要求,音频数据被分割成大约为20毫秒的帧序列(每一帧有576个采样值)。

32,..2,1,18)][(][1812==∑=i i S i M t t对于每一帧,首先求出每一个子带矢量值的均方根 ,其中 是32维的子带矢量, 也是一个32维的矢量。

表征了这一帧的特性,由此可以得到以下的具体特征:(1)质心(Centroid ):∑∑===321321][][i i i M i iM C ,指一个矢量的平衡点,质心反映了在压缩域上音频信号的基本频率带;(2)衰减截止频率(Rolloff ):)][85.0][arg(3211∑∑====i R i i M i M R ,指音频信号能量衰减3分贝时的截止频率。

由于人耳对音频信号强弱变化相当敏感,衰减截止频率其实就是自适应的听觉阈值,它体现了心理声学中的听觉掩饰特性;(3)频谱流量(Spectral Flux ):指相邻两帧的 矢量正规化后以2为模的差分,频谱流量体现了音频信号的动态特征;(4)均方根( ):32)][(3212∑==i i M RMS ,用来衡量这一帧音频信号强度。

音频场景的切换通常伴随着音量变化,因此 在分割中是十分重要的一个指标。

由于音频信号的非平稳特性,为了更好表征音频的时序变化,上述四个特征的统计信息也被提取出来作为音频特征:实验中,使用40帧为一个窗口(大约1秒),对每一帧,计算其前一个窗口中所有帧的质心,衰减截止频率和频谱流量的均值和方差,并且计算均方根低于某一阈值的比例,得到七个具有统计意义的特征。

这样,对于每一帧,总共提取了11个特征。

每个音频数据流的前40帧统计特征值是这个音频流所有对应统计特征的平均值。

这11个特征反映了音频的静态和动态特性,符合心理声学模型,构成了压缩域上音频信号的描述算子,被用来进行音频的分割、粗分和识别。

音频信号分割与粗分研究表明,虽然音频信号特征随时间变化剧烈,但是对于同一音频类而言,其特征之间的距离变化大致有一定规律的,通过选取好的窗口距离可以体现出这种规律性来[12][13]。

利用前面提取的11个特征,实验中实现了如下的音频分割算法:(1)读入MPEG 音频流,对每一帧求出特征矢量 , 是11维, 表示时间(帧数);(2)求出前后相邻特征向量 和 之间的对数化欧氏距离))(log(1112)1(∑=+-=i i t ti t f fd ,其中 表示第 帧中的第 个特征;(3)对于得到的 序列,求出时刻 前后窗口长度为 的 均值的差||11∑∑+=-=-+=k t ti i t k t i i t d d k df ;这个过程叫窗口化(4)如果 在某一时刻值大于阈值 ,则判定在该时刻特征矢量发生了跃变,因此发生了音频信号的转换,于是音频流从此处分割。

相关文档
最新文档