基于内容的视频检索技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于内容的视频检索技术
蔡晓东
[摘要]随之信息技术不断的发展,视频信息越来越广泛的应用,本文介绍了实现基于内容的视频检索技术的一般过程、结构的构造视频检索的工作原理、关键帧提取技术、从视频流中构造场景或组的技术特征提取技术以及视频检索浏览等。

[关键字] 视频结构图像检测关键技术
随着信息技术的快速发展和普及,视频形式的多媒体数据在不断的增加,因此如何在海量的视频信息中检索出想要的内容成为了一个要急需解决的问题。

因而,近几年来在国内外基于内容的视频检索技术成为了研究的重点。

1、基于内容的视频检索技术
基于内容的视频检索(CBVR)是根据视频的内容和上下文关系,对大规模视频数据库中的视频数据进行检索。

它提供一种算法在没有人工参与的情况下,自动提取并描述视频的特征和内容。

目前基于内容的视频检索研究,除了识别和描述图像的颜色、纹理形状和空间关系外,主要的研究集中在视频分割,特征提取和描述(包括,视觉特征、颜色纹理和形状及运动信息和对象信息等)关键帧提取和结构分析等方面。

2、视频结构的分析
为了对视频数据库进行基于内容的查询,首要要构造便于检索的视频结构,视频数据可以按照由粗到细的顺序划分为四个层次结构: 视频(Video)、场景( Scene)、镜头(Shot)和图像帧(Frame)。

一个视频序列可以是多个视频场景来构成,一个视频场景又是由多个镜头构成,而镜头是有帧构成。

镜头是指摄像机从打开到关闭的过程中记录下来的一组连续图像帧。

镜头边界是客观存在的,可以采用一定的方法自动检测镜头边界。

在实际应用中,用户浏览一个镜头中所有图像帧是非常耗时的,因此常用关键帧技术实现快速浏览。

关键帧是指代表镜头中最重要的、有代表性的一幅或多幅图像。

依据镜头内容的复杂程度,可以从一个镜头中提取一个或多个关键帧或构造一个关键帧。

为了在语义层建立视频结构模型,需要对视频进行场景划分。

场景定义为语义上相关、时间上相邻的一组镜头,它们能够表达视频的高层次概念或故事等。

镜头是组成视频的基本物理单位,而场景(又称故事)则是视频在语义层的单位,通常只有场景才能向观看者传达相对完整的语义。

镜头组是一组在时间上相邻并在内容上相似的一组镜头,它是界于镜头和场景之间的一组连续的物理实体,是联系镜头和场景的桥梁。

节目则是由时间上有序的场景组成,例如新闻节目、娱乐节目、体育节目、天气预报等。

视频结构化分析是指对视频流进行镜头分割、关键帧提取和场景分割等处理,从而得到视频的结构化信息。

镜头分割的关键在于确定镜头的边界,其中渐变镜头边界的检测目前仍然是一个具有挑战性的课题。

现有镜头分割方法多以视频内容的不连续性为划分镜头的依据。

研究者们通常选取视频的某种特征来度量视频内容的不连续性,如颜色特征、运动矢量特征、边缘特征等。

由于同一个镜头中的各帧图像之间的内容有相当程度的冗余,因此可以选取反映镜头中主要信息内容的帧图像作为关键帧。

镜头分割后,对每个镜头可提取若干关键帧,并用关键帧来简洁地表示镜头。

场景分割通常也称为故事单元分割,其目标在于获取视频的最小语义结构单元——场景。

一般而言,场景是由一组连续的、同属于一个故事单元的多个镜头组成。

通过融合视频的文本、声音等信息对已分割出的镜头进行聚类,将内容相近的连续镜头合并为一个单元组,从而得到场景信息,为进一步进行视频内容分析提供基础。

3、基于内容的视频检索关键技术
3.1、镜头分割
是实现基于内容视频检索的第一步,它是通过对镜头切换点的检测找出连续出现的两个镜头之间的边界,把属于同一个镜头的帧聚集在一起的过程镜头切换主要有突变和渐变两种方式突变是指一个镜头与另一个镜头之间没有过渡,由一个镜头瞬间直接转换为另一个镜头的方法; 渐变是指一个镜头到另一个镜头渐渐过渡的过程,主要包括: 淡入淡出溶解和扫换等。

突变镜头切换的相邻两帧之间差别很大,所以无论在像素域还是压缩域,检测突变的方法都比较成熟,检测成功率也高而镜头渐变切换时相邻两个帧之间的差别不是很大,并且帧间结构上具有相关性,使得渐变检测有一定难度
镜头边界检测典型方法包括模板匹配法直方图法基于边缘的方法和基于模型的方法等。

此外,还有颜色柱状图法,域中的系数法,运动矢量法以及基于多维空间仿生信息学理论的方法等镜头边界检测作为视频检索的第一步具有重要意义,其结果将对整个视频检索结果产生直接的影响。

3.2、关键帧提取
一个镜头包含大量信息,在视频结构化的基础上,依据镜头内容的复杂程度选择一个或多个关键帧代表镜头的主要内容,因此关键帧( 或关键帧序列) 便成为对镜头内容进行表示的手段关键帧的选取方法很多,比较经典的有帧平均
法和直方图平均法。

帧平均法: 是从镜头中计算所有帧在某个位置上像素值的平均值,然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧
直方图平均法: 是将镜头中所有帧的统计直方图取平均,然后选择与该平均直方图最接近的帧作为关键帧
这些方法的优点是计算比较简单,所选取的帧具有平均代表意义缺点是从一个镜头中选取一个关键帧,无法描述有多个物体运动的镜头一般说来,从镜头中选取固定数目的关键帧不是一种好的方法,因为这种方法对于变化很少的镜头选取的关键帧过多,而对于运动较多的镜头,用一两个关键帧又无法充分描述等人通过光流分析来选取关键帧的这种基于运动的方法可以根据镜头的结构选择相应数目的键帧此外,很多学者提出了多种关键帧提取算法。

3.3、视频特征提取
对于不同级别的视频单元,所提取的特征也是不同的在场景级,提取故事情节; 对于镜头视频检索的最小单位,提取运动对象基本信息( 定位形状) 及视频的运动信息( 对象运动摄像机运动) ;在关键帧层次上,提取颜色纹理形状语义等低级特征纵观现有的特征提取
方法,有自动方式和手动方式两种提取低级特征比较简单,往往可以全自动的进行而高级语义特征的提取难度相当大,需要更多的人工交互。

较常用的特征大部分建立在镜头级上当视频分割成镜头后,就要对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频检索的依据视频数据的特征分为静态特征和动态特征。

静态特征的提取主要针对关键帧,可以采用通常的图像特征提取方法,如提取颜色特征纹理特征形状和边缘特征等。

动态特征也称为运动特征,是视频镜头的重要特征,是反映视频变化的重要信息传统的获取视频运动特征的方法是运动估计,通过匹配算法估计出每个像素或区域的运动矢量,作为视频的运动特征典型方法有像素域运动估计,首先估计出图像中每个像素点的运动矢量,然后取主运动矢量为全局运动矢量像素域运动估计算法虽然结果很好,但针对该方法计算量大效率低的问题,衍生出很多种快速算法,如块匹配运动估计可变形块匹配以及分层块匹配估计等运动对象的轨迹也是常用的运动特征之一,它描述了视频对象的运动过程,通过从视频序列中抽取运动信息及其轨迹来提取视频特征此外,还有基于运动建模的视频运动特征等等然而仅靠运动信息对一般的视频数据实现较好的检索还有一定困难,在实际应用中需结合其他的特征,才能达到比较满意的检索效果。

3.4、视频聚类
高效的索引技术是基于内容的检索在大型数据库中发挥优势的保证。

索引技术随着数据库的发展而发展, 提高索引效率有缩减特征向量的维度和聚类索引算法两种方法, 针对图像检索需要3个步骤: (1) 进行维度约减; (2) 对存在的索引方法进行评价;(3)根据评价定制自己的索引方式。

目前多维索引技术研究较多的是聚类和神经网络。

聚类就是按照一定的要求和规律对事物进行区分和分类的过程,在图像数据库中,聚类就是在研究大量图像特征的基础上通过学习产生出类别,然后按次类别对图像进行分类。

它的优势就是可以动态地进行图像分类, 而且可以有效地降低维度和查询范围, 提高查询效率。

常用的聚类算法有分割算法、层次算法、基于密度的方法、基于网格的方法和基于模型的方法[3].分割算法是将n个目标划分到k个聚类中去, k为输入的参数。

首先选择k个代表点,其余目标根据到各类代表点的距离划分到k个聚类中;然后用每个类的中心(k-means算法)或离中心最近的点(k-medoid 算法)代表这个聚类, 将目标重新分割,这一过程迭代进行,直至收敛。

这个算法简单、有效,但要先确定类的数目, 即初始类别数和初始聚类中心要预先设定,这些初始参数将直接影响最后的聚类结果;分割算法适用于聚类为凸形状和各类相距较远且直径相差不多的情况, 否则可能产生错误的分割。

层次算法将数据集分解成树状图, 即循环地将数据集分裂成子集, 直到每个子集只包含一个目标。

树状图可采用分裂或合并的方法构建。

层次算法不像分割算法那样需要聚类数这个参数,但需要定义停止条件。

层次算法的难点在于最优停止条件难以确定, 同时也难以处理聚类形状复杂的情况。

3.5、视频检索和浏览
视频检索方法完全不像全文检索, 在很大程度上也不同于图像检索。

视频本身的层次化结构则要求视频检索必须层次化进行。

因此, 视频的特征决定了视频检索必须是层次化的, 且用户接口是多表现模式的,下面提出几种常用的检索方法:
(1) 基于框架的方法:该方法通过知识辅助对视频内容建立框架, 并进行层次化检索。

(2) 基于浏览的方法:基于浏览的方法始终是视频检索中一个不可缺少的方法。

如果用户没有明确的查询主题或用户的主题在框架中没有被定义等, 用户可以通过浏览来确定其大概目的。

相关文档
最新文档