视频内容特征的提取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
视频内容特征的提取
【摘要】本文是基于视频特征提取的技术研究,主要是对关键帧进行特征提取,得到一个尽可能充分反映关键帧内容的特征空间,作为视频聚类和检索的依据,着重研究了关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征和运动特征等。
【关键词】关键帧;特征;运动
0 引言
关键帧是视频的镜头表示帧。基于关键帧的特征检索是基于内容视频检索的重要一部分。虽然人们更倾向于使用语义特征进行视频查询,但由于语义特征很难做到自动提取,所以通常视频检索所采用的是较低层的关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征,也包括反映镜头一定语义内容的运动特征等。
1 视频特征描述的要求
基于内容的视频检索实际上就是基于特征的检索。因此是视频检索的基础,也是难点所在。良好的特征应具有以下特点:
1)可区别性:对于不同的图像来说,其特征值应具有明显的差异,便于比较;
2)可靠性:对相似图像的特征值应比较相近,查询的结果是按特征值相似程度排列的图像集合;
3)独立性:所用的各个特征之间应彼此不相关;
4)特征维度低:检索复杂度随着特征数量和特征维数会迅速增长,不利于检索。
2 静态特征提取
2.1 提取颜色特征
色彩是物体表面的一种视觉特性,是人类视觉的重要组成部分。每种物体都有其特有的色彩特征,同一类物体往往有着相似的色彩特征。因此可以根据色彩特征来区分物体。而且颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性。颜色内容一般包含两个方面,一个对应于全局颜色分布,一个对应于局部颜色信息。按照全局颜色分布来索引图像可以通过计算每种颜色的象素的个数并构造颜色灰度直方图来实现,这对检索具有
相似的总体颜色内容的图像是一个很好的途径。局部颜色信息是指局部相似的颜色区域,它考虑了颜色的分类与一些初级的几何特征。比如,颜色集是通过抽取空间局部颜色信息来提供颜色区域的有效索引。而颜色矩特征的数学依据是任何颜色的分布均可由它的矩来刻画,且大部分信息集中在低阶矩上。
2.2 提取纹理特征
纹理就是图像局部不规则而宏观有规律的特性。它是与物体表面材质有关的图像特征。目前也是基于内容检索系统中所采用的一个重要手段。纹理特征表达是Tamura等人在对人类对纹理的视觉感知的心理学研究的基础上提出的,在视觉上和心理上都是有意义的。纹理特征包括粗糙性(Coarseness)、规则性(Regularity)、线条相似性(Linelikeness)、凹凸性(Roughness)、方向性(Directionality)和对比度(Contrast)等,这些特征都可作为检索项。纹理特征可使用统计方法和结构方法进行分析。结构方法假定图像由较小的纹理基元排列而成,它采用句法分析方法,只适用于规则的结构纹理。统计方法又可进一步分为传统的统计方法、基于模型的方法和基于频谱分析的方法。纹理特征可用来对图像中的空间信息进行一定程度的定量描述。
2.3 提取形状特征
因为形状特征符合人们的视觉感知特性,因而也是人们研究的一个方向。通常对于形状的描述可以分为两种,基于轮廓的(boundary-based)和基于区域的(regionbased)。前者只利用形状的外轮廓信息,后者利用整个形状的区域信息。具体来说形状特征有区域、主轴方向、矩、偏心率、圆形率和正切角等。最常用的形状描述是傅立叶描述(Fourier Descriptor)和不变矩(Invariant Moment)。还有其他一些描述,如转向角函数(Turning Function)、曲率尺度空间(Curvature Scale Space)和小波描述(Wavelet Descriptor)等。形状描述通常可分为两个范畴:基于边界的和基于区域的。前者只用形状的外边界,后者利用整个形状区域。因此对于形状的特征表达也可以分为两大类:外部参数法和内部参数法。这两个范畴最成功的描述是:傅立叶描述子和不变矩。其他比较典型的有几何参数法、边缘方向直方图法、小波系数法、小波轮廓表示法、切线空间法、局部特征频率法、隐含马尔可夫法和基于权重学习的方法。对于外部参数法,主要考虑对包围物体区域的轮廓的描述,其目的是借助描述,进行具有相似轮廓目标的查询。基于外部参数的特征既可根据目标轮廓的全局特性(如边界长度)来获得,也可根据其局部特性(如曲率)来获得。基于全局特性的方法对形状的局部不规则性相对不敏感,对检索那些部分被遮挡的物体,或者相互接触的物体比较有利。最简单的外部参数方法是使用一些形状几何参数或近似表达轮廓的多边形的参数,但这样给出的结果往往较粗糙,并不能完全确定物体轮廓。不管采用哪种描述方法,要获得有关目标的形状参数,要先对图像进行边缘提取,形状特征的提取会受边缘提取效果的影响。
3 运动特征提取
视频中的运动通常分为场景中对象物体产生的局部运动和基于摄像机移动
的全局运动。
3.1 对象的运动
对象的运动根据实际情况的不同而千变万化,但它是视频检索的重要方面。例如,用户可能需要检索某个物体被移动的视频片段或汽车发动的视频片段。Courtney归纳了如下所示几种对象运动:
出现:一个对象出现于镜头;
消失:一个对象从镜头中消失;
进入:一个运动的对象出现于镜头;
退出:一个运动的对象从镜头中离去;
运动:一个原本静止的对象开始运动;
停止:一个原本运动的对象停了下来。
3.2 摄像机的运动
在大多数视频序列中,摄像机的运动总是跟踪着视频中重要人物和事件的运动,因此它在一定程度上反映了视频中的语义内容。在视频的拍摄过程中,摄像机可以按不同的方式运动以达到特定的拍摄效果,包括以下几种情况:上下摇镜头:摄像机的位置不变,上下转动改变拍摄方位;
左右摇镜头:摄像机的位置不变,左右移动改变拍摄方位;
转镜头:以对象为中心,摄像机从不同的位置角度拍摄;
移动镜头:摄像机的位置跟着拍摄对象移动,但不旋转角度,移动又可分为水平移动和垂直移动;
推镜头:从远处开始,逐渐推进到拍摄对象;
拉镜头:从近处开始,逐渐拍成全景。
3.3 镜头的运动特征提取方法
常用的镜头特征是镜头的主运动,这个特征适用于景物中有一个大背景的镜头。在此条件下不能得到满足(如景物中存在多个较大运动物体的情况)时,就需要对镜头根据运动特性对不同景物分层并对每层建立描述。对于运动特征采用层描述算法。在许多情况下,景物由多个具有不同运动特性的较大物体组成,很