视频摘要技术在视频分析领域的作用

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视频摘要技术在视频分析领域的作用

文/周明耀杭州海康威视系统技术有限公司图像处理与智能分析部

视频摘要的英文名是Video Abstract，它是一个可以概括原始视频主要内容的技术。随着我们对视频数据处理的要求不断提高和视频数据量的不断增多，人们需要为一长段视频建立一段摘要来快速浏览以便更好地利用它。通过视频摘要技术，让我们在基于内容的视频检索中不仅仅能利用文字，而且能够充分利用音视频信息。视频摘要技术解决的问题是如何使视频数据有效的表示和快速的访问，它是利用对视频内容的分析来减小视频存储、分类和索引的代价，提高视频的使用效率、可用性和可访问性，它是基于内容的视频分析技术的发展。

一、视频摘要解释

视频摘要技术的研究最早始于1994 年CMU 大学的Informedia工程, 随后德国曼海姆大学、FX Palo Alto 实验室、Minnesota大学、MITRE 公司、哥伦比亚大学与微软研究院等都在这方面进行了较为深入的研究, 分别提出了各自

的视频摘要策略, 视频摘要的表现形式也由最初的静态摘要转变为现在的动态

缩略视频。

总的来说视频摘要是对一长段视频内容的简短总结，即：视频摘要就是一连串静止或运动的图像，分别称为静态视频摘要和动态视频摘要，它们用精简的方式代表了原视频的内容，同时保留了原内容的要点。静态视频摘要是从原始视频中剪取而生成的一系列静止图像的集合，这些代表了原始视频的图像成为关键帧，动态视频摘要是由一些图像序列以及对应的音频组成，它本身是一个视频片断。两者区别是静态视频摘要只考虑其关键帧，忽略了音频信息，生成摘要的速度比动态视频摘要快，动态视频摘要表现的内容比静态视频摘要丰富，通常以镜头的方式表示，融合了图像、声音和文字等信息。

视频摘要的作用主要是便于存储和视频的浏览或查找，相对于原始的视频资料，视频摘要的长度要短很多，节省了存储时间、空间。视频摘要保留了原内容的要点，所以对于用户来说，浏览或查找视频摘要比浏览原始视频要节省时间。

二、视频摘要生成方法及过程

视频摘要的生成方法大致可以分为4类：

1、简单的生成方法

基于时间点对视频进行采样，即每间隔一定的时间抽取一个代表帧或者一个片段，这种生成方法很容易实现，但完全没有基于视频的内容。

2、基于视觉信息的生成方法

根据视频里出现的颜色、纹理、形状、运动方向和强度等视觉信息，基于模式识别的思想，应用各种视频和图像处理技术，进行镜头探测、关键帧提取、场景聚类、运动特征提取等一系列操作，最终生成具有代表性的关键桢序列或缩略视频。这种算法完全基于视觉特征，忽略了音频、字幕等信息对视频的作用。

3、融合多特性的生成方法

在基于视觉方法的基础上融入其他媒体提供的信息，准确地判断视频片段的重要程度，这种算法是目前大多数视频摘要技术采用的方法。

4、基于视频句法语义的生成方法

从视频的句法结构分析入手，探寻镜头与镜头之间、场景与场景之间的结构规则，将视频的句法语义尽可能完整的保存在摘要中。

视频摘要生成过程可以归纳为3个过程：

①视频分割

任何视频摘要算法都遵循“先分后合”的原则，要进行视频内容理解和分析必须首先将视频切分成合理的基本单位，这些基本单位包括场景、镜头、帧等。

②视频内容提取

采用模式识别或者视频结构探测的方法来获取能够被计算机或者人之间感觉的信息。

③合成摘要

把判定为重要的视频片段组合在一起形成某种形式的摘要。

如果将上述3个过程细化，由原始视频生成视频摘要首先要对非结构化的图像流进行处理，使之成为结构化的数据，这个过程称为视频结构化，又叫视频分析。帧是视频数据的最小单元，是一幅静止的画面，镜头是由帧组成的视频数据的基本单位，是摄像头的一次连续的动作，只能拍摄相邻地点连续发生的事情，场景由内容相近的镜头组成，从不同的角度描述同一个事件，视频是由许多场景组成，叙述一个完成的故事。针对视频内容的结构化提取是通过自底向上的方法从每一帧中分析出结构化信息。

视频结构化主要步骤有镜头分割、关键帧提取、场景重构。

镜头分割：镜头是视频检索的基本单元，大部分视频是由一个个镜头连接而成的。在编辑时，可能采用不同的方法将前后两个镜头结合在一起。两个镜头的结合方法可能是突变，即一个镜头直接加在上一个镜头最后一个画面之后，也可能是渐变，如淡入淡出、慢转换等。镜头分割过程的主要工作是镜头边界的检测。常用的镜头边界检测的算法有突变检测算法和渐变检测算法。

关键帧提取：在进行镜头分割后，视频被分解为一个个连续的镜头。在同一镜头中，t时刻的图像帧和t+1时刻的图像帧往往在视觉特征和内容上差别不大，所以在一个镜头中对分析过程而言存在太多的冗余的图像帧，因此就需要从成千上万的图像帧中提取关键帧。所谓关键帧是用于描述一个镜头内容的关键图像，它是从原始的视频文件中抽取的一些静态图像。静态视频摘要就是由这些关键帧组成的。用它们来表示视频，更加简洁，也消除了在视频分析时的巨大冗余。关键帧提取主要是利用图论、曲线分裂、聚类和奇异值分解的方法。这些方法的基本思想是把一帧看成是多维特征空间中的一点, 选择的关键帧是点的子集, 这些点集能够覆盖特征距离内的其它点, 或者能够表明场景内容的变化。关键帧提取算法主要有: 基于镜头边界法、基于颜色特征法、基于运动分析法、基于内容的自适应提取方法、基于聚类的关键帧提取方法等。

场景重构：场景是由语义上相关和时间上相邻的若干组镜头组成的。场景是视频所蕴涵的高层抽像概念和语义的表达。在视频分割中，首先将视频切分为一个个的镜头，然而实质上某一些连续的镜头在情节上是相关的，这组镜头具有相同的语义，表达同样的主题，将这些镜头重构成场景也是视频结构化的重要部分。重构的场景是观众头脑中形成的主观概念，因此，场景重构的边界检测也就比镜头边界检测要困难得多，更具有挑战性。完全自动场景变换检测系统很难实现，很多文献提出了场景变化检测的算法。这些算法可分为两类：时间约束聚类算法和声音、视觉特性检测算法。前者是把视觉相似和时间接近的镜头组织成一个场景，目标在于用一种紧凑且有语义含义的方法表示视频；后者则强调模仿人的观