视频摘要算法调研

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图 1 视频摘要分类示意图
基本步骤
视频切割
视频内容提取
重要度评判
合成摘要Fra Baidu bibliotek
摘要表现
算法分类 1) 简单的生成算法 这种方法是基于时间对视频进行采样, 即每隔一定的时间从视频帧序列中抽 取一个代表帧或者一个片段来形成摘要。此方法从操作上很容易实现,但从效果 上来看很不可靠,完全没有基于视频的内容。 2) 基于视觉信息的生成方法 根据视频中颜色、纹理、形状、运动方向和强度等视觉信息,基于模式识别 的思想, 应用各种视频和图像处理技术, 进行镜头探测、 关键帧提取、 场景聚类、 运动特征提取等一系列的操作,最终生成具有代表性的关键帧序列或缩略视频。 这种方法完全基于视觉特征,而忽略了音频、字幕等信息,对表现原视频有一定 的影响,但相对简单的采样生成算法来说,在效果上有了很明显的提高。 3) 融合多特征的生成方法 这种方法在基于视觉信息方法的基础上融入了其它媒体提供的信息如音频、 字幕等, 来更加准确的判断视频片段的重要程度,然后根据重要度来提取视频摘 要。例如,采用人脸识别技术来探测新闻中重要人物的出现,采用音频处理技术 来探测体育视频中的精彩片段等。目前,很多的视频摘要算法都是基于这种思想 的,是研究的热点。 4) 基于视频句法语义的生成方法 此方法从视频的句法结构分析入手,探寻镜头与镜头之间、场景与场景之间 的结构规则,进而从中分析出所表现的情感和氛围,并以此为基础,将视频的句 法语义尽可能完整的保存到摘要当中。 主要的算法集中在对视频切割和视频内容提取(关键帧序列提取)的分析和 操作上,下面将对这两部分所涉及的常用算法做概要总结。
I tR ,t 1 p AB (a, b)*log
a 0 b 0 L 1 L 1
pAB (a, b) pA (a)* pB (b)
其中, pA (a) 和 pB (b) 分别为图像 A 、 B 的概率密度函数, pAB (a, b) 是图像 A 、 B 的联合概率密度。再计算总的交互信息量:
视频摘要算法
1、 视频摘要概述
定义 视频摘型是以自动或半自动的方式,利用计算机技术来分析和处理新闻、广 告、 监控录像等数字视频数据的结构和内容, 从原始的媒体数据中提取有代表性、 有意义的部分,将它们以某种方式合并生成紧凑的、简明扼要的、用户可读的、 能充分表达视频内容的缩略形式。 目的 可以让用户快速、 方便的了解整个视频的内容,以决定是否详细观看这段视 频,同时,还可以用于视频数据库的索引、查询等,通过它可以快捷地在庞大的 数据库中找到用户所需要的视频。 表现形式 主要分为两种:静态的视频概要(Video Summary)和动态的缩略视频(Video Skimming)。其中视频概要是提供快速方便的浏览方式,而缩略视频是视频内容 的浓缩。具体的表现形式如下图所示
4、 视频摘要的新方向——基于语义的研究
基于语义的研究特别是涉及情感等抽象语义等, 虽然 Picard 教授 1997 年出 版了专著 Affective Computing”(情感计算),但是目前的人工智能技术基本上基
于逻辑推理和计算理论, 从哲学的方法论角度是基于理性主义的,而情感计算是 基于感性思维, 目前的人工智能技术很难形式化感性思维。同时情感计算是一个 多学科交叉的崭新的研究领域,包括传感技术、人工智能、认知心理学、脑神经 学及本体论等,因此基于情感类抽象语义的视频摘要将是以后研究的热点之一。
其基本思路是, 将第一帧作为关键帧,然后将其后面的图像帧按顺序与这一帧作 比较,当第 I 帧与前一关键帧的帧差特征信息距离超过阈值 P 后,则将第 I 帧关 键帧,重复此过程,直至最后一帧。这种方法相对比较简单,但所提取出来的关 键帧不一定具有很好的代表意义,而且当有镜头运动或视频内容变化较为频繁、 剧烈时,容易选取过多的关键帧。 基于压缩视频流提取的方法 直接利用压缩视频数据中的某些特征来进行分析和处理,通常利用 MPEG 压缩视频流中已有的离散余弦变换(DCT)的 DC 系数和运动矢量(MV)来提取关键 帧,其优点是无需对视频进行解压,降低了计算的复杂性,其缺点是在镜头渐变 的情况下该种方法鲁棒性不强。 例如, 可以 MPEG 视频压缩域, 综合利用了 MPEG 视频流的各种运动特征(包括匹配度、匹配度差、运动强度差、I 帧集中度等)进 行模糊推理来提取关键帧。 基于支持向量机(SVM)的视频关键帧提取算法 首先在镜头关键帧的基础上,利用支持向量机(SVM,suppOrt vectOr machi ne) 对镜头关键帧分类, 得到视频中镜头的语义概念, 根据语义概念将镜头聚类, 即同样语义概念的镜头为一类。然后,根据不同语义类中镜头的“重要性”决定 从该类中选取哪个镜头的关键帧作为视频摘要的构成帧。所谓“重要性”是指该 类中每个镜头包含的帧数占该类镜头总帧数的比例(越多越重要) ,只在“重要” 的镜头中选择作为视频摘要的关键帧。最后,将不同语义类中选取的关键帧根据 时间顺序排序,构成静态浏览型的视频摘要。 基于聚类的方法 这种方法将视频帧看作特征空间中的点, 并且认为聚类的代表点可以作为视 频关键帧。聚类可以是基于视频片段的也可以是基于镜头的,一般包括下面 4 步: 1) 数据预处理 目的在于使聚类过程更加快速高效。 2) 聚类 其基本思想是,先确定初始聚类中心,再根据当前帧与各类心的 距离或相似度判断当前帧归为哪类,或是作为新的类别。 3) 去冗余 由于聚类输出可能有噪声干扰,或者聚类本身的意义不大,这 些聚类中的关键帧并没有归到最终关键帧序列中。 4) 提取关键帧 最常见直观的方法是选择距离聚类中心点最近的帧作为聚 类的代表帧。 基于聚类的方法提取关键帧具有良好的性能, 这是因为它非常符合视频的特 点,即对于大多数视频,持续时间较长,重复出现次数较多的画面一般是比较重 要的。 基于规则的方法 基于规则的方法与上面的方法有所不同, 其主要提取那些人们认为重要的帧 这类方法。通过提取帧附近的运动模式以及内容特征(如包含人脸的帧或空间复 杂度高的帧),根据一定的规则建立模型,计算帧的重要度,然后按照重要度进 行排序,形成关键帧摘要。目前这一方法处于研究阶段,实际效果并不好,局限 性较大。
G B It ,t 1 ItR ,t 1 I t ,t 1 I t ,t 1
然后对每个帧间交互量 I t ,t 1 ,计算其滑动窗口内交互信息量的均值 I ,将
I / I t ,t 1 的比值与给定的阈值进行比较,从而判断是否在此帧处检测到了场景边
界。 基于离散余弦变换系数(DCT)的切分方法 由于频域中的变换系数是与像素紧密相关的,因此,DCT 系数可以用于压 缩视频序列中的镜头边界检测, 从而进行场景切分。具体做法是对从压缩视频文 件中选取出的 I 帧, 做出里面各个 8×8 块中的第一 DCT 系数的直方图 H ( I k , j ) , 其中 I k 代表第 k 个 I 帧, j 代表该帧共 N 个块中的第 j 块。采用 2 检验法比较相 连 I 帧的 DCT 系数直方图的各个统计值,如果测度 D 超过了给定的阈值就认为 发生了场景切换。其中
2
据划分为更精细的频带。其中 LH j 频带是先将上级低频 LL j 1 在水平方向低通滤 波后, 再经垂直方向高通滤波而得到, 包含了更多垂直方向的高频信号。 而 LL j ,
频带主要是原图像水平方向的高频成分, HH j 频带是图像中对角线方向高频信息 的体现, LL j 是图像在经过 j 级分解后得到的图像低频信号。采用这些图像的低 频信号和图像在各个尺度各个方向上的高频信息可以实现视频场景的检测。 基于运动矢量的压缩视频场景切分方法 由于同一镜头内各帧之间的运动矢量通常是连续的,而且在 MPEG 数据流 中,规则编码本身含有运动数据,因此,对于 MPEG 压缩视频文件来说,也可 以通过运动矢量的变化来检测镜头边界,对场景进行切分。运动矢量的估计有两 种方法: (1)传统的基于块的运动估计,这种方法在基于块的编码方法中已经证 明是有效的; (2)基于点的运动估计,这种方法主要在基于网格的编码技术中使 用,即估计关键点的运动矢量。 基于 HSV 颜色模型的场景切分算法。 在基于 RGB 颜色模型直方图的场景切分算法中,存在着一些缺点,比如上 面提到的两幅不同图像的颜色直方图却有可能相同, 而采用将图像分割成多个小 块, 分别计算各个小块的直方图,再计算两幅图像的直方图这种方法的计算量太 大,严重影响了算法的效率。此时便可运用 HSV 颜色模型来解决这一问题。 在基于 HSV 颜色模型的场景切分算法中, 首先将图像帧的 RGB 转换为相对 应的 HSV 值,然后对 H 、 S 、 V 进行非等间隔量化,再合成为一维特征矢量。 计算视频前后两帧图像的一维特征矢量直方图,求出它们的相似度,从而判断出 是否发生了场景切换。
5、 结束语
目前,视频摘要研究领域仍存在一些问题和不足。首先,没有一种方法普遍 适用于所有的视频类型, 每种方法都具有其自身的特点,针对不同领域的视频事 件, 我们往往需要选取不同的算法,而且使用某一种单一的算法或利用某一类单 一的信息很难取得理想的效果, 从而有时必须结合不同算法的特点,综合利用视 频中的各类信息;其次,摘要的研究缺乏一个统一的、全面的评估标准,一个有 效的评估方法的存在是保证这一领域进步的关键, 因为只有确定了哪种视频摘要 方法好,才能不断改进、不断完善;最后,目前条件下,计算机视觉及人工智能 领域的发展还远远没有达到完全自动理解和获取视频语义内容的程度,即存在 “语义鸿沟”问题,而这个方面恰恰是视频摘要的关键问题,今后的视频摘要系 统必然要从语义的角度去分析理解视频。
H ( I k , i ) H j ( I k 1 , j ) 2 k 0 H ( I k , i) H j ( I k 1 , j )
N 1
N 1
2
H ( I k , j ) H j ( I k 1 , j ) D 2 k 0 H ( I , j ) H ( I k j k 1 , j ) 基于小波相对能量和熵的场景切分技术 由图像小波变换的实现过程可知, 图像数据的每一级分解总是将上级低频数
3、 视频内容提取算法概述
视频内容提取中最重要的工作即将视频中的关键帧提取出来, 所谓视频关键 帧,是指在视频文件的一系列图像帧序列中具有很强的代表性,能够比较准确、 全面地反映一个镜头甚至整个视频内容梗概的图像帧。 它能够有效地表示视频中 表达的主题和内容及其共同特征。 提取关键帧原则: 首先是要保证提取出来的图像帧能够相对比较全面、 准确地代表整段视频的 内容,宁愿错选,也不能少选。另一个就是关键帧的提取技术应做到尽量简洁, 数据处理量尽可能的小,能够快速实现视频的分析和检索。 具体的算法主要有下面几种: 基于镜头的方法 这是一种最简单、 最快捷的关键帧提取方法。首先是对整个视频进行场景切 分, 分割成一个个独立的子镜头,选择每个子镜头的第一帧和最后一帧或中间帧 作为这个子镜头的关键帧。这种方法的优点是简单,运算量非常小,适合于内容 活动性小和保持不变的镜头, 而缺点是对于摄像机不断运动的镜头来说,由于只 选取前后两帧或中间帧作为关键帧,无法全面有效地表达内容较长的镜头。 基于运动分析的方法 运动极小值算法就是一种基于运动分析的方法, 通过光流分析来计算镜头中 的运动量, 在运动量局部最小值处选取关键帧。这种算法的缺点是依赖于局部信 息,鲁棒性不强,而计算量很大。 基于内容分析的方法 利用视频每一帧的颜色、纹理和形状等视觉信息的改变实现关键帧的提取。
2、 视频切割算法概述
在视频切割中,场景边界是一个很重要的概念,视频摘要中,最主要的一个 步骤是找场景边界,以便对视频文件进行准确的场景切分。 一个完整的视频包含 3 种典型的信息:视觉信息、音频信息和文本信息.视
频中的视觉信息主要包括颜色、 纹理和运动等信息.根据生成摘要所用信息类型 的多少, 镜头检测和代表帧提取方法分为单模和多模 2 种类型.单模的代表帧提 取仅利用视觉、音频和文本中的一种信息.对于基于视觉的单模方法,当从一个 场景变换到另外一个场景的时候,相邻的图像帧之间的背景、人物、环境等都会 发生明显变化,而这些都会具体体现在图像的颜色分布上。因此,要判断两幅图 像之间的相似性, 可以根据图像的颜色属性来找出场景边界。具体的算法主要有 下面几种: 基于交互信息量的切分方法 对于连续的两帧图像,分别利用下式独立计算出其三个 RGB 分量的交互信 息量:
相关文档
最新文档