视频摘要技术 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Survey on Video Abstraction Technolgy
OUYANG Jianquan1,2,3 , LI Jintao1 , ZHANG Yongdong 1 (1.Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080 2.College of Information Engineering, Xiangtan University,
Key words Video abstraction; Key frame; Key object; Summary sequence; Highlight
目前国内外很多大学和公司在进行视频摘要研究并取得很多研究成果如 Virage[1] 哥伦比亚大学的 VideoQ IBM 的 CueVideo 和卡耐基梅隆大学 CMU 的 Informedia II 等国内研究单位如微软亚洲研究院 [11,15]和中国科学院计算所 [2] 清华大学浙江大学复旦大学等也研究出了一些原型系统
今后新闻视频摘要研究将集中在融合人脸识别文字识别与理解话者识别等技术并通过高效的人机交互方式生成个性化的新闻视频摘要 2.2.2 体育视频
(1)体育视频结构分析基于结构分析的体育视频摘要一般利用精彩动作事件的探测等进行结构分析结合多模式技术识别视频中精彩片段最后形成摘要进行浏览 Di Zhong [11]提出了一个有效的体育视频结构分析框架如图 2 所示
基于故事板的浏览方式为将提取后的关键帧以缩略图的形式按照时间顺序显示和浏览缩略图的周围还伴随关键
帧相关属性包括该镜头持续时间和摄像机运动等早期的关键帧表示[4]为基于采样的方法即首先通过镜
头分割技术将视频转换为镜头的集合然后选取镜头的第一帧为关键帧该方法实现最简单运算量小但是对摄像机快速运动的镜头表现能力有限当前的关键帧表示主要为基于聚类的方法其原理为对当前帧计算其与已知的聚类中心的距离若大于预设的阈值则为新类中心否则加入距离最近的类并重新计算该类中心关键帧表示方法可以分为基于视频特征相似性聚类和基于多模式 1.1.1 基于视频特征相似性聚类
第 31 卷第 10 期
Vol.31
10
发展趋势/热点技术
计算机工程 Computer Engineering
文章编号 1000 3428(2005)10 0007 03
文献标识码 A
视频摘要技术综述
2005 年 5 月 May 2005
中图分类号 TP391.4
欧阳建权 1,2,3 李锦涛 1 张勇东 1 1.中国科学院计算技术研究所北京 100080 2.湘潭大学信息工程学院湘潭 411105 3.中国科学院北京研究生院北京 100039
训练视频
有监督聚类学习
基于领域约束
特征模型
测试视频
自适应模型匹配
对象级检验
最终结构分析
图 2 体育视频结构分析框架其原理是体育视频都有一个定义良好的内容结构这种结构表现为一些基本场景的重复出现如网球比赛中的发球镜头棒球比赛中的击球镜头检测出这些基本场景就可以分析出视频的时序结构该文的框架有一定的通用性如在初选阶段能对模型自适应选择但是缺乏对领域模型的明确定义实际上并不易于扩展到其他领域目前的体育视频摘要框架基本上基于领域知识虽然有一定的通用性但是由于对体育领域知识建模的形式化工作还不完善因此今后的研究倾向于体育领域共性与特性的建模 (2)体育视频注释视频注释一般在体育视频中应用较多一般是对精彩动作镜头进行注释或标注在体育视频中精彩动作是用户关注和感兴趣的而且不同类型的体育视频其精彩动作镜头也不同如足球中射门镜头篮球中广角镜头和特写镜头等这些精彩动作镜头的注释需要领域知识进行建模视频注释商业系统方面最著名的为 Virage[1] Virage 工具集成音频和视频特征框架并应用大型数据库能够进行基本的实时视频分析但是依然没有解决视频高层语义和底层特征之间的鸿沟问题 L. Xie[12] 提出了基于隐马尔科夫模型 HMM 的足球视频结构分析将足球规则分为踢球和中断两个状态并应用主色和宏块的运动矢量特征结合隐马尔科夫模型进行足球的内容分析其中踢球和中断状态转换如图 3 所示
摘要基于内容的视频分析检索与索引技术是当前多媒体领域研究的热点之一视频摘要主要分为两类静态视频摘要模式视频略览包括基于 MPEG-1/2 的关键帧表示和 MPEG-4 的关键对象表示动态视频摘要模式视频梗概包括视频概述和精彩片段该文介绍了视频摘要的新方向基于情感心理学等视频摘要模型关键词视频摘要关键帧关键对象视频概述精彩片段
静态和动态视频摘要有明显的区别静态视频摘要只考虑其关键帧对象忽略了音频信息生成摘要的速度比动态的快动态视频摘要表现的内容比静态视频摘要丰富通常以镜头的方式表示融合了图像声音和文字等信息
1 视频略览
1.1 关键帧表示目前在基于 MPEG-1/2 的数字视频索引与检索模型中
主要是基于关键帧代表帧表示视频序列的概略信息关键帧是从视频中抽取的一些静态图像用于表示镜头的内容以此实现视频内容的快速浏览并能够与视频索引技术等相结合进行基于内容的视频检索与分析其浏览方式包括故事板场景转移图等
视频摘要技术主要有两种模式 [3] 视频略览 Video Summary 和视频梗概 Video Skimming 其中视频略览提供快速方便的浏览方式而视频梗概是视频内容的浓缩
一般来说视频略览往往为静态视频摘要模式即通过一系列关键帧对象组成相应的语义单元概括表示镜头内容并支持视频快速导航而视频梗概为动态视频摘要模式即保持了视频内容随时间动态变化的视频固有特征一般是智能选择能够刻画原视频内容的小片段加以编辑合成
基于多模式的方法主要是模仿人类感知能力进行精简视频内容表示,一般是综合视频音频文本等进行分析因为在电影体育等视频中场景切换时视频与音频内容往往同时变化所以当镜头边界的音频和视频特征同时变化较大时该镜头边界为新的场景边界 Sundaram[6]提出基于视音频综合特征的场景变换检测的自适应框架-可计算场景如图 1 所示
作者简介欧阳建权(1973 ) 男博士生研究方向为多媒体分析李锦涛研究员张勇东博士定稿日期 2004-04-16 E-mail oyjq@ict.ac.cn
7
数据
音频音频场景
安静
镜头
音频场景
综合
结构
可计算场景
图 1 可计算场景该框架的有效性尚未得到广泛验证在视频摘要中高效集成多模式特征是值得研究的方向
基于视频特征相似性聚类的原理为关键帧聚类时其视频低层特征有一定的相似性且时序比较一致比如 lin[5] 基于主颜色进行相似匹配,其它还有基于匹配块基于颜色直方图等但是视频帧低层特征相似距离小并不一定表示帧本身的内容相似故基于语义的相似度量将是视频分析研究的重点之一 1.1.2 基于多模式
Xiangtan 411105 3.Graduate School of Chinese Academy of Sciences, Beijing 100039)
Abstract Content-based video analysis is the hot issue in multimedia. This paper describes the recent advance in video abstraction. There are two kinds of video abstracts: still and moving image abstract. The still image abstract, namely video summary includes key frame pattern in MPEG-1/2 video and key object pattern in MPEG-4 video. The moving image abstract, namely video skimming includes summary sequence and highlight. Moreover, it introduces the new video abstraction approach affective–based video summary.
2.1 视频概述视频概述一般用于电影视频的剪辑宣传片等以及家
庭视频的浏览电影视频概述一般采用故事单元类的结构信息往往包括对话和一些吸引人的事件如惊天动地的场面生死离别的场景等
Naphade[8]提出了融合音频视频特征和文字分析的多对象-多网络框架通过 HMM 模型提取有语义信息的多媒体对象这些对象通过 Bayesian 网络组成多媒体框架 multinet 在该框架下可以支持复杂查询如沙滩上的爆炸但是该方法基于领域模型通用性不强
法差不多快了 16 × 16 倍由于关键视频对象算法依赖于对
象提取方法而目前对象提取技术离商业化应用还有一定距离因此基于对象的视频摘要研究往往和对象提取技术相结合
2 视频梗概
视频梗概与视频略览的关键帧浏览方式不同由一些浓缩视频内容的视频片段镜头组成视频梗概分为两类视频概述 Summary sequence 和精彩片段 Highlight 视频概述提供整个视频内容的大致内容的粗略印象侧重于摘要内容的全面而精彩片段则包含原始视频中最吸引人的部分侧重于提取视频的最重要片段
8
不同的音频特征算法使用了 14 种音频特征通过训练建立了一个基于混合高斯模型的分类器对于新闻片段再利用说话人识别技术检测出播音员片段最后结合来自于字幕和自动语音识别的文本分析建立高层新闻语义结构新闻摘要故事介绍和新闻故事但是该方法的语义结构通用性不强在新闻视频中通过检测播音员镜头可以定位新闻条目的开始和结束早期的研究基于非压缩域特征如基于帧间直方图的播音员检测算法但是运算量较大且正确率依赖于镜头分割效果 Hanjalic[10]首先通过视频和音频压缩域特征和确定播音员镜头边界然后通过关键词对应技术标注分割好的报告段,实现新闻视频的检索和浏览但是仅仅检测播音员镜头无法实现更高语义的视频查询
1.2 关键视频对象表示与关键帧类似基于关键视频对象的视频浏览同样可
以表示基于对象框架的视频摘要等主要内容基于对象的视频摘要在视频监控基于对象的视频浏览检索与分析等方面有广泛的应用 Erol[7]提出基于形状的自动关键视频对象平面 VOP 选择算法运用形状估计实现基于修正的 Hamming 距离和 Hausdorff 距离的方法在 MPEG-4 压缩域进行 VOP 选择效率较高不需要解码比非压缩域的方
显然该方法只对足球比赛效果较好目前的体育视频注释算法基本上基于某项体育运动的先验知识通用性不强因此将基于领域和通用性有效结合将是以后体育视频注释研究的方向
Play -HMMs
特征流
Max
Qpp
Q pp
Qpp
Qp(t-1)
Qp( t)
Qp(t-1)
Break -HMMs
QBP
视频概述往往反映了视频的全局信息保证了内容的全部涵盖用户往往并不需要视频内容的详尽了解视频概述显得冗长而视频精彩片段的提取是当前研究的热点之一
2.2 精彩片段 2.2.1 新闻视频
电视新闻节目有一定先验时间结构新闻视频摘要一般 Biblioteka Baidu重抽取新闻视频的新闻条目建立高层新闻语义结构
Huang[9]通过综合音频和文字分析将新闻视频生成便于浏览的层次结构首先根据音频特性将新闻视频中的广告片段分离出来其原理是广告中一般都有背景音乐它们具有