视频摘要技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Survey on Video Abstraction Technolgy
OUYANG Jianquan1,2,3 , LI Jintao1 , ZHANG Yongdong 1 (1.Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080 2.College of Information Engineering, Xiangtan University,
Key words Video abstraction; Key frame; Key object; Summary sequence; Highlight
目前 国内外很多大学和公司在进行视频摘要研究 并 取得很多研究成果 如 Virage[1] 哥伦比亚大学的 VideoQ IBM 的 CueVideo 和卡耐基 梅隆大学 CMU 的 Informedia II 等 国内研究单位 如微软亚洲研究院 [11,15]和中国科学院 计算所 [2] 清华大学 浙江大学 复旦大学等也研究出了 一些原型系统
今后新闻视频摘要研究将集中在融合人脸识别 文字识 别与理解 话者识别等技术 并通过高效的人机交互方式生 成个性化的新闻视频摘要 2.2.2 体育视频
(1)体育视频结构分析 基于结构分析的体育视频摘要一般利用精彩动作事件 的探测等进行结构分析 结合多模式技术识别视频中精彩片 段 最后形成摘要进行浏览 Di Zhong [11]提出了一个有效的 体育视频结构分析框架 如图 2 所示
基于故事板的浏览方式为将提取后的关键帧以缩略图 的形式按照时间顺序显示和浏览 缩略图的周围还伴随关键
帧相关属性 包括该镜头持续时间和摄像机运动等 早期的关键帧表示[4]为基于采样的方法 即首先通过镜
头分割技术将视频转换为镜头的集合 然后选取镜头的第一 帧为关键帧 该方法实现最简单 运算量小 但是对摄像机 快速运动的镜头表现能力有限 当前的关键帧表示主要为基 于聚类的方法 其原理为对当前帧 计算其与已知的聚类中 心的距离 若大于预设的阈值 则为新类中心 否则加入距 离最近的类 并重新计算该类中心 关键帧表示方法可以分 为基于视频特征相似性聚类和基于多模式 1.1.1 基于视频特征相似性聚类
第 31 卷 第 10 期
Vol.31
10
发展趋势/热点技术
计算机工程 Computer Engineering
文 章 编 号 1000 3428(2005)10 0007 03
文献标识码 A
视频摘要技术综述
2005 年 5 月 May 2005
中图分类号 TP391.4
欧阳建权 1,2,3 李锦涛 1 张勇东 1 1.中国科学院计算技术研究所 北京 100080 2.湘潭大学信息工程学院 湘潭 411105 3.中国科学院北京研究生院 北京 100039
训练视频
有监督聚类 学习
基于领域约束
特征模型
测试视频
自适应模型 匹配
对象级检验
最终结构 分析
图 2 体育视频结构分析框架 其原理是体育视频都有一个定义良好的内容结构 这种 结构表现为一些基本场景的重复出现 如网球比赛中的发球 镜头 棒球比赛中的击球镜头 检测出这些基本场景 就 可以分析出视频的时序结构 该文的框架有一定的通用性 如在初选阶段能对模型自 适应选择 但是缺乏对领域模型的明确定义 实际上并不易 于扩展到其他领域 目前的体育视频摘要框架基本上基于领 域知识 虽然有一定的通用性 但是由于对体育领域知识建 模的形式化工作还不完善 因此今后的研究倾向于体育领域 共性与特性的建模 (2)体育视频注释 视频注释一般在体育视频中应用较多 一般是对精彩动 作镜头进行注释或标注 在体育视频中 精彩动作是用户关 注和感兴趣的 而且不同类型的体育视频 其精彩动作镜头 也不同 如足球中射门镜头 篮球中广角镜头和特写镜头等 这些精彩动作镜头的注释需要领域知识进行建模 视频注释商业系统方面最著名的为 Virage[1] Virage 工 具集成音频和视频特征框架 并应用大型数据库 能够进行 基本的实时视频分析 但是依然没有解决视频高层语义和底 层特征之间的鸿沟问题 L. Xie[12] 提出了基于隐马尔科夫模型 HMM 的足球 视频结构分析 将足球规则分为踢球和中断两个状态 并应 用主色和宏块的运动矢量特征结合隐马尔科夫模型进行足 球的内容分析 其中踢球和中断状态转换如图 3 所示
摘 要 基于内容的视频分析 检索与索引技术是当前多媒体领域研究的热点之一 视频摘要主要分为两类 静态视频摘要模式 视频略 览 包括基于 MPEG-1/2 的关键帧表示和 MPEG-4 的关键对象表示 动态视频摘要模式 视频梗概 包括视频概述和精彩片段 该文介 绍了视频摘要的新方向 基于情感 心理学等视频摘要模型 关键词 视频摘要 关键帧 关键对象 视频概述 精彩片段
静态和动态视频摘要有明显的区别 静态视频摘要只考 虑其关键帧 对象 忽略了音频信息 生成摘要的速度比 动态的快 动态视频摘要表现的内容比静态视频摘要丰富 通常以镜头的方式表示 融合了图像 声音和文字等信息
1 视频略览
1.1 关键帧表示 目前在基于 MPEG-1/2 的数字视频索引与检索模型中
主要是基于关键帧 代表帧 表示视频序列的概略信息 关 键帧是从视频中抽取的一些静态图像 用于表示镜头的内 容 以此实现视频内容的快速浏览 并能够与视频索引技术 等相结合 进行基于内容的视频检索与分析 其浏览方式包 括故事板 场景转移图等
视频摘要技术主要有两种模式 [3] 视频略览 Video Summary 和视频梗概 Video Skimming 其中视频略览提 供快速方便的浏览方式 而视频梗概是视频内容的浓缩
一般来说 视频略览往往为静态视频摘要模式 即通过 一系列关键帧 对象 组成相应的语义单元 概括表示镜头 内容 并支持视频快速导航 而视频梗概为动态视频摘要模 式 即保持了视频内容随时间动态变化的视频固有特征 一 般是智能选择能够刻画原视频内容的小片段加以编辑合成
基于多模式的方法主要是模仿人类感知能力进行精简 视频内容表示,一般是综合视频音频 文本等进行分析 因为 在电影 体育等视频中场景切换时 视频与音频内容往往同 时变化 所以当镜头边界的音频和视频特征同时变化较大 时 该镜头边界为新的场景边界 Sundaram[6]提出基于视音 频综合特征的场景变换检测的自适应框架-可计算场景 如图 1 所示
作 者 简 介 欧阳建权(1973 ) 男 博士生 研究方向为多媒体分析 李锦涛 研究员 张勇东 博士 定稿日期 2004-04-16 E-mail oyjq@ict.ac.cn
7
数据
音频 音频场景
安静
镜头
音频场景
综合
结构
可计算场景
图 1 可计算场景 该框架的有效性尚未得到广泛验证 在视频摘要中高效 集成多模式特征 是值得研究的方向
基于视频特征相似性聚类的原理为关键帧聚类时 其视 频低层特征有一定的相似性 且时序比较一致 比如 lin[5] 基于主颜色进行相似匹配,其它还有基于匹配块 基于颜色直 方图等 但是视频帧低层特征相似距离小并不一定表示帧本 身的内容相似 故基于语义的相似度量将是视频分析研究的 重点之一 1.1.2 基于多模式
Xiangtan 411105 3.Graduate School of Chinese Academy of Sciences, Beijing 100039)
Abstract Content-based video analysis is the hot issue in multimedia. This paper describes the recent advance in video abstraction. There are two kinds of video abstracts: still and moving image abstract. The still image abstract, namely video summary includes key frame pattern in MPEG-1/2 video and key object pattern in MPEG-4 video. The moving image abstract, namely video skimming includes summary sequence and highlight. Moreover, it introduces the new video abstraction approach affective–based video summary.
2.1 视频概述 视频概述一般用于电影视频的剪辑 宣传片等 以及家
庭视频的浏览 电影视频概述一般采用故事单元类的结构信 息 往往包括对话和一些吸引人的事件如惊天动地的场面 生死离别的场景等
Naphade[8]提出了融合音频 视频特征和文字分析的多对 象-多网络框架 通过 HMM 模型提取有语义信息的多媒体对 象 这些对象通过 Bayesian 网络组成多媒体框架 multinet 在该框架下可以支持复杂查询 如 沙滩上的爆炸 但是 该方法基于领域模型 通用性不强
法差不多快了 16 × 16 倍 由于关键视频对象算法依赖于对
象提取方法 而目前对象提取技术离商业化应用还有一定距 离 因此基于对象的视频摘要研究往往和对象提取技术相 结合
2 视频梗概
视频梗概与视频略览的关键帧浏览方式不同 由一些浓 缩视频内容的视频片段 镜头 组成 视频梗概分为两类 视频概述 Summary sequence 和精彩片段 Highlight 视 频概述提供整个视频内容的大致内容的粗略印象 侧重于摘 要内容的全面 而精彩片段则包含原始视频中最吸引人的部 分 侧重于提取视频的最重要片段
8
不同的音频特征 算法使用了 14 种音频特征 通过训练建 立了一个基于混合高斯模型的分类器 对于新闻片段 再利 用说话人识别技术 检测出播音员片段 最后结合来自于字 幕和自动语音识别的文本 分析建立高层新闻语义结构 新 闻摘要 故事介绍和新闻故事 但是该方法的语义结构通 用性不强 在新闻视频中 通过检测播音员镜头可以定位新 闻条目的开始和结束 早期的研究基于非压缩域特征 如基 于帧间直方图的播音员检测算法 但是运算量较大 且正确 率依赖于镜头分割效果 Hanjalic[10]首先通过视频和音频压 缩域特征和确定播音员镜头边界 然后通过关键词对应技术 标注分割好的报告段,实现新闻视频的检索和浏览 但是仅仅 检测播音员镜头无法实现更高语义的视频查询
1.2 关键视频对象表示 与关键帧类似 基于关键视频对象的视频浏览 同样可
以表示基于对象框架的视频摘要等主要内容 基于对象的视 频摘要在视频监控 基于对象的视频浏览 检索与分析等方 面有广泛的应用 Erol[7]提出基于形状的自动关键视频对象 平面 VOP 选择算法 运用形状估计 实现基于修正的 Hamming 距离和 Hausdorff 距离的方法 在 MPEG-4 压缩域 进行 VOP 选择 效率较高 不需要解码 比非压缩域的方
显然 该方法只对足球比赛效果较好 目前的体育视频 注释算法基本上基于某项体育运动的先验知识 通用性不 强 因此将基于领域和通用性有效结合将是以后体育视频注 释研究的方向
Play -HMMs
特征 流
Max
Qpp
Q pp
Qpp
Qp(t-1)
Qp( t)
Qp(t-1)
Break -HMMs
QBP
视频概述往往反映了视频的全局信息 保证了内容的全 部涵盖 用户往往并不需要视频内容的详尽了解 视频概述 显得冗长 而视频精彩片段的提取是当前研究的热点之一
2.2 精彩片段 2.2.1 新闻视频
电视新闻节目有一定先验时间结构 新闻视频摘要一般 Biblioteka Baidu重抽取新闻视频的新闻条目 建立高层新闻语义结构
Huang[9]通过综合音频和文字分析将新闻视频生成便于 浏览的层次结构 首先根据音频特性将新闻视频中的广告片 段分离出来 其原理是广告中一般都有背景音乐 它们具有