12-新闻类视频结构化

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
19
视频新闻内容分析

目的: 进行新闻内容分析,其目的是要分析出每个 独立的新闻故事。
20
视频新闻内容分析
主要思路: 独立新闻故事一般在两种情况下发生: (1)先是主持人报道一个独立新闻故事的简要主旨,然 后是非主持人新闻镜头报道故事详细介绍。当这个独 立新闻故事报道完毕后,又出现主持人新闻报道镜头 ,开始了下一条独立新闻故事的报道。对这种情况, 只需要把前一个主持人新闻报道镜头到下一个主持人 新闻报道镜头之间的视频帧组合到一起,形成一个独 立新闻故事介绍就可以了。

36
CMU的Informedia
37
CMU的Informedia
38
39
40
41
现有新闻类分析系统
浙江大学计算机系多媒体计算组的新闻 视频分析系统
(针对体育新闻节目结构化 )
42
体育新闻节目结构化
为了检验算法的有效性,浙江大学计算机系 多媒体计算组设计并实现了一个新闻视频分析 系 统 , 该 系 统 是 在 windows2000 环 境 下 用 visual C++开发的。该系统包括镜头切分、主 持人镜头识别和视频内容分析三大部分。其中 视频内容分析出的结果是一个一个内容独立的 新闻故事。
26
构造新闻故事


对连续的视频新闻构造出独立新闻故事后, 就实现了新闻节目在内容上的自动分割。 这为视频数据库的检索和管理提供的方便。
27
构造新闻故事

建立新闻故事索引

对这些独立的新闻故事提供文本标注 用每个独立新闻故事的关键帧来对这个新闻 故事进行索引。
28
构造新闻故事

说明:
对于新闻节目会出现的其他镜头,如天气预报,也可 以通过事先定义天气预报镜头模块来判断,因为天气预报 镜头有固定结构。 对于广告节目,使用预定义模块的方法很难达到判断 识别目的,因为广告节目镜头没有固定模式。? 但是,广告节目的背景音与新闻报道背景音存在很大 差别(观众可以不看视频数据,只是听与视频流对应的音 频流,在大多数情况下就能判断出哪些是广告节目,哪些 是新闻报道节目)所以,在新闻节目分析中,可以结合音 频信息进行分析。

主持人进行新闻报道时,相邻图像帧之间的差别很小 。帧与帧之 间的变化仅仅是由于主持人微小的身体运动以及随机噪音引起的 ,所以主持人镜头中相邻两帧的平均差别小于新闻镜头中两帧之 间的平均差别
12
主持人新闻报道镜头识别——步骤


先筛选出一些帧间运动变化差别小的镜头,这样的镜 头就是可能的主持人报道镜头 然后将这些可能的主持人新闻报道镜头与前面定义的 四类主持人报道模型进行匹配,如果它们的空间结构 基本一致,则认为选择的镜头是主持人新闻报道镜头。 如果所选择的可能镜头与所定义的任何一种模型均不 匹配,则这个镜头就不是主持人新闻报道镜头
32
33
34
CMU的Informedia
视频新闻的分析处理步骤: (3)判断镜头边缘和镜头中的关键帧。其它的视频 处理比如人脸的识别和视频字幕识别都可以应用 于新闻节目分析。 (4)如果有视频字幕,视频字幕和语音识别对应起 来,这样就能够把语音识别得到的文本的时间信 息附给字幕。

35
CMU的Informedia
46
体育新闻节目结构化
该图显示了提交一段视频体育新闻后的镜头分割结果
47
体育新闻节目结构化


图中上部分是整个视频新闻中相邻帧之间特征变 化情况(在这里,帧特征取直方图),图中所画 的两条水平线分别是双阈值法中的高阈值和低阈 值。从图中上部分显示的视频新闻图像帧特征变 化曲线可以看到,镜头边缘检测的关键是阈值的 确定,选择恰当的阈值,就能获得令人满意的结 果。 图中左下部是提交的视频体育新闻 图右下部是采用双阈值法分割出来的镜头
22
视频新闻内容分析
(2 续)判断方法: 如果在一个主持人新闻报道镜头中,其相 邻两帧图标区域部分的特征变化超过某一预定 阈值,那么这两帧就是新闻故事的分界点。找 出这些分界点,就可以把主持人新闻报道镜头 进一步分割成好几个新闻内容独立的主持人镜 头。
23
构造新闻故事

目的: 将属于同一新闻故事的镜头组合起来 ,便于数据库的检索。
新闻类视频结构化
1
主要内容

视频新闻内容分析 现有新闻类分析系统

2
结构示意图
start
Story 1
News video
Non story
Story n
End
3
新闻类视频结构化——可行性
视频结构化应用最广泛也最成功的领域是 新闻类视频。新闻节目是一个连续数据流, 有新闻开始和新闻结束,并且有时候在新 闻中还有广告等内容。 不像其他视频节目的结构不是很明显,新 闻视频节目中具有明显的结构,使结构化 新闻视频数据不仅成为可能,而且也易于 判断结构化的结果是否正确。
31
CMU的Informedia
视频新闻的分析处理步骤: (1)将新闻节目转化为MPEG格式,音频和视 频作为独立的流分开处理,保留各自的时间标 志。 (2)应用Sphinx-Ⅱ语音识别系统去识别音频 流中的语言,并把识别结果翻译成文本。

卡内基梅隆大学的李开复最终实现了第一个基于 隐马尔科夫模型的大词汇量语音识别系统Sphinx。 此后严格来说语音识别技术并没有脱离HMM框架。

4
视频新闻内容分析——时域结构
新闻视频的时域结构:它是新闻项的序列 新闻项指先是主持人镜头,然后是新闻报 道,最后是主持人镜头,接着进行下一个 新闻项。

主持人镜头 商业广告 天气预报
开始
5
新闻镜头
主持人镜头
结束
视频新闻内容分析——目的

新闻视频分析就是根据这些相对粗糙的类别, 将所有镜头进行归类,从而组合场景 目前新闻视频分析的目的就是把切分出来的镜 头组合成一个个独立的新闻故事,去除在新闻 节目流中广告和天气预报等观众不感兴趣的数 据流,使人们可以单独去了解独立的新闻事件 ,而不需要把整个时段的所有新闻节目都看下 来
43
体育新闻节目结构化
由于针对的是体育新闻,所以系统主要考虑 这两种镜头类型: 主持人新闻报道镜头 体育新闻详细报道镜头

44
体育新闻节目结构化
在新闻节目中,主持人新闻报道画面多是 只有一个主持人在介绍,如图。
45
体育新闻节目结构化
这个系统中,采用双阈值法来检测镜头边缘。 该模块以用户提交的一个视频段作为输入,输 出结果为检测出的所有镜头单元。
上面介绍了两个在对视频新闻进行结构化的 系统。其实,视频信息只是多媒体数据中的一 部分,现在已经在一些视频新闻分析中,已经 开始把图像、音频和语音分析结合起来达到视 频新闻结构化的目的。

21
视频新闻内容分析
(2)镜头中出现主持人画面,可主持人实际上报道了
好几条新闻(如简讯)。从语义上来看,这样一个主持 人镜头里包含了好几个新闻故事,需要将这几个新闻故 事分割开来,因为它们是独立的新闻故事。在这种情况 下,每当主持人从一条简讯转到下一条新简讯时,画面 中的图标也会相应的变换,因为画面中的图标是当前新 闻故事的概要。所以当主持人报道下一条新闻时,前一 条新闻的图标消失,出现下一条新闻的概要,可以依据 这个特定信息,统计该主持人镜头中图标区域变化情况 ,把独立的新闻简讯分割开来。
29
现有新闻类分析系统
CMU的Informedia 浙江大学计算机系多媒体计算组的新闻视频 分析系统 (体育新闻节目结构化 )

30
CMU的Informedia
概述: CMU的Informdia Digital Library Project 综合了自然语言理解、图像处理、语音识 别和视频压缩等技术,从文本、音频和视 频几个角度分析视频,进行结构化。它以 新闻广播作为结构化的测试样本,得到了 很好的结果。
6
视频新闻内容分析——步骤

对视频新闻节目进行分析需要分成如下三 步:


首先将新闻视频流分割成一个个的镜头单元 然后根据事先定义的镜头模型将这些切分出来 的各类镜头归类 最后把分类后的镜头单元组合成独立的新闻故事
7
镜头切分 ——任务、分类


镜头切分的任务就是检测镜头边缘,把视频 流分割成镜头单元 镜头边缘有两大类型:突变和渐变。突变就是 简单的镜头切换(cut),而渐变是具有某种 特殊效果的逐渐过渡(如fade、dissolve和 wipe)。
8
镜头分类



百度文库
在视频新闻中,主要考虑两种镜头类型:主持人镜头 和新闻镜头 可以根据主持人在画面上位置来进一步区分不同类型的主 持人镜头 :一是包含一位主持人的镜头, 二是包含两位主持人的镜头 新闻镜头就复杂很多,没有固定的结构。因此,可认 为那些不能确定为主持人模型的镜头就是新闻镜头 镜头切分包含以下两步:首先,定义两类主持人镜头模型 ;然后设计一种相似度衡量方法,判断某个镜头是否为主 持人镜头
视频新闻的分析处理步骤: (5)视频新闻流被分割成独立的新闻故事或段落, 可以用于检索或者回放。 (6)构造新闻故事的抽象数据,比如新闻总结、镜 头的关键帧、新闻主题和新闻梗概。 (7)视频新闻中的视频(图像)流和音频流结合在 一起成为索引,用户通过Information Client的界 面搜索视频。
17
主持人镜头选择判断
由于头部运动发生在区域A和B中,而区域 C没有变化,所以,有
A C 0

和 和
A C 0
2 2
B C 0

B C 0
2 2
C 0
C 0
2
18
主持人镜头选择判断
如果某个候选镜头中的帧满足以上条件, 就可以断定该镜头属于图( a )所定义的两位 主持人新闻报道镜头。同样的方法可以判断候 选镜头是否属于上图所定义的其他主持人新闻 报道模型。 如果某个候选镜头不属于上图所定义的任 何主持人新闻报道模型,则这个镜头不是真正 的主持人新闻报道镜头。
16
主持人镜头选择判断

算法:
用图所定义的主持人镜头模型中各区域特征。 下面以判断是否为两位主持人新闻报道镜头为例 。在图(a)所定义的两位主持人新闻报道模型中 ,可以知道两位主持人新闻报道镜头中相邻帧间 变化主要来源于两位主持人的身体(主要是面部 )? 因此,计算相邻帧画面中对应的A、B和C这 三个区域特征平均值和方差。
9
主持人镜头模型定义

当有一个主持人进行新闻报道时,画面可以 分成三个部分:主持人人脸、节目(或电视 台)图标和背景画面
背景 主持人
台标
10
4种常见的主持人模型

区别的关键在于主持人数目和是否有图标
11
主持人新闻报道镜头识别


主持人新闻报道镜头识别的任务:从新闻视频中分割 出得到的镜头中,找出那些属于主持人新闻报道的镜 头单元 主持人新闻报道镜头的特征:在主持人报道新闻主旨 时主持人基本保持不动,只是嘴、头或者肩膀会有小 许细微运动,而背景和图标会完全静止。
13
选出可能主持人镜头方法


优点:大大减轻了后边进行主持人镜头模型匹 配判断的计算量,因为不需要逐一判断每一个 分割出的镜头是不是主持人镜头,而只需要在 可能的主持人镜头中选出真正的主持人镜头 具体步骤:对于分割出来的镜头单元,计算这 个镜头中相邻帧的特征平均值 和方差 。当 和 满足如下条件时,认为该组镜头为可能的 主持人镜头 : t1 和 2 t2
24
构造新闻故事

新闻故事的一般结构: 主持人内容简介镜头+新闻详细报道镜 头。 根据这个特征,将识别出的每一个主持 人新闻报道镜头及它到下一个主持人新闻报 道镜头间的所有镜头组合成一个独立的新闻 故事
25
构造新闻故事
开始对应主持人新闻报道镜头,而新闻故事对 应非主持人出现的详细新闻报道。对于主持人连 续报道好几条新闻简讯的情况,构造出的独立新 闻故事仅包含主持人新闻报道镜头,而无详细新 闻报道镜头。
48
体育新闻节目结构化

算法: 将视频帧画面分成背景和主持人两部分, 分别计算各区域中相邻帧的特征变化,选择可 能镜头主持人新闻报道镜头。然后按照上面介 绍的区域特征匹配和独立新闻故事组合等方法 ,得到独立的体育新闻故事,完成体育视频新 闻流分割任务。
49
新闻视频分析中集成视频、音频和文本 信息
14
选出可能主持人镜头方法(续)

其中t1和t2是判断阈值。为了使分析过程快速简单 ,一般在计算中采用基于灰度直方图矩阵的统计 量来衡量相邻帧之间的差别 对判断出来的这些可能是主持人的镜头,将在下 面做进一步分析判断,筛选出真正的主持人镜头

15
主持人镜头选择判断

方法: 判断主持人候选镜头中是否有主持人出现 。如果有主持人出现,则候选镜头是真正主持 人新闻报道镜头,否则不是。
相关文档
最新文档