视频多模态融合
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
帧(Farme):帧是视频数据流中的基本组成单元,每一帧均可看成一个独
立的图像。视频数据流就是由这些连续的图像帧构成的,在PAL视频格式中,视频采样率
为25帧/秒,在NTSC视频格式中,视频采样率为30帧/秒。
镜头(Shot):镜头是摄像机拍下的不间断的帧序列,是视频数据流进一步
结构化的基础结构层。
关键帧(KeyFarme):关键帧是可以用来代表镜头内容的图像。在切分出
镜头结构以后,关键帧就被用来表示各个镜头的底层特征,从而进行进一步的视频结构化。
在一个视频镜头中,一般关键帧的数目要远远小于镜头所包含的图像帧数目。
场景(Secne):语义上相关和时间上相邻的若干组镜头组成了一个场景,场景是视频所蕴涵的高层抽象概念和语义表达。
组(Gmup :组是介于视频镜头和语义场景之间的结构。例如:一段采访
录像,镜头在主持人与被采访者之间频繁切换,整个采访过程属于一个场景,而那些关于主
持人的所有镜头属于一组,关于被采访者的所有镜头属于另外一组。
视频镜头边缘检测
视频可以看作是一系列时间上相互依赖的图像帧组成的数据流。通常而言,在视频情节内容发生变化时,会出现镜头切换,从一个镜头内容转移到另外一个镜头内容。
视频蕴涵有丰富的视觉、听觉和字幕信息,所以这些底层特征可以是颜色、纹理、形状、音调和文本等,然后可以采用单模态分析方法,即只使用一种模态信息进行处理,或是采用多模态分析方法,即同时使用两种或是两种以上的模态信息进行处理。基于这些提取的底层特征,我们可以将视频片段索引到相关的语义概念上,例如,汽车、冰球、海滩、采访等场景。目前,多数实验结果表明,多模态视频融合分析能够产生有效的视频索引,方便视频片段的分类。
鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参
数摄动下,维持其它某些性能的特性
视频数据融合分析
实时地通过语义访问多模态视频数据库有着广泛的应用前景,这就需要人们关注视频片
段的自动索引。
视频数据分析方法是按照如下步骤进行的:首先,
从原始的视频数据流中提取一系列底层特征,因为视频蕴涵有丰富的视觉、听觉和字幕信息, 所以这些底层特征可以是颜色、纹理、形状、音调和文本等,然后可以采用单模态分析方法, 即只使用一种模态信息进行处理,或是采用多模态分析方法,即同时使用两种或是两种以上
的模态信息进行处理。基于这些提取的底层特征,我们可以将视频片段索引到相关的语义概念上,例如,汽车、冰球、海滩、采访等场景。目前,多数实验结果表明,多模态视频融合
分析能够产生有效的视频索引,方便视频片段的分类。一种简单的多模态融
合分析方法是,分别对单个模态的数据进行处理分析,然后综合得到的分析结果。方法已经产生了良好的实验结果,但是这些方法缺少扩展性和鲁棒性,而
且在理论上也存在着两个基本的问题:一是哪些模态信息对于视频融合分析最为有益?二是如何选择性地融合这些最优的模态信息?
为了解决这两个问题,文献【23]中,作者使用pAC)和独立成分分析(Independentoc哪onent劫alysis,I以)方法,完成对视频的融合分析。
他们提供了一个独立模态信息的分析方法,从原始的底层特征中提取了最优的模态信息。一旦独立的模态信息被定义以后,研究的第二步就是如何选择一种最优的方法来融合这些模态信息,以方便视频数据的后期处理,例如,视频镜头的分类。
假设我们得到的是真正的独立模态特征,并且每个模态特征都能为类别的预测提供准确
的后验概率,那么我们只要简单地使用产品合成规则(Prdouct一CombinatinoRule)就可以计
算特征信息与预测类别之间的相关概率。但是,上述两个条件在大多数视频数据的分析任务中并不存在,所以,采用产品合成规则并不合适。
另外一个比较通用的融合方法是使用权重加和规则(Weihgtde一SumRul。),这种方法将各种模态特征线性地融合在一起。权重加和规则的优点在于简单,但它线性的约束条件不允许这种方法在高维复杂的模态信息中被使用,因此它不能在PCA和ICA提取的模态特征中挖掘相互依赖的信息。
23中者最后使用超核融合(sPuer KemelFusoin)算法将那些独立的模态特征非线性地融合在一起,其中线性融合将作为上述方法中的一种特殊情况。
这虽然PCA和ICA两种方法并不能保证在高维的模态信息中发现真正独立的模态特征。
所以,本文将采用支持向量聚类(uspportveoctrClusertnig,sVO的方法来完成独立模态特征的选取,并通过基于统计的最大信息嫡(MxanilumEnir叩y,ME)方法来最优化地融合所提取的模态信息。
我们使用isoMAP和支持向量机聚类(SVC)相结合的方法对原始的多模态特征进行分析,发现其中的独立模态特征。
然后使用最大嫡(MxamiumEniorpy)模型对这些独立模态特征进行最优化融合。
第三章视频的多模态融合分析
利用视频的多模态特征,获取数据流中的语义信息已经成为研究热点。由于视频蕴涵有多种
内容丰富的模态信息,融合分析视频中的多模态特征将有助于我们对视频的语义理解。
传统的视频多模态融合分析大多是基于先验知识的,它们缺乏足够的理论来
解决两个基本的问题
一是哪些模态信息对于视频融合分析最为有益?
二是如何选择性地融合这些最优的模态信息?
我们使用isoMAP和支持向量机聚类(SVC)相结合的方法对原始的多模态特征进行分析,发现其中的独立模态特征。
多模态特视频可以从视觉、听觉和文本等通道中提取多模态特征。视频的视觉特征包括图像的颜色特征、纹理特征、镜头运动和人脸特征等,听觉特征包括有音调特征、重要停顿等,文本特征则包括有转录文本、视频字幕等。
多模态的识别
而是使用基于ISOMAP非线性降维和支持向量机聚类SVC来对原始特征进行降维和独立模态数目D的发现。
独立模态发现
该算法用于将m维多模态特征转换成K个独立的模态。假设我们在空间X中给定一组m维的点集(每个数据点表示一个训练样本),那么,独立模态发现算法就是把空间X分割成K个子空间,每个子空间可以看作一个独立的模态。
从视频数据中提取的多模态原始特征可以看作是在高维空间X中一些数据点。由于原
始多模态特征的维数很大,我们必须采用一个有效的维数约减算法来避免维数灾难问题。SIOMoP可以对高维数据进行非线性降维,同时还保留了经典的维数约减算法中的主要优点。SIOMAP保证覆盖了高维原始特征空间中的所有真实维数和JL何结构,因此,SIOMAP更加适合对高维视频多模态原始特征进行维数约减。
通过sIOMAP对高维原始特征空间X进行维数约减得到新的特征空间y,但是空间y
的维数仍然较高,所以,我们还可以通过支持向量机聚类算法(SVC)对空间Y进行分割,
得到K个维数更小的相对独立的空间。
然后(其中包含有审计融合,加权融合)使用最大嫡(MxamiumEniorpy)模型对这些独立模态特征进行最优化融合。
多模态的融合
得到了D个不同的模态,并且己经为每一个模态训练了一个单独的分类器,那么现在的任务就是选择一种合适的方法对这D个分类器的结果进行融合。
基于最大嫡的多模态分析
出了一种基于最大嫡模型对视频进行多模态融合分析的算法。该算法针对不同的
模态,用最大嫡原理发掘不同模态之间的相关性,并对此进行最优化融合。
视频多模态原始特征》》》》独立模态》》》模态1 2。。K》》》》》多模态融合》》》多模态融合分类器
实验分析
原始的多模态特征集小于isomap 略小于采用独立模态特征集小于当ISomap在采用向量聚类