基于序列深度学习的视频分析：建模表达与应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于序列深度学习的视频分析：建模表达与应用近年来,视频数据呈现爆炸式增长。如此大量的视频数据在存储、识别、共享、编辑、生成等过程中都需要精准的视频语义分析技术。

深度学习自从2012年以来极大地推动了计算机视觉领域向前发展,使得大规模视频数据的分析成为可能。因此,利用深度学习进行视频语义分析的研究也就成为了必然的选择。

目前基于深度学习的视频语义分析基本上分为两大步:1)利用卷积神经网络提取出各帧的视觉特征表达;2)利用长短时递归神经网络(LSTM)对该特征序列进行学习,并表达为相应的语义类别或语义描述。本文在对现有视频语义分析技术进行全面调研和总结的基础之上,对视频语义分类和视频语义描述两种任务深度学习模型中存在的经典问题进行了充分的研究。

从视频帧的视觉特征表达的角度,分别提出了连续Dropout算法、参数对图像变换稳健的卷积神经网络、结构对图像变换稳健的卷积神经网络.从特征融合、特征提取的关键角度进一步改善现有卷积神经网络的性能。与此同时,针对序列学习中多层递归神经网络训练难、训练慢的问题,提出了以无监督逐层贪婪式学习的方式进行预训练,有效提升模型性能和模型的训练效率。

更进一步地,针对现有视频序列到单词序列的单向映射框架的局限性,创造性地提出了基于潜在语义表征的多向序列学习算法,为基于视频和句子序列的分析提供了新的视角。本文的主要工作和创新点总结如下:连续Dropout Dropout 已经被证明是一种有效的训练深度卷积神经网络的算法,其主要的思想为通过在一个大规模的卷积神经网络中屏蔽一些原子,可以同时训练多个弱分类器,在预测阶段.可以将这些弱分类器的结果综合起来,有效提升卷积神经网络的性能。

人脑中的神经元的突触的信号传递强度是连续随机的而不是离散随机的,受这种现象的启发,我们将传统的二进制Dropout扩展到连续Dropout。一方面,连续Dropout比传统的二进制Dropout更接近人脑中神经元的激活特性。

另一方面,我们证明连续Dropout具有避免特征检测器共同适应的特性。这表明我们可以在预测阶段融合更多的独立特征检测器提取出来的特征,从而得到更好的结果。

参数稳健的卷积神经网络卷积神经网络(CNN)已经在许多视觉任务上获得了最好的结果,目前几乎所有的视觉信息都要用到卷积神经网络进行处理。然而,目前的CNN模型仍然表现出对图像空间变换的稳健性比较差。

直观地,具有有足够的层数和参数卷积神经网络通过卷积(矩阵乘法和非线性激活)和池操作的分层组合应该能够学习从变换输人图像到变换不变表示的鲁棒映射。我们提出在训练阶段随机变换(旋转、缩放和平移)CNN的特征图。

这可以降低CNN模型对训练图像的特定旋转,缩放和平移的依赖。相反,每个卷积核将学习到对于其输人特征图的多种变换组合中不变的特征。

这样,我们不需要对优化过程和训练图像添加任何额外的监督信息或对输入图像进行修改。通过实验进一步验证了通过随机变换进行学习的CNN对于输入图像的变换更加不敏感,在小规模图像识别,大规模图像识别和图像检索上都提升了现有卷积神经网络的性能。

结构稳健的卷积神经网络卷积神经网络(CNN)已经在许多视觉识别任务中展现了最好的性能。然而,卷积和池化操作的组合对输人中有意义目标的局部位置变化只显示出较小的不变性。

有时.一些网络使用数据增强(Data augmentation)的方法来训练网络,以将

这种不变性编码到网络参数中,但这限制了模型学习目标内容的能力。一种更有效的方式是将对平移或旋转的不变性添加到网络架构中,从而减轻了模型对参数学习的需要。

为了使模型能够专注于学习其所描述的对象,而不受其位置等影响,我们提出在特征响应图中,通过对局部区块进行排序,然后再输入进下一层中。当区块重排序结合卷积和池操作时,我们对于处于不同位置的输入图像中的目标,获得了一致的表达。

我们证明了所提出的区块排序模块可以提高CNN对许多基准任务的性能,包括MNIST数字识别、大规模图像识别和图像检索等。序列的深层递归神经网络学习递归神经网络(RNNs)特别是视频分析中常用的长短时记忆网络(LSTM)的最新发展已经显示出其对序列数据进行建模的潜力,特别是在计算机视觉和自然语言处理领域。

然而,对拥有多层LSTM的深层网络的训练效果相对于浅层网络并没有得到期望的提升,同时收敛速度也比较慢。这种困难源于LSTM的初始化方法,其中基于梯度的优化通常会收敛于较差的局部解。

针对此问题,我们探讨了无监督的LSTM初始化预训练机制,充分利用无监督预训练的作用,指导后续的监督训练。在本文中,我们提出了一种新颖的基于编码器-解码器的学习框架,以贪婪式的逐层训练的方式初始化多层LSTM,其中每个

新增的LSTM层被训练以保留上一层得到的表示中的主要信息。

使用我们的预训练方法训练的多层LSTM胜过随机初始化训练的的LSTM,在回归(加法问题),手写数字识别(MNIST),视频分类(UCF-101)和机器翻译WMT’14)等任务上都取得了更好的效果。此外,使用贪婪的逐层训练方法还将多层LSTM

的收敛速度提高了 4倍。

基于共享隐表征的序列到序列学习序列学习是深度学习的流行研究领域,如视频字幕和语音识别。现有方法通过首先将输入序列编码为固定大小的向量.然后从向量解码目标序列来将该学习建模为映射过程。

虽然简单直观,但是这种映射模型是任务相关(task-specific)的,不能直接用于不同的任务。在本文中,我们为通用和灵活的序列到序列学习提出了一个星状框架,其中不同类型的媒体内容(外围节点)可以被编码到共享隐表征(sharedlatent represention,SLR),即中央节点中。

这是受到人脑可以以不同的方式学习和表达抽象概念的启发。SLR的媒介不变属性可以被视为中间向量的高级正则化,强制它不仅捕获每个单个媒体内的隐式表示,如自动编码器,而且还可以像映射模型一样进行转换。

此外,SLR模型是内容相关(content-specific)的,这意味着它只需要对数据集进行一次训练,同时用于不同的任务。我们展示了如何通过dropout训练SLR 模型,并将其用于不同的序列到序列任务。

我们的SLR模型在Youtube2Text和MSR-VTT数据集上得到验证,实现了视频到语句任务的显著效果提升,以及首次实现句子到视频的结果。