基于深度学习的视频动作识别研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
重庆邮电大学硕士学位论文摘要
摘要
视频动作识别是近年来计算机视觉领域研究热点之一。
不同于图像信息,视频动作中连续、多变的时空域信息,使得从复杂的交互场景中识别人的动作变得十分困难。
为此,本文基于深度学习方法对视频动作识别展开如下研究。
1.针对基于2D CNN(2Dimension Convolutional Neural Network)的动作特征导出缺乏层次性以及动作细节感知能力不足的问题,本论文设计了一种基于时空双注意力网络模型的动作识别模型,多级地对卷积神经网络的视觉感知特征进行导出,旨在丰富动作表征的层级粒度性。
同时论文针对CNN-LSTM(Convolutional Neural Network-Long Short Term Memory)网络模型中采用FC-LSTM(Fully Connected-Long Short Term Memory)网络容易丢失空间特征信息以及缺乏对关键特征信息筛选能力的问题,模型设计中先引入了两类LSTM单元对不同层级不同维度的特征进行时序建模,再通过设计时间注意模型和联合时空注意力模型来提高对关键信息的筛选能力。
为了权衡层级特征的表征贡献,本文设计了融合模型,时空特征在通过PCA(Principal Component Analysis)降维后进行加权融合,实现了对时空双注意力网络的端到端训练。
最后,在多个视频动作数据集上的实验表明,此模型能取得较好的识别精度,同时,可视化分析也展现了模型有效提取关键时空特征的能力。
2.针对C3D(Convolution Network3D)模型的浅层性导致难以深度描述动作规律而影响识别精度的问题,提出了一种基于C3D网络结构展开的残差注意力动作识别模型。
针对3D卷积核运算的低效性,该模型首先将3D卷积核沿着时空维度拆解,得到轻量级的2D空间核与多个尺度的1D时间核,以缓解3D卷积核的计算负担。
接着通过引入通道注意力与空间注意力机制,赋予模型灵活的特征筛选能力。
进一步地,通过堆叠各个残差模块构建残差注意力网络。
除此之外,基于所设计的残差网络本文构建了双流动作识别模型,针对双流网络缺乏时空特征交互的缺点,模型采用多级融合策略并结合多层级深度特征对识别结果进行联合决策,以充分发掘双流模型的时空表征潜力。
最后通过PCA算法对融合后的特征描述子降维后,训练多分类SVM(Support Vector Machine)作为分类器实现对动作的识别。
实验结果表明,设计的残差注意力网络能很好地平衡模型训练效率和识别
I
重庆邮电大学硕士学位论文摘要
精度,同时,双流动作识别模型在数据集UCF101的识别效果上也得到了提升,验证了模型的有效性。
关键词:深度学习,动作识别,注意力机制,残差注意力网络,双流模型
II
重庆邮电大学硕士学位论文Abstract
Abstract
The action recognition is an important research topic in the field of computer vision.Different from image data,the variable and complex information from time domain and space domain in video actions make it more difficult to efficiently and stably extract discriminate action representations from complex action interaction scenes.Hence,the researches on video action recognition based on deep learning are studied as follows:
1.In view of the lack of fine-frained action representation based on2D convolutional neural network(2D CNN),a spatial-temporal dual attention model is studied in this thesis,in which the semantics of multiple visual perception layers of convolutional neural network are extracted to enrich the action representation level. Besides,considering the fully-connected long short memory(FC-LSTM)network in the CNN-LSTM model is prone to lose spatial feature information,and weak in selecting key feature information,different types of LSTM units are used to model the temporal sequence features with different dimensions in our proposed method.Then,in order to strengthen concentration on key action information,both temporal attention module (TAM)and joint spatial-temporal attention module(JSTAM)are built.Finally,after dimensions reduction by PCA methods,the spatial-temporal feature descriptors are fused to weigh the recognition contribution brought from different attention networks. At the same time,the end-to-end training of spatial-temporal dual attention network (STDAN)is realized.Experimentally,the comparison results with state-of-the-art methods on multiple action recognition datasets have shown the superiority of our model,and the visual analysis also proves that the model can effectively extract key features.
2.Considering that the shallow nature of convolution network3D(C3D)model is not conducive to the deep representation of the action law even affects the recognition accuracy.Based on C3D model,this thesis proposes a residual attention network model. In proposed model,aimed at reducing the inefficient computing of3D convolution operation,the3D convolution kernels are decomposed along the spatio-temporal dimension,then a2D spatial kernel and a multi-scale1D time kernel are obtained to ease the training burden.In addition,through introducing the channel attention and
I
重庆邮电大学硕士学位论文Abstract
spatial attention mechanism,the model is endowed with flexible ability in feature selection.Then,the residual attention network is constructed by stacking each residual block.In this basis,a two-stream action recognition model is constructed based on the designed residual network.To deal with the weak interaction of spatial-temporal features,multi-stage fusion strategy is used to fully explore the two-stream model. Finally,PCA is used to implement the dimension reduction of fused feature descriptor, which is classified by multi-task SVM for action recognition.The experimental results show that the designed residual attention network model can achieve higher recognition accuracy and balance the training efficiency and trainable parameters.Besides,the two-stream model in the real dataset UCF101has made further performance improvement,which proves the feasibility of the model.
Keywords:deep learning,action recognition,attention mechanism,residual attention network,two-stream model
II
重庆邮电大学硕士学位论文目录
目录
图录 (Ⅲ)
表录 (Ⅴ)
注释表 (Ⅵ)
第1章绪论 (1)
1.1研究背景及意义 (1)
1.2国内外研究现状 (2)
1.2.1基于传统手工特征的动作识别算法 (3)
1.2.2基于深度学习的动作识别算法 (4)
1.3论文主要研究工作与结构安排 (6)
第2章动作识别技术基础 (9)
2.1深度学习相关理论基础 (9)
2.1.1卷积神经网络 (9)
2.1.2残差网络 (11)
2.1.3长短时记忆网络 (13)
2.2基于深度学习的视频动作识别 (15)
2.2.1CNN-RNN模型 (15)
2.2.2时空双流模型 (17)
2.2.3特征融合与决策融合策略 (18)
2.2.4注意力机制 (19)
2.3相关数据集 (21)
2.4本章小节 (21)
第3章基于STDAN模型的动作识别 (22)
3.1引言 (22)
3.2系统模型 (23)
3.2.1特征导出模型 (24)
3.2.2注意力模型 (27)
I
重庆邮电大学硕士学位论文目录
3.2.3融合模型 (31)
3.3实验分析 (33)
3.3.1实验配置 (33)
3.3.2模型实验与结果分析 (35)
3.4本章小节 (43)
第4章基于R-3D CNN和多级融合策略的动作识别 (45)
4.1引言 (45)
4.2系统模型 (46)
4.2.1基准模型C3D以及存在问题 (47)
4.2.2A3D残差网络以及双流网络搭建 (48)
4.3实验分析 (54)
4.3.1实验配置 (55)
4.3.2模型实验与结果分析 (56)
4.4本章小节 (63)
第5章总结与展望 (65)
5.1论文总结 (65)
5.2未来工作展望 (66)
参考文献 (67)
致谢 (75)
攻读硕士学位期间从事的科研工作及取得的成果 (76)
II
重庆邮电大学硕士学位论文图录
图录
图2.1LeNet-5网络结构 (10)
图2.22D卷积操作示意图 (10)
图2.32D卷积与3D卷积操作对比示意图 (11)
图2.4残差模块结构 (12)
图2.5LSTM单元架构图 (14)
图2.6卷积层特征可视化 (15)
图2.7CNN-LSTM模型识别示意图 (16)
图2.8LRCN结构图 (17)
图2.9two-stream识别模型图 (17)
图2.10two-stream融合策略 (18)
图2.11CBAM注意力模型 (20)
图2.12动态空间注意力 (20)
图2.13ATW CNN模型 (21)
图3.1STDAN模型结构图 (24)
图3.2卷积层特征立方块 (25)
图3.3时间注意力模型 (28)
图3.4联合型时空注意力模型 (29)
图3.5联合时空特征的制作流程图 (31)
图3.6STDAN模型结构图 (33)
图3.7深度特征导出模型 (34)
图3.8不同维度对模型性能的影响 (37)
图3.9 值对识别性能的影响 (37)
图3.10融合特征分类效果可视化 (38)
图3.11loss曲线 (40)
图3.12时空注意力可视化 (41)
图3.13基于STDAN的双流识别模型 (44)
图4.12S-F ST A3DCN网络模型 (47)
III
重庆邮电大学硕士学位论文图录
图4.2C3D模型结构 (48)
图4.3P3D-C残差模块 (49)
图4.4CBAM注意力模型结构 (50)
图4.5A3D残差模块 (51)
图4.6A3D ResNet模型结构 (52)
图4.7模型C3D,Res_C3D,P3D-C,P3D-C-M,P3D-C-M-A表征性能分析 (58)
图4.8在UCF101数据集从头开始训练以及测试精度曲线 (59)
图4.9从ActivityNet迁移至UCF101后的训练以及验证曲线 (60)
图4.10CBAM可视化结果 (62)
IV
表录
表3.1UCF11、HMDB51、UCF101和ActivityNet数据集的介绍 (33)
表3.2参数配置 (34)
表3.3仿真平台配置 (34)
表3.4单网络模型分类精度 (35)
表3.5双网络模型分类精度 (35)
表3.6TAN与JSTAN中不同注意力模型以及池化策略性能对比 (36)
表3.7不同融合方法实验对比 (38)
表3.8不同特征层组合的模型识别精度 (39)
表3.9模型效率 (39)
表3.10不同模型在UCF11数据集分类精度 (42)
表3.11不同模型在UCF101、HMDB51数据集分类精度 (42)
表4.1A3D ResNet各特征层详细信息 (52)
表4.2参数配置 (55)
表4.3不同模型在UCF101数据集的分类精度和加权F1分数对比 (57)
表4.4不同模型在UCF101上的参数量和训练消耗时间对比 (58)
表4.5在数据集UCF101上迁移前后分类精度对比 (59)
表4.6时间流网络、空间流网络以及双流网络在UCF101上的识别效果 (61)
表4.7不同权值矩阵参数设置的性能对比 (61)
表4.8实例模型对比 (62)
表4.9STDAN、A3D ResNet与2S-F ST A3DCN模型对比 (63)
注释表
BOW Bag of Word,词袋模型
BP Back-propagation algorithm,反向传播算法
CNN Convolutional Neural Networks,卷积神经网络
CV Computer Vision,计算机视觉
DL Deep Learning,深度学习
DT Dense Trajectory Features,密集轨迹特征
GRUs Gated-Recurrent-Unit Recurrent Networks,门控递归单元网络HAR Human Action Recognition,人类动作识别
IDT Improved Dense Trajectory Features,提升型密集轨迹特征
I3D Inflated3D ConvNet,膨胀型3D卷积神经网络
JSTAM Joint Spatial-temporal Attention module,联合型时空注意力模型LRCN Long-Term Recurrent Convolutional Networks,长时递归卷积网络LSTM Long Short Term Memory Networks,长短期记忆网络
ML Machine Learning,机器学习
MiCT Mixed Convolution Tube,混合型卷积通道
MTTL Multi-scale temporal transform layers,多尺度时间转换层
PCA Principal Component Analysis,主成分分析
ReLU Rectified Linear Unit,整流线性单元
RNN Recurrent Neural Networks,循环神经网络
ResNet Residual Network,残差网络
STIP Space-time Interest Points,时空兴趣点
SVM Support Vector Machines,支持向量机
SpyNet Spatial Pyramid Networks,空间金字塔网络
STDAN Spatial-temporal Dual Attention Network,时空双注意力网络TAM Temporal Attention Module,时间注意力模型
重庆邮电大学硕士学位论文第1章绪论
第1章绪论
如今,随着以视频流为信息载体的APP软件如QQ、微信、抖音、快手、微视的盛行,以视频动作为主的信息传递逐渐成为一种新型的交际方式,但是其中大量的良莠不齐的信息内容,无疑给对视频的存储、分析、监管带来了巨大的压力。
同时,在视频理解(Video Understanding)技术中,视频中人的行为作为能间接反映人的情感意识的一种载体,识别行为动作有助于智能设备自动分析人的情感意图,有利于应用于智能城市、智慧交通以及智能监管等智能化领域,实现智能化控制,减少工作量。
基于视频中的人类动作识别(Human Action Recognition,HAR)技术是视频理解技术中的主要分支,旨在通过分析视频动作数据,对具有不同特点的动作进行分类处理,以实现对海量视频数据快速识别与监管。
随着计算机视觉领域深度学习与神经网络的兴起,以及网上海量的视频数据来源,恰好给予了利用深度学习方法实现对复杂视频动作的学习和表征的巨大支持。
因此,充分利用卷积神经网络(Convolutional Neural Networks,CNN)的优势,研究高效率与高精度的视频动作识别方法具有十分重要的理论价值和现实意义。
1.1研究背景及意义
随着信息产业高速发展,视频日益成为人们日常生产生活中不可或缺的媒体形式,视频业务呈现快速发展趋势,今天的数字内容本质上其实是包含了文本、图像、音频、视频的多媒体信息。
其中,特别是视频已经成为互联网用户之间的一种新的交流方式,作为新的信息载体,视频包含了丰富的动作信息,通过视频动作传达信息作为交流的方式也逐渐开始流行起来,如QQ、微信、抖音、快手、微视等社交APP以及在各种直播软件支持下,网络直播行业逐渐兴起。
然而,视频数量的日益增长,良莠不齐的视频内容给视频的存储、分析、监管带来了前所未有的压力。
目前,为了深层次挖掘视频中的重要信息,需要对大量视频内容做分析,在视频理解技术中最核心的部分是,在无人干预的条件下,使智能设备能够自动地实现对场景中人体运动的检测及行为类别的分类,即人类动作识别(Human Action
重庆邮电大学硕士学位论文第1章绪论
Recognition,HAR)。
由于人类动作可以定义为人体中人脑结合对周围环境情况以及自身意识形态分析,为了实现与外界信息交互,达到预定目标所表达出来的肢体行为。
因此,分析一个人的行为不仅仅限于展示身体不同部位的运动模式,更是为了能够对一个人的意图、情感和思想充分的表达[1]。
由于动作作为视频中的信息传达主体[2],视频的理解很大程度上是对视频中动作的研究与分析[3],视频数据信息的成功挖掘很大一部分前提工作在于对动作的识别。
动作识别在机器人(Robotics)[4]、视频监控(Video Surveillance)[5]、情感分析(Sentiment Analysis)[6]、医疗救助(Medical Rescue)、视频搜索(Video Search)、人机交互(Human-machine Interaction)、游戏控制(Game Control)等各个领域都获得了广泛的应用。
对场景中人的行为进行准确地识别,能帮助政府管理公共场合的社会治安以及对异常行为监控,方便作出快速的危机预测。
同时,企业也可以受益于此技术为游戏用户升级更为智能化的控制设备,提升游戏体验。
因此,视频动作识别研究的提出,不仅富有学术意义,还具有较大的社会和经济价值,能够应用于智能化控制、商业智能等多个领域。
1.2国内外研究现状
从视频中识别人类行为是一项具有挑战性的任务,近年来受到计算机视觉研究领域的广泛关注。
随着科研界和产业界逐渐走近,计算机视觉相关国际会议(如CVPR、ICCV、AAAI、IJCAI、NIPS)以及和计算机视觉相关的期刊(如TPAMI、IJCV、TIP)等将动作识别视为一项重要研究课题。
为了让最新的科研成果和工业界有效结合,国际权威机构举办了一系列视频分类的竞赛并公开数据集[7]进行性能测评,如有着视频界行为分类ImageNet称号的百万级视频动作数据集ActivityNet Kinects[8],有效地推动动作识别技术向产业化发展。
与图像分类不同,图像保留的是静态的场景信息,而视频数据不仅仅包含空间信息,还包含了丰富的时间信息,对视频动作进行识别过程需要充分结合两种信息,分析时空相关性,难度更大。
动作识别是视频理解中的核心部分,从复杂的视频场景中抽取动作信息,需要多方面的专业知识,这是计算机视觉理论热点问题也是难点问题,其交叉多个学科的理论知识,包括计算机视觉(Computer Vision, CV),机器学习(Machine Learning,ML),模式识别(Pattern Recognition)等领域。
重庆邮电大学硕士学位论文第1章绪论
动作识别技术主要需要处理在视频动作中的空间变化和时间变化,通过提取动作的时空相关性特征,来对处于连续变化的动作进行表征。
可以简单地将动作识别方法分为两大类,一种是基于手工制作特征的方法,另一种是基于深度学习模型的方法。
对于第一种属于较为传统的算法,其通常可以分解为两个阶段:检测时空兴趣点(Space-time Interest Points,STIP)[9],并用局部表征来描述这些点的视觉模式。
虽然基于传统的特征工程方法依然具有竞争力,但是特征的设计专业性强,人工成本高,系统的泛化性和迁移性差。
近几年兴起的深度学习(Deep Learning, DL)方法能很好地弥补传统方法的缺陷,使用深度学习能够自动学习描述数据本质的特征表达,从而避免人工设计特征的缺陷,并能获得一个普遍的深层次的特征,人工成本低,判别能力强。
1.2.1基于传统手工特征的动作识别算法
在特征提取方法上,在早期先进的方法中,大多数的研究都会使用基于时空兴趣点的运动及纹理描述符,例如,Laptev和Lindeberg在文献[9],提出了时空兴趣点(STIP)并通过计算视频的时空二阶矩再提出了Harris3D特征检测器,将2D Harris角探测器扩展到了3D空间。
为了描述局部运动以及静态外观,Laptev[10]分别提出基于光流直方图(HOF)和方向梯度直方图(HOG)局部描述子。
从图像的底层特征入手,逐渐将HOG和SIFT发展到视频底层特征的提取上,如三维梯度直方图SIFT-3D[11]、HOG-3D[12]都是局部时空特征较好的描述符。
再者,为了提取优质的动作轨迹特征,Wang等人[13]提出密集轨迹特征(Dense Trajectory Features,DT),以不同的尺度对每帧的局部模块进行密集采样,然后在密集光流场中对其进行跟踪。
通过对相机运动进行补偿,对DT特征进行了改进,提出了提升型密集轨迹特征(Improved Dense Trajectory Features,IDT)[14]。
由于不同的视频中运动表征尺寸不同,研究者使用诸如词袋模型(Bag Of Word,BOW)[15]]等高级特征编码方法对提取的时空特征进行编码,再利用支持向量机(Support Vector Machines,SVM)[16]模型进行动作的分类。
然而,手工特征编码需要占用大量的存储空间,同时,对于运动轨迹型特征,其缺乏表观特性,以及较高的问题依赖性使得其在视频动作识别任务上并不是最优的,导致在该任务中可能缺乏判别能力。
重庆邮电大学硕士学位论文第1章绪论1.2.2基于深度学习的动作识别算法
1.2D CNN和3D CNN
近几年来,伴随着深度学习在文本、图像、语音处理中获得的重大突破,丰富的数据来源,以及GPU等硬件设备在深度学习的布局越来越多,使得通过深度学习方法处理大规模视频数据的任务成为可能。
目前,基于深度学习的方法在视频动作识别研究领域变得非常流行,Karopathy 等人[7]从YouTube网站中整理一百万的标注数据,并在2D CNN上进行了训练。
但是,由于2D CNN缺乏提取视频数据中时间维度的信息,为了能同时提取空间上的信息和时间上的信息,Ji等人[17]提出了使用3D卷积核结构替代2D卷积核,并将其用在了视频监控中,取得了不错的效果。
为了获得表征能力强、高效的3D CNN模型,Du等人[18]设计并提出了C3D结构,使用3×3×3的3D卷积核以及迁移学习方法得到结构紧凑、特征区分度高的时空特征,并对模型代码实现了开源,方便后续的研究。
由于受限于视频输入的长度,以及3D卷积的巨大内存消耗,3D CNN的性能没有能够很好地展现,于是研究开始转向一些延伸的模型结构来替代3D卷积核。
如Zhou等人[19]提出了一种混合型卷积通道(Mixed Convolution Tube,MiCT)结构,将3D卷积核与2D卷积核一同并入网络模型中,形成残差式连接,旨在减少训练复杂化度的同时获取更为深层次的信息;类似地,文献[20]利用3D核分解方法,将3D 卷积核拆解为时间维度和空间维度的两个卷积核,并嵌入到残差块中,一定程度上减少了模型训练参数,提高了模型性能和效率。
再有,为兼顾模型性能与网络参数,Carreira和Zisserman在文献[21]中,基于2D卷积核在时间尺度上做了扩展,提出了膨胀型3D卷积神经网络(Inflated3D ConvNet,I3D)结构,在识别难度较大的HMDB51数据集[22]以及动作类型多样的UCF101数据集[23]上获得了相当高的精度。
2.双流识别方法
由于受限于RGB单模态信息中缺乏动态特征,研究逐渐进入对特征输入多模态的探索。
Goodale和Milner[35]提出了著名的双流假设,即视觉信息可以被加工成两条路径:用于形状感知的腹侧流和用于运动感知的背侧流。
静态形式信息是原始单帧中包含的内容,如对象、人、背景等。
动态运动信息是多帧差分中包含的内容,描述运动历史。
基于此理论,Simonyan等人[24]将视频划分为时间和空间两
重庆邮电大学硕士学位论文第1章绪论
个部分,将带有空间信息的RGB视频帧,以及带有帧间运动信息的光流特征(Optical Flow)分别输入到设计的Two-Stream结构中,最后将两个网络的预测结果进行融合,其性能要优于基于手工特征的方法,于是,时空双流网络方法逐渐开始成为主流。
为了获取双流网络时空特征之间的交互性,Feichtenhofer等人[25]分析并探索了不同的融合策略。
为了将3D CNN与双流网络相结合,获取更具判别力的深度时空特征,相关文献[26]和[27]使用Two-Stream的3D CNN分别在RGB彩色视频数据和骨架节点数据中提取了空间RGB流信息与时间光流信息。
但是,受限于小尺度卷积核,单独基于CNN的网络结构只能抓取在较短时间内的动作信息,很难处理不同时间长度的视频数据信息,因此,对于输入长时的视频能否获得充分地分析是提升视频动作分类准确性的关键。
3.联合CNN和RNN方法
在后续的研究中,视频数据的时序特性启发了研究人员通过使用递归神经网络(RNN)来获取时间相关性特征,常用到的LSTM[28]解决了传统RNN中梯度弥散以及梯度爆炸的问题,不仅使视频的输入长度获得了解放,且能更好地捕获到长时视频数据之间相互依赖的特征。
Ng等人[29]将卷积神经网络和循环神经网络(CNN-LSTM)相结合,同时在空间和时间两个维度表征视频数据。
但是,多数的LSTM网络的输入是从CNN全连接层导出的高维度特征,缺乏动作细节上的特征。
基于此,Ballas等人[30]通过设计多层门控递归单元网络(Gated-Recurrent-Unit Recurrent Networks,GRUs)阐释了使用低层感知特征与高层感知特征之间的互补性。
同样,Gammulle[31]等人通过制定各种特征融合策略,将CNN不同视觉层的特征作为RNN的输入,验证了分层特征相互融合的方法能提高识别精度。
由于将卷积层特征在对应的空间位置直接向量化输入到LSTM中,容易失去空间位置的相关性,Li等人[32]将LSTM单元中的矩阵相乘操作用卷积操作替代,保留输入数据的空间结构以及实现对空间信息的进一步编码。
4.Attention方法
神经学和认知学的研究表明,当观察世界时,人们并不关注整个环境,而是关注环境的突出部分和一系列序列的关键时间线[33]。
注意力机制(Attention Mechanism)与人类视觉的选择性注意机制类似,让神经网络在特征学习时在重点关注的目标区域分配更多的注意力资源,进而抑制其它无用信息,核心目标是从
重庆邮电大学硕士学位论文第1章绪论
大量信息中快速筛选出与当前任务目标更相关的信息。
注意力机制在图像理解(Image Understanding)[34]和文本分析(Text Analysis)[35]中的应用证实了其在关键信息提取上具有显著的作用。
注意力机制能够有效地提高动作识别模型性能[36]-[37]。
文献[38]设计了一种软空间注意力沿着时间线有选择性地搜索有价值的信息部分。
文献[32]则是将Conv-LSTM与空间注意力相结合,赋予特征更强的空间显著性的同时,对具有空间拓扑结构的序列卷积特征进一步编码。
然而,它们的共同缺点是忽略了时间线索。
于是,文献[39]通过在LSTM单元中嵌入注意力模块,以突出时间轴上的关键帧信息。
然而,使用单一类型的注意力机制描述复杂运动态势的时空特性是不够的。
之后,Yu等人[40]在3D CNN的基础上构建空间注意模块,在双向LSTM的基础上构建时间注意模块。
同样,Du等人[41]将空间和时间注意机制整合到LSTM中,动态地学习每个视频中应在哪一帧哪一区域给予更多的注意权重。
与文献[41]不同,Li等人[42]首先用多种特征模态表征每个视频片段,然后通过时空注意Neural Cell挖掘这些模式的时空注意。
但是巨大的内存消耗,使用多模态特征并不是最优的。
同时,文献[42]将注意机制只应用于单个卷积层特征,而缺乏挖掘多层特征之间的表征潜力。
为了减轻网络学习的复杂性,文献[43]通过叠加残差时空注意力模块来进行残差学习,使得模型在对关键的时空特征制取上,以及训练效率上获得了明显的提升。
1.3论文主要研究工作与结构安排
本章首先介绍了基于视频内容的动作识别的产生背景和动作识别技术研究的重要性与必要性,指出了目前基于传统手工特征的方法以及深度学习方法的大体内容及其不足,同时简述了目前国内外研究者在基于视频动作识别技术的研究现状。
下面将简要说明本文的主要研究内容:
1.基于STDAN模型的动作识别
本研究基于CNN-LSTM和attention机制展开。
首先从预训练过的CNN中导出多层的深度特征来表示视频动作,相应地利用Conv-LSTM和FC-LSTM捕获不同视频帧之间的上下文信息,对视频动作进行时序建模。
再通过设计时间注意力模型(Temporal Attention Module,TAM)和联合型时空注意力模型(Joint Spatial-temporal。