跌倒异常行为的双重残差网络识别方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

*The National Natural Science Foundation of China under Grant No.61876073(国家自然科学基金);the Research Fund Project of Ministry of Education-China Mobile under Grant No.MCM20170204(教育部-中国移动科研基金项目).Received 2019-06-21,Accepted 2019-09-05.
CNKI 网络出版:2019-09-27,http:////KCMS/detail/11.5602.TP.20190926.1324.004.html
计算机科学与探索
Journal of Frontiers of Computer Science and Technology
跌倒异常行为的双重残差网络识别方法*
王新文，谢林柏+，彭
力
物联网技术应用教育部工程研究中心（江南大学物联网工程学院），江苏无锡214122+通信作者E-mail:**********************.cn 摘
要：在异常行为监控中，由于监控视角、人体姿态和场景等复杂的情况，直接通过增加3D 卷积神经网络层
数来提取有效的视觉特征，容易导致卷积模型发生梯度消失和过拟合，从而降低了行为识别率。

针对上述问题，提出了一种基于双重残差卷积网络的跌倒识别方法，通过在残差网络中嵌套残差网络，充分融合了浅层和深层视觉特征，缓解了模型训练时梯度消失问题带来的影响，从而使模型性能得到了提升。

最后采用5折交叉验证方法在多相机跌倒数据集（MCFD ）和热舒夫大学跌倒数据集（URFD ）上进行了测试评估，结果表明双重残差网络性能优于三维卷积网络（C3D ）、三维残差网络（3D-Resnet ）、伪三维残差网络（P3D ）和2+1维残差网络（R(2+1)D ）识别方法，从而验证了双重残差网络模型对提高异常行为识别效果的有效性。

关键词：跌倒识别；残差网络；梯度消失；行为识别文献标志码：A
中图分类号：TP391.4
王新文,谢林柏,彭力.跌倒异常行为的双重残差网络识别方法[J].计算机科学与探索,2020,14(9):1580-1589.WANG X W,XIE L B,PENG L.Double residual network recognition method for falling abnormal behavior[J].Journal of Frontiers of Computer Science and Technology,2020,14(9):1580-1589.
Double Residual Network Recognition Method for Falling Abnormal Behavior
WANG Xinwen,XIE Linbo +,PENG Li
Engineering Research Center of Internet of Things Technology Applications (School of Internet of Things Engineering,Jiangnan University),Ministry of Education,Wuxi,Jiangsu 214122,China
Abstract:In the abnormal behavior monitoring,due to the complicated situation such as monitoring angles of view,human body postures and scenes,it is easy to cause vanishing gradient and over-fitting by directly adding 3D con-volutional neural network layers to extract effective visual features,which reduces the action recognition rate.To solve these problems,this paper proposes a fall recognition method based on the double residual convolutional network.By nesting the residual network in the residual network,the double residual network fully integrates shallow and deep visual features and alleviates the impact of the vanishing gradient,and makes the performance of residual network improved.Finally,multiple cameras fall dataset (MCFD)and UR fall dataset (URFD)are tested and evaluated by the 5-fold cross-validation method.The results show that the performance is better than some fall recognition methods based on 3D convolutional network (C3D),3D residual network (3D-Resnet),Pseudo-3D residual
1673-9418/2020/14(9)-1580-10
doi:10.3778/j.issn.1673-9418.1906054
王新文等：跌倒异常行为的双重残差网络识别方法
1引言
异常行为识别是视频行为识别领域中的重要研究方向，对社会安全和发展具有重要意义。

跌倒识别作为异常行为识别任务之一，尤其老人跌倒识别，是关爱弱势群体的重要研究课题。

根据联合国2015年世界人口老龄化报告，在2015年至2030年间，年龄在60岁及以上的人数预计将增长55%[1]。

每年全球估计有64.6万人死于跌倒，有3730万人跌倒严重到需要医疗照顾[2]。

随着计算机视觉技术和传感器技术的发展，国内外对老人跌倒检测进行了研究，并取得了一定的进展[3-8]。

根据跌倒检测的方式，跌倒检测主要分为两类，基于可穿戴设备[4,7]和视觉图像[5-6,8]的跌倒检测方法。

基于视觉图像技术是对摄像设备采集的视频或图像数据进行跌倒识别处理。

Mirmah-boub等人[8]使用背景建模的方法提取运动目标轮廓，然后根据运动目标轮廓的特征进行行为分类。

Kong 等人[5]通过深度相机和Canny滤波器得到二值图像的轮廓，然后根据轮廓图像中的每个白色像素的切线向量角度判断动作行为是否为跌倒。

Min等人[6]使用快速区域卷积网络[9]检测人体形状的纵横比、质心和运动速度，通过这些特征随时间的变化关系来判断动作行为是否为跌倒。

随着深度学习的快速发展，卷积神经网络在图像处理[10-11]和视频分析[12-16]领域取得了很大的突破。

与传统方法相比，深度学习有较强的特征学习能力。

在视频行为识别领域中，行为特征提取主要采用两种思路。

第一种是采用二维卷积分别提取RGB和光流图像的空间特征和时间特征[12]。

第二种是直接使用三维卷积神经网络提取图像序列的时空特征，如三维卷积网络（3-dimensional convolutional networks，C3D）[13]、三维残差网络（3D residual networks，3D-Resnet）[15]、伪三维残差（pseudo-3D residual networks，P3D）[14]等。

Tran等人[13]把二维卷积拓展到三维提取时空特征，该方法将时间和空间信息在一个卷积网络结构内完成，速度较快。

为改善深层结构带来的梯度消失问题，He等人[11]提出二维残差网络（residual network，Resnet）结构，Hara等人[15]把二维Resnet扩
展到三维得到3D-Resnet，提高了行为识别效果。

Qiu等人[14]在残差结构基础上提出一种伪3D的P3D 模型，用1×3×3的空间卷积和3×1×1的时间卷积代替3×3×3的时空卷积，降低了模型计算量。

Tran等人[16]也提出了一种用空间卷积和时间卷积代替3×3×3时空卷积的2+1维残差网络（(2+1)D residual network，R(2+1)D）。

不同于P3D包含三种残差模块，R(2+1)D 仅包含一种残差模块，并进行了超参数设计。

当监控视角、动作姿态和场景等复杂时，为了使深度学习方法提取更有效的视觉特征，需要通过增加卷积网络的层数来增强模型表征能力。

以上3D卷积网络方法中，C3D网络的参数较多，不适合进行深层的拓展；3D-Resnet是一种残差结构，更适用于模型的深层拓展，但是模型训练时仍然存在梯度消失问题，导致训练损失下降慢、模型过拟合和测试识别率低。

针对以上问题，本文提出了一种双重残差网络模型（double3D residual network，D3D）用于跌倒识别。

双重残差网络模型是通过在残差网络中嵌套残差网络，使得卷积网络层数加深时，误差反向传播的梯度能够传入浅层卷积，缓解训练时梯度消失问题，并充分融合了浅层和深层视觉特征。

本文将双重残差网络在UCF101行为识别数据集和多相机跌倒数据集（multiple cameras fall dataset，MCFD）上进行了测试，验证了提出的双重残差网络对削弱梯度消失影响的有效性。

最后，在MCFD和热舒夫大学跌倒数据集（UR fall dataset，URFD）上进行了跌倒识别实验，分别达到了较好的效果，有效地解决了在监控视角、人体姿态和场景等复杂的情况下跌倒识别率较低的问题。

2基于双重残差卷积网络的跌倒识别方法2.1基于3D卷积网络的跌倒识别方法
卷积神经网络是一种通过卷积和池化等操作从图片中提取更为高级和抽象特征的深度学习模型。

二维卷积只能够有效地提取二维图像的空间特征，而三维卷积可以提取到视频图像序列的时间和空间特征。

v xyz
ij
是第i层的第j特征图上(x,y,z)位置处的特征值，如式（1）所示：
network(P3D),and(2+1)D residual network(R(2+1)D),which verifies the effectiveness of the double residual network model for improving the abnormal behavior recognition.
Key words:fall recognition;residual network;vanishing gradient;action recognition
1581
Journal of Frontiers of Computer Science and Technology
计算机科学与探索2020,14(9)
v xyz
ij =F æèçöø÷b ij +∑m ∑p =0P i
-1∑q =0Q i
-1∑r =0R i
-1
w pqr ijm v (x +p )(y +q )(z +r )(i -1)m （1）其中，F 为非线性函数，如Relu 、Softmax 。

P 、Q 、R
分别是3D 卷积核的高、宽和时间维度大小，w pqr
ijm 是卷积核点(p ,q ,r )与上一层第m 个特征图相连接的权重，
b 为卷积核的偏置。

跌倒和蹲下以及坐下等其他日常行为复杂多样，并且在不同的摄像角度下呈现不同的姿态，如图1[17]。

传统跌倒识别算法[5-6,8]需要对视频进行大量的预处理，如背景减除和提取轮廓等，而基于3D 卷积网络的方法可以通过训练学习模型来自动提取视频中动作的时空特征，从而对跌倒、行走和蹲下等其他日常行为以及背景（没有动作发生）进行分类识别。

基于3D 卷积网络的行为识别框架如图2所示。

将帧长为L 的视频序列V 输入到3D 卷积模型进行动作识别。

由于3D 卷积模型输入维度固定，因此将视频序列V 划分为帧长为l 的视频单元，步长为δ，
则V ={u t }T t =1，
T =ëû(L -l )/δ，T 为视频单元总数。

把视频单元u t 输入到3D 卷积网络模型输出y t ，经Softmax 层得出n 类行为的概率值p t ={p i }n i =1。

p i =e
y i
t ∑j =1
n e
y i
t （2）
取所有测试单元的Softmax 层输出的均值作为最终的结果p 。

p =1T ∑t =1
T
p t
（3）
则p 中最大的概率值p max 所对应的类别标签i 即为最终的识别结果。

2.2双重残差卷积网络
当人体行为姿态和场景复杂时，为了提取更深
层次和更抽象的时空特征，需要增加卷积网络的深度，但是三维卷积网络深度过大时，会产生梯度消失的问题。

梯度消失是在误差反向传播训练模型时，越靠前的卷积层权重参数的梯度值越小，使得浅层卷积的权重参数无法进行调整，这会导致模型训练收敛速度缓慢和模型表征能力变差。

为了解决梯度消失问题，He 等人[11]提出了二维残差卷积网络，有效地提高了图片分类的精度。

由于人体行为不仅包含图像空间信息还包含时间信息，因此把二维残差网络扩展
到三维残差网络得到3D-Resnet [15]。

本文在进行行为识别实验时发现，3D-Resnet 网络模型仍出现梯度消失、损失收敛速度缓慢和测试精度差的问题。

因此为了进一步削弱网络加深带来的梯度消失影响，提高模型质量和跌倒识别精度，本文对3D-Resnet 改进如下：
定义一个3D-Resnet 单元为：y =F (x ,W )+x （4）F (x ,W )=W 2σ(W 1x )
（5）
其中，x 、
y 为残差单元的输入与输出，F (x ,W )是x 经过两个三维卷积输出的特征图。

W 1、
W 2为残差单元卷积核的权重，σ为Relu 激活函数。

为了方便显示，把卷积中的偏置舍弃。

图3给出了两个相连接的3D-Resnet 单元结构，输出为：
y =σ(W 2σ(W 1x )+x )+W 4σ(W 3σ(W 2σ(W 1x )+x ))=F 1(x ,W )+F 2(x ,W )
（6）
其中,F 1(x ,W )、
F 2(x ,W )是分别经过卷积输出的特征图。

W 1、
W 2、W 3、W 4为残差单元中卷积核的参数矩阵。

3D-Resnet
单元内部卷积层通道梯度为卷积层输
Fig.1Types of fall and daily action 图1
跌倒及日常动作类型
Fig.2Fall recognition method based on
3D convolution neural network 图2
基于3D 卷积神经网络的跌倒识别方法
1582
王新文等：跌倒异常行为的双重残差网络识别方法
出对输入的导数:
∂y ∂x =∂
∂x F 1(x ,W )+∂∂x
F 2(x ,W )（7）
把图3中两个3D-Resnet 作为一个整体模块。

假设一个残差网络中共有M 残差模块相连接，则训练误差反向传播时，残差网络的第m (0≤m ≤M )模块层的梯度为：
∂J ∂Y (m )=∂J ∂Y
(M )⋅∏i =m M -1G (i )
（8）其中,J 为误差函数，Y (m )
为第m 模块层的输出和m +1层的输入，
G (i )
=∂Y (i +1)
∂Y
(i )为第i 模块内部卷积层通道梯度。

根据式（8）可知，3D-Resnet 第m 模块层的
梯度为其后面所有内部卷积层通道梯度之积。

随着网络的加深会导致第m 层的梯度较小或接近于0，造成梯度消失情形。

为了进一步削弱梯度消失的影响，令第m 模块层的梯度为:
∂J ∂Y (m )=∂J ∂Y
(M )⋅∏i =m M -1(G (i )
+1)（9）式（9）中加入“1”的目的是为了在进行误差反向传播
时，使得模型浅层卷积的梯度不接近于0，从而避免梯度消失，使得浅层卷积参数得到充分训练。

因此对于每一个残差模块，内部卷积层通道梯度为：
∂y ∂x =∂
∂x F 1(x ,W )+∂∂x F 2(x ,W )+1（10）
还原式（10）：
y =F 1(x ,W )+F 2(x ,W )+x =
σ(W 2σ(W 1x )+x )+W 4σ(W 3σ(W 2σ(W 1x )+x ))+x （11）
则y 的网络结构形式是在残差结构中再嵌套两个残差模块。

同时针对跌倒视频数据集小的特点并为了防止模型出现过拟合情形，本文通过减少残差模块内部的非线性函数数量，提高模型线性表征能力，形
成了一种双重残差网络（D3D ）[15]，如图3所示。

对比反向传播梯度公式（8）和（9），改进的残差单元D3D 内嵌套两个3D-Resnet 残差单元可以削弱梯度消失影响，从而保证模型参数充分得到学习和训练。

同理为了拓展模型的深度，在D3D 单元内嵌套多个3D-Resnet 残差单元，如图4所示。

2.3D3D 网络模型及损失函数构造
考虑到跌倒数据集视频数量较小，为了便于和
3D-Resnet [15]对比，以3D-Resnet 为基准模型，分别构建网络层数为18层和34层的D3D 模型。

D3D 的网络层数、卷积核数量和大小与文献[15]里的3D-Resnet 相同，但两者的内部结构连接方式不同。

构建的D3D 网络模型结构如下：
（1）输入层（Input ）第一个卷积层（conv1）和第一个下采样层（Max Pool ）与3D-Resnet 相同。

（2）4个D3D 残差模块，每个D3D 残差模块包含不同数量的3D-Resnet 单元模块（Block ）。

其中每个
Fig.33D-Resnet unit and D3D unit 图3
3D-Resnet 和D3D
单元
Fig.4Improved structure of D3D unit 图4
改进结构的D3D 单元模块
1583
Journal of Frontiers of Computer Science and Technology 计算机科学与探索2020,14(9)
3D-Resnet 单元包含2个卷积层，大小为3×3×3，并去除了内部的非线性函数提高线性表征能力。

每个3D 卷积核的数量在4个模块中分别为64、128、256、512，与3D-Resnet 相同。

D3D 残差模块在模型中用于解决梯度消失问题。

（3）第二个下采样层（Average Pool ）采用3×3×3的均值池化操作进行特征融合。

（4）全连接层（FC ）和Softmax ，其输出维度大小为动作种类的数量。

Softmax 分类器接在全连接层后面，输出每个视频所属行为类别的概率。

图5给出了D3D 网络模型结构，而对于18层的D3D 网络结构，每个D3D 模块包含2个3D-Resnet 单元，即图5中n 1~n 4都为2。

同时对模型进行深层拓展，构建34层的D3D 模型，网络层数与3D-Resnet 相同。

对于34层的D3D 模型结构，同样包含1个卷积层、4个D3D 模块和1个全连接层，4个D3D 模块内部分别含有3、4、6、3个3D-Resnet 单元。

表1给出了18层和34层D3D 模型的具体参数以及输入输出大小。

为了充分地提取时序特征，所有的卷积采用的时间步长为1。

为了降低维度并充分提取空间特征，conv1、conv5_1、conv5_3采用降采样方法，空间步长为2，其余卷积的空间步长为1。

由于网络模型各层卷积核的数量和步长参数设置不同，导致基于跨连接方式的残差结构输入与输出特征图的维度不一致而不能直接相加，采用1×1×1卷积来调整维度。

在模型训练时，使用交叉熵损失函数优化模型参数。

对于n 类行为，共N 视频组成的行为视频集ℤ={x i }N i =1，
每个视频的对应真实标签y ={y j i }N ,n
i =1,j =1，D3D 模型输出C ={c j i }N ,n
i =1,j =1。

交叉熵损失函数如下：
loss =-1N ∑i =1N
∑j =1
n
(y j i ln c j i +(1-y j i )ln(1-c j
i ))（12）
3实验结果与分析3.1数据集
MCFD [17]是由在同一房间位于不同位置和角度的8个摄像头拍摄而成，包含24个场景视频，
帧率
Fig.5
Double residual network structure
图5双重残差网络结构Table 1
Parameters of D3D structure 表1D3D 结构参数
Layer name conv1
Max Pool (3×3×3,stride 2)
Block_1(conv2_x)Block_2(conv3_x)Block_3(conv4_x)Block_4(conv5_x)
Average Pool (3×3×3,stride 2),FC (Numclass -d ),Softmax
Input size 16×112×112×38×56×56×648×28×28×648×28×28×1288×8×28×256
18-layer
7×7×7,64,stride 1(T),2(XY)
éëêùû
ú3×3×3,643×3×3,64×2éëêùûú3×3×3,1283×3×3,128×2éëêùûú3×3×3,2563×3×3,256×2éëêùûú3×3×3,5123×3×3,512×234-layer éëêùû
ú3×3×3,643×3×3,64×3éëêùûú3×3×3,1283×3×3,128×4éëêùûú3×3×3,2563×3×3,256×6éëêùû
ú3×3×3,5123×3×3,512×3Output size 8×56×56×648×28×28×648×28×28×1288×28×28×2568×7×7×512
1584
王新文等：跌倒异常行为的双重残差网络识别方法
120frame/s。

每个场景包含不同的动作，如跌倒、行走、做家务和下蹲等。

根据实验需求，将数据集中每个视频剪切成单一动作的视频片段，时间长度为1~3s，其中跌倒视频持续时间为1s左右。

表2给出了剪切好的视频数量，包含8个类别，分别是背景、行走、跌倒、躺下、坐下或坐起来、下蹲或匍匐、做家务、假摔。

实验时将数据集随机分成5个子集，进行5折交叉验证。

URFD[18]包含70个活动（30个跌倒和40个日常动作），视频总数量为100个，帧率30frame/s，其中跌倒视频是由两个位于不同位置和角度的摄像头拍摄得来。

将视频剪切成单一行为的视频片段，持续时间1~4s。

URFD数据集的行为分为4个类别，分别是跌倒、走、坐下或躺下以及其他日常活动（弯腰、下蹲和趴着等），对应的视频数量如表3所示。

UCF101[19]是从YouTube收集的具有101个类别的动作视频数据集，一共包含13320个视频，每个时长2~15s，帧率25frame/s。

该数据集大致可以分为5种动作：人与物互动、人与人的互动、肢体动作、演奏乐曲和体育运动。

把UCF101数据集划分为两部分，训练集和测试集，划分比例为4∶1。

此数据集在本文仅用于评估D3D模型缓解梯度消失问题的泛化能力。

3.2实验参数设置及训练测试细节
为了便于模型训练测试，并减少连续图片帧之间的冗余信息，首先以一定的采样频率将每个视频转为图片序列。

根据经验，UCF101视频每秒间隔采样5张图片，URFD视频每秒间隔采样6张图片。

由于MCFD数据集的原始视频帧率为120frame/s，因此每个视频转为图片序列时，每秒间隔采样25张图片。

训练测试时，采用数据增强技术[20]，把视频采样的图片按照中心剪切，将其裁剪成112×112作为网络模型的输入。

模型训练时，从训练集的每个图片序列中随机选取连续的16帧图片序列作为网络模型的输入，则卷积网络模型的输入大小是16×112×112。

采用随机梯度下降算法对模型进行优化，动量参数为0.9。

为了防止模型过拟合，全连接层在训练时加入dropout，并设置dropout为0.5。

学习速率设为0.0001，批量大小为8，迭代次数（epoch）为50。

采用呈正态分布的随机数作为参数初始化，标准差为0.01。

本文实验的软件和硬件环境为Tensorflow1.8、Ubuntu16.04和GeForce GPU1070Ti。

测试阶段如图2所示，从每个测试视频中的图片序列中重叠采样连续16帧的图片作为一个测试单元，以14帧为步长（即相邻采样重叠帧数为2，经验值）。

将每个视频的所有测试单元输入到网络模型中，计算所有Softmax输出的平均值作为该视频最终的测试结果。

每个视频对应一个动作类别标签，如果测试得到的视频分类结果和标签相同，则该视频被判断为正确识别。

3.3评估指标
通常跌倒识别算法使用以下指标来进行评估：
（1）准确率（accuracy，Ac）：跌倒与其他日常行为被正确分类的比例。

Ac
=
（2）灵敏度（sensitivity，Se）：跌倒被正确识别出的比例。

Se=TP
TP+FN
（14）（3）特异性（specificity，Sp）：日常行为没有被识别为跌倒的比例。

Sp
=
其中，TP（true positive）代表被正确识别为跌倒的数量；FP（false positive）代表其他日常行为被错误地
Table3URFD quantity distribution 表3URFD数量分布
Type Fall Sit-lie Walk Other Total Count 60 22 48 23 153
Table2MCFD quantity distribution 表2MCFD数量分布
Type Background
Walk
Fall
Lie
Sit Crouch Housework Fake-fall
Total Count
163
173
185
33
96
41
137
16
844
1585
Journal of Frontiers of Computer Science and Technology计算机科学与探索2020,14(9)
识别为跌倒的数量；TN（true negative）代表其他日常行为没有被识别为跌倒的数量；FN（false negative）代表跌倒被错误地识别为其他行为的数量。

3.4D3D模型梯度消失问题评估
为了验证本文提出的D3D残差模型对缓解梯度消失问题的效果，本文采用D3D和3D-Resnet的18层和34层网络在数据集UCF101和MCFD进行训练。

不同节点梯度值变化和模型损失函数值变化，如图6、图7所示。

由于篇幅原因，仅给出了D3D和3D-Resnet模型在卷积浅层conv2_1和深层conv5_1的梯度均值，如图6所示。

从图6中可以发现，3D-Resnet的conv2_1处的梯度较小接近于0，而D3D模型增加了conv2_1的梯度，并且conv2_1和conv5_1的梯度值差距相比3D-Resnet较小，验证了公式（8）和（9）的理论分析，表明D3D缓解了梯度消失问题。

从图7中可以看出，与相同层数的3D-Resnet相比，D3D结构模型的损失函数收敛速度较快，表明D3D网络模型削弱了误差反向传播时梯度消失问题，使得模型参数得到充分训练而且加快了模型损失收敛速度。

3.5跌倒识别实验
3.5.1跌倒识别实验结果及分析
将MCFD数据集随机分成5个子集，视频数量分别是169、169、169、169、168。

把其中4个子集用于训练，剩余1个作为测试集，进行5折交叉验证（Fold1、Fold2、Fold3、Fold4、Fold5）。

为了充分显示D3D和3D-Resnet网络模型对跌倒识别的效果，表4、表5列出了18层的D3D和3D-Resnet进行5折交叉验证的结果。

从表4、表5特异性、灵敏度和准确率的平均数据可以看出，D3D
模型
Fig.6Node gradient value curve
图6
节点梯度值变化曲线
Fig.7Iterative training curve of loss function
图7损失函数迭代训练曲线
1586
王新文等：跌倒异常行为的双重残差网络识别方法
对跌倒识别的效果均超过了3D-Resnet，分别提升了0.101、0.167、0.117。

说明改进后的残差网络增强了模型质量，降低了跌倒的误检率和漏检率，提高了跌倒的识别率。

MCFD数据集的动作种类较多且较为复杂，本文改进的残差网络方法在MCFD数据集上得到了较大的提升，说明D3D模型解决了由于监控视角、人体姿态和场景等复杂情况下导致模型识别性能较低的问题。

为了验证D3D模型对跌倒识别的泛化能力，本文在URFD跌倒数据集上进行5折交叉验证。

将数据集随机分成5个子集，视频数量分别是30、30、32、29、32。

把其中4个子集用于训练，剩余1个作为测试集。

从表6和表7的数据对比分析看出，相对于3D-Resnet模型，D3D模型在跌倒数据集上的特异性、灵敏度和准确率的均值都有较大的提升，由此说明本文提出的D3D模型在跌倒识别中具有良好的泛化性能。

3.5.2与其他3D卷积算法对比
为了更为客观地显示本文改进的3D残差卷积网络模型的性能和在跌倒识别上的有效性，表8列出了几种3D卷积网络算法在数据集MCFD和URFD上的测试结果以及Tensorflow模型存储大小。

对比两个数据集的识别结果发现，18层和34层D3D模型的评估指标特异性、灵敏度和准确率结果均比3D-Resnet优越，说明改进的残差网络的性能得到了提升。

同时发现如下问题：D3D和3D-Resnet的18层与34层在两个数据集上的识别效果不一致，34层结构在数据集MCFD上的指标Se、Ac效果较18层网络结构差。

这是因为数据集MCFD的行为种类较多且复杂，而且模型卷积层数较深，导致深层模型的卷积参数不能较好地学习，造成过拟合，但是从3D-Resnet和D3D的34层相对于18层跌倒评估指标Se、Ac的增量（分别为-0.168、-0.014和-0.065、-0.007）可以看出，D3D-34的增量较大。

由此可以说明D3D 相对于3D-Resnet性能得到了提升，进一步降低了模型过拟合的影响，提高了跌倒识别效果。

与其他3D卷积算法C3D、P3D和R(2+1)D进行对比，本文提出的D3D网络模型在两个数据集上的识别效果较好。

P3D和R(2+1)D是简化后的63和35层残差结构模型，两者都采用1×3×3的空间卷积和
Table4Cross-validation results of
D3D-18on MCFD dataset
表4D3D-18在MCFD数据集上的交叉验证结果
Index TN FP TP FN Sp Se Ac
Fold1
129
3
37
0.9773
1.0000
0.9822
Fold2
131
1
33
4
0.9924
0.8919
0.9704
Fold3
131
1
35
2
0.9924
0.9459
0.9822
Fold4
127
5
36
1
0.9621
0.9730
0.9645
Fold5
130
1
37
0.9924
1.0000
0.9940
Average
—
—
—
—
0.9830
0.9620
0.9790 Table5Cross-validation results of
3D-Resnet-18on MCFD dataset
表53D-Resnet-18在MCFD数据集上的交叉验证结果
Index TN FP TP FN Sp Se Ac
Fold1
122
10
31
6
0.9242
0.8378
0.9053
Fold2
123
9
26
11
0.9318
0.7027
0.8817
Fold3
118
14
30
7
0.8939
0.8108
0.8757
Fold4
114
18
31
6
0.8636
0.8378
0.8580
Fold5
104
27
29
8
0.7939
0.7838
0.7917
Average
—
—
—
—
0.8820
0.7950
0.8620
Table6Cross-validation results of
D3D-18on URFD dataset
表6D3D-18在URFD数据集上的交叉验证结果
Index
TN
FP
TP
FN
Sp
Se
Ac
Fold1
18
1
11
0.9474
1.0000
0.9667
Fold2
18
12
1.0000
1.0000
1.0000
Fold3
19
1
11
1
0.9500
0.9167
0.9375
Fold4
16
1
12
0.9412
1.0000
0.9655
Fold5
19
13
1.0000
1.0000
1.0000
Average
—
—
—
—
0.9680
0.9830
0.9740
Table7Cross-validation results of
3D-Resnet-18on URFD dataset
表73D-Resnet-18在URFD数据集上的交叉验证结果
Index
TN
FP
TP
FN
Sp
Se
Ac
Fold1
8
11
11
0.4211
1.0000
0.6333
Fold2
11
7
11
1
0.6111
0.9167
0.7333
Fold3
12
8
10
2
0.6000
0.8333
0.6875
Fold4
6
11
11
1
0.3529
0.9167
0.5862
Fold5
10
9
13
0.5263
1.0000
0.7188
Average
—
—
—
—
0.5020
0.9330
0.6720
1587
Journal of Frontiers of Computer Science and Technology计算机科学与探索2020,14(9)
3×1×1的时间卷积代替3×3×3卷积，其优点是模型参数少和存储较小。

与同是残差结构的P3D和R(2+1)D 相比，改进后的双重残差模型D3D在两个跌倒数据集上的识别效果较好。

这是因为本文在残差网络中嵌套残差网络，一方面缓解了梯度消失问题，另一方面进一步融合了浅层和深层的特征。

C3D模型和本文提出的D3D模型跌倒识别效果接近，这是因为C3D卷积网络由8个卷积层和2个全连接层以及池化层构成，网络层数较低，因此受梯度消失的影响较小，使得模型参数得到较好训练。

与残差网络模型相比，C3D模型参数较多，模型存储量较大。

综合以上分析，本文提出的双重残差网络D3D 改善了相同层数的3D-Resnet模型出现的过拟合导致跌倒识别率低的问题，同时在监控视角、人体姿态和场景等复杂的情况下D3D残差网络取得了较好的识别效果，提高了3D卷积网络在跌倒识别中的精度。

4结束语
针对直接通过增加卷积网络层数来提取有效的视觉特征容易出现梯度消失和过拟合，从而导致行为识别率较低的问题，本文提出了一种基于双重残差网络的跌倒异常行为识别方法。

通过在残差网络中嵌套残差网络，充分融合了浅层和深层视觉特征，从而能够进一步降低卷积模型训练时梯度消失和模型过拟合的影响。

在UCF101和MCFD行为数据集上进行了验证，D3D模型有效地缓解了相同卷积层数的残差卷积网络模型的梯度消失问题。

最后，将D3D 网络模型在MCFD和URFD两个跌倒数据集上进行验证，性能优于3D-Resnet、C3D、P3D和R(2+1)D卷积算法，表明了D3D算法对跌倒识别的有效性和可行性。

本文通过分析和改进跨连接方式的残差网络来缓解模型梯度消失问题，从而提高了异常行为识别的准确率，但是仍然存在不足。

因此下一步研究方向，将结合残差网络并通过加宽卷积网络融合不同多尺度的视频特征进行行为识别分析。

References:
[1]United Nations.Department of Economic and Social Affairs.
Population Division.World population prospects:the2015 revision[EB/OL].(2015-12-09)[2019-06-01].http://www.
/en/development/desa/population/theme/ageing/WPA2015.
shtml.
[2]World Health Organization.Falls:key facts[EB/OL].(2018-
01-16)[2019-06-01].http://www.who.int/news-room/fact-sheets/ detail/falls.
[3]Mubashir M,Shao L,Seed L.A survey on fall detection:prin-
ciples and approaches[J].Neurocomputing,2013,100(2):144-152.
[4]Liang W J,Zhang Y H,Jing H,et al.Research on fall detec-
tion method based on SVM[J].Measurement&Control Technology,2014,33(9):33-35.
[5]Kong X B,Lin M,Tomiyama H.Fall detection for elderly
persons using a depth camera[C]//Proceedings of the2017 International Conference on Advanced Mechatronic Systems, Xiamen,Dec6-9,2017.Piscataway:IEEE,2018:269-273.
[6]Min W D,Cui H,Rao H,et al.Detection of human falls on
furniture using scene analysis based on deep learning and activity characteristics[J].IEEE Access,2018,6:9324-9335.
[7]Shi X,Zhang T.Design of a wearable fall detection device
[J].Chinese Journal of Scientific Instrument,2012,33(3): 575-580.
[8]Mirmahboub B,Samavi S,Karimi N,et al.Automatic mono-
cular system for human fall detection based on variations in silhouette area[J].IEEE Transactions on Biomedical Engi-
Table8Performance comparison of several convolution models on MCFD and URFD 表8几种卷积模型在MCFD、URFD上的性能比较
Method
C3D[13]
3D-Resnet-18[15] 3D-Resnet-34[15]
P3D[14]
R(2+1)D[16]
D3D-18
D3D-34Year
2015
2017
2017
2017
2018
—
—
Model size/MB
624
266
508
206
188
265
510
MCFD
Sp
0.982
0.882
0.910
0.915
0.973
0.983
0.992
Se
0.919
0.795
0.627
0.805
0.881
0.962
0.897
Ac
0.968
0.862
0.848
0.891
0.953
0.979
0.972
URFD
Sp
0.978
0.502
0.768
0.882
0.861
0.968
0.978
Se
0.982
0.933
0.950
0.968
0.982
0.983
0.983
Ac
0.980
0.672
0.839
0.916
0.909
0.974
0.980
1588。