基于压缩激活机制的轻量级人脸识别网络设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0 引言
人体生物特征识别技术包括人脸、指纹、手掌纹、虹膜、声音、体型等,其中,人脸识别是最容易被用户接受的身份认证方式之一。

目前,高精度的人脸验证模型多是以对计算资源要求高的深度卷积神经网络为基础建立的,这些模型使用大量的数据进行训练,模型复杂且具有非常多的参数,需要消耗大量计算资源,难以在移动设备和嵌入式设备中运行。

因此,低内存占用、低计算资源消耗的轻量级神经网络成为当前的研究热点。

非轻量级人脸识别网络具有较高的识别精度,但是参数量较大,如DeepFace、DeepFR等。

本文提出了一种基于压缩激活机制的轻量级人脸识别网络,减少了MobileFaceNet网络头部卷积核的数量,降低模型的复杂度;并且引入squeeze-and-excitation结构[1],增加网络的感受野和学习特征的能力,使得网络具备从整个图像更多地关注人脸关键部位的能力,进而提高网络的识别精度。

1 基于压缩激活机制的轻量级人脸识别网

1.1 网络结构设计
基于压缩激活机制的轻量级人脸识别网络(Squeeze and Excitation Mobile Face Net,SEMFN)结构见表1。

每一行代表网络的一层,每一列的含义依次为:输入流,具体操作,输出通道数量,瓶颈层中扩展的通道数,卷积核的大小,卷积计算的步长,重复次数,NL表示使用的非线性变换函数,本文使用PReLU[2]作为非线性激活函数。

表1 基于压缩激活机制的轻量级人脸识别网络
输入操作输出通道扩展通道卷积核步长重复次数NL 1122×3conv3*316-311prelu 1122×16SE-DW Conv16-311prelu 1122×16bottleneck3264321prelu 562×32bottleneck64128331prelu 282×64bottleneck64128311prelu 282×64bottleneck128256321prelu 142×128bottleneck128256314prelu 142×128bottleneck128512321prelu
基于压缩激活机制的轻量级人脸识别网络设计
黄伦文
(安徽四创电子股份有限公司,安徽 合肥 230031)
摘要:基于深度卷积神经网络的人脸识别算法具有较高的识别精度,但是计算复杂度高,难以在移动设备或离线环境下运行。

为了保持人脸识别精度的同时降低人脸识别网络的复杂度,提出了一种基于压缩激活机制的轻量级人脸识别网络(Squeeze and Excitation Mobile Face Net, SEMFN)。

在MobileFaceNet网络为基础,把第一层头部卷积核通道数量下降至16,从而降低模型的复杂度;在网络的第二层引入了轻量级注意力机制,即Squeeze and Excitation结构,使得网络能够更准确的抓取人脸关键区域特征,提高模型的识别精度。

实验证明,基于50万训练样本,SEMFN模型降低了模型参数的同时保持较高的识别精度。

关键词:人脸识别;轻量级神经网络;压缩激活机制
doi:10.3969/J.ISSN.1672-7274.2020.08.002
中图分类号:U675.75 文献标示码:A 文章编码:1672-7274(2020)08-0004-04
A Design of Squeeze and Excitation Mobile Face Net
HUANG Lunwen
(Anhui Sun Create Electronics Co.,Ltd., Hefei 230031, China)
Abstract:Face recognition algorithm based on deep convolution neural network has high recognition accuracy, But it is diffi cult to run in mobile devices or offl ine environment due to its high computational complexity. In order to maintain the accuracy of face recognition and reduce the complexity of face recognition network, a Squeeze and Excitation Mobile Face Net,SEMFN is proposed. On the basis of mobilefacenet network, the number of convolution core channels in the fi rst layer head is reduced to 16, so as to reduce the complexity of the model; In the second layer of the network, a lightweight attention mechanism is introduced, that is, the squeeze and exception structure , which enables the network to grasp the key area features of the face more accurately and improve the recognition accuracy of the model. Experiments show that based on 500000 training samples, semfn model reduces model parameters while maintaining high recognition accuracy.
Keywords:face recognition; lightweight neural network; squeeze and excitation
作者简介:黄伦文,男,安徽四创电子股份有限公司高级工程师。

72×128bottleneck 128256312prelu 72×128linear GDConv 128-711-12×128
linear conv
128
-1
1
1
-
为了降低网络参数数量,SEMFN 头部卷积核通道数降低为16,保证网络精度的前提下,减少了网络头部的参数,节省网络的计算成本;SE-DW conv 层具有
Depthwise Convolution [3]和SEBlock [9]
两种计算,在网络的最开始阶段引入了轻量级注意力机制,使得网络能够更准确地抓取输入信息最值得注意的区域,精准地学习输入人脸特征。

GDConv 是指DepthwiseConvolution 计算。

此外,我们在瓶颈层使用了一个快速的下采样策略,在最后几个卷积层使用了提前降维策略,并在linear GDConv 层之后使用线性1×1的卷积层作为特征输出层。

最终形成的模型参数量为80万,相对于MobileFaceNet 的99万参数量,降低了近20%。

1.2 引入压缩激活机制
Sequeeze and Excitationblock 是一种网络子结构[1],能够方便地嵌入到其他网络结构中,其核心思想是:引入了轻量级注意力机制,通过网络学习特征通道的权重,使得部分有效的特征通道具有较高的权重,其他通道具有低权重,促使模型自适应抓取高权重通道特征,提高识别精度。

本文在网络开始阶段SE-DW Conv 层引入了轻量级注意力机制,使得网络能够更准确地抓取输入信息最值得注意的区域,精准地学习输入人脸特征,具体结构如图1
所示。

图1 SE-DW conv 层结构图
第一步,对输入的通道进行Squeeze 压缩操作,对
输入层进行特征压缩,将每个二维的特征通道变成一个实数,这个实数具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。

Squeeze 操作为全局平均池化,如公式(1)

(1)
k 为输入通道数;W 和H 为输入通道数据的宽和高;
F s 为Squeeze 操作结果,是大小为k 的向量。

第二步,对Squeeze 的结果进行激活操作Excitation ,如公式(2),通过参数为每个特征通道生成权重,用来显示地建模特征通道间的相关性。

(2)
式中,W 1和W 2为全连接层操作;
δ和σ为非线性激活函数;
W 1的维度是k/r*k ,r 是缩放参数,本文算法r=4。

即,先对Squeeze 的结果F s 进行全连接层操作,并根据r 降低维度,经过ReLU 非线性激活函数层处理;为了保持输出维度k 不变,再经过W 2全连接层操作,这里W 2的维度是k*k/r ;最后在经过sigmoid 函数,得到激活后的结果F e 。

第三步,根据Excitation 操作获取的通道权重系数F e ,对输入数据进行加权处理F w ,如公式(3):
(3)
式中,u k 为输入层数据;
F e 为步骤二中求解的Excitation 权重。

通过乘法逐通道加权到输入特征上,完成通道维度上的原始特征的重标定。

自适应学习输入通道的权重,尤其是引入了轻量级注意力机制,通过网络学习特征通道的权重,促使模型自适应抓取高权重通道特征,提高识别精度。

第四步,对输入通道数据进行depthwise 卷积处理,其优势在于大幅降低卷积参数的数量,例如本文网络的第二层,输入层和输出层大小均为112*112*16,卷积核大小为3*3时,普通卷积核参数为3*3*16*16=2304;对于depthwise 卷积,则参数为3*3*16=144,大幅降低参数量。

BN 是Batch Normalization 层,将卷积层计算之后的数据归一化,忽略整体数据的大小变化而保留卷积后数据之间的相对关系。

Act.是激活函数,此处采用了PReLU 非线性变换。

第五步,对步第四步中获得的depthwise 卷积结果和第三步中获得的加权结果进行重组,具体方法为计算二者的内积。

1.3 B ottleneck
瓶颈层结构设计
图2 Bottleneck 层结构图
Bottleneck 是一种瓶颈层结构,可以帮助网络综合性地理解输入信息,学习输入特征。

第一块和第三块类似,由Conv1x1、BN 、Act 构成。

其中,Conv1x1是指卷积核大小为1的卷积层;如前文所述,BN 是Batch Normalization 层,将卷积层计算之后的数据归一化;Act 是激活函数,这里采用了PReLU 激活函数,使该神经元具备分层的非线性映射学习能力。

第二块由DWConv3x3、BN 、Act 组成,其中,
DWConv3×3是指卷积核大小kernel_size=3的Depthwise ConvolutioBN。

SEMFN使用大量的Bottleneck瓶颈层作为网络的主体结构,输入信息可以在网络内部充分流动,使网络有足够的参数理解输入信息并记录信息特征。

2 实验结果分析
2.1 数据集
CASIA-WebFace[10]数据集包含了10,575个人的494,414张图像。

本文使用CASIA-WebFace作为训练数据,并使用人脸验证数据库LFW[11]来检查不同条件下算法的改进情况,训练数据与测试数据没有重叠。

2.2 实验设置
(1)数据准备:对每张图片进行双线性插值缩放,将所有图片统一为112×112的分辨率;将所有图像颜色信息归一化处理,即每个像素的颜色信息减去127.5,然后除以128。

(2)训练设置:由于GPU内存有限,我们采用随机梯度下降(SGD)作为优化器,批量大小为恒定为128。

与大模型相比,轻量级模型可以使用相同的GPU服务进行相对大批量的训练,这也是DCNNs训练阶段的一个常见但关键的实际问题。

动量参数设置为0∶9,初始学习速率设置为0.1,并在28、38、48、58个时点周期性降低为前一步的0.1倍,以适应训练计划。

2.3 实验对比和分析
表2为引入Squeeze and Excitation结构的实验对比分析,可见:模型参数量仅增加了128,识别率由98.91%提升至99.13%,证明了SE结构能够提升模型的识别精度。

表2 引入Squeeze and Excitation结构实验对比
网络模型参数识别率SEMFN(无SE)80656098.91%
SEMFN80668899.13%为了验证本文算法的性能,与当前人脸识别领域主流的算法进行了实验对比,包括:MobileNetV1/ V2[3][4]、Light CNN-29[5]、ShuffleNet[6]、MobileID[7]、MobileFaceNet[8]、LMobileNetE[12]等,结果详见表3。

Light CNN-29和LMobileNetE的识别精度较高,但是其训练数据集分别是4M和3.8M,模型参数数量分别是12.8M和26.7M,均明显高于本文算法,难以应用于移动平台;MobileNetV1/V2的模型参数数量降低至3.2M 和2.1M,但是其识别率均未达到99%,识别精度不高;MobileID参数量降低至1.0M,但是识别精度大幅降低;Shuffl eNet使用逐点群卷积等方式进一步降低了参数量,识别性能优于MobileID。

表3 主流算法结果对比
网络模型年度训练集大小模型参数识别率LMobileNetE@MSIM2019 3.8M26.7M99.50% Light CNN-2920164M12.8M99.33%
MobileNetV120170.5M 3.2M98.63%
MobileNetV220180.5M 2.1M98.58%
MobileID20160.5M 1.0M97.32% MobileFaceNet20180.5M0.99M99.28%
MobileFaceNet-M20180.5M0.92M99.18%
MobileFaceNet-S20180.5M0.84M99.0% Shuffl eNet20170.5M0.83M98.70% SEMFN(OURS)20200.5M0.80M99.13%
MobileFaceNet的整体性能较好,包括三个不同的网络类型,其中,MobileFaceNet的识别率得到99.28%,但是其网络参数数量为0.99M,相对本文算法,识别率提升0.15%,参数量多了约20%;MobileFaceNet-M参数量0.92M,仍然较高;MobileFaceNet-S参数量降低至0.84M,识别率为99%。

本文算法在模型复杂度和识别率上均优于MobileFaceNet-S,是因为本文引入了基于压缩激活机制的轻量级注意力机制,能够有效地增加网络的感受野和学习特征的能力,使得网络具备从整个图像更多地关注人脸关键部位的能力,进而提高网络的识别精度。

3 结束语
为了保持识别精度的同时进一步降低轻量级人脸识别网络的参数量,提高网络的运行速度,本文提出了一种基于压缩激活机制的轻量级人脸识别网络,通过降低头部卷积核通道数量降低了模型的复杂度;进一步引入了squeeze-and-excitation结构,自适应计算特征通道的权重,使得网络在降低参数的同时,保持较高的识别精度。

参考文献
[1] 李静,降爱莲.复杂场景下基于R-FCN的小人脸检测研究[J].计算机工
程与应用,2020,56(1):203-208.
[2] 刘小文,郭大波,李聪.卷积神经网络中激活函数的一种改进[J].测试技
术学报,2019,33(2):121-125.
[3] A. G. Howard, M. Zhu, B. Chen,et al. Mobilenets: Effi cient convolutional
neural networks for mobile vision applications. CoRR, abs/1704.04861, 2017.
[4] M. Sandler, A. G. Howard, M. Zhu, et al. Mobilenetv2: Inverted residuals
and linear bottlenecks. mobile networks for classification, detection and segmentation. CoRR, abs/1801. 04381, 2018.
[5] X. Wu, R. He, Z. Sun, T. Tan. A light CNN for deep face representation with
noisy labels. arXiv preprint, arXiv:1511.02683 , 2016.
[6] X. Zhang, X. Zhou, M. Lin, J. Sun. Shufflenet: An extremely efficient
convolutional neural network for mobile devices. CoRR, abs/1707.01083,2017.
[7] P. Luo, Z. Zhu, Z. Liu, X. Wang, X. Tang. Face Model Compression by
Distilling Knowledge from Neurons[C], AAAI Conference on Artificial Intelligence, 2016.
[8] S. Chen, Y. Liu, X. Gao, and Z. Han. Mobilefacenets:(下转第9页)
从图2可以看出,三种算法都能够在高度动态条件下实现定位解算,运动轨迹均符合目标的运动状态。

为了更为直观的验证性能,给出三种算法在 轴上的定位误差对比,如图3
所示。

图3 三种算法定位误差对比
通过对比可以看出,在匀速运动阶段三种算法的定位性能差别不大,在转弯和加速运动阶段交互多模型的定位方法明显优于最小二乘和卡尔曼滤波的方法。

但是,由于卫星导航系统自身设计的原因,高程相较水平有更大的误差,交互多模型的方法虽然对定位在三维坐标系下均有改善,但是由于在高程上由于误差较大,导致采用交互多模型的算法在高程上定位性能较差,但是相比其他两种算法在三个方向上的定位精度,均有所提高。

计算三种算法在匀速、转弯和匀加速运动三个阶段的定位均方误差,定义为
(9)
式中,
表示运动到第n 个点的三维定
位估计值;
表示第n 个点的位置真值。

三种算法不同阶段的定位性能对比如表1所示。

表1 三种算法不同阶段的定位性能对比
匀速运动阶段
转弯阶段匀加速运动阶段
最小二乘9.02m 12.6m 11.9m 卡尔曼滤波 6.6m 14.8m 12.3m 交互多模型
6.6m
7.2m
6.9m
从表1可以看出:最小二乘的定位方法适用范围比
较广,在不同的运动状态下都能够达到一个中等的定位精度;卡尔曼滤波的方法在模型匹配度较好的时候定位精度较高,当模型不匹配的时候,定位性能急剧下降;交互多模型的导航定位方法通过模型的切换实现与当前运动状态的匹配,能够满足高动态导航定位的需求。

4 结束语
本文针对高动态条件下的导航定位问题,分析高动态条件下的卫星导航运动模型,并计算各个模型之间的关系,建立多模型联合定位的交互模型,并采用惯导辅助推算当前的运动状态,实现模型之间的切换。

仿真结果表明:该方法在高动态条件下相比最小二乘和卡尔曼滤波有更好的定位性能,卡尔曼滤波只能实现一个模型条件下的匹配, 运动状态发生改变的时候定位性能下降较快。

参考文献
[1] 申斌,董朝阳,陈宇,王青.一种模糊自适应交互多模型算法[J].系统仿
真学报,2005,17(10): 2345-2348.
[2] 张玲,李英帅,牛烔,等.基于交互式多模型的双站高频地波雷达机动目标跟踪算法[J].中国海洋大学学报:自然科学版,2018, 48(5): 119-124.
[3] 张俏,徐爱功,祝会忠,等.GPS/BDS 总体最小二乘载波相位定位方法[J].导航定位学报,2017, 5(3): 67-71.
[4] 沈锋,贺瑞,吕东泽,等.基于卡尔曼滤波器的高动态GPS 载波跟踪 环[J].宇航学报,2012, 33(8): 1041-1047.
[5] B lom H A P , Bar-Shalom Y. The interacting multiple model algorithm for systems with Markovian switching coefficients[J]. IEEE transactions on Automatic Control , 1988, 33(8): 780-783.
[6] W ang R , Work D B , Sowers R. Multiple Model Particle Filter for Traffic Estimation and Incident Detection[J]. IEEE Trans. Intelligent Transportation Systems , 2016, 17(12): 3461-3470.
[7] 王磊,程向红,李双喜.基于交互式多模型秩滤波的移动机器人组合导航算法[J].中国惯性技术学报,2017, 25(3): 328-333.
[8] 张红旗.基于交互多模型的低空目标跟踪算法研究[J].无线电工程, 2009, 39(12): 13-16.
[9] X iong K , Wei C L , Liu L D. Robust multiple model adaptive estimation for
spacecraft autonomous navigation[J]. Aerospace Science and Technology , 2015, 42: 249-258.
[10] H wang I , Seah C E , Lee S. A study on stability of the interacting multiple
model algorithm[J]. IEEE Transactions on Automatic Control , 2017, 62(2): 901-906.
[11] 易清明,谢锦华,石敏.快速交互式多模型算法的导航定位解算[J]. 测
绘科学,2017, 42(6): 196-201.
[12] 李文静.机动目标跟踪算法[J].无线电工程,2012, 42(1): 58-61. [13] 肖宁,王玫,雷延锋.基于交互多模卡尔曼滤波器的定位算法[J]. 无线
电通信技术,2013 (1): 80-83.
[14] 朱安福,景占荣,高田,羊彦,张安学.基于UKF 的交互多模型算法[J].
系统仿真学报,2009 (3): 655-657.
(上接第6页)Ef fi
cient cnns for accurate real-time face veri fi cation on mobile devices. arXiv preprint arXiv :1804.07573, 2018.
[9] J . Hu , L. Shen , and G. Sun. Squeeze-and-Excitation Networks. ArXiv e-prints , Sept. 2017.
[10] D . Yi , Z. Lei , S. Liao , S. Z. Li. Learning face representation from scratch.
arXiv preprint , arXiv :1411.7923, 2014.
[11] G . B. Huang , M. Mattar , T. Berg , and E. Learned-Miller. Labeled faces
in the wild : A database for studying face recognition in unconstrained environments[C]. In Workshop on faces in Real-Life Images : detection , alignment , and recognition , 2008.
[12] J . Deng , J. Guo , N. Xue , S. Zafeiriou. Arcface : Additive angular margin
loss for deep face recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR ), 4690-4699, 2019.。

相关文档
最新文档