基于深度神经网络的人脸图像识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第39卷第1期 辽宁工业大学学报(自然科学版) V ol.39, No.1 2019年 2 月 Journal of Liaoning University of Technology(Natural Science Edition) Feb. 2019
收稿日期:2018-05-23
基金项目:国家自然科学基金项目(61502216);大学生创新创业计划训练项目(201801069) 作者简介:王恩侃(1997-),男,山西吕梁人,本科生。
曹玉东(1971-),男,辽宁铁岭人,副教授,博士。
DOI:10.15916/j.issn1674-3261.2019.01.007
基于深度神经网络的人脸图像识别
王恩侃,曹玉东,汪金涛
(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001)
摘 要:概述了深度神经网络的最新进展情况,着重深入分析了VGG-Net 深度神经网络模型,相比于传统学习方法,深度学习能达到更高的识别准确率, 但是存在训练和测试时间较长、字典存储量偏大等问题。在不降低识别率的前提下,通过改进模型结构和优化参数,减少训练时间,实现了轻量化计算。在FaceScrub 人脸图像数据集上验证了改进算法的有效性。
关键词:深度学习;VGG-Net 网络;人脸图像识别
中图分类号:TP391 文献标识码:A 文章编号:1674-3261(2019)01-0029-04
Face Image Recognition Based on Deep Neural Network
W ANG En-kan, CAO Y u-dong, W ANG Jin-tao
(School of Electronics & Information Engineering, Liaoning University of Technology, Jinzhou 121001, China )
Abstract: The recent progress of deep neural network is summarized, and the VGG-Net neural network model is analyzed. Compared with traditional methods, deep learning methods can achieve higher recognition accuracy, but there are problems such as long training and testing time, and larger dictionary storage. On the premise that the recognition rate is not reduced, the lightweight calculation is realized by improving the model structure and optimizing parameters and reducing training time. The effectiveness of the improved algorithm is verified on FaceScrub face image data set.
Key words: deep learning; VGG-Net network; face image recognition
近几年,深度学习技术以人工神经网络模型为基础,突破了三层结构的限制,其表示能力大幅度提高,并在计算机视觉领域取得了成功。深度学习网络主要包括卷积神经网络、循环神经网络、自编码器和长短时记忆网络等。卷积神经网络特别适合处理二维数据,在图像处理和识别领域有很多成功的应用。也是第一个用于解决重要商业应用的网络。循环和递归网络适合处理与时间相关的序列数据。计算机硬件不断发展,深度学习神经网络在计算机视觉领域大放异彩,在图像检索、图像分类领域均取得突破性进展。
2012年,多伦多大学的Hinton 教授首次把深度神经网络应用到图像分类任务上,极大降低了图
像的分类错误率[1]。短短几年的时间,深度学习技术发展迅猛。常见的深度神经网络结构有纽约大学教授Yann LeCun 提出的LeNet-5[2]、Face AI 团队提出的DeepFace [3]、DeepID [4]等。在人脸识别中较为成功的深度卷积网络有DeepFace 、DeepID 以及VGG-Face 等深度网络结构[5-9]。其中DeepFace 网络结构庞大,对于训练图片消耗的资源也较大。汤晓欧教授团队提出的DeepID 网络开创了用深度网络来学习图像的特征,随着数据集的扩大,其本身的分类正确率和验证数据集的识别准确率都在增加。为更好地处理遮挡图片的识别,改进算法DeepID2[7]在回归函数式中加入验证信号,通过对识别信号和验证信号进行加权组合,提高了类内区分
30 辽宁工业大学学报(自然科学版) 第39卷
性。DeepID2+[8]算法是在DeepID2的基础上对网络结构进行的修改,同时增加对CNN 的分析,得到适度稀疏等特性。英国牛津大学的视觉几何团队(Visual Geometry Group )提出VGG-Net [10]网络结构。VGG-Net 强调卷积神经网络设计中另一个重要方面:模型的深度。VGG-Net 首先被应用在图像分类检索任务上,在ImageNet Large-Scale Visual Recognition Challenge2014(ILSVRC2014)的定位竞赛中排名第一,在分类竞赛排名第二,采用的数据集为李飞飞教授团队的ImageNet [11]。VGG-16结构包含了16个卷积/全连接层,VGG-19结构包含了19个卷积/全连接层,都在识别方面取得较好的应用。
相比于传统方法,深度学习能达到更高的识别准确率,但是存在训练和测试时间较长、字典存储偏大等问题, 仍待进一步研究改进[12]。为减小其规模,本文深度剖析了VGG 深度学习网络模型。
1 VGG-Net 网络模型
VGG-Net [9]
属于卷积神经网络,通常情况下,卷积的操作在2个函数之间进行,这里所说的卷积是在2个矩阵之间进行的。卷积有3个好处:稀疏连接、参数共享、输出随输入同样变化。卷积核可以取得很小时,可以实现更精细的物体识别。
VGG-Net 使用的3×3卷积核,可以表示上下、左右、中心这些模式的最小单元。还有比较特殊的空间线性映射的1×1卷积核。网络的前几层是卷积层的堆叠,后面是全连接层和softmax 分类层。网络结构的所有隐层的激活单元都是ReLU ,使用多个较小卷积核的卷积层代替1个卷积核较大的卷积层,可以减少训练参数,实现更多的非线性映射,能够增加网络的表达能力。
在网络的最后一层是Softmax 分类层,前面几层的操作可以看作是网络的特征提取过程,提取其经过特征学习的过程后得到的结构,用对数损失函数计算分类的误差,以此度量原图像与待识别图像的距离。然后对提取的特征向量进行“triplet loss ”特征学习。对卷积神经网络的输出分数向量
D t l ℜ∈)(φ,进行L2范数归一化处理,再用affine
投影,将输出的分数向量投影为:
2
)()(t t t l l W x φφ'= (1)
其中:D L W ⨯ℜ∈',为要求解的投影矩阵;ˆB
通过triplet loss 损失进行求解如下:
2
2
2
2
(,,)()max{0,}a n
a p a p n T
E W a X X X X ∈'=
--+-∑
(2)
式中:2()/()i i i x W l l ϕϕ'=⋅;a 是待测的数据量;p 是其正样本数据量;n 负样本数据量。
求得投影矩阵W 后,再对VGG-Net 的输出分数向量进行L2-范数的归一化处理,特征结果的输出是原矩阵与特征矩阵的乘积。表1给出了VGG-19网络每层的学习参数,卷积神经网络的卷积层是用来提取特征的,全连接层对卷积层的特征信息进行分类识别。
表1 VGG-19各层的参数情况
层名称 核的 规模 核的 个数 步 长 扩 充 可训练 的参数 Conv-64 3×3 64 1 1 1792 Conv-64 3×3 64 1 1 36928 Max Pooling 2×2 2 0 128 Conv-128 3×3 128 1 1 73856 Conv-128 3×3 128 1 1 147584 Max Pooling 2×2 2 0 256 Conv-256 3×3 256 1 1 295168 Conv-256 3×3 256 1 1 590080 Conv-256 3×3 256 1 1 590080 Conv-256 3×3 256 1 1 590080 Max Pooling 2×2 2 0 512 Conv-512 3×3 512 1 1 1180160 Conv-512 3×3 512 1 1 2359808 Conv-512 3×3 512 1 1 2359808 Conv-512 3×3 512 1 1 2359808 Max Pooling 2×2 2 0 1024 Conv-512 3×3 512 1 1 2359808 Conv-512 3×3 512 1 1 2359808 Conv-512 3×3 512 1 1 2359808 Conv-512 3×3 512 1 1 2359808 Max Pooling 2×2
2
1024 FC-4096 4096 102764544 FC-4096 4096
16777216
FC
根据类别数量确定
2 VGG-19网络的改进
本文基于VGG-19网络进行深入研究,在不显
著降低性能的前提下,对VGG-19的全连接层数进行适当减少,然后分析其性能。删除之前的2个全连接层,其层级结构如图1所示。
3 实验结果与分析
3.1 数据集建立
采用公开的人脸图像数据——FaceScrub 数据集[13-14]。FaceScrub 包括530个人的图像,其中单人最少为62幅,单人最大数量为357幅。人脸图像标注了名称和性别,适用于多姿态鲁棒性人脸