基于卷积神经网络的人脸表情识别研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于卷积神经网络的人脸表情识别研究
作者:李思泉张轩雄
来源:《软件导刊》2018年第01期
摘要:随着人机交互技术和机器学习技术的发展,人脸表情识别技术逐渐成为研究热点。针对传统人脸表情识别算法鲁棒性差、表情特征提取能力不足的问题,提出一种改进的基于卷积神经网络的人脸表情识别算法。首先对人脸图像进行预处理,检测并分割出人脸关键点的部分图像,然后输入到包含卷积神经网络通道和卷积稀疏自编码(CSAE)预训练通道的双通道模型中。其中卷积神经网络通道部分使用了批量正则化(Batch Normalization)和ReLU激活函数,加快了模型训练速度,解决了梯度消失问题,同时增加了模型的非线性表达能力。通过引入Dropout技术,解决了网络的过拟合问题。在另一个通道,对输入的人脸表情图像增加了卷积稀疏自编码进行无监督预处理。实验结果表明,该算法在JAFFE、CK+人脸表情数据集上均获得了较好的识别效果。
关键词:人脸表情识别;卷积神经网络;卷积稀疏自编码;特征提取;无监督预处理
DOIDOI:10.11907/rjdk.172863
中图分类号:TP301
文献标识码:A文章编号文章编号:16727800(2018)001002804
Abstract:With the development of humancomputer interaction technology and machine learning technology,facial expression recognition technology has gradually become an important field. In this paper, we proposean improved algorithm based on Convolutional Neural Network (CNN) for face expression recognition due to the lack of robustness of traditional facial expression recognition algorithm and availabe feature extraction ability.First of all,we pretrain the facial image and detect, segment face. The segmented face applied to a dualchannel model which, includes a convolutional neural network channel and an extra pretraining channel by sparse convolutional autoencoders. The training speed is improved according to Batch Normalization and the ReLU activation function by convolutional neural network channel, and solve the problem of gradient disappearance.This modelcan increase nonlinear expression ability of the model. At the same time,the introduction of dropout technology also remove the problem of overfitting. Another channel that contains a sparse convolutional autoencoder aims to deal with input facial expression images. Experimental results involved this algorithm demonstratean improved recognition ability on the JAFFE and CK+dataset.
Key Words:facial expression recognition;convolutional neural network;feature extraction;sparse convolutional autoencoders;unsupervised pretraining
0引言
人类的情感认知一直是人机交互技术研究的重要课题,而人脸表情是传达人类情感和认知的重要方式。面部表情变化能够准确传达人类除语言表达之外的心理活动变化。人脸表情识别系统一般包括人脸检测、图像预处理、特征提取和表情分类4部分。其中表情的特征提取和分类是人脸表情技术研究的重点,关系着最终的表情判别结果。
目前表情识别特征的提取方法主要包括:①几何特征提取,如面部的几何特征:眼睛、嘴巴、眉毛等;②频率特征提取法,如Gabor小波变换;③运行特征提取,如光流法。表情分类方法主要包括线性分类器、K最近邻、弹性图匹配法、支持向量机。Burkert等[6]提出DeXpression深度网络模型,在MMI数据库有较好的识别效果,识别率达到98.3%;Chai等[7]提出了结合Gabor小波和深度信念网络(DBN)的人脸表情识别方法,在遮挡的情况下识别效果较好;Masci[8]提出了基于无监督的堆叠深度卷积自编码方法应用于层次特征提取。
2006年Hinton[9]在《自然》杂志上发表了利用RBM编码的深层神经网络,利用单层的RBM自编码预训练使深层的神经网络训练变得可能。深度学习方法已成功应用于语音识别、计算机视觉和自然语音处理等领域,其中最具代表性的就是卷积神经网络(CNN)。
1融合卷积神经网络与卷积稀疏自编码的网络模型
本文针对卷积神经网络在几何变换、形变具有一定程度不变性等方面优势,同时为进一步减少人脸表情图像易受到光照、遮挡和姿态等外界因素影响,提高自身的鲁棒性,提出一种改进的结合了卷积神经网络和卷积稀疏自编码的人脸表情识别算法。具体网络模型如图1所示。
1.1卷积稀疏自编码器
卷积稀疏自编码器是在自编码器的基础上改进而来。自编码是一种基于预训练阶段的无监督学习算法,通过对原始数据添加约束条件进行权重初始化,使hw,b(x)≈x,输出接近于输入x。卷积自编码(CAE)是把之前自编码中内积的操作转换为卷积的操作[1],卷积核的值决定了卷积操作结果,可以设置不同卷积核进行去噪[2]、模糊变换等处理。
本文的卷积稀疏自编码(CSAE)是在卷积自编码(CAE)基础上进行的改进。通过采用WTA(WinnerTakeAll)[3]方法,加入稀疏约束条件后[4],能够有效地提取神经网络特征,计算量较少。对于每一个特征图,保留RELU激活函数处理的最大值,并把其它值进行置0处理。采取WTA方法进行每一层的稀疏化处理,相比于收缩正则化方法更加有效[5]。WTA方法只适用于训练阶段,网络训练完成与权重确定后则消失。网络则会继续把图像的有效信息传入到下一层,而不是传入隐藏层的一个非零值进行特征映射。经过预训练之后,为了减少计算量、减少模型参数,选择预训练后固定权重[10]。