基于深度学习的面部表情识别研究与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于深度学习的面部表情识别研究与实现
面部表情识别在视频识别领域是一个具有挑战性的课题,从视频中提取出具有判别性的特征来识别面部表情变化的细微差距仍有一
定的难度。近年来,深度神经网络(DNN)在基于静态图像的面部表情识别任务中,表现出了优于传统方法的优势。但是经典深度神经网络并不善于提取动态视频中的时序特征,再加上训练数据的缺乏,对于复
杂环境下的视频表情识别,DNN还没有达到令人满意的程度。为了提高复杂环境下的视频面部表情识别的准确率,本文提出了一种基于深度学习的多模态融合网络模型。该融合网络融合了三个模块的分类结果,每个模块都是一个完整独立的深度神经网络,能够识别视频片段
中的面部表情。本文主要工作如下:第一,提出了一种可以识别视频中面部表情的三维卷积神经网络。该网络对二维Inception-ResNet在时间维度上进行了扩展。并与LSTM单元结合,共同提取视频片段中的时空关系。此外,该网络还引入了人脸关键点,以突出对表情变化有显著贡献的面部区域。第二,为了从面部图像序列中提取高级情感特征,本文对VGG-FACE网络进行了微调。在此基础上,引入了LSTM单元,
构成一个VGG-LSTM结构,由VGG提取人脸特征,再由LSTM捕捉面部变化。第三,提出了一种结合人工高级统计特征(HSF)与卷积循环网络(CRNN)特征的双通道网络模型。旨在共同学习具有较好识别性能的情感特征,从音频中获取更丰富的情感信息。第四,探讨了多种融合方法,建立多模态融合网络模型,在实验基础上对上述三个模块的分类结果进行融合,以提高面部表情识别的性能。本文所提出的融合网络在
AFEW数据集上达到了59.5%的识别准确率。实验结果表明,将三维卷积网络、循环神经网络以及音频模型相结合可以显著提高对视频中面部表情的识别能力。