CNN深度学习模型用于表情特征提取方法探究_张昭旭

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

卷积和子采样的过程如图 2 所示。
图 2 卷积和子Biblioteka 样过程图卷积层是特征提取层，使用卷积运算可以使原信号特征得到增强，同时降低噪音。子采样层用于二次特征提取，可看作一个模糊滤波器。
（2）全连接层（F 层）相当于传统神经网络中多层感知机（MLP）中的隐含层（HiddenLayer），与上一层是全连接的，计算过程是将上一层输出结果乘以权重向量，再加上一个偏置，然后将其传给 sigmoid 函数。
（1）上手快：可指定网络模型与相应配置，无须编码。
（2）速度快：快速运行、处理海量数据，可实现 GPU 和 CUP 无缝切换。
（3）模块化：可使用 Caffe 提供的类型自定义模型，便于扩展。
（4）开放性：可再现公开的代码和网络模型。在 Caffe 平台上可以使用提供的各种网络模型（如 AlexNet）对数据进行训练，或使用训练好的模型提取新数据特征和分类等。
4 实验
4.1 实验设计（1）实验数据
实验所使用的图片集融合了以下三部分： ①日本女演员表情库（JAFFE）； ②部分 CK+数据库内表情达到峰值时的表情； ③使用摄像头采集的部分人脸表情图。此数据集中共包含 295 张正面人脸表情图像，既有亚洲也有欧美的，又有彩色的也有黑白的，且光照角度等不尽相同。这样选择的数据集覆盖了肤色、民族和色彩维度的各种变化，能够有力地衡量特征提取方法的鲁棒性。表情共分 7 种类型，分别为 neutral，happy， disgust，angry，fear，sad 和 surprise。每张图片自带类标，以便训练和预测时统计预测正确率。部分表情数据集图片如图 4 所示。
AlexNet 的倒数第二层能够很好地描述图像的全局特征，所以使用其倒数第二层的输出作为图像的特征，能够很好地描述图像，很适合用于图像分类。本文使用 AlexNet 网络模型对人脸表情图像进行特征提取。
3 Caffe
Caffe 是一个清晰高效的深度学习框架，它具有以下优点：
表 1 三种特征对应预测结果
CNN eigenface
80% 16/20 20% 4/20 35% 7/20
现代计算机 2016.01 下趰趧
图形图像
4.3 实验结论
通过三种方法预测结果准确率的对比，不难发现使用 AlexNet 倒数第二层提取的特征比其他两种方法的结果要好很多，这说明 CNN 对于提取图像的本质特征有优于其他一般方法的特点；而且在肤色、脸型、光照环境等诸多外界因素的干扰下，使用 CNN 提取的特征仍能达到相对较好的分类效果。可见，CNN 用于一般自然条件下的人脸表情自身具有巨大优势。本次实验具备一定数据集规模，也覆盖了一部分拍摄环境变化，相信对于更大数据规模和更多环境变化下的人脸表情识别，基于CNN 的深度学习框架将发挥更大的作用。
图形图像
文章编号：1007-1423（2016）03-0041-04
DOI：10.3969/j.issn.1007-1423.2016.03.010
CNN 深度学习模型用于表情特征提取方法探究
张昭旭
（四川大学计算机学院，成都 610065）
摘要：卷积神经网络（CNN）作为一种深度学习架构，在精确提取图像特征的同时降低模型复杂度。针对 CNN 在图像识别方面的优势，提出一种基于 CNN 的人脸表情特征提取方法。使用具有 8 层网络结构的 AlexNet 模型对融合的人脸表情图像进行特征提取，再使用支持向量机（SVM）进行分类预测。将预测结果与一些经典方法如 SVM、PCA 等做比较，可以发现在样本图片拍摄条件变化较大的情况下，CNN 在提取图像本质特征方面有其他方法不可比拟的效果。关键词：深度学习；卷积神经网络； AlexNet；人脸表情识别；特征提取
2 AlexNet
在 ImageNet 上的图像分类比赛中，AlexNet 网络结构模型赢得了 2012 届的冠军，是 CNN 的经典模型。在 AlexNet 提出者的著作中其结构如图 3 所示。
AlexNet 共有 8 层，其中 5 个为卷积层，2 个为全连接层，1 个是输出分类层。其中：
深度学习（Deep Learning，DL）是机器学习研究中的一个新的领域，源自人工神经网络，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释图像、声音、文本等数据。深度学习属于无监督学习，通过组合低层特征形成更加抽象的高层特征或属性特征，以发现数据的分布式特征表示，学习更有用的特征，从而最终提高分类或预测的准确性[3]。卷积神经网络（CNN）是深度学习框架的一种。 CNN 的特征检测层通过训练数据进行学习，所以在使用 CNN
0 引言
近年来，人机智能交互引起人们越来越多的兴趣，尤其是通过语音和肢体动作来进行人机交互的方法。面部表情识别对于机器理解和识别人类情绪有至关重要的作用[1]。人脸面部表情识别的方法很多，根据提取特征的不同分为基于运动与基于形变的表情特征提取。基于运动的特征提取方法，是根据表情图像的特征点相对位置和距离变动，反映表情变化，包括光流法、运动模型、特征点跟踪等。基于形变的特征提取方法，使用活动外观模型（AAM）、点分布模型（PDM）等基于模型的方法，或 Gabor 变换、主成分分析（PCA）等基于图像的方法，获取面部图像形状或纹理上的变化特征[2]。
①卷积过程：用一个可训练滤波器 fx 对输入图像（或上一层的 feature map）进行卷积处理，而后加上偏置 bx，得到卷积层 Cx；
②子采样过程：对每个邻域内四个像素求和得到一个像素，通过标量 Wx+1 加权，然后增加偏置 bx+1，再通过一个 sigmoid 激活函数，得到一个缩小约为 1/4 的特征映射图 Sx+1。
时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习。CNN 以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度[5]。
参考文献： [1]董士海. 人机交互的进展及面临的挑战[J]. 计算机辅助设计与图形学学报,2004,01:1-13. [2]薛雨丽,毛峡,郭叶,吕善伟. 人机交互中的人脸表情识别研究进展[J]. 中国图象图形学报,2009,05:764-772. [3]余凯,贾磊,陈雨强,徐伟. 深度学习的昨天、今天和明天[J]. 计算机研究与发展,2013,09:1799-1804. [4]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [5]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [6]A. Krizhevsky, I. Sutskever, G.E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks[C]. In Advances in Neural
N
图 1 一个经典的 CNN 结构图
现代计算机 2016.01 下趮趧
图形图像
（1）卷积网络中层与层之间变换都是一个特征提取的过程，得到的每一层由多个二维平面组成，每个平面为特征处理后的特征映射图（feature map，简称 fm）。输入层原始图像，网络中的每一个特征提取层（卷积层）都紧跟着一个二次提取的计算层（子采样层），这种特有二次特征提取结构使得卷积网络对输入数据有较大形变时具有一定的容忍能力。卷积层+子采样层一般会有若干个，具体的操作过程如下：
1 卷积神经网络（CNN） 1.1 CNN 的网络结构
卷积神经网络（CNN）是一个多层的神经网络，它的基本结构就是输入层、卷积层（conv）、子采样层（pooling）、全连接层、输出层（分类器）。一个经典的 CNN 结构如图 1 所示。
（3）输出层，及分类层，由欧式径向基函数（Euclidean Radial Basis Function）单元组成，每个类别对应一个单元。输出层使用 Logistics 回归，计算输入样本属于各类别的概率。 1.2 CNN 用于图像分类
CNN 是人工神经网络的一种，是当前语音分析和图像识别领域的研究热点，其最著名的特点是局部感受野和权值共享机制。输入图像的一小部分区域（局部感受区域）作为 CNN 层级结构中最低层的输入，依次传输到下一层，每层都通过数字滤波器获取数据最显著的特征。一个映射面上的神经元使用的权值相同，网络参数的个数会减少很多，降低了参数选择带来的复杂度，使得特征映射具有唯一不变形。在输入数据为多维图像时这些优点尤为明显，图像可以直接作为网络输入，避免了传统方法中复杂的特征提取和数据重建过程。
图4 样本图片集部分预览
（2）实验步骤： ①指定模型文件和配置文件，指明使用 AlexNet 网络模型处理输入图像； ②将实验图像集随机分为训练集（275 张）和测试集（20 张），并尺寸归一化为 256×256； ③将尺寸归一化后的所有 295 张人脸表情图像分别作为输入数据，直接输入 Caffe 进行特征提取； ④将 AlexNet 倒数第二层（第 7 层）的输出结果作为 Caffe 提取的相应图片的深度特征； ⑤使用 LibSVM 对训练集进行归一化、交叉验证、参数寻优等一系列操作，继而对测试数据进行预测，得到预测结果 1。（3）对比试验： ①将尺寸归一化后的图像灰度化后直接作为训练数据和测试数据输入 LibSVM，得到预测结果 2； ② 使用 PCA 对原始数据进行特征提取，得到 eigenface 特征，并使用 LibSVM 对训练集和测试集的 eigenface 进行训练和预测，得到预测结果 3。 4.2 实验结果 AlexNet 倒数第二层提取的特征作为特征 1，直接灰度化后的图像作为特征 2，PCA 处理后得到的 eigenface 作为特征 3，分别输入 LibSVM 进行训练、分类。使用三种方法提取特征的预测结果如表 1 所示：
CNN 起初用于 ImageNet （目前图像识别领域最大的数据库），分类效果得到大幅度提高，结果令人惊叹，很好地回应了外界对于 Deep Learning 的质疑[6]。目前基于 CNN 的深度学习方法在图像识别领域有比较深入且广泛的研究和应用[4-5]。
（1）第一和第二个卷积层后分别紧跟一个归一化层（norm 层）；
趯趧现代计算机 2016.01 下
图 3 AlexNet 网络结构图
图形图像
（2）子采样操作紧跟在第一第二个 norm 层，以及第 5 个卷积层后；
（3）最后一层是具有 1000 个输出的类别判定层，针对 ImageNet 的 1000 类图片。
5 结语
基于深度学习的研究已经成为当今机器智能领域的热门方向，越来越多的科研人员将目光锁定在深度学习的研究和应用上。而卷积神经网络（CNN）作为一种受欢迎的深度学习框架，在图像识别和图像分类方面的优势也越来越明显。人脸表情识别是图像识别的一种，卷积神经网络简化网络模型、自动训练参数等特点，使其在人脸表情识别方面也具有较好的研究潜力和应用前景。相信在不久的未来，深度学习会给人脸表情识别和情绪检测技术带来越来越多的突破。