CNN深度学习模型用于表情特征提取方法探究_张昭旭

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
卷积和子采样的过程如图 2 所示。
图 2 卷积和子Biblioteka 样过程图卷积层是特征提取层, 使用卷积运算可以使原信 号特征得到增强,同时降低噪音。 子采样层用于二次特 征提取,可看作一个模糊滤波器。
(2)全 连 接 层 (F 层 )相 当 于 传 统 神 经 网 络 中 多 层 感 知 机 (MLP)中 的 隐 含 层 (HiddenLayer),与 上 一 层 是 全连接的, 计算过程是将上一层输出结果乘以权重向 量,再加上一个偏置,然后将其传给 sigmoid 函数。
(1)上手快:可 指 定 网 络 模 型 与 相 应 配 置 ,无 须 编 码。
(2)速度快:快速运行、处理海量数据,可实现 GPU 和 CUP 无缝切换。
(3)模块化:可使用 Caffe 提供的类型自定义模型, 便于扩展。
(4)开 放 性 :可 再 现 公 开 的 代 码 和 网 络 模 型 。 在 Caffe 平台上可以使用提供的各种网络模型(如 AlexNet)对 数 据 进 行 训 练 ,或 使 用 训 练 好 的 模 型 提 取 新 数据特征和分类等。
4 实验
4.1 实验设计 (1)实验数据
实验所使用的图片集融合了以下三部分: ①日本女演员表情库(JAFFE); ②部分 CK+数据库内表情达到峰值时的表情; ③使用摄像头采集的部分人脸表情图。 此数据集中共包含 295 张正面人脸表情图像 ,既 有亚洲也有欧美的,又有彩色的也有黑白的,且光照角 度等不尽相同。 这样选择的数据集覆盖了肤色、民族和 色彩维度的各种变化, 能够有力地衡量特征提取方法 的鲁棒性。 表情共分 7 种类型,分别为 neutral,happy, disgust,angry,fear,sad 和 surprise。 每张图片自带类标, 以便训练和预测时统计预测正确率。 部分表情数据集图片如图 4 所示。
AlexNet 的 倒 数 第 二 层 能 够 很 好 地 描 述 图 像 的 全 局特征, 所以使用其倒数第二层的输出作为图像的特 征,能够很好地描述图像,很适合用于图像分类。 本文 使用 AlexNet 网络模型对人脸表情图像进行特征提取。
3 Caffe
Caffe 是一个清晰高效的深度学习框架,它具有以 下优点:
表 1 三种特征对应预测结果
CNN eigenface
80% 16/20 20% 4/20 35% 7/20
现代计算机 2016.01 下 趰趧
图形图像
4.3 实验结论
通过三种方法预测结果准确率的对比, 不难发现 使用 AlexNet 倒数第二层提取的特征比其他两种 方法 的结果要好很多,这说明 CNN 对于提取图像的本质特 征有优于其他一般方法的特点;而且在肤色、脸型、光 照环境等诸多外界因素的干扰下,使用 CNN 提取的特 征仍能达到相对较好的分类效果。 可见,CNN 用于一般 自然条件下的人脸表情自身具有巨大优势。 本次实验 具备一定数据集规模,也覆盖了一部分拍摄环境变化, 相信对于更大数据规模和更多环境变化下的人脸表情 识别,基于CNN 的深度学习框架将发挥更大的作用。
图形图像
文 章 编 号 :1007-1423(2016)03-0041-04
DOI:10.3969/j.issn.1007-1423.2016.03.010
CNN 深度学习模型用于表情特征提取方法探究
张昭旭
(四川大学计算机学院,成都 610065)
摘要: 卷积神经网络(CNN)作为一种深度学习架构,在精确提取图像特征的同时降低模型复杂度。 针对 CNN 在图像识别方 面的优势,提出一种基于 CNN 的人脸表情特征提取方法。 使用具有 8 层网络结构的 AlexNet 模型对融合的人脸表情 图像进行特征提取,再使用支持向量机(SVM)进行分类预测。 将预测结果与一些经典方法如 SVM、PCA 等做比较,可 以发现在样本图片拍摄条件变化较大的情况下,CNN 在提取图像本质特征方面有其他方法不可比拟的效果。 关键词: 深度学习; 卷积神经网络; AlexNet; 人脸表情识别; 特征提取
2 AlexNet
在 ImageNet 上的图像分类比赛中,AlexNet 网络结 构模型赢得了 2012 届的冠军,是 CNN 的经典模型。 在 AlexNet 提出者的著作中其结构如图 3 所示。
AlexNet 共有 8 层,其中 5 个为卷积层,2 个为全连 接层,1 个是输出分类层。 其中:
深 度 学 习 (Deep Learning,DL)是 机 器 学 习 研 究 中 的一个新的领域, 源自人工神经网络, 其动机在于建 立、模拟人脑进行分析学习的神经网络,它模仿人脑的 机制来解释图像、声音、文本等数据。 深度学习属于无 监督学习, 通过组合低层特征形成更加抽象的高层特 征或属性特征,以发现数据的分布式特征表示,学习更 有用的特征,从而最终提高分类或预测的准确性[3]。 卷 积神经网络(CNN)是深度学习框架的一种。 CNN 的特 征 检 测 层 通 过 训 练 数 据 进 行 学 习 , 所 以 在 使 用 CNN
0 引言
近年来,人机智能交互引起人们越来越多的兴趣, 尤其是通过语音和肢体动作来进行人机交互的方法。 面部表情识别对于机器理解和识别人类情绪有至关重 要的作用[1]。 人脸面部表情识别的方法很多,根据提取 特征的不同分为基于运动与基于形变的表情特征提 取。 基于运动的特征提取方法,是根据表情图像的特征 点相对位置和距离变动,反映表情变化,包括光流法、运 动模型、特征点跟踪等。 基于形变的特征提取方法,使用 活动外观模型(AAM)、点分布模型(PDM)等基于模型的 方法,或 Gabor 变换、主成分分析(PCA)等基于图像的方 法,获取面部图像形状或纹理上的变化特征[2]。
①卷积过程: 用一个可训练滤波器 fx 对输入图像 (或 上 一 层 的 feature map)进 行 卷 积 处 理 ,而 后 加 上 偏 置 bx,得到卷积层 Cx;
②子采样过程: 对每个邻域内四个像素求和得到 一个像素,通过标量 Wx+1 加权,然后增加偏置 bx+1, 再通过一个 sigmoid 激活函数, 得到一个缩小约为 1/4 的特征映射图 Sx+1。
时,避免了显式的特征抽取,而隐式地从训练数据中进 行学习; 再者由于同一特征映射面上的神经元权值相 同,所以网络可以并行学习。CNN 以其局部权值共享的 特殊结构在语音识别和图像处理方面有着独特的优越 性,其布局更接近于实际的生物神经网络,权值共享降 低了网络的复杂性, 特别是多维输入向量的图像可以 直接输入网络这一特点避免了特征提取和分类过程中 数据重建的复杂度[5]。
参考文献: [1]董士海. 人机交互的进展及面临的挑战[J]. 计算机辅助设计与图形学学报,2004,01:1-13. [2]薛雨丽,毛峡,郭叶,吕善伟. 人机交互中的人脸表情识别研究进展[J]. 中国图象图形学报,2009,05:764-772. [3]余凯,贾磊,陈雨强,徐伟. 深度学习的昨天、今天和明天[J]. 计算机研究与发展,2013,09:1799-1804. [4]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [5]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [6]A. Krizhevsky, I. Sutskever, G.E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks[C]. In Advances in Neural
N
图 1 一个经典的 CNN 结构图
现代计算机 2016.01 下 趮趧
图形图像
(1)卷积 网 络 中 层 与 层 之 间 变 换 都 是 一 个 特 征 提 取的过程,得到的每一层由多个二维平面组成,每个平 面为特征处理后的特征映射图(feature map, 简称 fm)。 输入层原始图像, 网络中的每一个特征提取层 (卷积 层)都紧跟着一个二次提取的计算层(子采样层),这种 特有二次特征提取结构使得卷积网络对输入数据有较 大形变时具有一定的容忍能力。 卷积层+子采样层一般 会有若干个,具体的操作过程如下:
1 卷积神经网络(CNN) 1.1 CNN 的网络结构
卷 积 神 经 网 络 (CNN)是 一 个 多 层 的 神 经 网 络 ,它 的 基 本 结 构 就 是 输 入 层 、卷 积 层 (conv)、子 采 样 层 (pooling)、全连接层、输出层(分类器)。 一个经典的 CNN 结 构如图 1 所示。
(3) 输 出 层 , 及 分 类 层 , 由 欧 式 径 向 基 函 数 (Euclidean Radial Basis Function)单元组成,每个类别对应 一个单元。 输出层使用 Logistics 回归,计算输入样本属 于各类别的概率。 1.2 CNN 用于图像分类
CNN 是人工神经网络的一种, 是当前语音分析和 图像识别领域的研究热点, 其最著名的特点是局部感 受野和权值共享机制。 输入图像的一小部分区域(局部 感 受 区 域 )作 为 CNN 层 级 结 构 中 最 低 层 的 输 入 ,依 次 传输到下一层, 每层都通过数字滤波器获取数据最显 著的特征。 一个映射面上的神经元使用的权值相同,网 络参数的个数会减少很多, 降低了参数选择带来的复 杂度,使得特征映射具有唯一不变形。 在输入数据为多 维图像时这些优点尤为明显, 图像可以直接作为网络 输入, 避免了传统方法中复杂的特征提取和数据重建 过程。
图4 样本图片集部分预览
(2)实验步骤: ①指 定 模 型 文 件 和 配 置 文 件 , 指 明 使 用 AlexNet 网络模型处理输入图像; ②将实验图像集随机分为训练集(275 张)和测试 集(20 张),并尺寸归一化为 256×256; ③将尺寸归一化后的所有 295 张人脸表情图像分 别作为输入数据,直接输入 Caffe 进行特征提取; ④将 AlexNet 倒数第二层(第 7 层)的输 出 结 果 作 为 Caffe 提取的相应图片的深度特征; ⑤使用 LibSVM 对训练集进行归一化、 交叉验证、 参数寻优等一系列操作,继而对测试数据进行预测,得 到预测结果 1。 (3)对比试验: ①将尺寸归一化后的图像灰度化后直接作为训练 数据和测试数据输入 LibSVM,得到预测结果 2; ② 使 用 PCA 对 原 始 数 据 进 行 特 征 提 取 , 得 到 eigenface 特征, 并使用 LibSVM 对训练集和测试集的 eigenface 进行训练和预测,得到预测结果 3。 4.2 实验结果 AlexNet 倒数第二层提取的特征作为特征 1, 直接 灰度化后的图像作为特征 2,PCA 处理后得到的 eigenface 作为特征 3,分别输入 LibSVM 进行训练、分类。 使 用三种方法提取特征的预测结果如表 1 所示:
CNN 起初用于 ImageNet (目前图像识别领域最大 的数据库),分类效果得到大幅度提高,结果令人惊叹, 很好地回应了外界对于 Deep Learning 的质疑[6]。 目前 基 于 CNN 的 深 度 学 习 方 法 在 图 像 识 别 领 域 有 比 较 深 入且广泛的研究和应用[4-5]。
(1)第 一 和 第 二 个 卷 积 层 后 分 别 紧 跟 一 个 归 一 化 层(norm 层);
趯趧 现代计算机 2016.01 下
图 3 AlexNet 网络结构图
图形图像
(2)子 采 样 操 作 紧 跟 在 第 一 第 二 个 norm 层 ,以 及 第 5 个卷积层后;
(3)最后一层是具有 1000 个输出的类别判定层,针 对 ImageNet 的 1000 类图片。
5 结语
基于深度学习的研究已经成为当今机器智能领域 的热门方向, 越来越多的科研人员将目光锁定在深度 学习的研究和应用上。 而卷积神经网络(CNN)作为一 种受欢迎的深度学习框架, 在图像识别和图像分类方 面的优势也越来越明显。 人脸表情识别是图像识别的 一种,卷积神经网络简化网络模型、自动训练参数等特 点, 使其在人脸表情识别方面也具有较好的研究潜力 和应用前景。 相信在不久的未来,深度学习会给人脸表 情识别和情绪检测技术带来越来越多的突破。
相关文档
最新文档