(完整版)卷积神经网络CNN原理、改进及应用

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

卷积神经网络（CNN）

一、简介

卷积神经网络（Convolutional Neural Networks，简称CNN）是近年发展起来，并引起广泛重视的一种高效的识别方法。

1962年，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的局部互连网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络[1]（Convolutional Neural Networks-简称CNN）7863。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

Fukushima在1980年基于神经元间的局部连通性和图像的层次组织转换，为解决模式识别问题，提出的新识别机（Neocognitron）是卷积神经网络的第一个实现网络[2]。他指出，当在不同位置应用具有相同参数的神经元作为前一层的patches时，能够实现平移不变性1296。随着1986年BP算法以及T-C问题[3]（即权值共享和池化）9508的提出，LeCun和其合作者遵循这一想法，使用误差梯度（the error gradient）设计和训练卷积神经网络，在一些模式识别任务中获得了最先进的性能[4][5]。在1998年，他们建立了一个多层人工神经网络，被称为LeNet-5[5]，用于手写数字分类,这是第一个正式的卷积神经网络模型3579。类似于一般的神经网络，LeNet-5有多层，利用BP算法来训练参数。它可以获得原始图像的有效表示，使得直接从原始像素（几乎不经过预处理）中识别视觉模式成为可能。然而，由于当时大型训练数据和计算能力的缺乏，使得LeNet-5在面对更复杂的问题时，如大规模图像和视频分类，不能表现出良好的性能。

因此，在接下来近十年的时间里，卷积神经网络的相关研究趋于停滞，原因有两个：一是研究人员意识到多层神经网络在进行BP训练时的计算量极其之大，当时的硬件计算能力完全不可能实现；二是包括SVM在内的浅层机器学习算法也渐渐开始暂露头脚。直到2006年，Hinton终于一鸣惊人，在《科学》上发表文章，使得CNN再度觉醒，并取得长足发展。随后，更多的科研工作者对该网络进行了改进。其中，值得注意的是Krizhevsky等人提出的一个经典的CNN架构，相对于图像分类任务之前的方法，在性能方面表现出了显著的改善2674。他们方法的整体架构，即AlexNet[9]（也叫ImageNet），与LeNet-5相似，但具有更深的结构。它包括8个学习层（5个卷积与池化层和3个全连接层），前边的几层划分到2个GPU上，（和ImageNet是同一个）并且它在卷积层使用ReLU作为非线性激活函数，在全连接层使用Dropout减少过拟合。该深度网络在ImageNet大赛上夺冠，进一步掀起了CNN学习热潮。

一般地，CNN包括两种基本的计算，其一为特征提取，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。这两种操作形成了CNN的卷积层。此外，卷积

神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，即池化层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN 的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式地特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

注：红色数字表示相应文献的引用量。

二、卷积神经网络vs神经网络

2.1神经网络

首先简要介绍下神经网络。神经网络的每个单元如下：

其对应的公式如下：

3

ℎW,b(x)=f(W T x)=f(∑W i x i+b

)

i=1

其中，该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时，就形成了神经网络模型。下图展示了一个具有一个隐含层的神经网络。

其对应的公式如下：

比较类似的，可以拓展到有2,3,4,5,…个隐含层。

神经网络的训练方法也同Logistic 类似，不过由于其多层性，还需要利用链式求导法则对隐含层的节点进行求导，即梯度下降+链式求导法则，专业名称为反向传播。

神经网络的权值调整过程如下（BP 算法）：

①计算误差函数 J =∑J x (ω)x∈D =12∑(t k −z k )2D k=1； ②误差函数对权系数偏微分的计算

<1>对输出层权系数的微分：∂J ∂ωkj =∂J ∂net k ×∂net k ∂ωkj （求导链式法则）

输出层第k 个神经元的总输入：net k =∑ωkj y j +n

H j=1ωk0z k =f(net k ) ∂J ∂net k =∂J ∂z k ×∂z k ∂net k =−(t k −z k )×f ′(net k )∂net k ∂ωkj

=y j 令∂J ∂net k =δk ，可得∂J

∂ωkj =δk y j <2>对隐层权系数的微分：∂J ∂ωji =∂J ∂net j ×∂net j ∂ωji

隐含层第j 个神经元的总输入：net j =∑ωji x i +d i=1ωj0y j =f(net j )