第9章 深度卷积神经网络
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 卷积层完成特征提取后,输出的结果将被传递到池化层。 池化层则会进一步将特征图中单个点结果替换为其相邻 区域的特征图统计量。池化层包含预设定的池化函数, 池化区域的选取由池化大小、步长和填充控制。全连接 层其实就是前面讲的BP神经网络结构。输出层或分类层 可以看做是一个特定的激活函,用来将前一层得到的信 息进行分类,一般使用Sigmoid或Softmax激活函数。
• 训 练 过 程 中 使 用 了 随 机 梯 度 下 降 算 法 ( Stochastic Gradient Descent,SGD),Min-batch 大小为128,可将 120 万 张 图 像 的 训 练 集 循 环 90 次 , 并 在 两 个 NVIDIA GTX 580 3GB GPU上运行六天时间。
4
《人工神经网络及应用》
• 目前,DCNN已经成为图像识别领域的核心算法之一, 但在有大量学习数据时表现不稳定。如进行大规模图像 分类时,DCNN可用于构建阶层分类器;进行精细分类 识别时,可用于提取图像的判别特征以供其他分类器进 行学习。
5
《人工神经网络及应用》
9.2 深度卷积神经网络的结构与原理 9.2.1 深度卷积神经网络的结构
2
《人工神经网络及应用》
• DCNN是一种包含卷积或相关计算,且具有深度结构的 前馈型神经网络。起源最早可以追溯到20世纪80年代, 其 中 时 间 延 迟 网 络 和 LeNet-5 是 最 早 被 证 实 有 效 的 DCNN算法。为了能够像人一样做好工作,DCNN需要 使用大量的数据来进行训练。但是,受限于当时较低的 CPU处理速度,所以当时DCNN的发展相对比较缓慢。
全连接层
图9-1 DCNN的隐含层网络结构
6
《人工神经网络及应用》
• 卷积层是DCNN特有的,其内部包含多个卷积核,每个 卷积核都类似于一个前馈神经网络的神经元。它还包含 一个激活函数层(Activation Function Layer),用于增 加网络的非线性处理能力,减少了过拟合或梯度消失/ 爆炸的问题。
• 一个具有完整功能的DCNN通常由输人层、隐含层、输
出层或分类层组成。输人层一般指用于输入图像的神经
网络层。隐含层包括卷积层(Convolutional Layer)、池
化层Pooling Layer)、全连接层(Fully Connected Layer)。
DC输N入层N的简单隐含 卷积层 层网络结 池化层 构如 卷积层图9-1所示 卷积层。
人工神经网络及应用
主讲人: 单 位:
1
《人工神经网络及应用》
第九章 深度卷积神经网络
1
《人工神经网络及应用》
9.1 概述
• 近 几 年 , 深 度 学 习 在 解 决 诸 如 视 觉 识 别 ( Visual Recognition) 、语音识别(Speech Recognition)和自然语 言处理(Natural Language Processing)等很多问题方面 都表现出非常好的性能。深度学习起源于人工神经网络, 它是通过组合低层特征形成更加抽象的高层属性类别或 特征,以发现数据的分布式特征表示方法,如含多隐层 的多层感知器就是一种深度学习结构。在众多的深度学 习算法当中,深度卷积神经网络(Deep Convolutional Neural Network,DCNN)应该是研究最广泛、应用最多、 最具代表性的算法之一
9
《人工神经网络及应用》
9.3.2 VGGNet
• 2014 年 , 牛 津 大 学 计 算 机 视 觉 组 ( Visual Geometry Group)和Google Deep Mind公司的研究员一起研发出了 一种新的深度卷积神经网络—VGGNet,并使用其取得 了ILSVRC 2014 比赛分类项目的第二名,并且同时在大 赛中取得了定位项目的第一名。
ij
《人工神经网络及应用》
(9-1) (9-2) (9-3) (9-4)
7
在CNN中,卷积操作定义为
S(i, j) (F* W)(m, n) f (m - i, m - n)w(i, j)
(9-5)
ij
式(9 -5)从数学上讲不是严格意义上的卷积,而是一种求
交叉相关性(Cross-correlations) 的计算。
• VGGNet探索了卷积神经网络的深度与其性能之间的关 系,构筑了16~19层深的卷积神经网络,进一步证明了 增加网络的深度能够在一定程度上影响网络最终的性能, 使错误率大幅下降,迁移到其他图片数据上的泛化性也 非常好,同时拓展性也有所加强。
• VGGNet是由卷积层、全连接层两大部分构成的,可以 看成是加深版本的AlexNet,具体结构如图9 - 4所示。
• 例如,对于一个4×4的输人,使用2×2的核进行最大池 化操作的过程为
7
《人工神经网络及应用》
• 3. 分类操作
• 在目标检测与分类等领域,神经网络最后一层的任务就 是进行分类。深度卷积神经网络中,是通过分类层来实 现这一任务的。
• 常用的分类层激活函数有Sigmoid和Softmax等。对于 Softmax函数来说,当分种类为2时,Softmax函数就会 简化为Sigmoid函数。因此,Sigmoid函数被广泛应用于 二分类任务中,如边缘检测等,而Softmax函数则被应 用于多分类任务中,如图像分割。
7
《人工神经网络及应用》
• 1. 卷积操作 在数学中,卷积的表达式为
S(t) = f (t - )w( )d
式(9 - 1)的离散形式为
S(t) f (t - )w( )
如果参数为矩阵,则可以表示为
S(t) (F* W)(t)
同时,二维卷积的表达式为
S(i, j) (F* W)(m, n) f (m - i, m - n)w(i, j)
9
《人工神经网络及应用》
卷积层+Relu
M
池化层
图9-4 VGGNet结构
F
全连接层+Relu
S
Softmax层
• 以VGG16为例,输入一幅图片,具体处理步骤如下:
(1) 输入224×224×3的图片,经64个3×3的卷积
核 做 两 次 卷 积 和 ReLU , 卷 积 后 的 尺 寸 变 为
224×224×64。
(5) 经256个3×3的卷积核作三次卷积+ReLU,尺 寸变为56×56×256。
(6) 作 2×2 的 max pooling 池 化 , 尺 寸 变 为 28×28×256。
(7) 经512个3×3的卷积核作三次卷积+ReLU,尺 寸变为28×28×512。
9
《人工神经网络及应用》
(8) 作 2×2 的 max pooling 池 化 , 尺 寸 变 为 14×14×512。
9.3.3 ResNet
• ResNet是在2015年提出的,并在ImageNet分类任务比 赛上获得第一名,因为它“简单与实用”并存,很多 应用都是建立在ResNet50或ResNetl01基础上完成的。 随后,检测、分割、识别等领域都纷纷使用了ResNet, 甚至AlphaGoZero也使用了ResNet。
• 在图像处理中,卷积操作的对象是一组多维矩阵,此时 的卷积其实就是对矩阵的不同局部与卷积核矩阵各个位 置的元素相乘,然后求和。
• 例如,有一个大小为7×7的输入矩阵,卷积核的大小为 3×3,则卷积操作过程为
7
《人工神经网络及应用》
• 2. 池化操作
• 在DCNN内部,常用的池化操作一般有平均池化和最大 池化两种方式,即取对应区域的最大值或者平均值作为 池化后的元素值。
《人工神经网络及应用》
7
• 2. 参数共享
• 通常,图像某一部分的统计特性与邻近部分差异不大。 这意味着在这一部分学习得到的特征也能用在另一部分 上,所以对于这个图像上的所有位置,都能使用同样的 学习特征,即“参数共享”。
• 譬如,以16×16作为样本,并从小块样本中学习到了一 些特征,这时就可以把从样本中学习到的特征作为探测 器,“共享”到图像的任意地方中去。尤其,可以使用 所学习到的特征与原来样本中的大尺寸图像作卷积,从 而在这个大尺寸图像上的任意位置获得不同特征的激活 值。
• ResNet主要借鉴了VGG19网络,并通过Shortcut机制 加 入 了 如 图 9-5 所 示 的 残 差 单 元 。 其 改 进 主 要 体 现 在 ResNet上直接使用步长为2的卷积做下采样,并且用平 均池化层替换了全连接层。另外,当特征图大小降低 一半时,特征图的数量增加一倍,这一操作保证了网 络的复杂度,也是ResNet设计中应遵循的一个重要原 则。
后,经过激活函数得到的。即
2 =Softmax(
B,G,R conv(i, k))
i
ຫໍສະໝຸດ Baidu(9-6)
图9-2多层卷积过程
《人工神经网络及应用》
7
9. 3 几种基本的深度卷积神经网络
9.3.1 AlexNet
• AlexNet 是 多 伦 多 大 学 Hinton 组 的 AlexKrizhevsky 在 2012年的ImageNet比赛上使用并提出的一种DCNN结构, 其网络结构如图9-3所示
《人工神经网络及应用》
7
• 3. 多层卷积
• 通常一个卷积核对应于一种特征,因此,为了提取到图 片中更丰富的特征,就需要多个卷积核。如需要提取得 到64种特征,理论上就需要使用64个卷积核。
• 如图9-2所示,输入图片为3通道,经过2个卷积核的卷
积,得到了两个特征图。每个特征图中的每个像素点,
都是同一个卷积核分别对3通道图片进行卷积,在求和
9
《人工神经网络及应用》
(2) 作最大化池化(Max Pooling)处理,池化单元 尺寸为2×2,池化后的尺寸变为112×112×64。
(3) 经128个3×3的卷积核作两次卷积+ReLU,尺 寸变为112×112×128。
(4) 作 2×2 的 max pooling 池 化 , 尺 寸 变 为 56×56×128。
图9-3 AlexNet结构图
9
《人工神经网络及应用》
• 在AlexNet中,共有650000个神经元,6000多万个参数, 分 布 在 五 个 卷 积 层 和 三 个 有 1000 类 的 全 连 接 层 及 Softmax 层 中 。 另 外 , 为 了 加 快 训 练 速 度 , 有 效 利 用 GPU,使用了非饱和神经元(Non-saturatingNeurons) 。 为了减少过拟合过程,采用了Dropout技术。
• 近几年来,随着GPU 技术的高速发展及实现成本的降 低,DCNN研究和使用的门槛也大大降低,所以算法也 开始变得广为人知,并大量投人应用。这主要因为相对 于CPU,GPU具有更高的处理速度,并且在处理重复性 的任务方面有显著的优势。
3
《人工神经网络及应用》
• 2012年,Alex Krizhevsky使用DCNN赢得了ImageNet挑 战赛,使得人工神经网络在计算机视觉智能领域的应用 取得了重大的飞跃。ImageNet是由普林斯顿大学李凯教 授于2007年创建的一个图像数据库,含有数百万图像数 据,它为计算机提供了充足的训练数据,使之能如幼儿 学习的方式进行渐进式学习。
• 另外,由于DCNN是一种前馈神经网络,它的神经元可 以表征覆盖范围内数据的响应,因此在处理大型图像集 时有着非常出色的表现。它通常由多个卷积层和顶端的 全连层组成,同时也包括关联权重和池化层。这一结构 使得卷积神经网络能够利用输人数据的二维结构。这一 模型也可以使用反向传播算法进行训练。与其他深度或 前馈神经网络相比较,DCNN需要的参数更少,所以是 一种非常具有吸引力的深度学习结构。
7
《人工神经网络及应用》
9.2.2 深度卷积神经网络的原理
• 相对于传统的神经网络,DCNN之所以能够取得良好的 效果,主要是依赖于三个独特的技术:局部感知、参数 共享和多层卷积。
• 1. 局部感知
• 生物视觉神经元接受的是只响应某些特定区域刺激的局 部信息。人对外界的认知是从局部到全局的,图像的空 间联系也是与局部较近的像素联系较为紧密,而与距离 较远的像素相关性较弱。因此,每个神经元其实没有必 要对全局图像都了解,只需要对局部进行感知,然后在 更高层次上将局部的信息综合起来就可以。
(9) 经512个3×3的卷积核作三次卷积+ReLU,尺 寸变为14×14×5。
(10) 作2×2 的max pooling 池化,尺寸变为7×7 ×512。
(11) 与两层1×1×4096,一层1×1×1000进行全 连接+ReLU(共三层)
(12) 通过Softmax输出1000个预测结果。
9
《人工神经网络及应用》
• 训 练 过 程 中 使 用 了 随 机 梯 度 下 降 算 法 ( Stochastic Gradient Descent,SGD),Min-batch 大小为128,可将 120 万 张 图 像 的 训 练 集 循 环 90 次 , 并 在 两 个 NVIDIA GTX 580 3GB GPU上运行六天时间。
4
《人工神经网络及应用》
• 目前,DCNN已经成为图像识别领域的核心算法之一, 但在有大量学习数据时表现不稳定。如进行大规模图像 分类时,DCNN可用于构建阶层分类器;进行精细分类 识别时,可用于提取图像的判别特征以供其他分类器进 行学习。
5
《人工神经网络及应用》
9.2 深度卷积神经网络的结构与原理 9.2.1 深度卷积神经网络的结构
2
《人工神经网络及应用》
• DCNN是一种包含卷积或相关计算,且具有深度结构的 前馈型神经网络。起源最早可以追溯到20世纪80年代, 其 中 时 间 延 迟 网 络 和 LeNet-5 是 最 早 被 证 实 有 效 的 DCNN算法。为了能够像人一样做好工作,DCNN需要 使用大量的数据来进行训练。但是,受限于当时较低的 CPU处理速度,所以当时DCNN的发展相对比较缓慢。
全连接层
图9-1 DCNN的隐含层网络结构
6
《人工神经网络及应用》
• 卷积层是DCNN特有的,其内部包含多个卷积核,每个 卷积核都类似于一个前馈神经网络的神经元。它还包含 一个激活函数层(Activation Function Layer),用于增 加网络的非线性处理能力,减少了过拟合或梯度消失/ 爆炸的问题。
• 一个具有完整功能的DCNN通常由输人层、隐含层、输
出层或分类层组成。输人层一般指用于输入图像的神经
网络层。隐含层包括卷积层(Convolutional Layer)、池
化层Pooling Layer)、全连接层(Fully Connected Layer)。
DC输N入层N的简单隐含 卷积层 层网络结 池化层 构如 卷积层图9-1所示 卷积层。
人工神经网络及应用
主讲人: 单 位:
1
《人工神经网络及应用》
第九章 深度卷积神经网络
1
《人工神经网络及应用》
9.1 概述
• 近 几 年 , 深 度 学 习 在 解 决 诸 如 视 觉 识 别 ( Visual Recognition) 、语音识别(Speech Recognition)和自然语 言处理(Natural Language Processing)等很多问题方面 都表现出非常好的性能。深度学习起源于人工神经网络, 它是通过组合低层特征形成更加抽象的高层属性类别或 特征,以发现数据的分布式特征表示方法,如含多隐层 的多层感知器就是一种深度学习结构。在众多的深度学 习算法当中,深度卷积神经网络(Deep Convolutional Neural Network,DCNN)应该是研究最广泛、应用最多、 最具代表性的算法之一
9
《人工神经网络及应用》
9.3.2 VGGNet
• 2014 年 , 牛 津 大 学 计 算 机 视 觉 组 ( Visual Geometry Group)和Google Deep Mind公司的研究员一起研发出了 一种新的深度卷积神经网络—VGGNet,并使用其取得 了ILSVRC 2014 比赛分类项目的第二名,并且同时在大 赛中取得了定位项目的第一名。
ij
《人工神经网络及应用》
(9-1) (9-2) (9-3) (9-4)
7
在CNN中,卷积操作定义为
S(i, j) (F* W)(m, n) f (m - i, m - n)w(i, j)
(9-5)
ij
式(9 -5)从数学上讲不是严格意义上的卷积,而是一种求
交叉相关性(Cross-correlations) 的计算。
• VGGNet探索了卷积神经网络的深度与其性能之间的关 系,构筑了16~19层深的卷积神经网络,进一步证明了 增加网络的深度能够在一定程度上影响网络最终的性能, 使错误率大幅下降,迁移到其他图片数据上的泛化性也 非常好,同时拓展性也有所加强。
• VGGNet是由卷积层、全连接层两大部分构成的,可以 看成是加深版本的AlexNet,具体结构如图9 - 4所示。
• 例如,对于一个4×4的输人,使用2×2的核进行最大池 化操作的过程为
7
《人工神经网络及应用》
• 3. 分类操作
• 在目标检测与分类等领域,神经网络最后一层的任务就 是进行分类。深度卷积神经网络中,是通过分类层来实 现这一任务的。
• 常用的分类层激活函数有Sigmoid和Softmax等。对于 Softmax函数来说,当分种类为2时,Softmax函数就会 简化为Sigmoid函数。因此,Sigmoid函数被广泛应用于 二分类任务中,如边缘检测等,而Softmax函数则被应 用于多分类任务中,如图像分割。
7
《人工神经网络及应用》
• 1. 卷积操作 在数学中,卷积的表达式为
S(t) = f (t - )w( )d
式(9 - 1)的离散形式为
S(t) f (t - )w( )
如果参数为矩阵,则可以表示为
S(t) (F* W)(t)
同时,二维卷积的表达式为
S(i, j) (F* W)(m, n) f (m - i, m - n)w(i, j)
9
《人工神经网络及应用》
卷积层+Relu
M
池化层
图9-4 VGGNet结构
F
全连接层+Relu
S
Softmax层
• 以VGG16为例,输入一幅图片,具体处理步骤如下:
(1) 输入224×224×3的图片,经64个3×3的卷积
核 做 两 次 卷 积 和 ReLU , 卷 积 后 的 尺 寸 变 为
224×224×64。
(5) 经256个3×3的卷积核作三次卷积+ReLU,尺 寸变为56×56×256。
(6) 作 2×2 的 max pooling 池 化 , 尺 寸 变 为 28×28×256。
(7) 经512个3×3的卷积核作三次卷积+ReLU,尺 寸变为28×28×512。
9
《人工神经网络及应用》
(8) 作 2×2 的 max pooling 池 化 , 尺 寸 变 为 14×14×512。
9.3.3 ResNet
• ResNet是在2015年提出的,并在ImageNet分类任务比 赛上获得第一名,因为它“简单与实用”并存,很多 应用都是建立在ResNet50或ResNetl01基础上完成的。 随后,检测、分割、识别等领域都纷纷使用了ResNet, 甚至AlphaGoZero也使用了ResNet。
• 在图像处理中,卷积操作的对象是一组多维矩阵,此时 的卷积其实就是对矩阵的不同局部与卷积核矩阵各个位 置的元素相乘,然后求和。
• 例如,有一个大小为7×7的输入矩阵,卷积核的大小为 3×3,则卷积操作过程为
7
《人工神经网络及应用》
• 2. 池化操作
• 在DCNN内部,常用的池化操作一般有平均池化和最大 池化两种方式,即取对应区域的最大值或者平均值作为 池化后的元素值。
《人工神经网络及应用》
7
• 2. 参数共享
• 通常,图像某一部分的统计特性与邻近部分差异不大。 这意味着在这一部分学习得到的特征也能用在另一部分 上,所以对于这个图像上的所有位置,都能使用同样的 学习特征,即“参数共享”。
• 譬如,以16×16作为样本,并从小块样本中学习到了一 些特征,这时就可以把从样本中学习到的特征作为探测 器,“共享”到图像的任意地方中去。尤其,可以使用 所学习到的特征与原来样本中的大尺寸图像作卷积,从 而在这个大尺寸图像上的任意位置获得不同特征的激活 值。
• ResNet主要借鉴了VGG19网络,并通过Shortcut机制 加 入 了 如 图 9-5 所 示 的 残 差 单 元 。 其 改 进 主 要 体 现 在 ResNet上直接使用步长为2的卷积做下采样,并且用平 均池化层替换了全连接层。另外,当特征图大小降低 一半时,特征图的数量增加一倍,这一操作保证了网 络的复杂度,也是ResNet设计中应遵循的一个重要原 则。
后,经过激活函数得到的。即
2 =Softmax(
B,G,R conv(i, k))
i
ຫໍສະໝຸດ Baidu(9-6)
图9-2多层卷积过程
《人工神经网络及应用》
7
9. 3 几种基本的深度卷积神经网络
9.3.1 AlexNet
• AlexNet 是 多 伦 多 大 学 Hinton 组 的 AlexKrizhevsky 在 2012年的ImageNet比赛上使用并提出的一种DCNN结构, 其网络结构如图9-3所示
《人工神经网络及应用》
7
• 3. 多层卷积
• 通常一个卷积核对应于一种特征,因此,为了提取到图 片中更丰富的特征,就需要多个卷积核。如需要提取得 到64种特征,理论上就需要使用64个卷积核。
• 如图9-2所示,输入图片为3通道,经过2个卷积核的卷
积,得到了两个特征图。每个特征图中的每个像素点,
都是同一个卷积核分别对3通道图片进行卷积,在求和
9
《人工神经网络及应用》
(2) 作最大化池化(Max Pooling)处理,池化单元 尺寸为2×2,池化后的尺寸变为112×112×64。
(3) 经128个3×3的卷积核作两次卷积+ReLU,尺 寸变为112×112×128。
(4) 作 2×2 的 max pooling 池 化 , 尺 寸 变 为 56×56×128。
图9-3 AlexNet结构图
9
《人工神经网络及应用》
• 在AlexNet中,共有650000个神经元,6000多万个参数, 分 布 在 五 个 卷 积 层 和 三 个 有 1000 类 的 全 连 接 层 及 Softmax 层 中 。 另 外 , 为 了 加 快 训 练 速 度 , 有 效 利 用 GPU,使用了非饱和神经元(Non-saturatingNeurons) 。 为了减少过拟合过程,采用了Dropout技术。
• 近几年来,随着GPU 技术的高速发展及实现成本的降 低,DCNN研究和使用的门槛也大大降低,所以算法也 开始变得广为人知,并大量投人应用。这主要因为相对 于CPU,GPU具有更高的处理速度,并且在处理重复性 的任务方面有显著的优势。
3
《人工神经网络及应用》
• 2012年,Alex Krizhevsky使用DCNN赢得了ImageNet挑 战赛,使得人工神经网络在计算机视觉智能领域的应用 取得了重大的飞跃。ImageNet是由普林斯顿大学李凯教 授于2007年创建的一个图像数据库,含有数百万图像数 据,它为计算机提供了充足的训练数据,使之能如幼儿 学习的方式进行渐进式学习。
• 另外,由于DCNN是一种前馈神经网络,它的神经元可 以表征覆盖范围内数据的响应,因此在处理大型图像集 时有着非常出色的表现。它通常由多个卷积层和顶端的 全连层组成,同时也包括关联权重和池化层。这一结构 使得卷积神经网络能够利用输人数据的二维结构。这一 模型也可以使用反向传播算法进行训练。与其他深度或 前馈神经网络相比较,DCNN需要的参数更少,所以是 一种非常具有吸引力的深度学习结构。
7
《人工神经网络及应用》
9.2.2 深度卷积神经网络的原理
• 相对于传统的神经网络,DCNN之所以能够取得良好的 效果,主要是依赖于三个独特的技术:局部感知、参数 共享和多层卷积。
• 1. 局部感知
• 生物视觉神经元接受的是只响应某些特定区域刺激的局 部信息。人对外界的认知是从局部到全局的,图像的空 间联系也是与局部较近的像素联系较为紧密,而与距离 较远的像素相关性较弱。因此,每个神经元其实没有必 要对全局图像都了解,只需要对局部进行感知,然后在 更高层次上将局部的信息综合起来就可以。
(9) 经512个3×3的卷积核作三次卷积+ReLU,尺 寸变为14×14×5。
(10) 作2×2 的max pooling 池化,尺寸变为7×7 ×512。
(11) 与两层1×1×4096,一层1×1×1000进行全 连接+ReLU(共三层)
(12) 通过Softmax输出1000个预测结果。
9
《人工神经网络及应用》