深度卷积神经网络
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LeNet提供了利用卷积 层堆叠进行特征提取的 框架,开启了深度卷积 神经网络的发展。
图4:LeNet网络结构,来源于文献 [1]。 [1] Y. Lecun, L. Bottou, Y. Bengio and P. Haffner. Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, vol. 86, no. 11, 1998.
y
前向传播过程
……
.... ..
m1 i
w
m ij
loss
ym j
....
jm
1
前向传播
m 1
m m m m 1 y h ( s ) h ( w 1、计算每层中每个节点的输出 j ij yi ) h() 为激活函数 j
2、在输出层计算损失
h (s )(Tj ym j )
两个重要的信息: 1. 具有多个隐层的人工神经网络具有优异的特征学习能力, 学习得到的特征对数据有更本质的刻画,从而有利于可 视化或分类; 2. 深度神经网络在训练上的难度,可以通过“逐层初始化” (Layer-wise Pre-training)来有效克服。 Neural networks are coming back!
神经元
树突
神经元 接收信号 神经元激活 轴突发出信号
ANN
输入
隐含层输入
隐含层输出
ANN是对大脑神经元信号传输的模拟
神经网络简要介绍
感知机(Perceptron)
通过查找超平面解决二类分类问题(通过二值函数解决二类分类问题)
公式表达:
f (x) sign(w x)
wx
可看作对输入的空间变换
四种空间变换:维度、缩放、旋转、平移
Preprocessing
神经网络简要介绍
Training: during the training phase, a neural network is fed thousands of labeled images of various animals, learning to classify them
AlexNet
AlexNet在LeNet基础上进行了更宽更深的网络设计,首次在CNN中引入了ReLU、 Dropout和Local Response Norm (LRN)等技巧。网络的技术特点如下:
使用ReLU (Rectified Linear Units)作为CNN的激活函数,并验证其效果在较深的网络超 过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题,提高了网络的训练速率。 为避免过拟合,训练时使用Dropout随机忽略一部分神经元。 使用重叠的最大池化(max pooling)。最大池化可以避免平均池化的模糊化效果,而采用重 叠技巧可以提升特征的丰富性。 提出了LRN层(ReLU后进行归一化处理),对局部神经元的活动创建竞争机制,使得其中响 应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。 利用GPU强大的并行计算能力加速网络训练过程,并采用GPU分块训练的方式解决显存对网络 规模的限制。 Dropout 数据增强。利用随机裁剪和翻转镜像 操作增加训练数据量,降低过拟合。 max pooling:池化时取最大值
右图展示了卷积的过程,和信号处理的卷积有所区别 卷积降低了网络模型的复杂度(对于很难学习的深层 结构来说,这是非常重要的),减少了权值的数量 黄色部分是卷积核
24
深度卷积神经网络介绍
什么是池化?
• 池化层主要的作用是下采样,通过去掉Feature Map 中不重要的样本,进一步减少参数数量。 • 池化的方法很多,最常用的是Max Pooling。Max Pooling实际上就是在n*n的样本中取最大值,作为采 样后的样本值。右图是2*2 max
AlphaMaster AlphaGo-Lee
Alpha-Fan
AlphaGo Zero 100:0战胜Lee版本,89:11 战胜Master版本!
2015年10月
2016年3月 AlphaGo Lee 4:1 李世石
2017年1月
2017年10月
AlphaZero:最大特点是无需 人类棋谱,仅利用围棋规则
图2:深度卷积神经网络发展图
LeNet
最早的深度卷积神经网络模型,用于字符识别。网络具有如下特点:
卷积神经网络使用三个层作为一个系列: 卷积,池化,非线性 使用卷积提取空间特征 使用映射到空间均值的下采样(subsample) 双曲线(tanh)或S型(sigmoid)形式的非线性 多层神经网络(MLP)作为最后的分类器
m m im1 h' (sim1 ) wij j j
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
深度卷积神经网络介绍
深度神经网络(DNN)--用神经网络模拟大脑的识别过程
底层提取初级特征 高层对低层特征组合与抽象
神经网络--全连接 or 卷积?
图:全连接与卷积示意图
目录
神经网络简要介绍
பைடு நூலகம்
经典深度神经网络模型 • • • • LeNet AlexNet VGGNet Network in Network (MIN)
•
•
GoogLeNet
ResNet
深度学习框架及实例
深度学习在计算机视觉中的应用
目录
神经网络简要介绍
经典深度神经网络模型 • • • • • • LeNet AlexNet VGGNet Network in Network (MIN) GoogLeNet ResNet
深度卷积神经网络介绍
卷积神经网络(CNN):卷积+池化+全连接
卷积: 局部特征提取 训练中进行参数学习 每个卷积核提取特定模式的特征
池化(下采样): 降低数据维度,避免过拟合 增强局部感受野 提高平移不变性
全连接: 特征提取到分类的桥梁
深度卷积神经网络介绍
什么是卷积?
深度学习框架简介 在计算机视觉中的应用
神经网络简要介绍
神经网络兴衰史
第一次兴起(1958年):感 知机,由于没有引入非线性, 不能求解异或问题。 第二次兴起(1986年):将 BP(Back Propagation)算法用 于ANN的训练过程。 第三次兴起(2012年):深 度卷积神经网络的兴起,一 直到现在。
人工神经网络发展历程
• Google Brain项目(纽约时报2012年6月报道)
吴恩达
2011年开始,Google Brain 项目采用16000个CPU Core的并行计算 平台训练“深层神经网络”,在图像识别等领域获取巨大成功!
人工神经网络发展历程
AlphaZero
AlphaGo Master 3:0 柯洁
Top Layer: the neurons respond to highly complex, abstract concepts that we would identify as different animals
本图取自: /ai -artificialintelligence-deepmachine-learning/
Input: An unlabeled image is shown to the pre-trained network
First Layer: the neurons respond to different simple shapes, like edges High Layer: the neurons respond to more complex structures
感知机中的线性映射限制了模型的表达能力,线 性变化的组合仍为线性变化。
神经网络简要介绍
ANN基本构成:感知机(Perceptron)+激活函数
感知机:线性变换 激活函数:非线性,引入非线性激活函数,提高网络的非线性表达能力
第五种空间变换:扭曲(非线性)
ANN每层输出为:
f (x) h(w x)
其中,h( ) 为激活函数(原来是阈值函数) 常用激活函数: Sigmoid Tanh(反正切函数)
神经网络简要介绍
x1 x2
....
w1 w2
wn
n
………
.... ....
i
xn
xw
i 1 i
h( xi wi )
i 1
n
..
..
分类输出
输入层
隐含层1
隐含层N
人工神经网络单个节点输出
多层结构的人工神经网络
Output: The network predicts what the object most likely is, based on its training
神经网络简要介绍
人工神经网络(Artificial Neural Networks, ANN)
--通过映射解决分类问题,对网络的训练即对映射函数的学习问题。
BP算法:信号的正向传播 和误差的反向传播。
深度卷积神经网络介绍
机器学习
机器学习,神经网络, 深度学习之间的关系
神经网络
深度学习
CNN/RNN
4
人工神经网络发展历程
第二次高潮
第一次高潮 萌芽期 1940s
MP 模型 阈值加和 模型 Hebb学习 规则
第三次浪潮
G. E. Hinton Y. Bengio Y. Lecun Andrew Ng Rob Fergus
SVM
Vapnik 95
Boosting
Schapire 95
1960s
感知器模型 自适应线性单元
1980s
Hopfield网络 Boltzman 机 BP算法
2000s
深度网络 DBN DBM Deep CNN RNN
CNN
LeCun 98
低谷
低谷
人工神经网络发展历程
Deep Learning, Science 2006 (vol. 313, pp. 504-507)
25
深度卷积神经网络介绍
底层特征具有局部特性,因此可 以利用卷积窗口进行特征提取。
图像中不同区域的底层特征(如 边界)具有相似性,可以共享一 组滤波器。
用卷积代替全连接进行特征 提取
对底层特征组合得到更具语 义信息的高层特征。
深度卷积神经网络
目录
深度卷积神经网络介绍 经典深度神经网络模型 • LeNet
卷积层(5层):用于特征提取
全连接(3层):人工神经网络: 用于分类
神经网络简要介绍
三层神经 网络模型
…………
输入层(Input):数据输入
…
曲线上的采 样点是线性 不可分
隐含层(Hidden layer):空间变换
…
经空间变换 后,曲线上 的采样点是 线性可分的
输出(Output)
神经网络简要介绍
m j ' m j
..
m
i
Tj
为目标参考输出,一般从样本训练中得到。
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
m wij
梯度反传过程
……
.... ..
m1 i
jm
....
..
反向传播
3、由输出层开始逐层计算前层误差
m m m 1 w 4、修正连接权重 ij j yi m m m wij wij wij
多层结构的ANN,从单层到多层的扩展:进一步提升对非线性的表达,得到 更加抽象的特征表述。--- 根据问题设计网络深度,一般3~5层。
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
设网络具有
m层, yim 为 m 层中第 i
m m1 m wij 个节点输出, 表示从 yi 到 y j 的连接权重。
一个全连接的神经网络梯度下降算法88每次沿着梯度的反方向即函数值下降最快的方向去修改值就能走到函数的最小值附近之所以是最小值附近而不是最小值那个点是因为我们每次移动的步长不会那么恰到好处有可能最后一次迭代走远了越过了最小值那个点反向传播算法backpropagation反向传播算法是计算多层复合函数的所有变量的偏导数的利器上面梯度下降的例子中就是求梯度简单的理解就是链式法则89根据链式法则我们求e对a的偏导和e对d的偏导是如下所示
神经网络简要介绍
人类视觉机理:
David Hubel和 TorstenWiesel 发现了视觉系 统的信息处理 方式,即视皮 层的分级特性, 获得1981年诺 贝尔生理学或 医学奖。 Low-level sensing Feature extraction Feature selection Inference: prediction, recognition
•
AlexNet
• VGGNet • Network in Network (MIN)
• GoogLeNet
• ResNet 深度学习框架 在计算机视觉中的应用
网络模型
LeNet
AlexNet
网络结构的改进
NIN
网络深度的增加
VGGNet
GoogLeNet (Inception)
ResNet 图3:ILSVRC图像分类竞赛近年结果。 Inception ResNet
AlphaGo Fan 5:0 樊麾
人工神经网络发展历程
• 发展基础:
数据爆炸:图像数据、文本数据、语音数 据、社交网络数据、科学计算等
计算性能大幅提高
• 为什么有效
– 浅层神经网络可以近似任意函数,为何多层?
深层网络结构中,高层可以综合应用低层信息。 低层关注“局部”,高层关注“全局”、更具有语 义化信息。 为自适应地学习非线性处理过程提供了一种可能的 简洁、普适的结构模型。 特征提取与分类器可以一起学习。
人工神经网络发展历程
• 在语音识别取得重大突破
2011年以来,错误 率降低2030%! 2012年11月,微软在天津的一次活动上公开演示了一个全自 动的同声传译系语音识别、英中机器翻译,以及中文语音合成, 效果非常流畅。