深度卷积神经网络
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
神经元
树突
神经元 接收信号 神经元激活 轴突发出信号
ANN
输入
隐含层输入
隐含层输出
ANN是对大脑神经元信号传输的模拟
神经网络简要介绍
感知机(Perceptron)
通过查找超平面解决二类分类问题(通过二值函数解决二类分类问题)
公式表达:
f (x) sign(w x)
wx
可看作对输入的空间变换
四种空间变换:维度、缩放、旋转、平移
目录
神经网络简要介绍
经典深度神经网络模型 • • • • LeNet AlexNet VGGNet Network in Network (MIN)
•
•
GoogLeNet
ResNet
深度学习框架及实例
深度学习在计算机视觉中的应用
目录
神经网络简要介绍
经典深度神经网络模型 • • • • • • LeNet AlexNet VGGNet Network in Network (MIN) GoogLeNet ResNet
BP算法:信号的正向传播 和误差的反向传播。
深度卷积神经网络介绍
机器学习
机器学习,神经网络, 深度学习之间的关系
神经网络
深度学习
CNN/RNN
4
人工神经网络发展历程
第二次高潮
第一次高潮 萌芽期 1940s
MP 模型 阈值加和 模型 Hebb学习 规则
第三次浪潮
G. E. Hinton Y. Bengio Y. Lecun Andrew Ng Rob Fergus
人工神经网络发展历程
• 在语音识别取得重大突破
2011年以来,错误 率降低2030%! 2012年11月,微软在天津的一次活动上公开演示了一个全自 动的同声传译系统,讲演者用英文演讲,后台的计算机一气 百度: deep speech 呵成自动完成语音识别、英中机器翻译,以及中文语音合成, 效果非常流畅。
深度卷积神经网络介绍
卷积神经网络(CNN):卷积+池化+全连接
卷积: 局部特征提取 训练中进行参数学习 每个卷积核提取特定模式的特征
池化(下采样): 降低数据维度,避免过拟合 增强局部感受野 提高平移不变性
全连接: 特征提取到分类的桥梁
深度卷积神经网络介绍
什么是卷积?
Preprocessing
神经网络简要介绍
Training: during the training phase, a neural network is fed thousands of labeled images of various animals, learning to classify them
图2:深度卷积神经网络发展图
LeNet
最早的深度卷积神经网络模型,用于字符识别。网络具有如下特点:
卷积神经网络使用三个层作为一个系列: 卷积,池化,非线性 使用卷积提取空间特征 使用映射到空间均值的下采样(subsample) 双曲线(tanh)或S型(sigmoid)形式的非线性 多层神经网络(MLP)作为最后的分类器
SVM
Vapnik 95
Boosting
Schapire 95
1960s
感知器模型 自适应线性单元
1980s
Hopfield网络 Boltzman 机 BP算法
2000s
深度网络 DBN DBM Deep CNN RNN
CNN
LeCun 98
低谷
低谷
人工神经网络发展历程
Deep Learning, Science 2006 (vol. 313, pp. 504-507)
感知机中的线性映射限制了模型的表达能力,线 性变化的组合仍为线性变化。
神经网络简要介绍
ANN基本构成:感知机(Perceptron)+激活函数
感知机:线性变换 激活函数:非线性,引入非线性激活函数,提高网络的非线性表达能力
第五种空间变换:扭曲(非线性)
ANN每层输出为:
f (x) h(w x)
AlphaGo Fan 5:0 樊麾
人工神经网络发展历程
• 发展基础:
数据爆炸:图像数据、文本数据、语音数 据、社交网络数据、科学计算等
计算性能大幅提高
• 为什么有效
– 浅层神经网络可以近似任意函数,为何多层?
深层网络结构中,高层可以综合应用低层信息。 低层关注“局部”,高层关注“全局”、更具有语 义化信息。 为自适应地学习非线性处理过程提供了一种可能的 简洁、普适的结构模型。 特征提取与分类器可以一起学习。
25
深度卷积神经网络介绍
底层特征具有局部特性,因此可 以利用卷积窗口进行特征提取。
图像中不同区域的底层特征(如 边界)具有相似性,可以共享一 组滤波器。
用卷积代替全连接进行特征 提取
对底层特征组合得到更具语 义信息的高层特征。
深度卷积神经网络
目录
深度卷积神经网络介绍 经典深度神经网络模型 • LeNet
Output: The network predicts what the object most likely is, based on its training
神经网络简要介绍
人工神经网络(Artificial Neural Networks, ANN)
--通过映射解决分类问题,对网络的训练即对映射函数的学习问题。
多层结构的ANN,从单层到多层的扩展:进一步提升对非线性的表达,得到 更加抽象的特征表述。--- 根据问题设计网络深度,一般3~5层。
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
设网络具有
m层, yim 为 m 层中第 i
m m1 m wij 个节点输出, 表示从 yi 到 y j 的连接权重。
AlphaMaster AlphaGo-Lee
Alpha-Fan
AlphaGo Zero 100:0战胜Lee版本,89:11 战胜Master版本!
2015年10月
2016年3月 AlphaGo Lee 4:1 李世石
2017年1月
2017年10月
AlphaZeroΒιβλιοθήκη Baidu最大特点是无需 人类棋谱,仅利用围棋规则
y
前向传播过程
……
.... ..
m1 i
w
m ij
loss
ym j
....
jm
1
前向传播
m 1
m m m m 1 y h ( s ) h ( w 1、计算每层中每个节点的输出 j ij yi ) h() 为激活函数 j
2、在输出层计算损失
h (s )(Tj ym j )
LeNet提供了利用卷积 层堆叠进行特征提取的 框架,开启了深度卷积 神经网络的发展。
图4:LeNet网络结构,来源于文献 [1]。 [1] Y. Lecun, L. Bottou, Y. Bengio and P. Haffner. Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, vol. 86, no. 11, 1998.
神经网络简要介绍
人类视觉机理:
David Hubel和 TorstenWiesel 发现了视觉系 统的信息处理 方式,即视皮 层的分级特性, 获得1981年诺 贝尔生理学或 医学奖。 Low-level sensing Feature extraction Feature selection Inference: prediction, recognition
右图展示了卷积的过程,和信号处理的卷积有所区别 卷积降低了网络模型的复杂度(对于很难学习的深层 结构来说,这是非常重要的),减少了权值的数量 黄色部分是卷积核
24
深度卷积神经网络介绍
什么是池化?
• 池化层主要的作用是下采样,通过去掉Feature Map 中不重要的样本,进一步减少参数数量。 • 池化的方法很多,最常用的是Max Pooling。Max Pooling实际上就是在n*n的样本中取最大值,作为采 样后的样本值。右图是2*2 max
AlexNet
AlexNet在LeNet基础上进行了更宽更深的网络设计,首次在CNN中引入了ReLU、 Dropout和Local Response Norm (LRN)等技巧。网络的技术特点如下:
使用ReLU (Rectified Linear Units)作为CNN的激活函数,并验证其效果在较深的网络超 过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题,提高了网络的训练速率。 为避免过拟合,训练时使用Dropout随机忽略一部分神经元。 使用重叠的最大池化(max pooling)。最大池化可以避免平均池化的模糊化效果,而采用重 叠技巧可以提升特征的丰富性。 提出了LRN层(ReLU后进行归一化处理),对局部神经元的活动创建竞争机制,使得其中响 应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。 利用GPU强大的并行计算能力加速网络训练过程,并采用GPU分块训练的方式解决显存对网络 规模的限制。 Dropout 数据增强。利用随机裁剪和翻转镜像 操作增加训练数据量,降低过拟合。 max pooling:池化时取最大值
深度学习框架简介 在计算机视觉中的应用
神经网络简要介绍
神经网络兴衰史
第一次兴起(1958年):感 知机,由于没有引入非线性, 不能求解异或问题。 第二次兴起(1986年):将 BP(Back Propagation)算法用 于ANN的训练过程。 第三次兴起(2012年):深 度卷积神经网络的兴起,一 直到现在。
其中,h( ) 为激活函数(原来是阈值函数) 常用激活函数: Sigmoid Tanh(反正切函数)
神经网络简要介绍
x1 x2
....
w1 w2
wn
n
………
.... ....
i
xn
xw
i 1 i
h( xi wi )
i 1
n
..
..
分类输出
输入层
隐含层1
隐含层N
人工神经网络单个节点输出
多层结构的人工神经网络
两个重要的信息: 1. 具有多个隐层的人工神经网络具有优异的特征学习能力, 学习得到的特征对数据有更本质的刻画,从而有利于可 视化或分类; 2. 深度神经网络在训练上的难度,可以通过“逐层初始化” (Layer-wise Pre-training)来有效克服。 Neural networks are coming back!
m m im1 h' (sim1 ) wij j j
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
深度卷积神经网络介绍
深度神经网络(DNN)--用神经网络模拟大脑的识别过程
底层提取初级特征 高层对低层特征组合与抽象
神经网络--全连接 or 卷积?
图:全连接与卷积示意图
•
AlexNet
• VGGNet • Network in Network (MIN)
• GoogLeNet
• ResNet 深度学习框架 在计算机视觉中的应用
网络模型
LeNet
AlexNet
网络结构的改进
NIN
网络深度的增加
VGGNet
GoogLeNet (Inception)
ResNet 图3:ILSVRC图像分类竞赛近年结果。 Inception ResNet
人工神经网络发展历程
• Google Brain项目(纽约时报2012年6月报道)
吴恩达
2011年开始,Google Brain 项目采用16000个CPU Core的并行计算 平台训练“深层神经网络”,在图像识别等领域获取巨大成功!
人工神经网络发展历程
AlphaZero
AlphaGo Master 3:0 柯洁
Top Layer: the neurons respond to highly complex, abstract concepts that we would identify as different animals
本图取自: http://fortune.com/ai -artificialintelligence-deepmachine-learning/
Input: An unlabeled image is shown to the pre-trained network
First Layer: the neurons respond to different simple shapes, like edges High Layer: the neurons respond to more complex structures
卷积层(5层):用于特征提取
全连接(3层):人工神经网络: 用于分类
神经网络简要介绍
三层神经 网络模型
…………
输入层(Input):数据输入
…
曲线上的采 样点是线性 不可分
隐含层(Hidden layer):空间变换
…
经空间变换 后,曲线上 的采样点是 线性可分的
输出(Output)
神经网络简要介绍
m j ' m j
..
m
i
Tj
为目标参考输出,一般从样本训练中得到。
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
m wij
梯度反传过程
……
.... ..
m1 i
jm
....
..
反向传播
3、由输出层开始逐层计算前层误差
m m m 1 w 4、修正连接权重 ij j yi m m m wij wij wij
树突
神经元 接收信号 神经元激活 轴突发出信号
ANN
输入
隐含层输入
隐含层输出
ANN是对大脑神经元信号传输的模拟
神经网络简要介绍
感知机(Perceptron)
通过查找超平面解决二类分类问题(通过二值函数解决二类分类问题)
公式表达:
f (x) sign(w x)
wx
可看作对输入的空间变换
四种空间变换:维度、缩放、旋转、平移
目录
神经网络简要介绍
经典深度神经网络模型 • • • • LeNet AlexNet VGGNet Network in Network (MIN)
•
•
GoogLeNet
ResNet
深度学习框架及实例
深度学习在计算机视觉中的应用
目录
神经网络简要介绍
经典深度神经网络模型 • • • • • • LeNet AlexNet VGGNet Network in Network (MIN) GoogLeNet ResNet
BP算法:信号的正向传播 和误差的反向传播。
深度卷积神经网络介绍
机器学习
机器学习,神经网络, 深度学习之间的关系
神经网络
深度学习
CNN/RNN
4
人工神经网络发展历程
第二次高潮
第一次高潮 萌芽期 1940s
MP 模型 阈值加和 模型 Hebb学习 规则
第三次浪潮
G. E. Hinton Y. Bengio Y. Lecun Andrew Ng Rob Fergus
人工神经网络发展历程
• 在语音识别取得重大突破
2011年以来,错误 率降低2030%! 2012年11月,微软在天津的一次活动上公开演示了一个全自 动的同声传译系统,讲演者用英文演讲,后台的计算机一气 百度: deep speech 呵成自动完成语音识别、英中机器翻译,以及中文语音合成, 效果非常流畅。
深度卷积神经网络介绍
卷积神经网络(CNN):卷积+池化+全连接
卷积: 局部特征提取 训练中进行参数学习 每个卷积核提取特定模式的特征
池化(下采样): 降低数据维度,避免过拟合 增强局部感受野 提高平移不变性
全连接: 特征提取到分类的桥梁
深度卷积神经网络介绍
什么是卷积?
Preprocessing
神经网络简要介绍
Training: during the training phase, a neural network is fed thousands of labeled images of various animals, learning to classify them
图2:深度卷积神经网络发展图
LeNet
最早的深度卷积神经网络模型,用于字符识别。网络具有如下特点:
卷积神经网络使用三个层作为一个系列: 卷积,池化,非线性 使用卷积提取空间特征 使用映射到空间均值的下采样(subsample) 双曲线(tanh)或S型(sigmoid)形式的非线性 多层神经网络(MLP)作为最后的分类器
SVM
Vapnik 95
Boosting
Schapire 95
1960s
感知器模型 自适应线性单元
1980s
Hopfield网络 Boltzman 机 BP算法
2000s
深度网络 DBN DBM Deep CNN RNN
CNN
LeCun 98
低谷
低谷
人工神经网络发展历程
Deep Learning, Science 2006 (vol. 313, pp. 504-507)
感知机中的线性映射限制了模型的表达能力,线 性变化的组合仍为线性变化。
神经网络简要介绍
ANN基本构成:感知机(Perceptron)+激活函数
感知机:线性变换 激活函数:非线性,引入非线性激活函数,提高网络的非线性表达能力
第五种空间变换:扭曲(非线性)
ANN每层输出为:
f (x) h(w x)
AlphaGo Fan 5:0 樊麾
人工神经网络发展历程
• 发展基础:
数据爆炸:图像数据、文本数据、语音数 据、社交网络数据、科学计算等
计算性能大幅提高
• 为什么有效
– 浅层神经网络可以近似任意函数,为何多层?
深层网络结构中,高层可以综合应用低层信息。 低层关注“局部”,高层关注“全局”、更具有语 义化信息。 为自适应地学习非线性处理过程提供了一种可能的 简洁、普适的结构模型。 特征提取与分类器可以一起学习。
25
深度卷积神经网络介绍
底层特征具有局部特性,因此可 以利用卷积窗口进行特征提取。
图像中不同区域的底层特征(如 边界)具有相似性,可以共享一 组滤波器。
用卷积代替全连接进行特征 提取
对底层特征组合得到更具语 义信息的高层特征。
深度卷积神经网络
目录
深度卷积神经网络介绍 经典深度神经网络模型 • LeNet
Output: The network predicts what the object most likely is, based on its training
神经网络简要介绍
人工神经网络(Artificial Neural Networks, ANN)
--通过映射解决分类问题,对网络的训练即对映射函数的学习问题。
多层结构的ANN,从单层到多层的扩展:进一步提升对非线性的表达,得到 更加抽象的特征表述。--- 根据问题设计网络深度,一般3~5层。
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
设网络具有
m层, yim 为 m 层中第 i
m m1 m wij 个节点输出, 表示从 yi 到 y j 的连接权重。
AlphaMaster AlphaGo-Lee
Alpha-Fan
AlphaGo Zero 100:0战胜Lee版本,89:11 战胜Master版本!
2015年10月
2016年3月 AlphaGo Lee 4:1 李世石
2017年1月
2017年10月
AlphaZeroΒιβλιοθήκη Baidu最大特点是无需 人类棋谱,仅利用围棋规则
y
前向传播过程
……
.... ..
m1 i
w
m ij
loss
ym j
....
jm
1
前向传播
m 1
m m m m 1 y h ( s ) h ( w 1、计算每层中每个节点的输出 j ij yi ) h() 为激活函数 j
2、在输出层计算损失
h (s )(Tj ym j )
LeNet提供了利用卷积 层堆叠进行特征提取的 框架,开启了深度卷积 神经网络的发展。
图4:LeNet网络结构,来源于文献 [1]。 [1] Y. Lecun, L. Bottou, Y. Bengio and P. Haffner. Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, vol. 86, no. 11, 1998.
神经网络简要介绍
人类视觉机理:
David Hubel和 TorstenWiesel 发现了视觉系 统的信息处理 方式,即视皮 层的分级特性, 获得1981年诺 贝尔生理学或 医学奖。 Low-level sensing Feature extraction Feature selection Inference: prediction, recognition
右图展示了卷积的过程,和信号处理的卷积有所区别 卷积降低了网络模型的复杂度(对于很难学习的深层 结构来说,这是非常重要的),减少了权值的数量 黄色部分是卷积核
24
深度卷积神经网络介绍
什么是池化?
• 池化层主要的作用是下采样,通过去掉Feature Map 中不重要的样本,进一步减少参数数量。 • 池化的方法很多,最常用的是Max Pooling。Max Pooling实际上就是在n*n的样本中取最大值,作为采 样后的样本值。右图是2*2 max
AlexNet
AlexNet在LeNet基础上进行了更宽更深的网络设计,首次在CNN中引入了ReLU、 Dropout和Local Response Norm (LRN)等技巧。网络的技术特点如下:
使用ReLU (Rectified Linear Units)作为CNN的激活函数,并验证其效果在较深的网络超 过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题,提高了网络的训练速率。 为避免过拟合,训练时使用Dropout随机忽略一部分神经元。 使用重叠的最大池化(max pooling)。最大池化可以避免平均池化的模糊化效果,而采用重 叠技巧可以提升特征的丰富性。 提出了LRN层(ReLU后进行归一化处理),对局部神经元的活动创建竞争机制,使得其中响 应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。 利用GPU强大的并行计算能力加速网络训练过程,并采用GPU分块训练的方式解决显存对网络 规模的限制。 Dropout 数据增强。利用随机裁剪和翻转镜像 操作增加训练数据量,降低过拟合。 max pooling:池化时取最大值
深度学习框架简介 在计算机视觉中的应用
神经网络简要介绍
神经网络兴衰史
第一次兴起(1958年):感 知机,由于没有引入非线性, 不能求解异或问题。 第二次兴起(1986年):将 BP(Back Propagation)算法用 于ANN的训练过程。 第三次兴起(2012年):深 度卷积神经网络的兴起,一 直到现在。
其中,h( ) 为激活函数(原来是阈值函数) 常用激活函数: Sigmoid Tanh(反正切函数)
神经网络简要介绍
x1 x2
....
w1 w2
wn
n
………
.... ....
i
xn
xw
i 1 i
h( xi wi )
i 1
n
..
..
分类输出
输入层
隐含层1
隐含层N
人工神经网络单个节点输出
多层结构的人工神经网络
两个重要的信息: 1. 具有多个隐层的人工神经网络具有优异的特征学习能力, 学习得到的特征对数据有更本质的刻画,从而有利于可 视化或分类; 2. 深度神经网络在训练上的难度,可以通过“逐层初始化” (Layer-wise Pre-training)来有效克服。 Neural networks are coming back!
m m im1 h' (sim1 ) wij j j
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
深度卷积神经网络介绍
深度神经网络(DNN)--用神经网络模拟大脑的识别过程
底层提取初级特征 高层对低层特征组合与抽象
神经网络--全连接 or 卷积?
图:全连接与卷积示意图
•
AlexNet
• VGGNet • Network in Network (MIN)
• GoogLeNet
• ResNet 深度学习框架 在计算机视觉中的应用
网络模型
LeNet
AlexNet
网络结构的改进
NIN
网络深度的增加
VGGNet
GoogLeNet (Inception)
ResNet 图3:ILSVRC图像分类竞赛近年结果。 Inception ResNet
人工神经网络发展历程
• Google Brain项目(纽约时报2012年6月报道)
吴恩达
2011年开始,Google Brain 项目采用16000个CPU Core的并行计算 平台训练“深层神经网络”,在图像识别等领域获取巨大成功!
人工神经网络发展历程
AlphaZero
AlphaGo Master 3:0 柯洁
Top Layer: the neurons respond to highly complex, abstract concepts that we would identify as different animals
本图取自: http://fortune.com/ai -artificialintelligence-deepmachine-learning/
Input: An unlabeled image is shown to the pre-trained network
First Layer: the neurons respond to different simple shapes, like edges High Layer: the neurons respond to more complex structures
卷积层(5层):用于特征提取
全连接(3层):人工神经网络: 用于分类
神经网络简要介绍
三层神经 网络模型
…………
输入层(Input):数据输入
…
曲线上的采 样点是线性 不可分
隐含层(Hidden layer):空间变换
…
经空间变换 后,曲线上 的采样点是 线性可分的
输出(Output)
神经网络简要介绍
m j ' m j
..
m
i
Tj
为目标参考输出,一般从样本训练中得到。
神经网络简要介绍
ANN训练:前向输出计算+反向梯度传播(BP算法)
m wij
梯度反传过程
……
.... ..
m1 i
jm
....
..
反向传播
3、由输出层开始逐层计算前层误差
m m m 1 w 4、修正连接权重 ij j yi m m m wij wij wij