卷积神经网络---从理论到实际项目应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

BP
• 1) 正向传播时,输入样本从输入层传入,经各隐层逐层处理后,传向输出层。若输出层的实 际输出与期望的输出不符,则转入误差的反向传播阶段。
• 2) 反向传播时,将输出以某种形式通过隐层向输入层逐层反传,并将误差分摊给各层的所 有单元,从而获得各层单元的误差信号,此误差信号即作为修正各单元权值的依据。
E(w, b)
1 2
n1
(d j
j0

y j )2
根据梯度下降法: w(i, j) E(w,b)
w(i, j)
激活函数为: f ( x)
A

1e B
对激活函数求导,得到:

f '(x)

Ae B
B(1


e
B
)2

1 AB

1

-
e
B
A (A
A

)
1 e B
(d j
j0

y j)
f
'
(
S
j
)

S j wki
n1

j0
(d
j

yj)
f
'(S j )
S j xi

xi Si

Si wki

n1
ij wij
j0
f (Sj)
A AB
f (Sj)
xk

xk
n 1
ij wij
• 问题: • 基于局部梯度下降对权值进行调整容易出现梯度弥散
BP神经网络
正向传递过程
m1
S j wij xi bj
i0
w ij :节点i和节点j之间的权值
b :节点的阈值 j
x j :每个节点的输出
f 为激活函数,一般为s型函数
xj f (Sj)
反向传递过程
误差函数:
• 萌芽期。从BP算法的发明(1970s-1980s)到2006年期间。 • 迅速发展期。从2006年栈式自编码器+BP微调提出之后。 • 爆发期。2012年Hilton团队的Alexnet模型在imagenet竞赛取得惊人成绩之后。 萌芽期(有监督): 数据获取问题;局部极值问题;梯度弥散问题。 迅速发展期(无监督): • 栈式自编码神经网络是无监督学习算法。因而不需要规模很大的有标签样本。 • 经过自编码神经网络训练后的参数已经落在一个较优的位置上,从这个位置开始BP微调,不用担心
卷积神经网络
局部感知
如果我们有1000x1000像素的图像,有1百万个隐层神经元,那么他们全连接的话(每个 隐层神经元都连接图像的每一个像素点),就有1000x1000x1000000=10^12个连接,也就 是10^12个权值参数。 假如局部感受野是10x10,隐层每个感受野只需要和这10x10的局部图像相连接,所以1百 万个隐层神经元就只有一亿个连接,即10^8个参数。

xi
bj

bj
2

E ( w, b) bj

bj
2
ij
• 而对于输入层和隐含层之间的权值和阀值调整同样有:
w ki

wki

1

E(w, wki
b)

wki
1 ki
xk
bi

bi
2

E ( w, b) bi

bi
2
ki
什么是深度学习
• 深度学习(多层神经网络)是相对于简单学习而言的。 • 函数模拟能力是随着层数的增加而增强的,整个网络的参数就越多。而神
局部极值问题。 • 自编码神经网络训练已经使深度网络的前几层参数具有表达能力了,比如可以提取出图片的边,局
部组建等,即使有梯度弥散问题,前几层参数不再更新,也不会影响最终深度网络的表达能力。
爆发期:
• 大规模标注数据的出现。在ILSVRC使用的数据集包括120万的训练图片,5万张验证图片和15万张测 试图片。这些图片都是有标注的(属于1000类),而在imagenet出现之前,这样规模的标注数据是 不存在的。
j0
f (Sj)
A AB
f (Sj)
xi
ki xk
ki

n1
ij wij
j0
f (S j )[A AB
f (Si )]
• 根据梯度下降法,那么对于隐含层和输出层之间的权值和阀值调整如下:
wij

wij
1

E ( w, b) wij

wij
1
ij
f ( x)A f ( x)
AB
输出层权值变化
E(w,b) wij
1 wij

1 2
n1 j0
(d
j

y j )2
(d
j

y
j)
d j wij

(d
j

yj)
f
'(S j )
S j wij
(d j

yj)
f (Sj)
A AB
f (Sj)
(1)
(2)
• 单个感知器上一个权重或偏置的微小改动有时候会引起那个感知器的输出完 全翻转,如 0 变到 1。
• 感知器和 S 型神经元之间一个很大的不同是 S 型神经元不仅仅输出 0 或 1。 它可以输出 0 和 1 之间的任何实数,所以诸如 0.173... 和0.689... 的值 是合理的输出。
ห้องสมุดไป่ตู้卷积神经网络
------从理论到实际项目应用
报告人:
目录 / contents
01 基础知识
1
02 卷积神经网络
6
03 Alexnet
7
04 图像语义分割
11
感知器
问题: 单层感知机仅对线性问题具有分类能力,用来解决
非线性问题,单层感知机就无能为力了
多层感知器
问题二:隐藏层的权值怎么训练?
S 型神经元
S j wij
(d j

yj)
f (Sj)
A AB
f (Sj)
xi
ij xi
ij
(d j
yj)
f (S j )[A AB
f (S j )]
隐藏权值变化
E(w,b) wki
1 wki

1 2
n1 j0
(d
j

y j )2

n-1
经网络其实本质就是模拟特征与目标之间的真实关系函数的方法,更多的 参数意味着其模拟的函数可以更加的复杂,可以有更多的容量(capcity) 去拟合真正的关系。 • 通过研究发现,在参数数量一样的情况下,更深的网络往往具有比浅层的 网络更好的识别效率。这点也在ImageNet的多次大赛中得到了证实。
深度学习的有监督和无监督训练
• 对于局部极值的问题,nature综述中,三个大牛作者的说法是:对于深度网络来说,局部极值从来 都不是一个问题,从任意的初始参数值开始训练网络,最后都能达到相似的分类效果。这也是被最 近的理论和实践所证明的。
• 对于梯度弥散导致的收敛速度慢问题。Alexnet模型的两大利器:ReLU激活函数和GPU并行加速。前 者使SGD有6倍的加速,后者使用两块GTX580GPU也极大的加快了SGD的收敛速度,两者效果相乘,使 得无监督预训练几乎是多余的了,梯度弥散问题也不再是一个很大的问题。
相关文档
最新文档