3章+前馈神经网络(3.3BP算法)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 + e− x
8
3.4.2 BP
一、网络误差与权值调整
误 差 反 传 ( BP BP ) 算 法
1 输出误差E定义 定义: 输出误差 定义: E = (d − O) 2 = 1 2 2
l
∑
k =1
( d k − ok ) 2
(3.4.6)
1 E= 2
误差定义 l
:
2=1
l m
∑[d
k =1
k − f (netk )]
i=0,1,2,…,n; j=1,2,…,m
(3.4.9b)
式中负号表示梯度下降,常数 ∈ 表示比例系数。 式中负号表示梯度下降,常数η∈(0,1)表示比例系数。 表示比例系数 在全部推导过程中,对输出层有 在全部推导过程中,对输出层有j=0,1,2,…,m; k=1,2,…,l 对隐层有 i=0,1,2,…,n; j=1,2,…,m
6
3.4.1
于BP
层
误 差 反 传 ( BP BP ) 算 法
对于输出层: 对于输出层:
o k = f ( net k )
m
k=1,2,…,l
(3.4.1) (3.4.2)
net k =
∑w
j =0
jk y j k=1,2,…,l
对于
层: 层:
y j = f ( net j ) j=1,2,…,m (3.4.3)
2
3.3BP算法及改进-主要内容
引言 基于BP算法的多层前馈网络模型 BP算法的实现
基本思想 推导过程 程序实现
BP学习算法的功能 BP学习算法的局限性 BP学习算法的改进
3
引言--BP算法的提出
提高网络性能(如分类能力)的有效途径
包含隐层的多层前馈网络 长期以来没有提出解决权值调整问题的有效算法。 非线性连续转移函数
第三章 前馈神经网络
3.4误差反传(BP)算法
1
北京工商大学信息工程学院
回顾
3.1单层感知器
模型:单计算节点感知器实际上就是一个M-P神 经元模型 功能:解决线性可分问题 局限性:不能解决线性不可分问题 学习算法:有导师学习
3.2多层感知器
模型:有隐层的多层前馈网络 功能:能够求解非线性问题 局限性:隐层神经元的学习规则尚无所知
误 差 反 传 ( BP BP ) 算 法
o1 W 1○
…
ok W k○
…
ol
Wl
○
yj
…
y1○ V1
y2○
…
○
○ ym
Vm
○
x1
○
x2
…
○
xi
…
○
xn-1
○
xn
5
模型的数学表达
输入向量: X=(x1,x2,…,xi,…,xn)T 隐层输出向量: Y=(y1,y2,…,yj,…,ym)T 输出层输出向量: O=(o1,o2,…,ok,…,ol)T 期望输出向量:d=(d1, d2,…,dk,…,dl)T 输入层到隐层之间的权值矩阵:V=(V1,V2,…,Vj,…,Vm) 隐层到输出层之间的权值矩阵:W=(W1,W2,…,Wk,…,Wl) 各个变量之间如何建立联系,来描述整个网络?
∂E = − ( d k − ok ) ∂ok
1 E= 2
l
(3.4.14a)
对于
层,利用式(3.4.7): 层 ,利用式 :
m
∑
k=1
[dk − f (
∑
j=0
wjk y j )]2
∂E 可得: 可得: =− ∂y j
l
∑
k =1
( d k − ok ) f' ( net k ) w jk
(3.4.14b)
n
f ( x) =
ij x i
1 1 + e− x
net k =
∑
j =0
w jk y j
l
net j =
∑v
i=0
误 差 反 传 ( ) 算 法
E=
1 2
l
∑
k =1
(d k − ok ) 2 =
m
1 2
∑
k =1
[ d k − f ( net k )]2 =
l
1 2
l
m
∑
k =1
[dk − f (
BP (Error Back Proragation,BP)算法
1986年,Rumelhart 和McCelland领导的科学家小组 《Parallel Distributed Processing》一书 应用对象:多层前馈网络 具有非线性连续转移函数
4
3.4
BP 算法
3.4.1 基于 算法的多层前馈网络模型 基于BP算法的多层前馈网络模型
∂E ∂E ∂net j = −η ∆vij = −η ∂vij ∂net j ∂vij
o δk = −
∂E ∂netk
∆w jk = ηδ ko y j
y ∆vij = ηδ j xi
δ
∂E y j =−
∂net j
误 差 反 传 ( BP BP ) 算 法
∆w jk = ηδ y j
o k
(3.4.12a)
综合应用式(3.13)和(3.21b),可将式 (3.17b)的权值调整 和 综合应用式 , 的权值调整 式改写为
∆vij = ηδ
可 , 权值调整 的 δo和δy
y j xi
的
3.4.12b) δo和δy,
o ∆w jk = ηδ k y j = η(d k − ok )ok (1 − ok ) y j
l y ∆vij = ηδ j xi = η (
(3.4.16a)
∑
k =1
o δ k w jk ) y j (1 − y j ) xi
Βιβλιοθήκη Baidu(3.4.16b)
17
o k = f ( net k )
m
y j = f ( net j )
2
∑
k =1
[dk − f (
∑
j =0
wjk y j )]2
(3.4.7)
9
3.4.2 BP
一、网络误差与权值调整
误 差 反 传 ( BP BP ) 算 法
进一步展开至输入层: 进一步展开至输入层:
1 E= 2
1 = 2
l m
∑
l
{d k − f [
k =1
∑
m
w jk f ( net j )]} 2
11
3.4.2 BP
误 差 反 传 ( BP BP ) 算 法
算法
二、BP算法推导 算法推导
对于输出层, 对于输出层,式(3.15a)可写为 可写为
∂E ∂E ∂net k = −η ∆w jk = −η ∂w jk ∂net k ∂w jk
对隐层,式(3.15b)可写为 对隐层, 可写为
(3.4.10a)
∂E ∂y j ∂E =− =− f ' (net j ) ∂net j ∂y j ∂net j ∂y j
3.4.13b)
(3.23)
对
层输出
14
对于输出层,利用式 对于输出层,利用式(3.4.6): :
E=
1 2
l
∑
k =1
( d k − ok ) 2
误 差 反 传 ( BP BP ) 算 法
可得: 可得:
∂E ∂ E ∂ net j ∆ v ij = −η = −η ∂ v ij ∂ net j ∂ v ij
隐层 (3.4.11a) ,
(3.4.10b)
对输出层
∂E o δk = − ∂netk
δ
∂E y j =−
∂net j
(3.4.11b)
12
综合应用式(3.4.2)和(3.4.11a),可将式 (3.4.10a)的权值调整 和 综合应用式 , 的权值调整 式改写为
n
net j =
∑
i =0
vij xi
j=1,2,…,m (3.4.4)
7
3.4.1
BP
单极性Sigmoid函数: 函数: 单极性 函数
误 差 反 传 ( BP BP ) 算 法
f ( x) =
双极性Sigmoid函数: 函数: 双极性 函数
1 1 + e− x
1−e
−x
(3.4.5)
f ( x) =
k k k k =1
l
jk ] f'(net j )
=(
∑
k =1
o δ k w jk ) y j (1-y j )
(3.4.15b)
16
误 差 反 传 ( BP BP ) 算 法
将式(3.4.15)代回到式 代回到式(3.4.12),得到三层前馈网的 学 将式 代回到式 ,得到三层前馈网的BP学 习算法权值调整计算公式为: 习算法权值调整计算公式为:
15
将以上结果代入式(3.4.13),并应用式 , 并应用式(3.15): f (x) = 将以上结果代入式 :
1 1 + e−x
误 差 反 传 ( BP BP ) 算 法
得到: 得到:
o δ k = ( d k − ok )ok (1 − ok )
l y δ j =[
(3.4.15a)
∑(d − o ) f'(net )w
∑
j =0
n i =0
wjk y j )]2
=
1 2
l
∑
k =1
{d k − f [
∑
j =0
w jk f (net j )]}2 =
1 2
m
BP BP
∑
k =1
{d k − f [
∑
j =0
w jk f (
∑
vij xi )]}2
∂E ∂E ∂netk = −η ∆w jk = −η ∂w jk ∂netk ∂w jk
j =0
n
(3.4.8)
∑
k =1
{d k − f [
∑
j =0
w jk f (
∑
i =0
vij xi )]}2
10
3.4.2 BP学习算法
误 差 反 传 ( BP BP
∂E ∆w jk = −η ∂w jk ∂E ∆ vij = −η ∂ vij
j=0,1,2,…,m; k=1,2,…,l (3.4.9a)
式(3.4.12) 式 可
13
对于输出层, 对于输出层, δo可展开为
误 差 反 传 ( BP BP ) 算 法
∂E ∂E ∂ok ∂E o δk = − =− =− f ' (netk ) ∂netk ∂ok ∂netk ∂ok
对于隐层, δy可展开为 对于隐层,
(3.4.13a)
δ
∂E y j =−