多层前馈神经网络new

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

5 多层前馈网络及BP 算法

多层前馈网络的反向传播 (BP )学习算法,简称BP 算法,是有导师的学习,它是梯度下降法在多层前馈网中的应用。

(a ) 网络结构 见下图,u 、

y 是网络的输入、输出向量,神经元用节点表示,网络由

输入层、隐层和输出层节点组成,隐层可一层,也可多层(图中是单隐层),前层至后层节点通过权联接。由于用BP 学习算法,所以常称BP 神经网络。

:x 每个神经元(节点)的输入;:y 每个神经元(节点)的输出;:j I 神经元

的第

j 个输入。:ij w 神经元j 到神经元i 的连接权

节点的作用函数:)(θ-=x f y , θ

为阈值(可设置一个偏置节点代替θ)

f 可为线性函数,一般取为Sigmoid 函数

ξ

/11x e -+, ξ为很小的数,如0.1

(b ) BP 学习算法

• 已知网络的输入/输出样本,即导师信号。 • BP 学习算法由正向传播和反向传播组成:

• 正向传播是输入信号从输入层经隐层,传向输出层,若输出层得到了期望的输出,则学习算法结束;否则,转至反向传播。

• 反向传播是将误差(样本输出与网络输出之差)按原联接通路反向计算,由梯度下降法调整各层节点的权值和阈值,使误差减小。 BP 学习算法步骤如下:

(1) 设置初始权值)0(W ,它是较小的随机非零值。

(2) 给定输入/输出样本对,计算网络的输出。 设第p 组样本输入:()np p p p

u u u u ,...,,21=

输出:()L p d d d d m p p p p

,..,2,1,,...,,21==

节点i 在第

p 组样本输入时,输出为 ip y :

()⎥⎦

⎢⎣⎡==∑j jp ij ip ip I t w f t x f t y )()()( ----(1式)

式中,jp I 是在第

p 组样本输入时,节点 i 的第j 个输入。

)(∙f 取可微的s 型作用函数式 )(x f =

x

e

-+11 -------(2式)

可由输入层隐层至输出层,求得网络输出层节点的输出。

(1) 计算网络的目标函数

J

设p E 为在第

p 组样本输入时,网络的目标函数,取2L 范数,则

∑∑=-=-=

k

kp k kp kp p p p t e t y d t y d t E )(21)]([21||)(||21)(2

222--------(3式) 式中,

)(t y p 是在第p 组样本输入时,经t 次权值调整后网络的输出:k 是

输出层第k 个节点。

网络的总目标函数:

)(t J =∑p

p t E )( ----------(4式)

作为对网络学习状况的评价。

(2) 判别 若

)(t J ≤ε -------(5式)

算法结束;否则,至步骤(4)。式中,ε是预先确定的,0>ε.

(3) 反向传播计算 由输出层,依据

J

,按梯度下降法反向计算,可逐层调整权值。

由式()

k

k k

k k a a J a a ∂∂-=+η1,取步长为常值,可得到神经元j 到神经元i 的

连接权1+t 次调整算式:

)()()()()()()

()()1(t w t w t w t E t w t w t J t w t w ij ij p ij

p ij ij ij ij ∆+=∂∂-=∂∂-=+∑ηη---6式)

式中,η为步长,在此称为学习算子。 具体算法如下:

ij

ip

ip p ij p

w x x E w E ∂∂⋅∂∂=∂∂ --------(7式)

ip

p ip x E ∂∂=

δ ----------(8式)

式中,ip δ是第i 个节点的状态ip x 对p E 的灵敏度(第p 组样本输入时)。

又(7式)(8式)可得:

jp ip I ⋅=∂∂δij

p

w E ----------(9式)

分以下两种情况计算ip δ。

① 若i 为输出节点,由(3式)和(8式)可得:

()kp kp kp

kp

kp p kp

ip x f e x y y E '-=∂∂⋅∂∂==δδ --------(10式) 将(10式)代入(7式),则:

()jp kp kp I x f e 'ij

p

w E -=∂∂ ---------(11式)

② 若i 不是输出节点,此时(8式)为:

()ip ip

p

ip ip ip p ip p

ip x f y E x y y E x E '⋅∂∂=∂∂⋅∂∂=∂∂=δ -----(12式)

其中

i

m m p m m j m p

m p j

jp

j m ip

m p m p ip p m m p m p ip p

w w x E I w

y x E y x x E y E 11

11

11111111∑∑

∑∑∑=∂∂=∂∂⋅∂∂=∂∂⋅∂∂=∂∂*

δ(13式)

式中,1m 是节点i 后边一层的第1m 个节点;*jp I 是节点1m 的第j 个

输入(第

p 组样本输入时),当j i =时

*

=jp

ip I

y

将(12式)和(13式)代入(7式),有

()()i m m p m jp ip i

m m p m p jp ip ij P w I x f w x E I x f w E 111111'

'∑∑=∂∂=∂∂δ ----(14式) 可见,由(11式)和(14式),可进行(6式)的权值调整计算。

(c)几个问题讨论:

(1)实现输入/输出的非线性映射

(2)输入/输出的归一化,即将输入输出转化到(0,1) (3)泛化能力 (4)训练误差 (5)BP 的不足

● 收敛速度慢,局部最优点,收敛速度与初始权的选择有关 ● 隐层及接点数的选择无理论指导 ● 新加入的样本会影响到已学好的样本 (6)改进的BP 算法

相关文档
最新文档