神经网络优化理论研究及应用_第2章神经网络基本理论及学习算法_14_22

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第2章神经网络基本理论及学习算法
第2章神经网络基本理论及学习算法
2.1 神经网络简介　
神经网络控制是80年代以来，在人工神经网络（ANN）研究取得突破性进展的基础上，发展起来的自动控制领域的前沿学科之一。

它是智能控制领域的一个新的分支，为解决复杂的非线性、不确定性、不确知系统的控制问题开辟了一条新的途径。

人工神经网络是一个具有高度非线性的超大规模连续时间动力学系统。

其最主要的特征是连续时间非动力学、网络的全局作用、大规模并行分布处理及高度的鲁棒性和学习联想能力。

同时它又具有一般非线性动力系统的共性，即不可测性、吸引性、耗散性、非平衡性、不可逆性、高维性、广泛连接性和自适应性等。

因此，它实际上是一个超大规模非线性连续时间自适应信息处理系统。

神经网络由于其大规模并行处理、容错性、自组织和自适应能力和联想功能强等特点，已成为解决很多问题的有利工具，对突破现有科学技术的瓶颈，更深入探索非线性等复杂现象起到了重大作用，已广泛应用在许多工程领域[25]。

事实上，研究大脑－思维－计算之间的关系还刚刚开始，道路还十分漫长，关于脑的计算原理及其复杂性；关于学习、联想和记忆过程的机理及其模拟等方面的研究已受到人们的关注，它未来的发展必将是激动人心的。

神经网络理论的前沿问题将渗透在21世纪科学的挑战性问题中。

多年来，学者们建立了多种神经网络模型，决定其整体性能的三大主要因素：神经元的特性；神经元之间相互联接的形式——拓扑结构；为适应环境而改善性能的学习规则。

人工神经网络工作时，所表现出的就是一种计算，利用人工神经网络求解问题时所利用的也正是网络输入到输出的某种关系式。

与其他求输入、输出关系式方法不同的是，神经网络的输入输出关系式是根据某种性能指标计算出来的。

所以应用神经网络解决实际问题的关键在于设计网络，而网络的设计包括两个方面，一是网络结构，二是网络权值的确定。

燕山大学工学硕士学位论文
通常，神经网络的工作方式分为两个阶段：学习期，神经元之间的连接权值，可由学习规则进行修改，以使目标函数达到最小；工作期，连接权值不变，由网络的输入得到相应的输出[26]。

一般将神经网络分为以下四种类型：前馈、反馈、自组织与随机型。

本章将介绍控制中常用的多层前向网络：BP网络和RBF网络，及其学习算法，并分析了BP网络和RBF网络存在的几个问题。

2.2 误差反传（BP）网络　
反向传播网络（Back-Propagation Network，简称BP网络），是对非线性可微分函数进行权值训练的多层前向网络。

在人工神经网络的实际应用中，80%-90%的人工神经网络模型是采用BP网络或它的变化形式，可以说BP网络是人工神经网络中前向网络的核心内容，体现了人工神经网络最精华的部分。

多层前馈网络的结构如图2-1所示，u、y是网络的输入输出向量，每一神经元用一个节点表示，网络由输入层、隐层和输出层节点组成，隐层可以是单层，也可以是多层（图2-1中是单隐层），前层至后层节点通过权连接。

u y
输入层节点隐层节点输出层节点
图2-1 BP网络模型
Fig.2-1 The model of BP network
2.2.1 BP学习算法　
BP学习算法属于广义δ学习规则，是一种有导师的学习算法。

对于每一个输入，网络都要产生一个实际输出，在学习期间，需要把输入和期望
第2章神经网络基本理论及学习算法
输出同时提供给网络。

用实际输出和期望输出的误差来修改连接权值和阈值，使实际输出与期望输出尽可能接近。

已知网络的输入/输出样本，即导师信号。

BP 学习算法由正向传播和反向传播组成。

正向传播是输入信号从输入层经隐层传向输出层，若输出层得到了期望的输出，则学习算法结束；否则，转至反向传播。

反向传播就是将误差信号按原连接通路反向计算，由梯度下降法调整各层神经元的权值和阈值，使误差信号减小。

算法步骤：
（1）设置初始权系)0(W 为较小的随机非零值。

（2）设定输入/输出样本对，计算网络输出设第p 组样本输入、输出分别为
),,,(21np p p p u u u u L =
),,,(21kp p p p d d d d L = L p ,,2,1L =
节点i 在第p 组样本输入时，输出为：
])([)]([)(∑==j
jp ij ip ip I t w f t x f t y （2-1）
式中 jp I ——在第p 组样本输入时，节点i 的第j 个输入
)(⋅f ——可微分的Sigmoid 作用函数式
可由输入层经隐层至输出层，求得网络输出层节点的输出。

（3）计算网络的目标函数J 设p E 为在第p 组样本输入时网络的目标函数，取2L 范数，则
∑∑=−=−=k
kp k kp kp p p p e t y d t y d E 222221)]([21||)(||21 （2-2）式中 )(t y kp ——在第p 组样本输入时，经t 次权值调整，网络的输出，k
是输出层第k 个节点
网络的总目标函数为
∑=p p t E t J )()( （2-3）
作为对网络学习状况的评价。

（4）判别若
燕山大学工学硕士学位论文
ε≤)(t J （2-4）
式中 ε——预先设定值，0>ε
则算法结束；否则，至步骤（5）。

（5）反向传播计算由输出层，依据J ，按“梯度下降法”反向计算，逐次调整权值。

采用一般的迭代算法，得到神经元j 到神经元i 的联接权1+t 次调整算式
)()()()( )()()()1(t w w t w t E t w t w t J t w t w ij ij p ij
p ij ij ij ij ∆+=∂∂−=∂∂−=+∑ηη （2-5）式中 η——步长，在此称学习算子　
具体算法如下：
ij ip ip p ij
p
w x x E w E ∂∂∂∂=∂∂ （2-6）设　
ip p
ip x E ∂∂=δ （2-7）　式中 ip δ——第i 个节点的状态ip x 对p E 的灵敏度（第p 组样本输入时）　
由式（2-6）、（2-7）可得　
jp ip ij
p
I w E δ=∂∂ （2-8）　
可分以下两种情况计算ip δ：　
（1）若i 为输出节点，即k i =，由式（2-2）、（2-7）可得　
)('kp kp kp kp kp p kp p
kp ip x f e x y y E x E −=∂∂∂∂=∂∂==δδ （2-9）　将式（2-9）代入式（2-6），则　
jp kp kp ij p
I x f e w E )('−=∂∂ （2-10）　
（2）若i 不是输出节点，即k i ≠，此时式（2-7）为　
)('ip ip
p ip ip ip p ip p ip x f y E x y y E x E ∂∂=∂∂∂∂=∂∂=δ （2-11）式（2-11）中　
第2章神经网络基本理论及学习算法 ∑∑∑∑∑=∂∂=∂∂∂∂=∂∂∂∂=∂∂∗m m
mi mp mi mp p m m j jp mj ip mp p ip mp mp p ip p
w w x E I w y x E y x x E y E δ （2-12）
式中 m ——节点i 后边一层的第m 个节点　
∗
jp I ——节点m 的第j 个输入（第p 组样本输入时），当i ＝j 时，将式（2-11）和（2-12）代入式（2-6），有　
∑∑=∂∂=∂∂m
mi mp jp m ip mi mp p jp ip ij p
w I x f w x E I x f w E δ)()('' （2-13）　可总结为由式（2-10）和（2-13），即可进行式（2-5）的权值调整。

　
2.2.2 BP 网络的限制与不足　
（1）BP 网络拓扑结构的设计没有确定的规则，即网络隐层数、每层隐节点个数及其激活函数的选取，在理论上没有一个明确的规定；
（2）BP 算法的收敛速度慢，且收敛速度和初始权值的选择有关；
（3）由于是非线性优化，不可避免的存在局部极小问题。

2.3 径向基函数（RBF ）网络　
径向基函数（RBF-Radial Basis Function ）神经网络，是在借鉴生物局部调节和交叠接受区域知识的基础上，提出的一种采用局部接受域来执行函数映射的人工神经网络。

　
u y 图2-2 RBF 网络结构图
Fig.2-2 Structure of RBF network
RBF 网络结构是由一个隐含层（径向基层）和一个线性输出层组成的前向网络，隐含层采用径向基函数作为网络的激活函数。

其结构如图2-2
燕山大学工学硕士学位论文
所示。

　
2.3.1 RBF 网络输出的计算　
RBF 网络第i 个隐层节点的输出为　
||)(||i i c u R q −= （2-14）　
式中 u ——n 维输入向量
c i ——第i 个隐节点的中心
||||⋅——通常为欧氏范数
)(⋅R ——RBF 函数，具有局部感受的特性，它有多种形式，体现了RBF 网络的非线性映射能力，通常取为高斯函数，其形式为　
exp()(σc x R −−=⋅ （2-15）　网络输出层第k 个节点的输出，为隐节点输出的线性组合　
∑−=i
k i ki k q w y θ （2-16）　
式中 ki w ——q i 到y k 的联接权
k θ——第k 个输出节点的阈值
2.3.2 RBF 网络的学习算法　
设有p 组输入/输出样本，L p d u p p ,,2,1,/L =，定义目标函数（L 2范数）
∑∑∑−=−=
p p k
kp kp p p y d y d J 22)(21||||21 （2-17）学习的目的是使
ε≤J （2-18）
式中 y p ——在u p 输入下网络的输出向量
RBF 网络的学习算法由两部分组成：无导师学习、有导师学习。

2.3.2.1 无导师学习无导师学习也称非监督学习，对所有样本的输入进行聚类，求得各隐层节点的RBF 的中心c i 。

这里介绍用k 均值聚类算法，调整中心，算法步骤为：
（1）给定各隐节点的初始中心)0(i c ；
（2）计算距离（欧氏距离）并求出最小距离的节点
第2章神经网络基本理论及学习算法
)
()(min )(1 ||,)1()(||)(min t d t d t d m
i t c t u t d r i i i ==≤≤−−= （2-19）
（3）调整中心
))
1()(()1()(,1),1()(−−+−=≠≤≤−=t c t u t c t c r i m i t c t c r r r i i β （2-20）
式中 β——学习速率，10<<β
（4）计算节点r 的距离 ||)()(||)(t c t u t d r r −= （2-21）
2.3.2.2 有导师学习有导师学习也称监督学习。

当c i 确定后，训练由隐层至输出层之间的权系值，由式（2-16）可知，它是一线性方程组，则求权系值就成为线性优化问题，可利用各种线性优化算法求得，如LMS 算法、最小二乘递推法、镜像映射最小二乘法等。

（1）LMS 算法 LMS 算法即δ规则，对于本网络，权值调整算法应为
2||||)()()1(p ip k ki ki q q t e t w t w α
+=+ （2-22）式中 α——常值，20<<α
当ε≤)(t J ，算法结束。

（2）最小二乘递推法（RLS ）为简单起见，讨论单输出。

定义目标函数　
∑∑==−==L
p p p L p p t y d p t E t J 121
)]()[(21)()(λ （2-23）　式中 )(p λ——加权因子
使min =J 的W ，即为所求的W ，因此，由
0)(=∂∂W
t J （2-24）可得最小二乘推算法（RLS ）
)
1()]()([)(])
(1)()1()()[()1()()]
1()()[()1()(1−−=+
−−=−−+−=−t P t q t K I t P p t q t P t q t q t P t K t W t q d t K t W t W T
p p T p p q T p p q q λ （2-25）
燕山大学工学硕士学位论文
式中 T mp p p p t q t q t q t q )](,),(),([)(21L =，m 是隐节点数
2.3.3 RBF 网络的优缺点　
（1）RBF 与BP 网络主要不同点是，在非线性映射上采用了不同的作用函数，分别为径向基与S 型函数，前者的作用函数是局部的，后者的作用函数是全局的。

（2）已证明RBF 网络具有惟一最佳逼近的特性，且无局部极小。

（3）求RBF 网络隐节点的中心i c 、标准化参数2σ，是一困难问题。

（4）径向基函数，即径向对称函数，有多种。

对于一组样本，如何选择合适的径向基函数、如何确定隐节点数，以使网络学习达到要求的精度，这是尚未解决的问题。

当前，用计算机选择、设计、再检验是一种通用的手段。

（5）RBFNN 用于非线性系统辨识与控制中，虽具有惟一最佳逼近的特性，且无局部极小问题，但是隐节点的中心难求，是该网络难以广泛应用的原因。

2.4 本章小结　
本章首先论述了神经网络的基本知识，然后着重介绍了本文将要用到的多层前向网络模型：BP 网络和RBF 网络，分析了两种网络的学习算法。

BP 网络在控制领域得到了广泛的应用，但其网络结构的设计没有确定的规则；学习算法的收敛速度慢，且存在局部极小问题。

BP 网络的这些缺点导致其在实际应用场合中受到诸多限制，因此寻求最优的网络结构及高效的学习算法成为BP 网络面临的主要问题。

　
RBF 网络结构简单，在非线性映射上采用了不同的作用函数；具有唯一最佳的逼近特性，且无局部极小；但是同样存在拓扑结构无法确定的问题，即隐层节点个数、隐节点的中心和标准化宽度难求，是该网络不能广泛应用的原因。

　
第3章基于遗传算法的前向网络优化设计
第3章基于遗传算法的前向网络优化设计3.1 引言　
神经网络具有良好的非线性映射能力、自学习适应能力和并行信息处理能力，在很多方面都得到了广泛的应用。

多层前向网络是最重要的神经网络模型之一，是一个强有力的学习系统，结构简单且易于编程，一个三层前向神经网络可以逼近任意非线性函数，在信号处理、模式识别等领域有着广泛的应用。

但是现存的神经网络设计方法具有一些严重的不足，使其在应用中遇到了较大的困难，主要体现在[27,28]：
（1）网络拓扑结构的选取如BP网络的隐层数、每层隐节点个数和
c和标准隐层映射函数无法确定；RBF网络的隐节点个数、隐节点的中心
i σ很难求取，这在一定程度上影响了网络的使用。

化参数2
（2）训练速度由于神经网络训练实质上是一复杂的非线性优化问题，当前各种神经网络及其训练算法常常无法有效的处理该问题，导致训练速度慢，并极易陷入局部极小。

遗传算法（Genetic Algorithm，简称GA）是模拟生物的遗传和长期进化过程发展起来的一种搜索和优化算法，具有群体寻优的增强式学习能力及全局性、并行性、快速性和自适应性。

遗传算法的出现使神经网络的训练有了一个崭新的面貌，目标函数既不要求连续，也不要求可导，仅要求该问题可计算，而且它的搜索遍及整个解空间，容易得到全局最优解。

　
因此许多学者将遗传算法与人工神经网络结合在一起，利用遗传算法优化设计神经网络的拓扑结构和权值参数[29,30]。

3.2 遗传算法简介
遗传算法是人工智能的重要新分支，是基于达尔文进化论，在计算机上模拟生命进化机制而发展起来的一门新学科。

该算法建立在自然选择和自然遗传学机理基础上，是一种迭代自适应概率性搜索算法，最早由美国。