基于神经网络参数优化的迭代学习控制算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第29卷第6期
2008年 12月河南科技大学学报:自然科学版Journal of Henan University of Science and Technol ogy:Natural Science Vol .29No .6Dec .2008
基金项目:辽宁省教育厅科学研究计划项目(2002D031)
作者简介:王丹凤(1983-),女,辽宁辽阳人,硕士生;李书臣(1960-),男,辽宁桓仁人,教授,主要研究领域为预测控制、智能控制、
迭代学习控制算法及应用.
收稿日期:2008-05-15
文章编号:1672-6871(2008)06-0042-03
基于神经网络参数优化的迭代学习控制算法
王丹凤,李书臣,翟春艳,邢宜春
(辽宁石油化工大学信息与控制工程学院,辽宁抚顺113001)
摘要:针对迭代学习控制用于轨迹跟踪时存在收敛速度慢的问题,提出用RBF 网络优化迭代控制器参数的算法。在每一次迭代学习过程之后利用RBF 网络对当次输出的数据进行优化计算,拟合出最优的学习增益,使迭代学习算法具有较快的收敛速度,在单关节机器人中进行仿真验证了方法的有效性。
关键词:迭代学习控制;RBF 网络;单关节机器人
中图分类号:TP389.1文献标识码:A
0 前言
机器人是一类高度非线性、强耦合和时变性的动力学系统,设计其控制器存在的一个严重问题是我们并不知道准确的数学模型,如果忽略各种不确定因素,设计出的控制器可能会导致系统性能变坏甚至
引起不稳定[1]。迭代学习控制(I L C )[2-3]是一种新型控制算法,它能以非常简单的方式处理不确定度
相当高的动态系统,且仅需要较少的先验知识和计算量,适应性强,易于实现;更主要的是它不依赖于动态系统的精确数学模型。从“迭代”二字可以看出,这是要求动态过程是可以重复的一种行为,它的研究对诸如机器人等对运动控制有着高速、高精度要求的对象有着重要的意义。但现有的迭代学习控制只能用于某种特定的轨迹跟踪问题,且学习速度慢,迭代的次数多,本文将离线的神经网络与在线的迭代学习相结合的控制方案,在控制器中加入神经网络的优化作用,把在线的学习,在线的控制与控制系
统性能改善的功能有效的综合在一个算法里[3]。此方法原理简单,实现的P D 型迭代学习控制器结构
简单,保证了系统的实际输出在最少的迭代次数,以最快的收敛速度逼近期望输出。
1 迭代学习神经网络控制结构
基于神经网络的迭代学习控制系统结构图主要分为两大部分:迭代学习控制器和神经网络,结构图如图1所示
。
图1 基于神经网络的迭代学习控制结构图本文采用P D 型学习律[4]的迭代学习控制器直接对
被控对象进行控制,控制器中的可调参数k p ,k d 通过离线
的神经网络进行调整。P D 型学习律公式为
u k +1(t )=u k (t )+k p e k (t )+k d d e k (t )d t
(1)e k =y d (t )-y k (t )
(2)其中 k 表示迭代的次数;u k (t )为第k 次控制输入;k p ,k d
分别为迭代学习控制器的学习增益。
随着神经网络的发展尤其是在出现多层前馈网络和
反馈性网络后获得了突破性进展[5]。多层神经网络逼近
任意非线性映射能力,以及固有的学习特点,已得到各个
领域的极端重视,将极具潜力的神经网络模型运用到学习控制系统的研究,已陆续得到某些结果。
第6期王丹凤等:基于神经网络参数优化的迭代学习控制算法利用神经网络的数学逼近映射的功能来实现对迭代学习控制参数的优化,BP 网络是神经网络中最常用的一种结构,但这里采用的是逼近能力和学习能力均优于BP 网络的另一种网络RBF 网络(Radial Basis Functi on )。
2 迭代学习神经网络的参数优化
RBF 网络是一种三层前向网络,由输入到输出的映射是非线性的,而隐含层空间到输出空间的映射是线性的,从而大大的加快了学习速度并避免了局部极小问题
[6],图2为RBF 网络结构
。图2 RB F 网络结构在RBF 网络结构中x =[x 1,x 2,…,x i ,…,x n ]T
为网络的输入向量,设RBF 网络的径向基向量H =[h 1,h 2,…h j ,…,h m ]T ,其中
h j 为高斯基函数
h j =exp (-X -C
j 2
2b 2j ),j =1,2,…,m (3)
网络的第j 个结点的中心矢量为C j =[c j 1,c j 2,…,c ji ,…,c jn ]T ,
其中,i =1,2,…,n
设网络的基宽向量为B =[b 1,b 2,…,b m ]T ,b j 为节点j 的基宽
参数,且为大于零的数。网络的权矩阵为W =[w lj ]T ,l =1,2。
依据平方差判断算法的优越性,故取性能指标函数为
J =12(e k (t )-e k -1(t ))2(4)
根据梯度下降法,输出权、节点中心及节点基宽参数的迭代算法如下
w jl (k )=w jl (k -1)+ηe (k )h j +α(w jl (k -1)-w jl (k -2))
(5)Δb j =(y d -y k )w lj h j X -C j 2b 3j (6)
b j (k )=b j (k -1)+ηΔb j +α(b j (k -1)-b j (k -2))(7)
Δc jl =(y d -y k )w lj x j -c ji b 2j (8)
c ji (k )=c ji (k -1)+ηΔc ji +α(c ji (k -1)-c ji (k -1)))(9)
9y 9Δu =ρm j =1w lj h j c ji -x 1b 2j
(10)式中
η为学习速率;α为动量因子。k p ,k d 的调整采用梯度下降法
Δk p =-η9E 9k p =ηe k 9y 9
Δu (e k -e k -1)(11)Δk d =-η9E 9k d =ηe k 9y 9Δu (e k -2e k -1+e k -2)(12)
基于神经网络的迭代学习控制器的学习过程:在第k 次运行过程中,输入信号u k (t )加入被控对象中,产生输出信号y k (t )。在此过程中,u k (t ),y k (t )被存储在相应的存储器中,当第k 次运行结束后,系
统将对它们离线处理,按照迭代学习算法,将e k (t )和u k (t )进行神经网络优化[7-8]拟合运算后,输出控
制器的参数值k p 和k d 。系统在时间内t ∈[0,T ],随着迭代次数的增加,在相同的学习律下不断的学习,对控制器参数不断的进行修正,直至误差满足要求,实际输出逼近期望轨迹为止。3 仿真实例
将基于神经网络的迭代学习控制应用于单关节机器人系统,其动态系统模型为
J m q ..(t )+sg sin (q (t ))=f (t )(13)
・
34・