非线性不确定系统最优控制的自适应动态规划法研究
非线性系统事件触发自适应动态规划理论与方法研究
非线性系统事件触发自适应动态规划理论与方法探究关键词:非线性系统;事件触发;自适应动态规划;控制器设计;优化1.引言非线性控制是现代控制领域中的重要探究方向之一。
由于非线性系统具有复杂的动态特性和难以求解的数学模型,对其进行有效的控制一直是学术界和工业界共同关注的难点问题之一。
近年来,基于智能控制和优化算法的非线性控制方法得到了广泛应用。
其中,自适应动态规划作为一种高效的优化算法,得到了越来越多的关注。
然而,传统的自适应动态规划算法在控制非线性系统时,由于需要在线进修系统的动态特性和优化策略,导致计算开销较大。
在解决非线性系统控制中计算开销大的问题时,事件触发控制方法成为了探究热点。
事件触发控制以系统状态的变化为触发机制,只在触发事件发生时才更新控制器状态,降低了系统的计算频率,从而提高了计算效率和控制性能。
事件触发控制与自适应动态规划算法结合,可以实现对非线性系统进行高效控制和优化。
本文接受事件触发自适应动态规划的方法,针对非线性系统控制问题进行探究。
起首,通过建立系统的数学模型,并分析系统的动态特性,设计合适的控制器结构。
然后,基于事件触发机制,设计控制器状态的更新策略,并接受自适应动态规划算法,进修系统的动态特性和控制策略,实现控制器的自适应。
最后,通过理论分析和仿真试验验证了该方法的有效性和优越性。
2.非线性系统建模本文思量一类常见的非线性系统,其数学模型可以表示为:$$\dot{x} = f(x,u)$$其中,$x$为系统的状态向量,$u$为控制输入向量,$f(x,u)$为非线性函数。
针对该系统,接受反馈线性化和状态反馈控制方法,设计控制器的结构如下:$$u = k(x) = -Kx$$其中,$K$为反馈矩阵。
3.事件触发控制策略事件触发控制以系统状态的变化为触发机制,实现对系统状态和控制指令的节约和优化。
本文接受基于误差阈值的事件触发策略,其更新规则为:$$e = x-x_k \\\Delta t_k =\begin{cases}\Delta t_a, & |e| \geq \epsilon \\\Delta t_r, & |e| < \epsilon\end{cases}$$其中,$x_k$为上一次控制器状态更新时的状态值,$\Deltat_k$为本次更新时间间隔,$\Delta t_a$和$\Delta t_r$为控制器的活动和保持时间,$\epsilon$为误差阈值。
自动控制中最优控制方法在非线性系统中的应用
自动控制中最优控制方法在非线性系统中的应用自动控制是一门研究如何设计、实现和优化自动化系统的学科。
随着科技的进步和工业的发展,自动控制在各个领域中的应用越来越广泛。
为了提高控制系统的性能和效率,研究者们不断探索和发展各种控制方法。
其中,最优控制方法在非线性系统中的应用受到了广泛关注。
最优控制是一种寻找使系统性能指标达到最优的控制策略的方法。
在传统的线性系统中,最优控制方法已经得到了广泛的应用和研究。
然而,实际控制系统往往是非线性的,在面对复杂的实时问题时,线性控制方法往往无法满足要求。
因此,研究者们开始将最优控制方法引入非线性系统中,并致力于寻找适用于非线性系统的最优控制策略。
在非线性系统中,最优控制方法可以分为两类:数值方法和优化方法。
数值方法使用数值计算的方式来求解控制问题,常见的方法有动态规划、最优置信域、神经网络等。
优化方法则是通过构建性能指标和约束条件来寻找最优控制策略,其中最常见的方法是变分法和极大极小值原理。
动态规划是一种常用的数值方法,它将非线性系统的优化问题转化为动态系统的最优化问题。
动态规划通过将整个时间段划分为离散的时间步长,在每一个时间步长上进行最优决策,最终得到整个时间段上的最优控制策略。
动态规划在非线性系统中的应用需要考虑状态变量的连续性和约束条件的非线性性,通过将系统模型进行离散化和适当的数值计算方法,可以求解非线性系统的最优控制策略。
最优置信域是一种基于数值优化技术的最优控制方法。
它通过构建性能指标、约束条件和一个合适的置信域来寻找最优控制策略。
最优置信域方法在非线性系统中的应用需要考虑系统模型的非线性性和约束条件的复杂性。
通过采用适当的数值优化算法,可以在保证满足性能指标要求的前提下,求解非线性系统的最优控制策略。
神经网络是一种基于人工神经元构建的模型,能够模拟人脑的学习和适应能力。
神经网络在非线性系统中的应用主要是利用其强大的模型拟合能力和优化算法,通过学习系统的输入和输出数据,建立模型并优化模型参数,从而得到最优控制策略。
非线性不确定系统鲁棒自适应控制研究
非线性不确定系统鲁棒自适应控制研究【摘要】本文基于Lyapunov稳定性理论和线性矩阵不等式(LMI)方法,对不确定时滞系统分析输出反馈控制器的设计方法,研究了不确定系统设动态特性以及如何保证系统渐近稳定,运用MATLAB进行仿真实例分析控制器设计方法能够达到较好的控制效果,而且具有较强的鲁棒性和稳定性,证明了设计方法的有效性。
【关键词】鲁棒控制自适应控制线性矩阵不等式不确定性鲁棒控制是利用系统模型的一些不确定信息来设计一个控制器,使得闭环系统对所有的不确定性是稳定的,且具有一定的动态性能。
鲁棒控制主要研究具有未知有界不确定性的系统模型,通过鲁棒控制的手段使系统具有鲁棒性,即系统在不确定因素作用下维持其稳定性的能力。
在实际生产过程中,对各种过程及环节的控制系统设计总是不可避免的要利用到被控对象的有关信息,这些信息的获得总是要利用一些试验或推导得到我们要据此设计控制器的所谓“模型”,这些模型的精确性由于信息获得过程的局限性往往会受到影响。
因此,对不确定性系统的稳定性和控制进行研究具有较大的意义和实际价值。
1 系统的不确定性系统的不确定性因素包括有外界噪声、干扰信号、传递函数的建模误差以及未建模的非线性动态特性。
MATLAB的鲁棒控制系统工具箱可以找到系统在这些不确定性条件下的多变量稳定裕度的度量。
不确定性包括很多方面,但其中最重要的是指系统的外界干扰信号和系统传递函数的建模误差。
鲁棒控制系统设计问题的一般描述如下:假定一个多变量系统P(s),寻找某个稳定的控制器F(s),使得闭环系统的传递函数满足下面的关系:(1)(2)(3)公式(1)(2)(3)为鲁棒条件,KM称为最小不确定性的大小,由于每个频率对于的奇异值来度量,函数KM又称为对角扰动的多变量稳定裕度(MSM),即为(4)如果Δn不存在,该问题又被称为鲁棒镇定问题(Robust stability problem)。
上述问题的求解涉及到Δ的非凸优化问题,它不能通过标准的非线性梯度下降方法计算得到,因为此时的算法收敛性无法保证。
非线性系统控制的自适应算法研究
非线性系统控制的自适应算法研究一、引言非线性系统控制是现代控制理论中的重要研究领域,其研究对象包括机电一体化系统、化工过程、交通工具等。
非线性系统具有复杂的动力学特性,传统的控制方法往往难以有效地控制这些系统。
因此,为了提高控制系统的性能和鲁棒性,自适应控制算法逐渐成为热门的研究方向。
本文将从非线性系统控制的需要入手,介绍自适应控制算法的基本思想和应用研究现状。
二、非线性系统控制的需求随着科技的发展,人们对控制系统的性能要求日益提高。
但是,传统的控制方法往往很难控制非线性系统。
非线性系统具有以下特点:(1)系统参数和外部扰动经常会导致系统的非线性行为。
(2)非线性规律难以穷尽,存在多种状态或行为。
(3)系统的输入和输出之间存在复杂的关系,不易直接控制。
(4)系统动态响应的速度慢,存在滞后现象。
这些特点使得非线性系统不易受到常规控制方法的控制,为了更好地解决这些问题,需要使用自适应控制算法。
三、自适应控制算法的基本思想自适应控制是指控制器能够根据系统的非线性特性和状态变化情况,自主调整控制参数,满足控制系统对不确定性的适应性。
自适应控制算法基本思想是通过反馈控制把系统状态和控制量联系在一起,建立实时的系统动态模型,然后根据这个模型更新控制器参数,实现控制系统的自适应控制。
自适应控制算法依赖于系统状态的实时测量和反馈,因此需要合理的传感器和数据采集系统。
自适应控制算法通常包括以下几个步骤:(1)建立控制系统的动态模型。
(2)根据系统模型选择合适的控制器类型。
(3)设计控制器的参数自适应调节法则。
(4)对控制系统进行实时控制和参数调整。
四、自适应控制算法的应用研究现状(1)模型参考自适应控制算法模型参考自适应控制算法是自适应控制的一种重要方法。
它基于系统动态模型,将系统响应和控制器输出之间的误差作为系统的模型偏差,然后通过实时更新控制器参数来最小化这个误差。
目前,模型参考自适应控制算法已经应用于多种非线性系统中,如飞行器控制、机器人等。
一类不确定非线性系统的鲁棒自适应控制
一类不确定非线性系统的鲁棒自适应控制的报告,800字
鲁棒自适应控制技术是解决不确定非线性系统的一种重要技术,它可以有效地调整系统参数,使系统能够适应不断变化的运行条件。
本文将讨论鲁棒自适应控制在不确定非线性系统中的应用情况及其优势,并提出应用策略建议。
首先,对于不确定非线性系统,不可避免的存在误差和噪声,很难准确估计输入与输出之间的关系,这就需要采用鲁棒自适应控制技术调节系统参数,以保证系统的稳定和精确性。
一般情况下,用于鲁棒自适应控制的方法包括自适应神经网络、模糊控制和模型预测控制。
其次,鲁棒自适应控制在不确定非线性系统中具有许多优势。
首先,它可以自动调整系统以适应环境变化,而无需人工干预,大大减少了系统的调整时间。
其次,它的参数估计技术可以更准确地估计输入和输出之间的关系,从而提高系统的稳定性和精确性。
最后,自适应技术可以有效抑制系统中的噪声,从而提高系统的可靠性。
最后,基于上述,本文提出了应用鲁棒自适应控制技术解决不确定非线性系统的建议:首先,选择一种合适的鲁棒自适应控制方法;其次,根据实际情况配置相应的参数;最后,根据实际需求开发相应的程序,进行实时调整系统参数,以保证系统的稳定性和精确性。
总之,鲁棒自适应控制技术在不确定非线性系统中具有多种优势,可以有效调整系统参数,提高系统的稳定性和精确性,抑
制系统输出的噪声,有效抑制和减轻系统变化带来的影响。
因此,在不确定非线性系统中应用鲁棒自适应控制技术,可以提高系统的可靠性,更好地满足实际应用的需求。
全状态约束下非线性系统自适应优化跟踪控制
全状态约束下非线性系统自适应优化跟踪控制目录一、内容综述 (2)1.1 非线性系统控制现状 (3)1.2 全状态约束下跟踪控制的重要性 (5)1.3 研究目标与价值 (6)二、非线性系统基础理论 (7)三、全状态约束下的跟踪控制问题 (9)3.1 问题描述与定义 (9)3.2 状态约束条件分析 (10)3.3 跟踪控制策略设计 (12)四、自适应优化技术在跟踪控制中的应用 (13)4.1 自适应优化概述 (15)4.2 自适应优化算法介绍 (16)4.3 自适应优化在跟踪控制中的实施步骤 (17)五、全状态约束下非线性系统自适应优化跟踪控制策略设计 (18)5.1 策略设计原则与目标 (20)5.2 策略设计框架与流程 (21)5.3 关键技术与实现方法 (22)5.3.1 状态估计与预测技术 (24)5.3.2 优化算法选择与改进 (25)5.3.3 控制指令生成与优化 (26)六、仿真实验与性能分析 (28)6.1 仿真实验设计 (29)6.2 实验结果与分析 (30)6.2.1 跟踪性能分析 (31)6.2.2 稳定性分析 (33)6.2.3 鲁棒性分析 (33)七、实际应用及前景展望 (34)7.1 实际应用案例分析 (35)7.2 效益评估与前景展望 (37)八、结论与展望 (38)一、内容综述“全状态约束下非线性系统自适应优化跟踪控制”是一个涉及控制理论、优化算法和非线性系统分析等多个领域的综合性课题。
随着科学技术的飞速发展,对于复杂非线性系统的控制精度和适应性要求越来越高,使得对该领域的研究显得尤为关键和必要。
本文档主要围绕这一主题展开综述,概述相关背景、研究现状和发展趋势。
在当前工业界和学术界的研究中,非线性系统的控制问题一直是一个热点和难点。
特别是在全状态约束条件下,系统的动态性能和稳定性更容易受到挑战。
传统的线性控制方法在很多情况下难以达到理想的控制效果,研究并设计适用于全状态约束下的非线性系统自适应优化跟踪控制策略具有重要的理论和实践意义。
基于动态规划的非线性优化算法研究与应用
基于动态规划的非线性优化算法研究与应用动态规划(Dynamic Programming)作为一种重要的求解最优化问题的数学方法,在解决非线性优化问题中有着不可替代的作用。
它最初是由理查德·贝尔曼在1953年创立的,用于解决离散的最优化问题,而在后来的发展中,动态规划已经广泛应用于不同的非线性优化问题的解决中。
一、动态规划的基本概念动态规划是一种基于递推的问题求解方法,可以看作一种在“自底向上”的方式寻找最优解的思路。
动态规划问题一般定义为长度为n的序列,在每个状态下采取某种策略所带来的最大或最小效益,求出最优效益或方案,并对状态进行重建。
动态规划的核心概念有“最优子结构”和“重叠子问题”。
最优子结构指的是问题的最优解所包含的子问题的解也一定是最优的。
而重叠子问题指的是,在求解问题的过程中,不止一次计算求解的子问题,需要通过备忘录或动态规划表来避免重复计算。
二、基于动态规划的非线性优化算法基于动态规划方法的非线性优化算法常见有“割平面法”、“分支定界法”、“动态规划极值法”等。
1. 割平面法对于非线性优化问题,可以引入一些额外的线性约束来缩小可行域,将问题转化为线性规划问题。
而对于不等式约束,常采用割平面法来求解问题。
割平面法的基本思路是构造一条过当前点的直线,将其与非线性优化问题的可行域相交得到更紧的可行域,从而找到更优的解。
2. 分支定界法分支定界法的基本思路是将非线性优化问题进行分治,将问题不断地划分为多个子问题求解,直到得到最优解为止。
在求解过程中,将当前问题分解为几个子问题,并为每个子问题分别定义一个可行域,寻找可行域中的最优解,再通过最优解来划分新的子问题,遍历整个树结构直到得到最优解。
3. 动态规划极值法动态规划极值法是一种解决非线性优化问题的算法,它主要针对满足动态规划问题特点的非线性优化问题,通过构造动态规划状态转移方程,将原问题转化为一个二维表格中的多阶段决策问题。
三、动态规划在实际应用中的例子1.项目投资分配在投资决策中,动态规划算法可用于实现最优的投资路径和策略,以达到最大化收益的目标。
非线性系统自适应最优切换控制方法
非线性系统自适应最优切换控制方法毛艳岭 1富 月1摘 要 针对具有未知动态和M 个平衡点的连续时间非线性系统, 将线性自适应最优切换控制器和未建模动态补偿器相结合, 基于嵌入转换技术和近似动态规划思想, 提出一种自适应最优切换控制方法. 首先在非线性系统的M 个平衡点建立M 个线性化模型, 当模型参数已知时, 提出由线性最优切换控制器、切换准则、未建模动态补偿器以及非线性系统组成的控制系统结构; 当模型参数未知时, 在每个平衡点附近采集输入和状态数据, 利用黎卡提方程的迭代求解公式、最小二乘方法、极小值原理以及二次规划技术得到非线性系统的自适应最优切换控制器和最优切换序列; 最后进行仿真实验, 实验结果验证了所提方法的有效性、优越性和实际可应用性.关键词 非线性系统, 切换控制, 自适应最优控制, 嵌入转换引用格式 毛艳岭, 富月. 非线性系统自适应最优切换控制方法. 自动化学报, 2023, 49(10): 2122−2135DOI 10.16383/j.aas.c220180Adaptive Optimal Switching Control of Nonlinear SystemsMAO Yan-Ling 1 FU Yue 1Abstract In this paper, for continuous-time nonlinear systems with unknown dynamics and M equilibrium points,based on embedding-transformation and approximate dynamic programming, an adaptive optimal switching control method is proposed by combining a linear adaptive optimal switching controller and an unmodeled dynamic com-pensator. Firstly, M linearized models are established at M equilibrium points of the nonlinear system. When the model parameters are known, a control system structure consisting of a linear optimal switching controller, a switching mechanism, an unmodeled dynamic compensator, and the nonlinear system is proposed. When the model parameters are unknown, the input and state data are collected at the neighborhood of each equilibrium point.Then the adaptive optimal switching controller and optimal switching sequence are obtained by using the iterative Riccati equation, least square method, minimum principle, and quadratic programming. Finally, simulations are conducted, and the results verify the effectiveness, superiority and applicability of the proposed method.Key words Nonlinear systems, switching control, adaptive optimal control, embedding-transformationCitation Mao Yan-Ling, Fu Yue. Adaptive optimal switching control of nonlinear systems. Acta Automatica Sin-ica , 2023, 49(10): 2122−2135实际工业过程的被控对象大多是非线性的, 比如电镕镁砂熔炼过程的电极、钢球磨煤机制粉过程的磨机等等. 非线性系统结构复杂, 往往难以得到精确的数学模型, 其控制问题一直是控制领域相关学者和工程师的研究难点和热点之一.经典的非线性控制方法, 如反馈线性化方法[1−2],由于需要已知精确的数学模型, 无法应用到实际的工业过程中. 为了解决这个问题, 文献[3]针对具有全状态约束的高阶非线性随机系统, 利用模糊逻辑系统逼近未知非线性函数, 提出了一种新的模糊自适应反步控制方法. 文献[4]在文献[3]的基础上,针对具有指数型性能函数的高阶非线性随机系统,提出了基于模糊逻辑系统和反步法的模糊自适应有限时间跟踪控制方法. 当被控对象的非线性较弱或在某一平衡点附近运行时, 通常采用近似线性模型进行描述, 并针对该模型设计控制器. 例如, 文献[5]利用递归近似理论, 将非线性系统看作线性时变序列系统的极限, 针对线性时变序列系统设计线性二次最优序列控制器, 从而实现原非线性系统的二次最优控制. 文献[6]利用泰勒公式将非线性系统在某一平衡点附近表示为线性模型与高阶非线性项的组合, 将开环解耦补偿器、非线性神经网络补偿器和一步超前最优加权自适应控制器结合, 提出了非线性系统基于神经网络的自适应动态解耦控制方法. 文献[7]考虑到模型阶次的不匹配问题, 通过引入降阶模型, 采用带死区的归一化投影算法对线性收稿日期 2022-03-16 录用日期 2023-02-24Manuscript received March 16, 2022; accepted February 24,2023国家自然科学基金(62333004, 61991403, 61991400, 61873052)资助Supported by National Natural Science Foundation of China (62333004, 61991403, 61991400, 61873052)本文责任编委 赵旭东Recommended by Associate Editor ZHAO Xu-Dong1. 东北大学流程工业综合自动化国家重点实验室 沈阳 1108191. State Key Laboratory of Synthetical Automation for Pro-cess Industries, Northeastern University, Shenyang 110819第 49 卷 第 10 期自 动 化 学 报Vol. 49, No. 102023 年 10 月ACTA AUTOMATICA SINICAOctober, 2023模型参数进行辨识, 利用高阶神经网络估计高阶非线性项, 将带有滤波器的极点配置自适应比例积分微分(Proportional integral derivative)控制器与神经网络补偿器相结合, 提出了非线性系统基于神经网络的自适应PID 控制方法. 神经网络收敛速度较慢且容易陷入局部极小点, 高阶非线性项的估计精确度较低. 为了解决这一问题, 文献[8]首次引入了控制器驱动模型和虚拟未建模动态的概念, 基于线性控制器驱动模型构造一步超前最优自适应控制器, 结合虚拟未建模动态补偿器, 提出了非线性系统自适应切换控制方法. 文献[9]针对复杂的热交换过程, 设计了具有虚拟未建模动态补偿的一步最优比例积分(Proportional integral)控制器, 并提出了数据驱动的双速率控制方法. 上述控制方法虽然能够取得良好的控制效果, 但是当系统的非线性较强或平衡点发生变化时, 这种只考虑单一平衡点的控制方法往往会使控制性能下降甚至导致整个系统失稳.M k -很多实际工业过程的平衡点都会随着工况的不同而发生变化, 比如电熔镁砂熔炼过程的平衡点随着原料成分和加料阶段的不同会发生变化; 钢球磨煤机制粉系统中磨机的平衡点随着原煤成分和湿度的不同而发生变化. 本文针对一类具有 个平衡点的非线性系统, 研究基于多模型切换的自适应控制方法. 多模型自适应控制方法一般用于改善系统的暂态性能或解决参数跳变系统的控制问题, 如文献[10]针对一类连续时间线性系统, 为改善系统的暂态性能, 提出了基于直接模型参考自适应控制的多模型切换控制方法. 文献[11]针对一类参数跳变离散时间线性系统, 提出了基于间接自校正控制的多模型切换控制方法. 文献[12]针对一类参数跳变离散时间非线性系统, 通过引入 差分算子, 分别设计了线性自适应控制器和基于神经网络的非线性自适应控制器, 通过两个控制器之间的切换, 可以提高系统的性能和稳定性. 为了避免不良切换行为,文献[13]采用滞后切换逻辑消除了参数估计器对初始条件的依赖, 通过利用鲁棒线性时不变工具实现高性能的控制目标, 结合控制器混合策略, 提出了多模型自适应混合控制方法. 针对文献[13]所提方法需要模型数量大的问题, 文献[14]采用分离处理原则, 充分利用所有辨识模型信息, 采用二级自适应方法建立自适应控制器. 为了消除系统非线性项对控制输入应严格线性的限制, 文献[15]针对离散时间非线性系统, 采用极点配置控制方法, 提出了由线性间接自校正控制器、基于神经网络的非线性间接自校正控制器和切换机制组成的多模型自适应控制器. 很多研究将多模型自适应控制方法应用到实际系统中, 并且取得了较好的控制效果. 文献[16]将多模型自适应切换控制方法应用于电力系统低频振荡中, 建立了不同工况下的线性小信号模型, 采用递归贝叶斯方法计算每个模型代表实际电力系统的概率, 根据这个概率得到每个控制器输出的占比权重, 最终的控制输出即为每个控制器输出的概率加权平均值. 文献[17]针对动态特性随不同负载状态而变化的柔性传送系统, 分别在不同负载状态处建立线性模型, 提出了基于闭环输出误差最小化的参数估计算法和基于极点配置的多模型自适应切换控制方法. 文献[18]以钢球磨煤机制粉系统为例, 针对一类具有多变量强耦合强非线性且动态特性随不同运行条件而变化的复杂工业过程, 将其在不同平衡点处用不同的线性模型和非线性未建模动态项组成的估计模型来描述, 提出了由非线性解耦控制器、线性解耦控制器和多模型切换机制组成的智能解耦控制方法. 文献[19]针对串联电容补偿输电线路的风力系统次同步谐振问题, 采用传统线性控制方法设计控制器, 根据系统条件设计该控制器的监控控制器, 该方法之后被拓展到了双馈异步发电机在串联补偿输电系统中的次同步振荡问题[20].上述多模型控制方法中, 用于切换的控制器是针对单一时刻的性能指标设计的, 具有次优性, 无法保证切换序列和控制系统的最优性.M M M M M 在实际工业生产过程中, 保证控制系统性能最优对实现工业过程整体优化控制是至关重要的. 本文针对具有未知动态和 个平衡点的连续时间非线性系统, 将嵌入转换法和近似动态规划技术相结合, 提出了一种自适应最优切换控制方法, 一方面能够保证切换序列的最优性, 另一方面可以实现控制系统的最优性能, 改善控制系统的动态品质. 首先在非线性系统的 个平衡点附近采集 组输入和状态数据, 利用黎卡提方程的迭代求解公式和最小二乘方法得到针对每个线性模型的最优控制器增益的估计, 利用极小值原理得到 个近似线性化模型. 然后利用嵌入转换法将 个近似线性化模型嵌入到一个连续时间大系统中, 通过二次规划技术得到非线性系统的线性自适应最优切换控制器和最优切换序列. 最后, 将线性自适应最优切换控制器和未建模动态补偿器相结合, 实现了控制目标. 仿真实验验证了本文所提方法的有效性、优越性和实际可应用性.M 本文针对具有未知动态和 个平衡点的连续时间非线性系统, 提出了自适应最优切换控制方法.主要创新点如下:1) 提出了由线性最优切换控制器、切换准则和未建模动态补偿器组成的控制器结构;10 期毛艳岭等: 非线性系统自适应最优切换控制方法2123M M 2) 模型参数已知时, 基于嵌入转换技术提出了由 个模型、 个最优控制器和切换准则组成的线性最优切换控制器;M M 3) 模型参数未知时, 基于嵌入转换技术和近似动态规划思想提出了由 个近似线性化模型、 个自适应最优控制器和切换准则组成的线性自适应最优切换控制器.1 问题描述M 考虑由如下模型描述的具有 个平衡点的连续时间非线性非仿射系统:x (t )=[x 1(t ),x 2(t ),···,x n (t )]T n u (t )=[u 1(t ),u 2(t ),···,u m (t )]T m f (x (t ),u (t ))=[f 1(·,·),f 2(·,·),···,f n (·,·)]T :R n ×R m →R n 其中 是 维状态向量, 是 维控制输入向量, 表示连续可微的未知非线性向量函数.M u (t )本文的目标是针对具有 个平衡点的未知非线性系统(1), 寻找最优切换序列和自适应最优切换控制律 , 使得闭环系统渐近稳定.M i ∈{1,2,···,M }(x i ,u i )非线性非仿射系统结构复杂, 很难直接根据它的模型设计控制器. 通常的做法是将非线性系统在某一平衡点附近线性化, 针对等价的近似线性模型设计控制器, 从而实现对原非线性系统的有效控制,如文献[4−5]等. 为此本文将非线性系统(1)在 个平衡点附近泰勒展开, 得到第 个平衡点 附近的等价近似线性模型:˙x (t )=A i x (t )+B i u (t )i i A i =∂f ∂xu =u i x =x iB i=∂f ∂uu =u i x =x i(A i ,B i )v i (t )i M 等价模型(2)包括两部分, 第一部分 表示第 个平衡点附近的线性化模型 , 其中 和 为适当维数的未知常值矩阵且 可控; 第二部分 为第 个平衡点附近的未建模动态. 为建立非线性系统(1)在 个平衡点附近的控制器设计模型, 引入如下单位脉冲序列记号b 其中 是整数, 则系统(1)可表示为σ(t )∈{1,2,···,M }其中 表示切换信号. 与此同时,本文所提出的控制器结构也包括两部分, 第一部分根据基于线性化模型建立的如下控制器设计模型进行设计:第二部分根据线性化产生的建模误差来设计, 用于消除未建模动态影响, 实现闭环系统渐近稳定.∑M i =1δ(σ(t )−i )∑i δ(σ(t )−i )在不引起混淆的情况下, 接下来我们将 简化为 .2 自适应最优切换控制器设计2.1 参数已知时的最优切换控制器A iB i i =1,···,M 当 和 ( )已知时, 我们提出了如图1所示的由线性最优切换控制器、切换准则、未建模动态补偿器以及非线性系统组成的控制系统结构, 其中线性最优切换控制器和切换准则根据控制器设计模型(4), 利用嵌入转换法[21]、极小值原理和二次规划方法获得; 未建模动态补偿器根据非线性系统状态和最优模型状态之间的误差设计.δ(σ(t )−i )首先令 在区间[0, 1]内连续变化, 利用嵌入转换法将式(4)嵌入到一个连续时间大系统中. 然后根据该嵌入式连续时间大系统的最优控制问题:δ(σ(t )−i )∈[0,1]Q 、R (A σ(t ),√Q )其中 ,为适当维数的参数矩阵且 可观, 采用极小值原理和二次规划方法得到切换准则函数:P σ(t )其中 根据如下黎卡提方程求解:J σ(t )J σ(t )每一时刻,比较 , 选择与最小的 对应的线性最优切换控制律:σ(t )K σ(t )其中 为最优切换序列, 表示线性最优切换控制器的增益, 通过下式求解:接下来, 为消除未建模动态对控制系统性能的影响, 我们设计了如下未建模动态补偿器:2124自 动 化 学 报49 卷a 1∈R m ×n a 2e m =x −x ∗x ∗σ(t )其中 为可调参数矩阵, 为可调参数, 为建模误差, 为最优线性化模型 的状态.A iB i i =1,···,M 综上, 和 ( )已知时最优切换控制律为:注 1. 线性最优切换控制律和最优切换序列推导过程见附录A.δ(σ(t )−i )δ(σ(t )−i )注 2. 针对控制器设计模型(4), 通过嵌入扩大 的取值范围, 令 在区间[0, 1]内连续变化, 将由多个近似线性模型组成的式(4)嵌入到一个连续时间大系统中; 通过转换将针对控制器设计模型(4)的最优切换控制问题转化为针对该嵌入式连续时间大系统的最优切换控制问题.2.2 参数未知时的自适应最优切换控制器A i B i (i =1,···,M )P σ(t )M M σ(t )ˆKσ(t )ˆPσ(t )P σ(t )A σ(t )M M 当 和 未知时, 无法通过式(7)得到 , 无法得到如式(6)所示的切换准则函数和式(8)所示的线性最优切换控制律. 为解决这一问题, 本文提出了一种自适应最优切换控制方法. 首先在非线性系统的 个平衡点附近采集 组输入、状态数据, 利用黎卡提方程的迭代求解公式和最小二乘算法得到针对线性化模型 的自适应最优控制器增益 以及黎卡提方程近似解, 并根据贝尔曼方程得到 的估计, 从而得到 个平衡点附近的 个线性化模型; 然后M 将 个线性化模型嵌入到一个连续时间大系统中,针对该嵌入式连续时间大系统基于极小值原理和二次规划技术设计线性二次型最优控制律, 进而得到最优切换序列和线性自适应最优切换控制律; 最后将线性自适应最优切换控制律和未建模动态补偿器相结合应用到非线性系统中, 实现对未知动态非线性系统的自适应最优切换控制.A iB i i =1,···,M 针对控制器设计模型(4), 当 和 ( )已知时, 根据Kleinman 定理[22], 很容易得到如下推论:K σ(t ),0∈R m ×n σ(t )P σ(t ),k 推论 1. 令 为针对线性化模型 的稳定反馈控制器增益矩阵, 为下面李雅普诺夫方程的对称正定解:δ(σ(t )−i )∈{0,1}i δ(σ(t )−i )=1k =1,2,···K σ(t ),k 其中 且 , 表示迭代次数, 满足K σ(t ),k P σ(t ),k σ(t )K σ(t )P σ(t )则 和 分别收敛于针对线性化模型 的最优控制器增益 和黎卡提方程解 , 即A iB i 图 1 和 已知时的控制系统结构A iB i Fig. 1 Control system structure when and are known10 期毛艳岭等: 非线性系统自适应最优切换控制方法2125∑∑A iB i(i =1,···,M )定理 1. 针对控制器设计模型(4), 当 和未知时, 使性能指标最小的切换准则函数为:ˆKσ(t )σ(t )K σ(t )N σ(t )P σ(t )A σ(t )其中 是针对线性化模型 的最优控制器增益的估计, 根据式(17)求解; 是矩阵 的估计, 根据式(18)求解:Θσ(t )ˆ¯Pσ(t )Ξσ(t )vec (C )m ×n C mn ⊗其中 , 和 的定义见后文, 是把维矩阵 按列的顺序一列接一列地组成的 维向量, 代表克罗内克积,线性自适应最优切换控制律为:σ(t )J σ(t )其中 为与最小的 对应的最优切换序列.M σ(t )ˆKσ(t )ˆP σ(t )证明. 首先根据离线采集的 组输入、状态数据, 计算针对线性化模型 的自适应最优控制器增益 以及黎卡提方程近似解 . 受文献[23]启发, 将式(4)等价表示为:A σ(t ),k =A σ(t )−B σ(t )K σ(t ),k 其中 . 根据式(12)和式(13), 沿着式(20)的解, 可以得到∫Q σ(t ),k =Q +i δ(σ(t )−i )K Tσ(t ),k RK σ(t ),k A σ(t )B σ(t )∑i δ(σ(t )−i )[x T (A T σ(t ),k P σ(t ),k +P σ(t ),k A σ(t ),k )x ]−x T×Q σ(t ),k x B σ(t )∑i δ(σ(t )−i )B Tσ(t )P σ(t ),k ∑i δ(σ(t )−i )RK σ(t ),k +1其中 . 由此, 可以将包含未知矩阵 和 的 项用 代替. 同理, 可以将包含未知矩阵 的用 代替.由克罗内克积的定义, 可知I n n 其中, 表示 维单位矩阵. 定义如下运算l 对于正整数 , 定义矩阵2126自 动 化 学 报49 卷[∫∫0≤t 0<t 1<···<t l 其中 . 由式(22)和式(23)可知, 式(21)可等价表示为:Θσ(t),k 当 为列满秩矩阵时,σ(t )k K σ(t ),k +1由此, 可以得到线性化模型 第 次迭代的自适应最优控制器增益 .ˆKσ(t )K σ(t )Θσ(t )Ξσ(t )ˆKσ(t )ˆ¯Pσ(t )¯P σ(t )ˆPσ(t )令 为迭代终止时的自适应最优控制器增益并作为 的估计, 和 为迭代终止时的数据向量, 可以得到 的计算公式如式(17)所示. 令 为迭代终止时的 的估计, 由此可以得到黎卡提方程的近似解 .σ(t )P σ(t )B σ(t )P σ(t )A σ(t )M M A i B i 接下来, 针对线性化模型 求解矩阵 和 的估计, 从而得到 个平衡点附近的 个线性化模型. 当 和 已知时, 易知A iB i L σ(t )P σ(t )B σ(t ) 计, 则Pσ(t )A σ(t )σ(t ) 的估计可根据线性化模型 的贝尔曼方程得到, 易知σ(t )P σ(t )A σ(t )N σ(t )D σ(t )N σ(t )ˆPσ(t )M 将式(27)代入上式, 利用离线采集的第 组输入、状态数据, 通过求取最小二乘解可以得到如式(18)所示的矩阵 的估计 . 根据 , 以及 , 可以很容易得到 个平衡点附近的近似控制器设计模型:δ(σ(t )−i )[0,1]δ(t )=[δ(σ(t )−1),···,δ(σ(t )−M )]T W ={δ∈R M :∑i δ(σ(t )−i )=1,δ(σ(t )−i )≥0}最后求取最优切换序列和线性自适应最优切换控制律. 针对模型(29), 应用嵌入变换法, 使 在 内连续变化, 为此令 并记. 定义哈密顿函数:易知, 针对嵌入式近似控制器设计模型的最优控制律为:将式(31)代入式(30), 化简可得δ(σ(t )−i )H (x,δ)下面将 作为决策变量, 通过最小化, 可以得到最优切换序列.δ(σ(t )−i )H (x,δ)实际上, 选择 使 最小等价为使式(33)最小W ¯Hδ(σ(t )−i )∈{0,1}σ(t )这是一个二次规划问题, 由于 是凸集, 是凹函数, 该问题的全局极小值一定在 取得[21], 且该全局极小值对应的 即为最优切换序列. 由此可以得到如式(16)的切换准则函数和式(19)的线性自适应最优切换控制律. □L σ(t )ˆKσ(t )注3. 由式(27)可知 的估计精度由 10 期毛艳岭等: 非线性系统自适应最优切换控制方法2127ˆK σ(t )K σ(t )L σ(t )P σ(t )B σ(t )N σ(t )ˆKσ(t )的估计精度决定. 由文献[23]易知, 收敛于参数已知时的最优控制器增益 , 因此 收敛于 . 由式(28)可知 的估计精度由最小二乘估计算法的精度和 的估计精度共同决定.l 0l ≥l 0rank ([I xx ,I xu ])=n (n +1)2+mn Θσ(t ),k {P σ(t ),k }∞k =0{K σ(t ),k }∞k =0P σ(t )K σ(t )注4. 在每个平衡点附近, 如果存在正整数 ,使得对于任意 , 都有 , 即矩阵 是满秩的, 那么序列 和 分别收敛到黎卡提方程的解 和最优控制器增益 [23].未建模动态补偿器的设计与线性模型参数已知时的情况类似, 即a 1∈R m ×n a 2ˆe m =x −ˆx ∗ˆx ∗σ(t )其中 为可调参数矩阵, 为可调参数,为建模误差, 为最优线性化模型 的状态.A iB i (i =1,···,M )综上, 和 未知时自适应最优切换控制律为:自适应最优切换控制器设计流程如图2所示.3 仿真实验为了验证本文所提方法的有效性, 我们分别进行了模型参数已知时最优切换控制和模型参数未知时自适应最优切换控制的数值仿真实验, 并分别与单一的针对一个模型的最优控制器和自适应最优控制器进行了对比. 除此之外, 为了验证本文所提方法的实际可应用性, 我们进行了模型参数未知时双容水箱液位系统的自适应最优切换控制仿真实验.3.1 参数已知时最优切换控制数值仿真实验考虑如下连续时间非线性系统:x =[x 1,x 2]T ∈R 2u =[u 1,u 2]T ∈R 2其中 是状态向量, 是输入向量.u =[u 1,u 2]T =[−3,10]T ,[−2,10]T [−1,10]T ˙x=[˙x 1,˙x 2]T =[0,0]T [u r 1,u r 2,x r 1,x r 2]T [−3,10,−4.4685,0.5592]T [−2,10,−4.2642,0.7565]T [−1,10,我们的目标是针对已知的非线性系统(36), 寻找最优切换序列和最优切换控制律, 使得闭环系统渐近稳定. 为此, 首先分别将 和 施加到非线性系统(36)上, 并令 得到非线性系统(36)的三个平衡点, 即 = , 和 −4.0264,1.1119]T δ(σ(t )−i )∈{0,1}∑3i =1δ(σ(t )−i )=13. 将式(36)分别在上述三个平衡点处泰勒展开, 并令 且 , 可以得到非线性系统(36)在个平衡点附近的控制器设计模型:其中图 2 自适应最优切换控制器设计算法流程Fig. 2 Flow chart of adaptive optimal switchingcontrol algorithm2128自 动 化 学 报49 卷[]x (0)=[x 1(0),x 2(0)]T =[−4.4685,0.5592]T 接下来给定随机初始状态 , 并选择控制器参数矩阵和未建模动态补偿器参数t =50s t =100s 最后将最优切换控制器(6) ~ (11)加入到系统(36), 得到如图3所示的状态曲线, 如图4所示的控制输入曲线和如图5所示的最优切换序列. 结合图3和图4, 在 和 时, 虽然系统的平衡点发生变化, 但是采用本文提出的最优切换控制方法仍能够将状态很快调节到平衡点附近并保持不变.[u r 1,u r 2,x r 1,x r 2]T [−1,10,−4.0264,1.1119]T x (0)=[x 1(0),x 2(0)]T =[−4.4685,0.5592]T 为了验证本文所提最优切换控制方法的优越性, 我们与单一的针对一个模型的最优控制方法进行了对比实验. 以针对平衡点 = 处的线性化模型为例,给定初始状态 , 选择控制器参数矩阵如式(38)所示, 未建模动态补偿器参数如式(39)所示.[u r 1,u r 2,x r 1,x r 2]T [−1,10,−4.0264,1.1119]T 图6和图7分别为所得到的状态曲线和控制输入曲线. 根据图6和图7可以看出, 针对平衡点 = 处的线性化模型设计的控制器只能将状态调节到对应的平衡点附近. 当平衡点发生变化时, 系统的状态存在稳态误差. 但是由于平衡点的变化引起的建模误差可近似为常数, 因此状态曲线虽然偏离平衡点但恒定不变.3.2 参数未知时自适应最优切换控制数值仿真实验本节的目标是针对未知非线性系统(36), 寻找[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T [u r 1,u r 2,x r 1,x r 2]T =[2,10,−2.5517,3.6570]T [u 1,u 2]T =[sin (0.1t ),sin (0.5t )]T t =0s t =2s δxx ,I xx ,I xu 最优切换序列和自适应最优切换控制律, 使得闭环系统渐近稳定. 不失一般性, 这里我们以两个平衡点为例进行仿真实验. 结合图2, 首先分别在平衡点 和 附近施加激励输入信号, 即 ,从 到 , 以0.01 s 为采样周期, 分别采集201组输入和状态数据, 计算 . 选择−3.8−4.24−4.01−4.081.151.08100101100.8−4.290.760.7550.05050.6−4.2−4.61.4050100150050100150x 1, x r 1x 2, x r 20.90.4Time /sx 2x r 2x 1x r 1图 3 采用最优切换控制器时系统的状态Fig. 3 State curves of the system when usingthe optimal switching controller−u 1u 2Time /s图 4 采用最优切换控制器时系统的控制输入Fig. 4 Input curves of the system when usingthe optimal switching controller01234s (t )50100150Time /s图 5 采用最优切换控制器时系统的最优切换序列Fig. 5 Optimal switching sequence of the system whenusing the optimal switching controller10 期毛艳岭等: 非线性系统自适应最优切换控制方法2129控制器参数矩阵||P σ(t ),k −P σ(t ),k −1||≤10−3σ(t )=1,2k ˆPσ(t )ˆK σ(t )终止循环的条件为 , 其中 ; 代表迭代次数. 根据式(17)分别得到针对两个模型的 和 , 即:N σ(t )然后利用所采集的输入和状态数据求解式(18),分别得到针对两个模型的 , 即:[]最后, 根据式(29)可以得到两个线性化模型如下式所示:x (0)=[x 1(0),x 2(0)]T =[−4,0]T t 0=0s t max =100s 将两个线性化模型嵌入到一个连续时间大系统中, 结合图2, 给定初始状态 和初始时间 , 设置 , 选择未建模动态补偿器参数t ≥t max t =50s 将自适应最优切换控制器(35)加入到非线性系统, 当满足 时, 可以得到如图8所示的状态曲线, 如图9所示的控制输入曲线和如图10所示的切换序列. 在 , 由于平衡点突变, 切换序列发生改变, 导致系统的状态震荡, 经过1.8 s 的调节时间, 系统的状态被调节到平衡点附近并保持不变.[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T ˆP1ˆK 1N 1[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T t =50s 为了验证本文所提自适应最优切换控制方法的优越性, 我们以平衡点 为例, 与单一的针对一个模型的自适应最优控制方法进行了对比实验. 选择控制器参数矩阵如式(40), 根据式(17)和式(18)可以得到 , 和 分别如式(41)和式(42)所示, 根据式(29)可以得到线性化模型如式(43)所示, 选择未建模动态补偿器参数如式(44)所示. 所得到的状态曲线和控制输入曲线如图11和图12所示. 从图11和图12可以看出, 针对平衡点 设计的自适应最优控制器只能将状态调节到对应的平衡点附近. 与模型参数已知时情况相同, 当 时, 平衡点发生变化, 系统状态存在稳态误差. 但是由于平衡点的变化引起的建模误差可近似为常数, 因此状态曲−4.6−4.2−3.80.40.91.4x 1, x r 1x 2, x r 2x 1x r 1x 2x r 250100150050100150Time /s图 6 采用最优控制器时系统的状态Fig. 6 State curves of the system when usingthe optimal controller−Time /su 1u 2图 7 采用最优控制器时系统的控制输入Fig. 7 Input curves of the system when usingthe optimal controller2130自 动 化 学 报49 卷。
基于自适应动态规划的非线性系统最优跟踪控制
广东技术师范学院学报 Journal of Guangdong Polytechnic Normal University
N优跟踪控制
陈 思 荣 ,陈贞丰★, 肖 应 旺 ,伍 银 波
( 广 东 技 术 师 范 大 学 自 动 化 学 院 ,广 东 广 州 5 1 0 6 6 5 )
本 文 通 过 构 造 其 标 称 系 统 及 其 代 价 函 数 ,将 非 线性鲁棒控制问题转化为非线性最优控制问 题 . 然 后 ,通 过 求 解 非 线 性 最 优 控 制 问 题 ,得到 原非线性系统的鲁棒控制器.该方法最早是由 L i n 等 人 141提 出 ,用 于 机 器 人 控 制 问 题 . W a n g 等 人 151针 对 一 类 连 续 时 间 非 线 性 系 统 的 鲁 棒 控 制 问 题 ,提 出 一 种 在 线 迭 代 算 法 . 然 而 ,文 献 [4]和 [5]仍 然 要 求 系 统 动 态 已 知 . 为 此 ,本 文 将 引 入 自 适 应 动 态 规 划 ( A DP)来 求 解 最 优 控 制 问 题 .*
收 稿 日 期 :2 0 丨9 - 0 9 - 2 8 基 金 项 目 :广 东 高 校 省 级 重 点 平 台 和 重 大 科 研 项 目 特 色 创 新 (2 0 1 6 K T S C X 0 7 4 ,2 0 丨5 K T S C X 0 8 2 ) ; 广 州 市
“十 三 五 ”哲 学 社 会 科 学 规 划 项 目 (2 0 1 8 G Z G J 7 4 ) 作 者 简 介 :陈 思 荣 ,广 东 技 术 师 范 大 学 控 制 科 学 与 工 程 专 业 2 0 1 7 级 硕 士 研 究 生 . * 通 讯 作 者 :陈 贞 丰 ,广 东 技 术 师 范 大 学 副 教 授 . E - m a i l : z f r h e n . r n @ 1 6 3 . r o m
不确定非线性系统的自适应pi控制研究
中文摘要摘要近年来,关于不确定非线性系统跟踪问题的研究与应用越来越受人关注。
在设计控制器时,假若忽略了非线性系统的不确定因素(可能包括未知参数、外界扰动,测量误差等等),很有可能带来不可估量的损失。
为此本论文基于结构简单、计算量小的神经网络自适应比例积分(PI)控制算法,研究不确定非线性系统的跟踪控制。
第一,针对一类非仿射非线性不确定系统,设计自适应PI控制算法。
由于系统模型具有非仿射和不确定性,即控制输入是以隐含的方式体现。
因此首要问题是将系统转换为仿射模型,这里利用的是中值定理;其次,利用神经网络函数的逼近性解决系统的非线性问题,同时引入虚拟参数简化分析过程;最后结合虚拟参数的估计误差和选取李雅普诺夫函数及合理的推导过程,表明所提方法能够保证闭环系统内的信号一致最终有界。
最后通过数值仿真分析,体现所设计的控制器具有良好的动态性能和稳态性能。
第二,针对一类带有执行器饱和的不确定非线性系统,设计自适应PI控制算法。
考虑到执行器具有非光滑的饱和结构,首先利用一种光滑函数逼近饱和函数;其次针对系统模型考虑的外部干扰、测量误差等不确定非线性项,利用神经网络函数的逼近性解决;然后基于巧妙选取李雅普诺夫函数及稳定性分析过程,证明所提方法能够保证闭环系统内的信号一致最终有界。
最后通过数值仿真分析,体现所设计的控制器与传统的PI算法相比,具有良好的动态性能和稳态性能。
第三,针对一类输入饱和的非线性系统,提出一种改进的自适应神经网络PI 控制算法。
在使用神经网络函数的逼近性能时,严格意义上必须保证神经网络的输入在一个紧集范围内,这里借助障碍李雅普诺夫函数的性质。
最后通过理论推导和数值仿真分析,均能体现所提方法的有效性和可行性。
关键词:不确定非线性系统,神经网络,自适应比例积分控制,一致最终有界I英文摘要ABSTRACTIn recent years, the tracking control problem for a class of complex and uncertain nonlinear dynamic systems have received a great deal of attention. It may be suffer great losses when the uncertainties are not considered in the control design for nonlinear systems. These uncertain factors include unknown parameters and external disturbance, measurement error, etc. In this work, we explore a low-cost proportional-integral (PI) tracking control solution for MIMO nonlinear systems, which are simplicity and intuitiveness in both structure and concept.For a class of MIMO nonaffine nonlinear systems, neural adaptive PI control with self-tuning gains is proposed. Because of the nonaffine and uncertain nature, the control input enters into and impacts on the behavior of nonaffine system through a completely uncertain and implicit way, making it nontrivial to design a reliable and cost-effective control scheme for such system. First, converting the original nonaffine system into an affine one by using the mean value theory. Second, using the neural network (NN) to approximate the resultant lumped nonlinearities and uncertainties in the system and introducing the concept of virtual parameter. Third, blending the virtual parameter estimation error into the skillfully chosen Lyapunov function to guide the derivation of the tracking control algorithms. It is shown that the proposed neuro-adaptive PI control ensures the uniformly ultimately boundedness of all the signals of the closed-loop system. The benefits and feasibility of the developed control are also confirmed by simulations.For a class of multi-input multi-output subject to unknown actuation characteristics and external disturbances., neural adaptive PI control with self-tuning gains is proposed. First, to facilitate the controller construction, a smooth function is used to approximate the saturation function. Second, using the neural network (NN) to approximate the resultant lumped nonlinearities and uncertainties in the system and introducing the concept of virtual parameter. Third, blending the virtual parameter estimation error into the skillfully chosen Lyapunov function to guide the derivation of the tracking control algorithms. It is shown that the proposed neuro-adaptive PI control ensures the uniformly ultimately boundedness of all the signals of the closed-loop system. The proposed PI control has better stability and transient performance.For a class of multi-input multi-output subject to unknown actuation characteristicsIIIand external disturbances., Motivated by the established PI control scheme with well explained analytical tuning algorithms. Now present a modified version to ensure the full functionality of the method. Note that to use NN for function approximation, the selected training input vector must remain in a compact set. To this end, we make use of the unique feature of barrier Lyapunov function (BLF) to develop strategies for confining/constraining the NN input. Stability analysis and simulation studies are performed to illustrate and verify the benefits and feasibility of the proposed method.Keywords:uncertain nonlinear dynamic systems, neural network, adaptive PI control, uniformly ultimately boundednessIV目录目录中文摘要 (I)英文摘要 (III)1 绪论 (1)1.1 课题研究背景及意义 (1)1.2 国内外研究现状 (2)1.2.1 自适应控制 (2)1.2.2 滑模与鲁棒控制 (3)1.2.3 神经网控制技术 (3)1.2.4 PID控制 (4)1.3 文章主要内容和安排 (5)2 预备知识 (9)2.1 数学基础知识 (9)2.2 信号分析基本定义及定理 (9)2.2.1 有界性定理 (10)2.2.2 障碍李雅普诺夫函数 (10)2.2.3 稳定性理论 (10)2.3 神经网络函数 (12)2.4 PI控制原理 (13)3 一类非仿射系统的自适应神经网络PI控制 (15)3.1 引言 (15)3.2 问题描述 (15)3.3 控制器设计及稳定性分析 (16)3.3.1 方系统下的PI控制设计 (17)3.3.2 非方系统下的PI控制设计 (19)3.4 仿真验证 (21)3.5 本章小结 (24)4 一类饱和非线性系统的自适应神经网络PI控制 (25)4.1 引言 (25)4.2 问题描述 (25)4.2.1 系统描述 (25)4.2.2 动态误差 (27)V4.3 控制器设计和稳定性分析 (29)4.3.1 方系统下的PI控制设计 (29)4.3.2 非方系统下的PI控制设计 (32)4.4 仿真验证 (34)4.5 本章小节 (38)5 一类基于BLF的非线性系统的自适应PI控制 (39)5.1 引言 (39)5.2 问题描述 (39)5.2.1 系统描述 (39)5.2.2 动态误差 (41)5.3 控制器设计与分析 (42)5.3.1 方系统下的PI控制设计 (43)5.3.2 非方系统下的PI控制设计 (46)5.4 仿真验证 (49)5.5 本章小结 (53)6 总结与展望 (55)6.1 总结 (55)6.2 展望 (56)致谢 (57)参考文献 (59)附录 (65)A. 攻读学位期间发表的论文目录 (65)B. 攻读学位期间获得的荣誉 (65)VI1 绪论1 绪论1.1 课题研究背景及意义非线性系统控制是复杂控制科学与控制理论界研究的重点和难点。
不确定非线性系统的自适应迭代学习控制研究的开题报告
不确定非线性系统的自适应迭代学习控制研究的开题报告开题报告1. 研究背景现代工业控制系统中广泛使用的是线性控制方法,但是在现实世界中,许多系统行为都是非线性的,因此非线性控制方法变得越来越重要,特别是在自适应控制中。
自适应控制是一种能够利用反馈机制适应动态环境变化的控制方法。
其中,迭代学习控制(ILC)是一种基于过程重复的自适应控制方法,它可以降低系统不确定性并提高系统性能。
因此,非线性系统的自适应迭代学习控制成为当前研究的热点问题。
2. 研究目的本研究的主要目的是探索非线性系统的自适应迭代学习控制方法。
通过对非线性系统进行建模和分析,探索如何应用自适应迭代学习控制方法实现对非线性系统的控制,并提高系统的控制性能。
3. 研究内容(1)非线性系统建模:通过建立非线性系统的数学模型,深入研究非线性系统的特点和行为。
(2)自适应迭代学习控制原理:分析自适应迭代学习控制的基本原理,深入理解其应用于非线性系统中的实现方式。
(3)非线性系统的自适应迭代学习控制算法研究:将自适应迭代学习控制方法应用于非线性系统中,通过分析和设计算法实现对非线性系统的控制。
(4)仿真验证:通过仿真验证所设计的自适应迭代学习控制算法的有效性和可行性,并对比实验结果进行分析。
4. 研究意义本研究可以提高非线性系统的控制性能,同时也可以扩展自适应迭代学习控制方法的应用范围。
此外,本研究还可以为实现工业生产中的自适应迭代学习控制提供参考和借鉴。
5. 研究方法本研究采用理论分析和仿真验证相结合的方法,通过建立数学模型和算法设计,实现对非线性系统的自适应迭代学习控制,并进行仿真验证。
6. 预期成果(1)设计一种有效的非线性系统的自适应迭代学习控制算法。
(2)验证所设计的算法的有效性和可行性。
(3)为实现工业生产中的自适应迭代学习控制提供参考和借鉴。
7. 研究进度安排本研究的进度安排如下:阶段一:研究非线性系统的建模和分析,深入研究其特点和行为(预计完成时间:1个月)。
非线性控制系统中的最优控制算法研究
非线性控制系统中的最优控制算法研究非线性控制系统是指由非线性动态方程描述的控制系统。
它们受到多种因素的影响,如时滞,不确定性和非线性耦合,这使得它们的稳定性和性能分析变得非常复杂。
传统的控制方法,如PID(比例积分微分)控制,无法满足这种系统的要求。
最优控制是一种更高级的控制策略,可以在满足系统性能要求的同时,最小化某些性能指标,如能耗、时间和成本。
最优控制的基本思想是将控制问题转化为优化问题。
它涉及到数学和计算机科学的领域,如优化理论、微积分、微分方程、线性代数和数值计算等。
最优控制方法广泛应用于自动控制、工程、军事和航空航天等领域。
非线性控制系统中的最优控制算法主要包括变分法、泛函微积分和优化理论等。
其中,变分法最早应用于力学问题,后被广泛用于优化控制领域。
泛函微积分是一种适用于多变量函数的微积分方法,被广泛应用于最优控制问题。
优化理论是一种将控制问题转化为数学优化问题的方法,它通过最小化一些性能指标来实现最优控制。
最优控制算法的选择取决于以控制问题描述的非线性控制系统的特定性质。
例如,如果系统具有显著的随机性,就需要使用随机最优控制方法。
如果系统中存在时滞,可以使用时滞最优控制方法。
除了特定的选择方法外,最优控制算法还需要考虑适用于非线性控制系统的性质。
非线性控制系统中的最优控制算法可以分为两类:开环最优控制和闭环最优控制。
开环最优控制主要考虑系统的初始状态和外部扰动,而闭环最优控制则考虑系统的动态响应和控制输入量的反馈,更适用于实践控制问题。
最优控制算法的主要优势是可以在满足系统性能指标的同时,使系统更高效、更可靠,并降低系统成本。
最优控制算法广泛应用于各种控制问题,如运动控制、机器人控制、飞行控制和化工控制等。
例如,在飞行控制中,最优控制可以通过优化发动机输出、飞机方向和高度等参数来控制飞机飞行。
在机器人控制中,最优控制可以通过优化关节控制、力传感器数据和避障传感器数据等参数来控制机器人动作。
一类非线性不确定系统的RBF神经网络自适应控制方法研究的开题报告
一类非线性不确定系统的RBF神经网络自适应控制方法研究的开题报告一、选题背景在很多工程应用中,系统经常会面临非线性和不确定性的问题。
这些问题往往导致传统的控制方法无法很好地解决。
与此同时,神经网络具有学习能力,能够对不确定性进行自适应控制,因此在非线性不确定系统的控制中得到了广泛的应用。
而径向基函数(RBF)神经网络作为一种常用的神经网络结构,具有自适应性强、计算量小、对噪声不敏感等优势,因此在非线性控制中得到了广泛的应用。
二、选题意义在工程应用中,许多控制问题涉及非线性不确定系统,例如机器人控制、飞行器控制等。
传统的控制方法在应对这些问题时存在一定的局限性,因此需要寻找一种新的控制方法。
神经网络自适应控制方法在面对这些问题时具有自适应性强、鲁棒性好的特点,因此具有广泛的应用前景。
三、研究内容和方法本文将研究一类非线性不确定系统的RBF神经网络自适应控制方法。
具体研究内容包括:1. 分析非线性不确定系统的特点,建立系统模型。
2. 设计RBF神经网络控制器,包括网络结构设计和学习算法设计。
3. 针对不确定性进行自适应参数调节。
4. 利用仿真方法验证控制效果,并与传统控制方法进行比较分析。
方法主要包括工具箱Matlab的使用、人工神经网络理论以及控制原理的应用等。
四、预期成果1. 建立非线性不确定系统的模型。
2. 设计可应对不确定性的RBF神经网络控制器。
3. 验证控制效果,并与传统控制方法进行比较分析。
四、进度安排第一阶段(已完成):完成选题和开题报告撰写第二阶段(进行中):建立非线性不确定系统模型第三阶段:设计并实现RBF神经网络控制器第四阶段:验证控制效果和与传统方法进行比较第五阶段:论文撰写和答辩五、参考文献1. Yuan, W., Chen, Y., & Liu, Y. (2020). Adaptive RBF Neural Network Control of a Class of Nonlinear Uncertain Systems With Input Nonlinearity. IEEE Transactions on Neural Networks and Learning Systems, 32(7), 3185-3196.2. 刘云清, 郑彬.径向基函数神经网络及其应用[M]. 北京:电子工业出版社, 2003.3. 朱传元, 徐京清.神经网络控制系统——建模、分析与实现[M]. 北京: 电子工业出版社, 2014.。
自适应动态规划综述_张化光
用化的推动下, 动态系统的优化理论得到了迅速的 发展, 形成了一个重要的学科分支: 最优控制. 它在 空间技术、系统工程、经济管理与决策、人口控制、 多级工艺设备的优化等许多领域都有越来越广泛的 应用. 1957 年 Bellman 提出了一种求解最优控制 问题的有效工具: 动态规划 (Dynamic programing, DP) 方法[1] . 该方法的核心是贝尔曼最优性原理, 即: 多级决策过程的最优策略具有这种性质, 不论 初始状态和初始决策如何, 其余的决策对于由初始 决策所形成的状态来说, 必定也是一个最优策略. 这 个原理可以归结为一个基本的递推公式, 求解多级 决策问题时, 要从末端开始, 到始端为止, 逆向递推. 该原理适用的范围十分广泛, 例如离散系统、 连续系 统、 线性系统、 非线性系统、 确定系统以及随机系统 等. 下面分别就离散和连续两种情况对 DP 方法的 基本原理进行说明. 首先考虑离散非线性系统. 假设 一个系统的动态方程为
在假设鞍点存在的条件lewis等结合h控制采用迭代adp的方法分别研究了离散线性系统和连续仿射非线性系统的二人零和微分对策问题2729该迭代方法分为内环迭代和外环迭代首先给定一个稳定的控制制内环迭代更新之后再进行内环迭代直到值函数收敛到最优文献30对有限时域的非仿射非线性二人零和微分对策问题进行了研究
∞
J (x (t), t) =
t
l(x (τ ), u (τ ))dτ
(6)
最小. 我们可以通过离散化的方法将连续问题转换 为离散问题, 然后通过离散动态规划方法求出最优 控制, 当离散化时间间隔趋于零时, 两者必趋于一 致. 通过应用贝尔曼最优性原理, 可以得到 DP 的连 续形式为
−
∂J ∗ = min l(x (t), u (t), t) + u ∈U ∂t T ∂J ∗ F (x (t), u (t), t) = x(t) ∂x l(x(t), u∗ (t), t) + ∂J ∗ x(t) ∂x
基于自适应动态规划的一类带有时滞的离散时间非线性系统的最优控制
Vol.36,No.1ACTA AUTOMATICA SINICA January,2010An Optimal Control Scheme for a Class of Discrete-time Nonlinear Systems with Time Delays Using AdaptiveDynamic ProgrammingWEI Qing-Lai1ZHANG Hua-Guang2LIU De-Rong1ZHAO Yan3Abstract In this paper,an optimal control scheme for a class of nonlinear systems with time delays in both state and control variables with respect to a quadratic performance index function is proposed using a new iterative adaptive dynamic programming (ADP)algorithm.By introducing a delay matrix function,the explicit expression of the optimal control is obtained using the dynamic programming theory and the optimal control can iteratively be obtained using the adaptive critic technique.Convergence analysis is presented to prove that the performance index function can reach the optimum by the proposed method.Neural networks are used to approximate the performance index function,compute the optimal control policy,solve delay matrix function,and model the nonlinear system,respectively,for facilitating the implementation of the iterative ADP algorithm.Two examples are given to demonstrate the validity of the proposed optimal control scheme.Key words Adaptive dynamic programming(ADP),approximate dynamic programming,time delay,optimal control,nonlinear system,neural networksDOI10.3724/SP.J.1004.2010.00121The optimal control problem of nonlinear systems has always been a key focus in the controlfield in the last several decades.Coupled with this is the fact that noth-ing can happen instantaneously,as is so often presumed in many mathematical models.So strictly speaking,time delays exist in the most practical control systems.Time delays may result in degradation in the control efficiency even instability of the control systems.So there have been many studies on the control systems with time delay in various researchfields,such as electrical,chemical engineer-ing,and networked control[1−2].The optimal control prob-lem for the time-delay systems always attracts considerable attention of the researchers and many results have been obtained[3−5].In general,the optimal control for the time-delay systems is an infinite-dimensional control problem[3], which is very difficult to solve.So many analysis and appli-cations are limited to a very simple case:the linear systems with only state delays[6].For nonlinear case with state de-lays,the traditional method is to adopt fuzzy method and robust method,which transforms the nonlinear time-delay systems to linear systems[7].For systems with time delays both in states and controls,it is still an open problem[4−5]. The main difficulty lies in the formulation of the optimal controller which must use the information of the delayed control term so as to obtain an efficient control.This makes the analysis of the system much more difficult,and there is no method strictly facing this problem even in the linear cases.This motivates our research.Adaptive dynamic programming(ADP)is a powerful tool in solving optimal control problems[8−9]and has at-tached considerable attention from many researchers in re-cent years,such as[10−16].However,most of the results focus on the optimal control problems without delays.To Manuscript received September5,2008;accepted March3,2009Supported by National High Technology Research and Development Program of China(863Program)(2006AA04Z183),National Nat-ural Science Foundation of China(60621001,60534010,60572070, 60774048,60728307),and the Program for Changjiang Scholars and Innovative Research Groups of China(60728307,4031002)1.Key Laboratory of Complex Systems and Intelligence Sci-ence,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,P.R.China2.School of Information Science and Engi-neering,Northeastern University,Shenyang110004,P.R.China3. Department of Automatic Control Engineering,Shenyang Institute of Engineering,Shenyang110136,P.R.China the best of our knowledge,there are no results discussing how to use ADP to solve the time-delay optimal control problems.In this paper,the time-delay optimal control problem is solved by the iterative ADP algorithm for the first time.By introducing a delay matrix function,the explicit expression of the optimal control function is ob-tained.The optimal control can iteratively be obtained us-ing the proposed iterative ADP algorithm which avoids the infinite-dimensional computation.Also,it is proved that the performance index function converges to the optimum using the proposed iterative ADP algorithm.This paper is organized as follows.Section1presents the preliminaries.In Section2,the time-delay optimal control scheme is proposed based on iterative ADP algorithm.In Section3,the neural network implementation for the con-trol scheme is discussed.In Section4,two examples are given to demonstrate the effectiveness of the proposed con-trol scheme.The conclusion is drawn in Section5.1PreliminariesBasically,we consider the following discrete-time affine nonlinear system with time delays in state and control vari-ables as follows:x(k+1)=f(x(k),x(k−σ))+g0(x(k),x(k−σ))u(k)+ g1(x(k),x(k−σ))u(k−τ)(1)with the initial condition given by x(s)=φ(s),s=−σ,−σ+1,···,0,where x(k)∈R n is the state vector, f:R n×R n→R n and g0,g1:R n×R n→R n×m are dif-ferentiable functions and the control u(k)∈R m.The state and control delaysσandτare both nonnegative integral numbers.Assume that f(x(k),x(k−σ))+g0(x(k),x(k−σ))u(k)+g1(x(k),x(k−σ))u(k−τ)is Lipschitz continuous on a setΩin R n containing the origin,and that system(1) is controllable in the sense that there exists a bounded con-trol onΩthat asymptotically stabilizes the system.In this paper,how to design an optimal state feedback controller for this class of delayed discrete-time systems is mainly dis-cussed.Therefore,it is desired tofind the optimal control u(x)satisfying u(x(k))=u(k)to minimize the generalized performance functional as follows:122ACTA AUTOMATICA SINICA Vol.36V(x(0),u)=∞k=0x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u T(k)R0u(k)+2u T(k)R1u(k−τ)+u T(k−τ)R2u(k−τ)(2)whereQ0Q1Q T1Q2≥0,R0R1R T1R2>0,and l(x(k),x(k−σ),u(k),u(k−τ))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+ x T(k−σ)Q2x(k−σ)+u T(k)R0u(i)+2u T(k)R1u(k−τ)+ u T(k−τ)R2u(k−τ)is the utility function.Let V∗(x)de-note the optimal performance index function which satisfiesV∗(x)=minuV(x,u)(3)According to the Bellman s optimal principle,we can get the following Hamilton-Jacobi-Bellman(HJB)equationV∗(x(k))=minu(k)x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u T(k)R0u(k)+2u T(k)R1u(k−τ)+u T(k−τ)R2u(k−τ)+V∗(x(k+1))}(4) For the optimal control problem,the state feedback con-trol u(x)must not only stabilize the system onΩbut also guarantee that(2)isfinite,i.e.,u(x)must be admissible[17].Definition1.A control u(x)is defined to be admis-sible with respect to(3)onΩif u(x)is continuous on Ω,u(0)=0,u(x)stabilizes(1)onΩ,and∀x(0)∈Ω, V(x(0))isfinite.2Properties of the iterative ADP ap-proachSince the nonlinear delayed system(1)is infinite-dimensional[3]and the control variable u(k)couples with u(k−τ),it is nearly impossible to obtain the expression of the optimal control by solving the HJB equation(1).To overcome the difficulty,a new iterative algorithm is pro-posed in this paper.The following lemma is necessary to apply the algorithm.Lemma1.For the delayed nonlinear system(1)with respect to the performance index function(2),if there exists a control u(k)=0at time point k,then there exists a bounded matrix function M(k)that makesu(k−τ)=M(k)u(k)(5) hold for j=0,1,···,n.Proof.As u(k)and u(k−τj),j=0,1,···,n are bounded real vectors,can construct a function that sat-isfiesu(k−τ)=h(u(k))(6) where j=0,1,···,n.Then,using the method of undeter-mined coefficients,let M(u(k))satisfyh(u(k))=M(u(k))u(k)(7) Then,we can obtain M(u(k))expressed asM(u(k))=h(u(k))u T(k)u(k)u T(k)−1(8)whereu(k)u T(k)−1means the generalized inverse ma-trix ofu(k)u T(k).On the other side,u(k)and u(k−τ)are both bounded real vectors,then we have h(u(k))andu(k)u T(k)−1are bounded.So M(k)=M(u(k))is thesolution.According to Lemma1,the HJB equation becomesV∗(x(k))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u∗T(k)R0u∗(k)+2u∗T(k)R1M∗(k)u∗(k)+u∗T(k)M∗T(k)R2M∗(k)u∗(k)+V∗(x(k+1))(9)where u∗(k)is the optimal control and u∗(k−τ)=M∗(k)u∗(k).2.1Derivation of the iterative ADP algorithmAccording to the Bellman s principle of optimality,wecan obtain the optimal control by differentiating the HJBequation(9)with respect to control u.Then,we can obtain the optimal control u∗(k)formu-lated asu∗(k)=−1R0+2R1M∗(k)+M∗T(k)R2M∗(k)−1×g0(x(k),x(k−σ))+g1(x(k),x(k−σ))M∗(k)T×∂V∗(x(k+1))∂x x(k+1)(10)In(10),the inverse of the termR0+2R1M∗(k)+M∗T(k)R2M∗(k)should existand a proof is presented in Appendix to guarantee theexistence of the inverse.From(10),the explicit optimal control expression u∗isobtained by solving the HJB equation(9).We can see thatthe optimal control u∗depends on M∗and V∗(x),whereV∗(x)is a solution to the HJB equation(9).While how tosolve the HJB equation is still open,there is currently nomethod for rigorously seeking for this performance indexfunction of this delayed optimal control problem.Further-more,the optimal delay matrix function M∗is also un-known which makes the optimal control u∗more difficultto obtain.So an iterative index i is introduced into theADP approach to obtain the optimal control iteratively.Firstly,for i=0,1,···,letu(i+1)(k−τ)=M(i)(k)u(i+1)(k)(11)where M(0)(k)=I and u(0)(k−τ)=M(0)(k)u(0)(k).Westart with initial performance index V(0)(x(k))=0,andthe control u(0)(k)can be computed as followsu(0)(x(k))=arg minuΓ0+V(0)(x(k+1))(12)whereΓ0=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u(0)T(k)R0u(0)(k)+2u(0)T(k)R1M(0)(k)u(0)(k)+u(0)T(k)M(0)T(k)R2M(0)(k)u(0)(k)Then,the performance index function is updated asV(1)(x(k))=Γ0+V(0)(x(k+1))(13)No.1WEI Qing-Lai et al.:An Optimal Comtrol Scheme for a Class of (123)Thus,for i =1,2,···,the iterative ADP can be used to implement the iteration betweenu (i )(x (k ))=arg min u Γ(i )+V (i )(x (k +1))=−12R 0+2R 1M (i −1)(k )+M (i −1)T (k )R 2M (i −1)(k ) −1 g 0(x (k ),x (k −σ))+g 1(x (k ),x (k −σ))M(i −1)(k )T ∂V (i )(x (k +1))∂xx (k +1)(14)whereΓ(i )=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u (i )T (k )R 0u (i )(k )+2u (i )T (k )R 1M (i −1)(k )u (i )(k )+u (i )T (k )M (i −1)T (k )R 2M (i −1)(k )u (i )(k )andV (i +1)(x (k ))=Γ(i )+V (i )(x (k +1))(15)Then,the optimal control can be obtained iteratively.From (14)and (15),it can be seen that during the iteration pro-cess,the control actions for different control steps obey different control laws.After the iteration number of i ,the obtained control laws sequence is (u (0),u (1),···,u (i )).For the infinite-horizon problem,both the optimal performance index function and the optimal control law are unique.Therefore,it is necessary to show that the iterative per-formance index function V (i )(x (k ))will converge when the iteration number i →∞under the iterative control u (i )(k )and this will be proved in the following subsection.2.2Properties of the iterative ADP algorithm In this subsection,we focus on the proof of convergence of the iteration between (14)and (15),with the perfor-mance index V (i )(x (k ))→V ∗(x (k )),∀k .Lemma 2[17].Let ˜u(i )(k ),k =0,1,···be any se-quence of control,and u (i )(k )be expressed as (14).Define V (i +1)(x (k ))as (15)and Λ(i +1)(x (k ))asΛ(i +1)(x (k ))=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+˜u (i )T (k )R 0˜u (i )(k )+2˜u(i )T (k )R 1M (i −1)(k )˜u (i )(k )+˜u(i )T (k )M (i −1)T (k )R 2M (i −1)(k )˜u (i )(k )+Λ(i )(x (k +1))(16)If V (0)(x (k ))=Λ(0)(x (k ))=0,then V (i )(x (k ))≤Λ(i )(x (k )),∀i .In order to prove the convergence of the performance index function,the following theorem is also necessary.Theorem 1.Let the performance index function V (i )(x (k ))be defined by (15).If x (k )for system (1)is controllable,then there exists an upper bound Y such that 0≤V (i )(x (k ))≤Y ,∀i .Proof.As system (1)is Lipschitz,M (i )(k )is a bounded matrix for i =0,1,···.Define a delay matrix function¯M(k )which makes χTR 0+2R 1¯M(k )+¯M T (k )R 2¯M (k ) χ−χT (R 0+2R 1M (i )(k )+M (i )T (k )R 2M (i )(k )χ≥0(17)hold for ∀i ,where χis any nonzero m -dimensional vector.Let ¯u(k ),k =0,1···be any admissible control input.De-fine a new sequence P (i )(x (k ))as follows:P (i +1)(x (k ))=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+¯uT (k )R 0¯u (k )+2¯uT (k )R 1¯M (k )¯u (k )+¯uT (k )¯M T (k )R 2¯M (k )¯u (k )+P (i )(x (k +1))(18)where P (0)(x (k ))=V (0)(x (k ))=0and ¯u(k −τ)=¯M (k )¯u(k ).V (i )(x (k ))is updated by (15).Thus,we can obtainP (i +1)(x (k ))−P (i )(x (k ))=P (i )(x (k +1))−P (i −1)(x (k +1))...=P (1)(x (k +i ))−P (0)(x (k +i ))(19)Because P (0)(x (k +i ))=0,we haveP (i +1)(x (k ))=P (1)(x (k +i ))+P (i )(x (k ))+i j =0P (1)(x (k +j ))(20)According to (18),(20)can be rewritten asP(i +1)(x (k ))=i j =0Ξ(k +j )≤∞ j =0Ξ(k +j )(21)whereΞ(k +j )=x T (k +j )Q 0x (k +j )+2x T (k +j )Q 1x (k +j −σ)+x T (k +j −σ)Q 2x (k +j −σ)+¯uT (k +j )R 0¯u (k +j )+2¯uT (k +j )R 1¯M (k +j )¯u (k +j )+¯uT (k +j )¯M T (k +j )R 2¯M (k +j )u (k +j )Noting that the control input ¯u(k ),k =0,1,···is an ad-missible control,we can obtainP (i +1)(x (k ))≤∞ j =0P (1)(x (k +j ))≤Y,∀i (22)From Lemma 1,we haveV (i +1)(x (k ))≤P (i +1)(x (k ))≤Y,∀i(23)With Lemma 1and Theorem 1,the following main the-orem can be derived.Theorem 2.Define the performance index function V (i )(x (k ))as (15),with V (0)(x (k ))=0.If x (k )for system124ACTA AUTOMATICA SINICA Vol.36 (1)is controllable,then V(i)(x(k))is a nondecreasing se-quence that is V(i)(x(k))≤V(i+1)(x(k))and V(i)(x(k))isconvergent as i→∞.Proof.For the convenience of analysis,define a newsequenceΦ(i)(x(k))as follows:Φ(i+1)(x(k))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u(i+1)T(k)R0u(i+1)(k)+2u(i+1)T(k)R1M(i)(k)u(i+1)(k)+u(i+1)T(k)M(i)T(k)R2M(i)(k)u(i+1)(k)+Φ(i)(x(k+1))(24)with u(i)(k)obtained by(14)andΦ0(x(k))=V0(x(k))=0.V(i)(x(k))is updated by(15).In the following part,we proveΦ(i)(x(k))≤V(i+1)(x(k))by mathematical induction.First,we prove it holds for i=0.Note thatV(1)(x(k))−Φ(0)(x(k))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)≥0(25)Thus for i=0,we can getV(1)(x(k))≥Φ(0)(x(k))(26)Second,we assume it holds for i−1,i.e.,V(i)(x(k))−Φ(i−1)(x(k))≥0,∀x(k).Then,for i,from(15)and(24),we can obtainV(i+1)(x(k))−Φ(i)(x(k))=V(i)(x(k+1))−Φ(i−1)(x(k+1))≥0(27)i.e.,Φ(i)(x(k))≤V(i+1)(x(k))(28)Therefore,the mathematical induction proof is com-pleted.Moreover,from Lemma1,we know that V(i)(x(k))≤Φ(i)(x(k))and therefore we can obtainV(i)(x(k))≤Φ(i)(x(k))≤V(i+1)(x(k))(29)which proves that V(i)(x(k))is a nondecreasing sequencebounded by(23).Hence,we conclude that V(i)(x(k))is anondecreasing convergent sequence as i→∞.We note the obvious corollary.Corollary1.If Theorem2holds,then the delay matrixfunction M(i)(k)is a convergent sequence,as i→∞.According to Corollary1,we defineM(∞)(k)=limi→∞M(i)(k)(30)Next,we will prove that the performance index functionsequence V(i)(x(k))converges to V∗(x(k))as i→∞.AsV(i)(x(k))is a convergent sequence as i→∞,we defineV(∞)(x(k))=limi→∞V(i)(x(k))(31)Let¯u l be the l-th admissible control.Similar to theproof of Theorem1,we can construct the performance in-dex function sequence P(i)l(x)as follows:P(i+1)l(x(k))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+¯u T l(k)R0¯u l(k)+2¯u l(k)R1M(∞)(k)¯u l(k)+¯u l(k)M(∞)T(k)R2M(∞)(k)¯u l(k)+P(i)l(x(k+1))(32)with P(0)l(·)=0and¯u l(k)=M(∞)(k)¯u l(k−τ).Accordingto Theorem1,we haveP(i+1)l(x(k))=ij=0x T(k+j)Q0x(k+j)+2x T(k+j)Q1x(k+j−σ)+x T(k+j−σ)Q2x(k+j−σ)+¯u T l(k+j)R0¯u l(k+j)+2¯u T l(k+j)R1M(∞)(k+j)¯u l(k+j)+¯u T l(k+j)M(∞)T(k+j)R2×M(∞)(k+j)¯u l(k+j)(33)LetP(∞)l(x(k))=limi→∞P(i+1)l(x(k))(34)So,we haveP(i)l(x(k))≤P(∞)l(x(k))(35)Theorem3.Define P(∞)l(x(k))as in(34),and definethe performance index function V(i)(x(k))as in(15)withV(0)(·)=0.For any state vector x(k),define V∗(x(k))=min lP(∞)l(x(k))starting from x(k)for all admissiblecontrol sequences.Then,we can conclude that V∗(x(k))is the limit of the performance index function V(i)(x(k))asi→∞.Proof.For any l,there exists an upper bound Y l,suchthatP(i+1)l(x(k))≤P(∞)l(x(k))≤Y l(36)According to(23),for∀l,we haveV(∞)(x(k))≤P(∞)l(x(k))≤Y l(37)Since V∗(x(k))=min lP(∞)l(x(k)),for any >0,there exists an admissible control¯u K,where K is a nonneg-ative number such that the associated performance indexfunction satisfies P(∞)K(x(k))≤V∗(x(k))+ .According to(23),we have V(∞)(x(k))≤P(∞)l(x(k))for any l.Thus,we can obtain V(∞)(x(k))≤P(∞)K(x(k))≤V∗(x(k))+ .Noting that is chosen arbitrarily,we haveV(∞)(x(k))≤V∗(x(k))(38)On the other hand,since V(i)(x(k))is bounded for∀i,according to the definition of admissible control,the con-trol sequence associated with the performance index func-tion V(∞)(x(k))must be an admissible control,i.e.,thereNo.1WEI Qing-Lai et al.:An Optimal Comtrol Scheme for a Class of ···125exists an admissible control ¯u (i )N such that V(∞)(x (k ))=P (∞)N (x (k )).Combining with the definition V ∗(x (k ))=min l P (∞)l(x (k )),we can obtainV (∞)(x (k ))≥V ∗(x (k ))(39)Therefore,combining (38)and (39),we can conclude thatV (∞)(x (k ))=lim i →∞V (i )(x (k ))=V ∗(x (k ))(40)namely,V ∗(x (k ))is the limit of the performance indexfunction V (i )(x (k )),as i →∞. Based on Theorem 3,we will prove that the performance index function V ∗(x (k ))satisfies the principle of optimality,which shows that V (i )(x (k ))can reach the optimum as i →∞.Theorem 4.For any state vector x (k ),the “op-timal”performance index function V ∗(x (k ))satisfies V ∗(x (k ))=min u (k ){x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u T (k )R 0u (k )+2u T (k )R 1M (k )u (k )+u T (k )M (k )R 2M (k )u (k )+V ∗(x (k +1))},where u (k −τ)=M (k )u (k ).Proof.For any u (k )and i ,based on Bellman s optimal-ity principle,we haveV (i )(x (k ))≤Υ(i −1)+V (i −1)(x (k +1))(41)whereΥ(i −1)=x T (k )Q 0x (k )+2x T(k )Q 1x (k −σ)+x T(k −σ)Q 2x (k −σ)+u T(k )R 0u (k )+2u T(k )R 1M (i −1)(k )u (k )+u T(k )M(i −1)T(k )R 2M(i −1)(k )u (k )As V (i )(x (k ))≤V (i +1)(x (k ))≤V (∞)(x (k ))andV (∞)(x (k ))=V ∗(x (k )),we can obtainV (i )(x (k ))≤Υ(i −1)+V ∗(x (k +1))(42)If i →∞,then we haveV ∗(x (k ))≤Υ(∞)+V ∗(x (k +1))(43)Since u (k )in the above equation is chosen arbitrarily,the following equation holdsV ∗(x (k ))≤min u (k )Υ(∞)+V ∗(x (k +1)) (44)On the other hand,for any i ,the performance index func-tion satisfiesV (i )(x (k ))=Ω(i −1)+V (i −1)(x (k +1))(45)whereΩ(i −1)=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u (i −1)T (k )R 0u (i −1)(k )+2u (i )T (k )R 1M (i −2)(k )u (i −1)T (k )+u(i −1)T(k )M(i −2)T(k )R 2M(i −2)(k )u(i −1)T(k )Combining with V (i )(x (k ))≤V ∗(x (k )),∀i ,we haveV ∗(x (k ))≥Ω(i −1)+V (i −1)(x (k +1))(46)Let i →∞,thenV ∗(x (k ))≥limi →∞Ω(i −1)+V(i −1)(x (k +1))≥min u (k )Ω(∞)+V ∗(x (k +1)) (47)Combining (44)with (47),we have V ∗(x (k ))=min u (k ){Ω(∞)+V ∗(x (k +1))}=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u ∗T (k )R 0u ∗(k )+2u ∗T (k )R 1M (∞)(k )u ∗(k )+u ∗T (k )M (∞)T (k )R 2M (∞)(k )u ∗(k )+V ∗(x (k +1))(48)Thus,we have that u (i )(k )→u ∗(k )as i →∞so does u (i )(k −τ).On the other hand,we also have M (i )(k )→M (∞)(k )and u (i )(k −τ)=M (i −1)(k )u (i )(k ).Letting i →∞,we getu ∗(k −τ)=M (∞)(k )u ∗(k )(49)Therefore,we have M (∞)(k )=M ∗(k )and (48)can be written asV ∗(x (k ))=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u ∗T (k )R 0u ∗(k )+2u ∗T (k )R 1M ∗(k )u ∗(k )+u ∗T (k )M ∗T (k )R 2M ∗(k )u ∗(k )+V ∗(x (k +1))(50)where u ∗(k −τ)=M ∗(k )u ∗(k ). Therefore,we can conclude that the performance index function V (i )(x (k ))converges to the optimum V ∗(x (k ))as i →∞.2.3Implementation of iterative ADP algorithm Given the above preparation,we may formulate the de-sired iterative ADP approach to nonlinear systems with delays as follows.Step 1.Give initial state x (s )=φ(s ),s =−σ,−σ+1,···,0,initial control u (ρ),ρ=0,1,···,k −1;give i max and computation accuracy ε.Step 2.Set the iterative step i =0,M (0)(k )=I ,and V (0)(·)=0.Step pute u (0)(k )by (12)and the performance index function V (1)(x (k ))by (13).Step 4.For the iterative step i ≥1,compute u (i )(k )by (14).Step pute the performance index function V (i )(x (k ))by (15).Step 6.IfV (i )(x (k ))−V (i −1)(x (k )) 2<ε(51)go to Step 9;otherwise,go to Step 7.Step 7.If i >i max ,go to Step 9;otherwise,compute M (i )(k )byM (i )(k )=u (i )(k −τ)u (i )T (k ) u (i )(k )u (i )T (k ) −1(52)126ACTA AUTOMATICA SINICA Vol.36Step 8.Set i =i +1and go to Step 4.Step 9.Stop.In (52)of the above algorithm,the term u (i )(k )u (i )T (k ) −1can be obtained by the Moore-Penrose pseudoinverse technique to compute the delay matrix function M (i )(k ).There are two other methods to compute M (i )(k ).One choice is to introduce a small zero-mean Gaussian noise with variances γ2denoted by δ(0,γ2)into the control u (k −τ)[18].The other choice is to use a neural network to approximate delay matrix function M (i )(k ).In this paper,we use the neural network approximation method and the details will be shown in the next section.3Neural network implementationIn the case of linear systems,the performance index func-tion is quadratic and the control policy is linear.In the nonlinear case,this is not necessarily true and therefore we use neural networks to approximate u (i )(k )and V (i )(x (k )).Assume the number of hidden layer neurons is denoted by l ,that the weight matrix between the input layer and hidden layer is denoted by V ,and that the weight matrix between the hidden layer and output layer is denoted by W .Then the output of three-layer neural network (NN)is represented byˆF(X ,V,W )=W T σ(V T X )(53)where σ(V T X )∈R l ,[σ(z )]i =e zi −e−z ie zi +e −z i,i =1,···,l,are the activation functions.The NN estimation error can be expressed byF (X )=F (X ,V ∗,W ∗)+ε(X )(54)where V ∗and W ∗are the ideal weight parameters,andε(X )is the reconstruction error.Here,there are four neural networks,which are critic network,model network,action network,and delay matrix function network (M network),respectively.All the neu-ral networks are chosen as three-layer feedforward network.The whole structure diagram is shown in Fig.1.The utility term in the figure denotes x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u T (k )R 0u (k )+2u T (k )R 1u (k −τ)+u T (k −τ)R 2u (k −τ).Fig.1The structure diagram of the algorithm3.1The model networkThe model network is to approximate the system dy-namic and it should be trained before the implementation of the iterative ADP algorithm.The update rule of the model network is adopted as the gradient decent method.The training process is simple and general.The details can be seen in [13,19]and it is omitted here.After the model network is trained,its weights are kept unchanged.3.2The M networkThe M network is to approximate the delay matrix func-tion M (k ).The output of the M network is denoted asˆu (k −τ)=W T M σ(V TM u (k ))(55)We define the error function of the model network ase M (k )=ˆu(k −τ)−u (k −τ)(56)Define the performance error measure asE M (k )=12e TM (k )e M (k )(57)Then,the gradient-based weight update rule for thecritic network can be described byw M (k +1)=w M (k )+∆w M (k )(58)∆w M (k )=αM−∂E M (k )∂w M (k )(59)where αM is the learning rate of the M network.3.3The critic networkThe critic network is used to approximate the perfor-mance index function V (i )(x (k )).The output of the critic network is denoted asˆV (i )(x (k ))=W T ci σ(V T ci z (k ))(60)The target function can be written asV (i +1)(x (k ))=Γ(i )+ˆV(i )(x (k +1))(61)Then,we define the error function for the critic networkase ci (k )=ˆV(i +1)(x (k ))−V (i +1)(x (k ))(62)And the objective function to be minimized in the criticnetwork isE ci (k )=12e 2ci (k )(63)So the gradient-based weight update rule for the critic network is given byw c (i +1)(k )=w ci (k )+∆w ci (k )(64)∆w ci (k )=αc−∂E ci (k )∂w ci (k )(65)∂E ci (k )∂w ci (k )=∂E ci (k )∂ˆV(i )(x (k ))∂ˆV(i )(x (k ))∂w ci (k )(66)where αc >0is the learning rate of critic network andw c (k )is the weight vector in the critic network.No.1WEI Qing-Lai et al.:An Optimal Comtrol Scheme for a Class of ···1273.4The action networkIn the action network,the state x (k )is used as input to create the optimal control as the output of the network.The output can be formulated asˆu(i )(k )=W T ai σ(V Tai x (k ))(67)The target of the output of the action network is givenby (14).So,we can define the output error of the action network ase ai (k )=ˆu (i )(k )−u (i )(k )(68)where u (i )(k )is the target function which can be describedbyu (i )(k )=−12R 0+2R 1M (i −1)(k )+M (i −1)T (k )R 2M (i −1)(k ) −1×g 0(x (k ),x (k −σ))+g 1(x (k ),x (k −σ))M(i −1)(k )T ∂ˆV (i )(x (k +1))∂xx (k +1)As u (i )(k −τ)=M (i −1)(k )u (i )(k ),we have ∂uu (i )(k −τ)∂uu (i )(k )=M (i −1)(k ).Then,according to (55),M (i −1)(k )can be ex-pressed asM (i −1)ij (k )=V T Mi 1− σ(V TM u (k ))2iW Mj (69)for i,j =1,2,···,m .M (i −1)ij(k )denotes the element at row i ,column j of matrix M (i −1)(k );V Mi and W Mj mean the column i and column j of the weight matrices V M and W M ,respectively; σ(V TMu (k )) i is the i th element of the vector σ(V TMu (k )).The weighs in the action network are updated to mini-mize the following performance error measure:E ai (k )=12e Tai (k )e ai (k )(70)The weights updating algorithm is similar to the one for the critic network.By the gradient descent rule,we can obtainw a (i +1)(k )=w ai (k )+∆w ai (k )(71)∆w ai (k )=βa−∂E ai (k )ai(72)∂E ai (k )∂w ai (k )=∂E ai (k )∂e ai (k )∂e ai (k )∂uu (i )(k )∂uu (i )(k )∂w ai (k )(73)where βa >0is the learning rate of then action network.4SimulationIn this section,two examples are provided to demon-strate the effectiveness of the control scheme proposed inthis paper.4.1Optimal control for state delayed system For the first example,the nonlinear system is a modifi-cation of Example 1in [13],which introduces state delays into the system.Consider the following affine nonlinear system:x (k +1)=f (x (k ),x (k −σ))+g (x (k ),x (k −σ))u (k )(74)where x (k )=x 1(k )x 2(k )T ,u (k )=u 1(k )u 2(k ) T ,and f (x (k ),x (k −σ))= x 1(k )exp(x 32(k ))x 2(k −2)x 32(k )x 1(k −2) ,g (x (k ),x (k −σ))= −0.200−0.2.The time delay in thestate is σ=2and the initial condition is x (k )=[1−1]T for −2≤k ≤0.The performance index function is defined as (2),where Q 0=Q 2=R 0=I and Q 1=R 1=R 2=0.We implement the algorithm at the time instant k =5.We choose three-layer neural networks as the critic network,the action network,and the model network with the struc-tures 4-10-2,2-10-1,and 6-10-2,respectively.The initial weights of the action network,critic network,and model network are all set to be random in [−0.5,0.5].It should be mentioned that the model network should be trained first.For the given initial state,we train the model net-work for 3000steps under the learning rate αm =0.05.After the training of the model network,the weights keep unchanged.Then,the critic network and the action net-work are trained for 3000steps so that the given accuracy ε=10−6is reached.In the training process,the learning rate βa =αc =0.05.The convergence curve of the perfor-mance index function is shown in Fig.2.Then,we apply the optimal control to the system for T f =30time steps and obtain the following results.The state trajectories are given as Fig.3and the corresponding control curves are given as Fig.4.Fig.2The convergence of performance indexfunctionFig.3The state variable trajectories。
非线性不确定系统的自适应神经网络控制的开题报告
非线性不确定系统的自适应神经网络控制的开题报告一、选题的背景和意义在现代科技领域中,非线性不确定系统的自适应神经网络控制问题一直都是研究热点之一。
非线性不确定系统因为其具有很高的复杂性、不确定性,很难被传统的控制方法控制。
而神经网络则具有很好的自适应能力,能够在不断学习和适应过程中来提升控制效果,逐渐适应和优化系统控制,同时神经网络也能够处理大量的数据,并解决复杂系统控制问题。
因此,应用神经网络来控制非线性不确定系统具有非常好的前景,并能够为实际应用提供强有力的支持。
二、研究内容和目标本文主要研究非线性不确定系统的自适应神经网络控制问题。
具体来说,我们将采用现代控制理论和神经网络技术相结合的方法,从建模、自适应神经网络控制设计、仿真验证三个方向进行深入研究。
通过对非线性不确定系统建模进行分析,根据其特点和性质,研究如何应用神经网络控制的思想方法进行控制设计,并对控制器进行仿真验证和实现。
我们的主要研究目标是,通过应用神经网络控制方法,实现非线性不确定系统的自适应控制,并且在实验数据中验证其性能优越性。
通过本次研究,我们有望为非线性不确定系统的控制提供一种全新的思路和方法,为实际应用带来更加可靠、鲁棒的控制支持。
三、研究方法本文主要采用以下研究方法:1. 理论分析。
对非线性不确定系统的建模、特性以及自适应神经网络控制的方法进行理论分析,为后续实验研究提供理论基础。
2. 实验仿真。
使用Matlab等相关软件对设计的自适应神经网络控制器进行仿真验证并对仿真结果进行分析和评估。
3. 实验验证。
借助实验平台进行实验验证,并对控制效果进行评估和比较。
四、预期成果通过本研究,我们期望能够达到以下预期成果:1. 建立非线性不确定系统的控制模型,分析其特点,为系统控制提供理论基础。
2. 提出一种基于神经网络的自适应控制方法,系统性地分析控制策略的适用性和有效性,并进行仿真验证。
3. 利用实验平台进行实验验证,获取系统实际的控制效果,并比较不同方法的控制效果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非线性不确定系统最优控制的自适应动态规划法研究
非线性系统的最优控制问题一直备受关注.最优控制问题的核心是求解哈密尔顿-雅可比-贝尔曼(HJB)方程.自适应/近似动态规划(ADP)作为求解HJB方程的有效方法,能够克服传统动态规划引起的计算复杂性问题.ADP算法融合了加
强学习,自适应技术,动态规划理论,神经网络,此算法由于可以按照时间正向求解最优控制问题而获得广泛关注.本文基于自适应动态规划,研究了含有控制约束的未知系统有限时间最优控制,含有饱和执行器的局部未知系统的非零和问题,含有外部扰动和控制约束的非线性不确定系统的H∞跟踪控制,未知时滞系统的有限时间最优控制.文章主要内容如下:(1)针对带有饱和执行器且局部未知的非线性连续系统的有限时间最优控制问题,设计了一种基于自适应动态规划(ADP)的在线积分增强学习算法,并给出算法的收敛性证明.首先,引入非二次型函数处理控制饱和问题.其次,设计一种由常量权重和时变激活函数构成的单一网络,来逼近未知连续的值函数,与传统双网络相比减少了计算量.同时,综合考虑神经网络产生的残差和终端误差,应用最小二乘法更新神经网络权重,并且给出基于神经网络的迭代值函数收敛到最优值的收敛性证明.最后,通过两个仿真例子验证了算法的有效性.(2)设计了基于自适应动态规划的最优在线学习算法,用以解决局部未知且含有控制约束的非线性动态系统的多人非零和问题.首先,证明了在线的策略迭代(PI)算法等价于牛顿迭代算法.其次,针对每个执行者,采用具有时变激活函数的单一神经网络近似时变的哈密尔顿-雅可比-贝尔曼(HJB)方程组的解.神经网络权重以在线方式按照时间正向迭代更新.控制受限这一条件通过引入非二次型函数得到解决.对于多人非零和问题,给出了基于神经网络的在线学习算法的收敛性证明.最后,我们通过仿真算例验证了提出算法的有效性.(3)提
出了一个基于神经网络且不依赖于策略的在线学习算法,进而解决一类非线性连续时滞系统的有限时间最优控制问题.这个不依赖于策略的在线学习算法用来学习时变HJB方程的两阶段解,本算法不需要时滞系统的动态知识.采用具有时变的激活函数的执行-评价神经网络结构实现算法的在线调节.同时考虑残差误差和终端误差实时调节两个神经网络的权重.给出两个仿真算例来验证算法的可应用性.(4)针对含有外部扰动和输入限制的非线性不确定系统,设计了H∞跟踪控制器.引入了含折扣因子的非二次型函数作为H∞性能指标,因此可将控制输入编译到性能指标中.求解H∞跟踪控制问题的难点在于求解跟踪哈密尔顿-雅可比-艾萨克(HJI)方程,此方程是偏微分方程.即使是简单的系统,此方程的分析解也很难获得.为了克服这一困难,提出了一种不依赖于模型的积分加强在线学习算法,进而在线学习跟踪HJI方程的解,而且这里无需系统的动态信息.为了实施此算法,采用评价网-执行网-扰动网神经网络结构,并且三网络同时进行调节.借助李亚普诺夫稳定性理论,给出系统稳定性和收敛性证明.另外,添加鲁棒控制项去抑制神经网络逼近误差,于是闭环系统可达到渐进稳定.最后,给出两个仿真例子来验证提出算法的有效性.(5)针对一类带有外部扰动和饱和执行器的不确定非线性连续系统,提出一种基于神经网络的无模型积分加强在线学习算法,用以解决有限时间H∞最优跟踪控制问题.借助跟踪误差系统和信号产生系统,组建成一个增广的系统.相对于这个增广后的系统,能够推导出对应的时变HJI方程.然而这个方程由于内在的非线性性和时变的特点,此方程的求解极其困难.因此,设计了一种基于执行-评价-扰动网络结构的算法,此算法在不需要系统动态信息的情况下,能够得到时变HJI方程的近似解.因为时变HJI方程的解是依赖于时间的,于是采用具有时变特点的激活函数的神经网络进行逼近.其次,为了满足终端
约束条件,在设计神经网络权重更新率时,额外的终端误差项被考虑进去.最后,借助李亚普诺夫稳定性理论,给出了收敛性和跟踪误差系统的稳定性证明.两个仿真算例验证了本章提出算法的有效性.最后,对全文进行了总结.提出自适应动态规划中一些尚未解决的问题,并给出未来的研究方向.。