离散时间系统最优控制离散时间系统最优控制
离散控制系统的最优控制理论
离散控制系统的最优控制理论离散控制系统的最优控制理论是控制工程领域中的一个重要研究方向。
离散控制系统是指在时间上只能在特定时间点进行操作的系统,相比连续控制系统,离散控制系统需要使用离散时间模型进行建模和控制设计。
最优控制理论是研究如何设计控制策略以使系统能够在某种指标下达到最优性能的一门学科。
离散控制系统的最优控制理论旨在寻找最优的控制策略,使得系统的性能指标如稳定性、响应速度、能耗等在给定约束条件下达到最优。
1. 离散控制系统的建模离散控制系统的建模是进行最优控制设计的基础。
在离散控制系统中,系统的状态在一系列离散时间点上进行更新。
离散控制系统的建模通常使用差分方程或状态空间模型。
差分方程描述了系统的状态在每个时间点的更新关系,而状态空间模型则将系统的状态和输入表示为向量,并使用矩阵形式描述系统的动态特性。
根据具体问题的需要,选择合适的建模方法可以更好地描述系统的动态行为。
2. 离散控制系统的性能指标离散控制系统的性能指标是评价系统控制性能的定量指标。
常见的性能指标包括稳定性、响应速度、能耗等。
稳定性是系统重要的性能指标之一,用于评估系统是否能够在有限时间内达到稳定状态。
响应速度是指系统对输入变化的快速响应能力。
能耗则是指系统在完成特定任务时所消耗的能源。
通过选取合适的性能指标,可以更好地评估和改进离散控制系统的性能。
3. 最优控制理论的基本原理最优控制理论的基本原理是寻找一组最优控制策略,使得系统的性能指标达到最优。
最优控制问题通常可以通过数学方法建立为一个优化问题。
其中,最常见的方法是最小化或最大化一个性能指标的数学表达式。
为了求解这些优化问题,可以使用动态规划、最优化理论等数学工具。
最优控制理论提供了一种系统优化设计的方法,可以帮助工程师设计更优秀的控制策略。
4. 最优控制策略的设计方法最优控制策略的设计方法取决于具体的离散控制系统和性能指标。
常见的设计方法包括经典控制方法和现代控制方法。
能控性与能观性
假使输出矩阵C中有某一列全为零,譬如说第2列中c12, c22, …, cm2均为零,则在 t y(t)中将不包含 e 2 x20这个自由分量,亦即不包含 x2(t)这个状态变量,很明显,这 个x2(t)不可能从y(t)的测量值中推算出来,即x2(t)是不能观的状态。
系统是状态完全能控的
x 2 1 x2 b2u y c1 c2 x
1 1 b1 x x u; 0 0 1
对于式(3-5)的系统
x 1 1 x1 x2 b1u x 2 1 x2
x2不受u(t)的控制,而为不能控的系统。
对式(3-3)的系统,系统矩阵A为对角线型,其标量微分方程形式为
x 1 1 x1
x 2 2 x2 b2u
x 2
x 1
1 1 0 x x u; 0 1 b2
对于式(3-4)的系统
y c1 c2 x
x 1 1 x1 x2
c13 c23 c33
1 2 1t 1t 1t e x10 te x20 t e x30 2! x1 (t ) 1t 1t e x20 te x30 这时,状态方程的解为 x(t ) x2 (t ) x ( t ) 3 1t e x 30
从而
y1 (t ) c11 c12 y (t ) y2 (t ) c21 c22 y3 (t ) c31 c32
控制理论发展历史
控制理论发展历史综述一:20世纪40年代末-50年代的经典控制理论时期,着重解决单输入单输出系统的控制问题,主要数学工具是微分方程、拉氏变换、传递函数;主要方法是时域法、频域法、根轨迹法;主要问题是系统的稳、准、快.二:20世纪60年代的现代控制理论时期,着重解决多输入多输出系统的控制问题,主要数学工具是以此为峰方程组、矩阵论、状态空间法主要方法是变分法、极大值原理、动态规划理论;重点是最优控制、随即控制、自适应控制;核心控制装置是电子计算机。
三:20世纪70年代之后的先进控制理时期,先进控制理论是现代控制理论的发展和延伸。
先进控制理论内容丰富、涵盖面最广,包括自适应控制、鲁棒控制、模糊控制、人工神经网络控制等。
经典控制理论经典控制理论适用于单输入、单输出的线性定常(参数不随时间而变)系统.发展过程1.原始阶段中国,两千年前我国发明的指南车:一种开环自动调节系统,它利用差速齿轮原理,利用齿轮传动系统,根据车轮的转动,由车上木人指示方向.不论车子转向何方,木人的手始终指向南方,“车虽回运而手常指南”.2.起步阶段人类社会发展,有一个点把人类社会的发展分成两大部分,那就是工业革命。
18世纪中叶之前,不管你什么怎么划分人类社会也好(农业牧业手工业),社会的发展始终离不开人力,就是必须得有人亲自去做.18世纪中叶之后,机器的出现,使得以机器取代了人力,所以称之为革命。
然后机器的出现变革了人类的整个历史,直至现代社会文明的如此进步.工业革命的开始的标志为哈格里夫斯发明的珍妮纺纱机,而工业革命的标志是瓦特改良蒸汽机,为什么扯这么多?如果机器不能控制,那和工具又有什么区别?所以工业革命的标志是瓦特改良蒸汽机.钱学森也在最新一版的工程控制论中提到技术革命。
1769年,控制思想首次应用于工业控制的是瓦特,发明用来控制蒸汽机转速的飞球离心控制器。
以后人们曾经试图改善调速器的准确性,却常常导致系统产生振荡。
1868年以前,这一百年来,自动控制装置的设计还出于“直觉"阶段,没有系统的理论指导,因此在控制系统的各项性能(稳、准、快)的协调方面经常出现问题.实践中出现的问题,促使科学家们从理论上进行探索研究。
离散控制系统中的最优控制方法
离散控制系统中的最优控制方法离散控制系统是一种在时间和状态上都是离散的控制系统,相对于连续控制系统来说,其最优控制方法也有所不同。
本文将介绍离散控制系统中的最优控制方法,主要包括动态规划、最优化算法和强化学习。
一、动态规划动态规划是一种基于状态转移的最优化方法,在离散控制系统中有着广泛的应用。
其基本思想是将原问题分解为若干子问题,并通过求解子问题的最优解来得到原问题的最优解。
在离散控制系统中,我们可以将状态和控制变量转化为状态转移方程,然后利用动态规划递推求解,得到最优的控制策略。
二、最优化算法最优化算法是一种通过迭代优化来求解最优控制问题的方法,常见的有梯度下降法、牛顿法等。
在离散控制系统中,我们可以将控制问题转化为一个优化问题,并使用最优化算法来求解最优的控制策略。
例如,在离散时间马尔可夫决策过程中,我们可以利用值迭代或策略迭代等最优化算法来求解最优策略。
三、强化学习强化学习是一种通过试错学习来求解最优控制问题的方法,其核心思想是智能体通过与环境的交互来学习最优的行为策略。
在离散控制系统中,我们可以将控制问题抽象为一个马尔可夫决策过程,并使用强化学习算法如Q-learning、SARSA等来求解最优策略。
强化学习在离散控制系统中具有较好的应用效果,在复杂的离散控制系统中能够找到近似最优的控制策略。
综上所述,离散控制系统中的最优控制方法包括动态规划、最优化算法和强化学习。
这些方法在不同的离散控制系统中有着广泛的应用,能够求解出最优的控制策略。
在实际应用中,我们需要根据具体的控制问题选择合适的方法,并结合系统的特点和需求进行调整和优化。
离散控制系统中的最优控制方法在提高系统性能和效率方面具有重要意义,对于实际工程应用具有较大的价值。
最优控制-极大值原理
近似算法
针对极大值原理的求解过程,开 发了一系列近似算法,如梯度法、 牛顿法等,提高了求解效率。
鲁棒性分析
将极大值原理应用于鲁棒性分析, 研究系统在不确定性因素下的最 优控制策略,增强了系统的抗干 扰能力。
极大值原理在工程领域的应用
航空航天控制
在航空航天领域,利用极大值原理进行最优 控制设计,实现无人机、卫星等的高精度姿 态调整和轨道优化。
03
极大值原理还可以应用于经济 学、生物学等领域,为这些领 域的研究提供新的思路和方法 。
02
最优控制理论概述
最优控制问题定义
01
确定一个控制输入,使得某个给定的性能指标达到 最优。
02
性能指标通常由系统状态和控制输入的函数来描述。
03
目标是在满足系统约束的条件下,找到最优的控制 策略。
最优控制问题的分类
1 2
确定型
已知系统的动态模型和控制约束,求最优控制输 入。
随机型
考虑系统的不确定性,如随机干扰、参数不确定 性等。
3
鲁棒型
考虑系统模型的不确定性,设计鲁棒控制策略。
最优控制问题通过求解优化问题得到最优解的解析表达式。
数值法
02
通过迭代或搜索方法找到最优解。
极大值原理
03
基于动态规划的方法,通过求解一系列的子问题来找到最优解。
03
极大值原理
极大值原理的概述
极大值原理是现代控制理论中的基本原理之一,它为解决最 优控制问题提供了一种有效的方法。该原理基于动态系统的 状态和性能之间的关系,通过寻求系统状态的最大或最小变 化,来达到最优的控制效果。
在最优控制问题中,极大值原理关注的是在给定的初始和终 端状态约束下,如何选择控制输入使得某个性能指标达到最 优。它适用于连续和离散时间系统,以及线性或非线性系统 。
控制工程基础第三版课后答案 (3)
控制工程基础第三版课后答案第一章1.1 分析控制系统的对象控制系统的对象通常指的是待控制的物理系统或过程。
在分析控制系统对象时,首先需要了解系统的动态特性。
为了分析控制系统的特性,我们可以通过选取一个合适的数学模型来描述物理系统的动态行为。
一种常用的方法是通过微分方程来描述系统的动态特性。
例如,对于一个简单的电路系统,可以使用基尔霍夫电流定律和基尔霍夫电压定律来建立描述电路中电流和电压之间关系的微分方程。
然后,通过求解这个微分方程,我们可以得到系统的传递函数。
另外,我们还可以使用频域分析的方法来分析控制系统的对象。
通过对信号的频谱进行分析,我们可以得到系统的频率响应。
1.2 常见的控制系统对象控制系统的对象存在各种各样的形式,下面列举了一些常见的控制系统对象:•机械系统:例如机器人、汽车悬挂系统等。
•电气系统:例如电路、电机等。
•热力系统:例如锅炉、冷却系统等。
•化工系统:例如反应器、蒸馏塔等。
针对不同的控制系统对象,我们需要选择合适的数学模型来描述其动态特性,并进一步分析系统的稳定性、性能等指标。
第二章2.1 控制系统的数学模型控制系统的数学模型描述了物理系统的动态特性和输入与输出之间的关系。
常见的控制系统数学模型包括:•模型中几何图形法:通过几何图形来描述系统的动态特性。
•传递函数法:采用以系统输入和输出的转移函数来描述系统的动态特性。
•状态方程法:将系统的状态变量与输入变量和输出变量之间的关系用一组偏微分方程或代数方程来描述。
在使用这些模型时,我们可以选择合适的数学工具进行分析和求解,例如微积分、线性代数等。
2.2 传递函数的定义和性质传递函数是描述控制系统输入输出关系的数学函数,通常用G(s)表示。
传递函数的定义和性质如下:•定义:传递函数G(s)是系统输出Y(s)和输入U(s)之间的比值,即G(s) = Y(s)/U(s)。
•零点和极点:传递函数可以有零点和极点,零点是使得传递函数为零的s值,极点是使得传递函数为无穷大的s值。
离散控制系统的最优控制设计
离散控制系统的最优控制设计在离散控制系统中,最优控制设计是一项重要的任务。
通过优化控制器的设计和参数,可以实现系统的最佳性能,提高生产效率和质量。
本文将介绍离散控制系统最优控制设计的基本概念、方法和应用。
一、离散控制系统概述离散控制系统是一种通过离散化的时间步长来采样和控制系统状态的控制系统。
它与连续控制系统相比,采样周期间隔固定,信号量为离散的数值。
离散控制系统广泛应用于工业自动化、电力系统、交通运输等领域。
二、最优控制的基本概念最优控制是在给定约束条件下,使得系统在一段时间内或长期运行中达到最佳性能的控制设计。
最优控制设计需要考虑系统的各种参数和限制条件,并利用数学和优化理论来求解最优解。
三、离散控制系统的最优控制设计方法:1. 动态规划方法动态规划方法是一种解决最优控制问题的常用方法。
它将控制问题分解为一系列离散时间步的最优控制子问题,通过递推和迭代求解最优解。
2. 状态空间方法状态空间方法将系统的状态和控制输入转化为状态向量和控制向量的形式,建立离散时间下的状态空间模型。
通过优化状态空间模型的参数,可以得到最优控制器的设计。
3. 优化理论方法优化理论方法是一种利用数学优化理论和方法求解最优控制问题的方法。
通过构建系统的优化目标函数和约束条件,可以利用数学优化方法求解最优解。
四、离散控制系统最优控制设计的应用1. 工业自动化控制离散控制系统最优控制设计在工业自动化控制中有着广泛的应用。
通过优化控制器参数和设计,可以实现工业生产过程的高效运行,提高生产效率和质量。
2. 电力系统控制离散控制系统最优控制设计在电力系统中也有着重要的应用价值。
通过优化电力系统的控制策略和参数,可以实现电力系统的稳定运行和能源的高效利用。
3. 交通运输控制离散控制系统最优控制设计在交通运输控制中也有着广泛的应用。
通过优化交通信号灯的控制策略和参数,可以实现道路交通的高效运行,缓解交通拥堵问题。
五、结论离散控制系统的最优控制设计是提高系统性能和效率的重要手段。
离散控制系统中的最优控制
离散控制系统中的最优控制离散控制系统是指由一系列离散(非连续)的控制器构成的系统,它对系统进行离散化处理和采样,并根据采样值进行控制。
在离散控制系统中,最优控制是一种优化问题,旨在找到使给定性能指标最小化或最大化的控制策略。
本文将介绍离散控制系统中的最优控制方法和应用。
一、动态规划方法动态规划是离散控制系统最优控制的常用方法之一。
它通过将控制问题划分为一系列互相关联的子问题,逐步求解并获得最优解。
动态规划方法有以下几个步骤:1. 状态定义:将系统的状态用离散变量表示,例如状态矢量。
2. 动态规划递推方程:建立系统状态在不同时间步长之间的递推关系,用于计算最优解。
3. 边界条件:确定初始和终止条件,保证递推方程的有效求解。
4. 最优化准则:选择适当的性能指标,例如代价函数或效用函数,作为最优化准则。
5. 迭代求解:根据动态规划递推方程和最优化准则进行迭代求解,得到最优控制策略。
动态规划方法在离散控制系统中有广泛的应用。
例如,在机器人路径规划和自动化生产线调度等领域,动态规划方法可以帮助确定最优路径和最优调度策略,实现系统的高效控制。
二、最优控制理论最优控制理论是离散控制系统中另一种常用的最优控制方法。
它通过优化控制问题的最优化准则,找到使性能指标达到最小值或最大值的控制策略。
最优控制理论的核心是求解最优控制问题的最优化方程。
最优控制问题的最优化方程通常通过极值原理或哈密顿-雅可比-贝尔曼(HJB)方程来建立。
这些方程使用众多数学工具,如变分法和微分几何学,将控制问题转化为求解偏微分方程或变分问题。
通过求解最优化方程,可以得到最优控制器的具体形式和参数。
最优控制理论在离散控制系统中具有重要的应用价值。
例如,在飞行器姿态控制和无线传感网络中,最优控制理论可以帮助设计出具有最佳性能的控制器,提高系统的稳定性和响应速度。
三、模型预测控制(MPC)模型预测控制是离散控制系统中一种基于模型的最优控制方法。
它将系统建模为一个预测模型,并根据预测模型的结果来制定最优控制策略。
离散时间平均场二次最优控制问题
离散时间平均场二次最优控制问题冀鹏飞【摘要】讨论了带有约束终端的离散时间系统的平均场随机线性二次型最优控制问题.利用拉格朗日乘子定理,在线性二次最优控制问题成立的条件下,给出了状态反馈解的一个必要条件.从某种意义上说,本文可以看作是平均场离散时间随机线性二次最优控制问题的推广.【期刊名称】《德州学院学报》【年(卷),期】2018(034)002【总页数】7页(P8-14)【关键词】随机二次最优控制;离散时间系统;平均场理论;拉格朗日乘子定理【作者】冀鹏飞【作者单位】山东科技大学数学与系统科学学院,山东青岛 266000【正文语种】中文【中图分类】O2321 引言1958年,贝尔曼开始研究二次型最优控制.1960年卡曼建立了基于状态反馈的线性二次型最优控制理论,并在最优控制理论中引入了黎卡提微分方程.这样就可以用统一的解析式来表示线性二次型最优控制的解,且得到一个简单的线性状态反馈控制律,从而构成闭环最优控制.同时线性二次型最优控制问题还可以兼顾系统的性能指标等多方面的因素,如它可以把得到的最优反馈控制与非线性系统开环最优控制结合起来,可以减少开环系统的误差,得到更精确的结果.从20世纪50年代末开始,控制理论进入了一个新的发展时期,它所研究的对象扩展为多输入多输出的,非线性的,时变的离散时间系统,它涉及到了线性控制,自适应控制,最优控制,鲁棒控制,非线性控制,控制系统CAD等理论和方法.今天,随着被控模型的复杂性,不确定性和规模的增大,传统的基于精确的数学模型的控制理论的局限性日益明显. 众所周知,系统很容易受到各种限制因素的影响,例如温度、压力等.因此受约束的随机线性二次最优控制问题的研究是一个非常重要的课题.文献[1]针对模型自由的随机线性离散时间系统,通过Q学习算法,求解无限时间随机线性二次最优控制问题.文献[2]研究了离散时间随机二次最优控制问题.文献[3]考虑了具有确定性系数的平均场随机微分方程的线性二次最优控制问题.在文献[4]中,研究了在无限时间范围内存在的平均场二次最优控制问题.文献[5]提出了有限时域随机最优控制模型的数值方法,推导出了随机最小值原理,并在此基础上提出了一种基于最小值原理直接求解的数值方法.文献[6]研究一类基于社交影响力和平均场理论的信息传播动力学模型,在针对影响力度量中主要研究静态拓扑结构,利用平均场理论来忽略个体行为特征,提出了一种基于动态节点行为和用户影响力的信息传播动力学模型.本文利用凸分析的拉格朗日乘子定理研究带终端的随机线性二次最优控制问题,并且将平均场理论应用到最优控制问题中,可以最大限度的减小噪声对系统的影响,并能方便的处理噪声方面的问题.同时验证了平均区域随机二次最优控制问题存在线性反馈最优解的必要条件,其结果可以看作是平均场离散时间随机二次最优控制问题的推广.为了方便,给出以下定义:M'是矩阵M的转置;Tr(M)是矩阵M的迹;当M>0(M≥0)时,M为正定矩阵;Ex代表随机变量x的数学期望,Rm×n为n×m矩阵;N={0,1,2,…,T};并且令2 问题陈述考虑以下形式的平均区域离散时间系统(1)bi1x1T+bi2x2T+…+binxnT=ξi, i=1, 2,…, r(2)其中是给定的矩阵值函数;xt和ut分别是状态过程和控制过程;E[ωt]=0和E[ωtωt]=δst是一个二阶过程,δst是Kronecker函数;ωt, t∈N是定义在概率空间(Ω, F, P)上的一维的标准Brown运动,Ft=σ(ωs:s∈N+)为Brown运动生成的信息流.u(.)属于允许控制集(3)ξi为给定的FT可测的平方可积随机变量,即E|ξi|<+,bij为已知实数,i=1,2,…,r;j=1,2,…,n. 令Nr×n=(bij)r×n,ξ=(ξ1,ξ2,…,ξr)′,则约束(2)可写为NT=ξ,在这里假设N为行满秩.表述本文主要定理之前,首先给出本文要用到的拉格朗日乘子定理和一些重要的引理.定义1[7] 设X为向量空间,Y为赋范线性空间,T为X到Y的变换,对x,h∈X,如果极限(4)存在,称此极限为T在x处方向h的方向导数或Gateaux导数.若对任意的h∈X,上述极限都存在,则称T在x处为 Gateaux 可导.定义2[7] 设X,Y为赋范线性空间,T为定义于X到Y的变换.对于给定的x∈D,h∈X,T在x处为Gateaux 可导,Gateaux导数δTx; h∈Y关于h为有界线性变换,且满足则称T在x处为 Frechet 可导,δTx, h为T在x处h的 Frechet 导数.定义3[7] 设Tx为定义于Banach空间X到Banach空间Y的变换,且有连续的Frechet导数.若对x0∈D,δTx; h为从X到Y的满射,则称x0为变换T的正则点. 引理1 [7] 设fx是定义于 Banach 空间X上具有连续的Frechet导数的实值函数,Hx为X到Banach空间Z的映射,x0为变换Hx的正则点.若fx在约束Hx=0下在x0处达到极值,则存在Z上有界线性泛函使Lagrang泛函在x0处有驻点,即†Hx0; h=0,对所有h∈X都成立.在本节的最后再给出一个关于广义逆矩阵的引理.引理2[8] 给定M∈Rm×n,则存在唯一的M†∈Rn×m,满足矩阵M†称为M的 Moor-Penrose 广义逆.3 主要结论对于离散时间控制系统(1),给出关于可容许控制集Uad的目标函数(5)其中是对称矩阵.定义4 如果存在u0∈Uad 满足Jx0, u0=infJx0, u,>-, u∈Uad(6)则称u0为最优控制,系统(1)为适定的.为最优轨迹,Jx0,u0为最优目标函数.如果线性反馈控制对问题(1)和(6)是最优的,那么它在下列形式的反馈中也是最优的(7)其中Lt, t∈NT-1是矩阵值函数,为最优状态反馈控制.把(7)代入(1),则二次最优控制问题变为以下形式(8)称Lt, t∈N为新的控制集.令通过(8)式可以得到(9)X0=Ex0x0′(10)把(9)和(10)代入(5),经过简单的变形得到目标泛函如下其中约束终端(2)变为(11)最优控制问题归结为以下形式目标泛函Jx0, u可视为定义在空间Cm×n[0,T]×Cm×n[0,T]上,其中Cm×n[0,T]为所有元素是[0,T]上连续函数的n阶方阵构成的空间;(9)式和(10)式定义了从Cm×n×Cm×n到Cn×n的变换(12)而(11)式定义了从Cn×n[0,T] 到Rr×r的变换G(XT)=NXTN′从而约束(9)式,(10)式,(11)式可表示成为(13)下面来证明和有连续的Frechet 导数.定理都有连续的 Frechet 导数,且导数为δHX( ΔXt+1)=-ΔXt+1(14)(15)的 Fretchet 导数为其中是矩阵值连续函数.证明在这里只证明(14)式,其他证明过程跟(14)式相似. 令Xαt=Xt+αΔXt,通过定义1,能够得出(16)其中(17)令α→0,可以得出(14).定理2 如果存在(18)是最优控制,那么存在对称矩阵和λ∈Rr×r满足(19)(20)证明设是(5)式的最优解,通过定理2,可以得到对称矩阵和满足以下等式δJXΔXt+δHXΔXt+1+δHXΔXt+δGΔXT=0(21)δJLΔLt+δHLΔHt=0(22)由于那么(21)式和(22)式变为NΔXTN'-TrPTΔXT=0由于ΔXt和ΔXT相互独立,则(19)式证出.通过类似的方法,(20)式也可以被证出.结论1 如果(8)式,(11)式,(18)-(20)式存在解是最优控制,则最优目标函数满足其中把(16)式代入(5)式,经简单变形,就可得到上述结论.推论1 对于平均场二次最优控制问题,如果满足则满足≥0,t∈T.此证明过程与参考文献[9]的证明过程相似,不再加以赘述.4 数值例子考虑一个周期为3的数值例子满足其系数值为借助于Riccati方程(12)和(18),可以得到Riccati解为应用结论1,可以得到最优控制其中5 总结主要研究了平均场线性二次最优控制问题.借助于拉格朗日乘子定理,给出了该问题存在最优解的必要条件,并计算出了状态反馈最优解.将平均场理论应用到最优控制问题中,可以最大限度的减小噪声对系统的影响并能方便的处理噪声问题.最后通过一个数值例子验证了结论的正确性.参考文献:[1] 么彩莲,王涛.模型自由的离散时间系统的随机线性二次最优控制问题[J].辽宁石油化工大学学报,2016,36(6):64-68.[2] X.K.Liu.Y.Li,W.H.Zhang.stochastic linear quadratic optimal control with constraint for discrete-time systems[J].Applied Mathematics and Computation,2014,228(9): 264-270.[3] J.M.Yong.A linear-quadratic optimal control problem for mean-field stochastic differential equations[J].SIAM J.Control andOptim,2013,51(4):2809-2838.[4] Y.N.Ni,R.Elliott,X.Li.Discrete-time mean-field stochastic linear-quadratic optimal control problems,: Infinite horizoncase[J].Automatica,2013,57(11):65-77.[5] P.Parpas,M.Webester.A stochastic minimum principle and an adaptive pathwise algorithm for stochastic optimalcontrol[J].Automatica,2013,49(6):1663-1671.[6] 肖云鹏,李松阳,刘宴兵.一种基于社交影响力和平均场理论的信息传播动力学模型[J].物理学报,2017,66(3):1-13.[7] D.G.Luenberger,Optimization by vectors Space Methods[M].Wiley,New York,1968.[8] M.A.Rami.J.B.Moore.X.Y.Zhou.Indefinite stochastic linear quadratic control and generalized differential Riccati equation[J].SIAM J.Control &Optimization,2001,40:1296-1311.[9] R.J.Elliott,X.Li,Y.H.Ni.Discrete-time mean-field stochastic linear-quadratic optimal control problems[J].Automatica,2013,49:3222-3223.。
系统最优控制资料
• 一个最优控制问题的复杂程度,或者说其求解和实现的难易程度是由上述四 方面的具体规定,特别是系统的性能指标的具体形式来决定的。一般来说,
• 常用的最优化求解方法有变分法、最大值原理以及动态规划 法等。
• 控制系统的最优控制问题一般提法为:对于用动态方程描述 的系统,在某初始和终端状态条件下,从系统所允许的某控
制系统集合中寻找一个控制,使得给定的系统的性能目标函 数达到最优。
最优控制问题的描述
1、系统的状态方程。 对连续系统,其状态方程为: X f ( X (t ), u(t ), t ) 对离散系统,其状态方程为: X(k+1)=f( X(k), u(k), k ) 系统状态方程给出了系统内部状态随系统控制输入的变化关系,或者说是 内部状态的一种约束关系,或者说是系统状态在整个控制过程的转移约束 关系。
1953-1957年,贝尔曼(R.E.Bellman)创立“动态规划”原理。 为了解决多阶段决策过程逐步创立的,依据最优化原理,用一组基本 的递推关系式使过程连续地最优转移。“动态规划”对于研究最优控 制理论的重要性,表现于可得出离散时间系统的理论结果和迭代算法。
1956-1958年,庞特里亚金创立“极小值原理”。 它是最优控制理论的主要组成部分和该理论发展史上的一个里程 碑。对于“最大值原理”,由于放宽了有关条件的使得许多古典 变分法和动态规划方法无法解决的工程技术问题得到解决,所以 它是解决最优控制问题的一种最普遍的有效的方法。同时,庞特 里亚金在《最优过程的数学理论》著作中已经把最优控制理论初 步形成了一个完整的体系。
控制系统中的最优控制与最优化技术
控制系统中的最优控制与最优化技术随着科技的不断进步和应用范围的扩大,控制系统在各行各业中的重要性也日益凸显。
最优控制与最优化技术作为控制系统中的重要概念和方法,在提高系统性能和效率方面发挥着关键作用。
本文将就控制系统中的最优控制与最优化技术进行深入探讨。
一、最优控制的定义与概念最优控制是指在满足给定约束条件的前提下,通过使某种性能准则达到最大或最小值来确定控制器参数或控制策略的问题。
最优控制的实现可以使系统在最短时间内达到期望状态或在给定资源条件下获得最佳性能。
最优化技术是实现最优控制的关键方法之一,它利用数学和计算方法来寻找系统中使性能准则达到最大或最小值的最优解。
最优化技术广泛应用于各种领域,例如经济学、工程学、管理学等,其中最为常见的应用是在控制系统中。
二、最优控制的分类最优控制可以分为离散最优控制和连续最优控制两大类。
离散最优控制是指在离散时间点上确定控制器参数或控制策略的问题。
典型的离散最优控制方法包括动态规划、贝尔曼方程等。
连续最优控制是指在连续时间范围内确定控制器参数或控制策略的问题。
常见的连续最优控制方法有经典最优控制、最速控制、最小能耗控制等。
三、最优化技术在控制系统中的应用最优化技术在控制系统中有着广泛的应用。
以下是一些常见的应用领域。
1. 机器人控制机器人控制是利用最优化技术来实现机器人移动、定位和路径规划等问题。
通过对机器人运动过程中的能耗、时间等指标进行优化,可以实现机器人的高效控制和优化运动。
2. 制造业控制在制造业中,最优化技术可以用来优化物料和生产设备的调度、工艺参数的优化以及生产线的平衡等问题。
通过合理地设计和优化控制策略,可以提高制造业的生产效率和产品质量。
3. 能源系统控制能源系统控制是指在能源产生、传输和消费过程中,通过最优化技术实现能源的高效利用。
例如在电力系统中,可以通过最优化技术对电网的输电线路和发电机组进行优化调度,以最大限度地提高电网的稳定性和电能的利用率。
离散控制系统中的优化控制方法
离散控制系统中的优化控制方法在离散控制系统中,优化控制方法被广泛应用于提高系统的性能和效率。
随着离散控制系统在工业自动化领域的重要性不断增加,研究人员提出了各种优化控制方法,以满足不同系统的需求。
本文将探讨离散控制系统中的几种常见优化控制方法,包括模型预测控制、最优控制和遗传算法。
一、模型预测控制模型预测控制(Model Predictive Control,简称MPC)是一种基于数学模型和未来预测的优化控制方法。
它通过建立系统的数学模型,并在每个采样周期内对未来一段时间的状态和输出进行预测,以找到使系统性能最优化的控制策略。
MPC具有优良的鲁棒性和快速响应能力,适用于多变量、非线性、时变系统的控制。
MPC的基本原理是在每个采样周期内,通过数学优化方法求解离散时间下的最优控制问题。
优化目标可以是最小化误差平方和、最小化能耗、最小化响应时间等,具体取决于不同系统的需求。
MPC通过不断优化控制变量的轨迹,使系统能够以最佳控制策略运行。
同时,MPC还可以考虑各种约束条件,如状态变量的上下限、输入变量的约束等,以确保系统的安全性和可靠性。
二、最优控制在离散控制系统中,最优控制是一种常见的优化控制方法。
最优控制旨在找到使系统性能达到最优的控制策略,以满足系统的各种性能指标,如稳定性、响应速度、能耗等。
最优控制方法通常使用优化算法,如线性规划、动态规划、最优化搜索等,以求解离散时间下的最优控制问题。
最优控制方法的主要思想是将系统的控制问题建模成一个优化问题,并使用适当的算法求解最优控制策略。
在离散控制系统中,最优控制方法可以应用于各种系统,如电力系统、交通系统、制造系统等。
最优控制方法的应用可以显著提高系统的性能和效率,使系统能够以最佳的方式运行。
三、遗传算法遗传算法是一种模拟自然进化过程的优化算法,被广泛应用于离散控制系统中的优化问题。
遗传算法通过模拟生物进化过程中的遗传、交叉和突变等操作,以找到系统的最优解。
7.1 现代控制理论-发展历程回顾
7.1 现代控制理论—发展历程回顾(参考译文)引言本文介绍现代控制理论的主要方法及其发展的数学基础-控制系统理论。
现在,学术界认为控制理论是一个跨学科的研究领域,有许多数学概念和方法,这些概念和方法使现代控制理论成为一个重要的、引人注目的应用数学分支。
控制系统理论有各种各样的方法并经历了不同的发展阶段。
本文将简单地进行描述。
对控制系统理论的方法基础、起源、历史和各种应用进行总体回顾,它与数学和技术的相互作用促进了这一学科的发展。
可以这样说:控制论的这些方法都有它们各自的价值并且继续在理论和实践中作出重要的贡献。
控制一词有两个主要的含义。
首先,检测实物或数学装置是否能够达到令人满意的性能。
其次,对装置进行操作或施加影响,使其按要求运行。
控制就是使装置“从混乱到有序”(拉丁铭文)。
控制论的思想可以追溯到亚里士多德时期。
在他的最有影响的著作“政治”一书中,写道:“……如果每个仪器可以完成自己的工作,遵循或预见其它装置的意愿……,如果梭子编织纬纱和拨子弹奏七弦琴而不需要手引导他们,那么首领将不需要仆人,主人也不需要奴隶。
”我们看到,亚里士多德用非常明晰的方式描述了控制理论的目标:使生产过程自动运行,完成人们要求的目标,并让人类获得自由。
首先,人类至高无上。
自然或人工系统的描述更多的是人为的,往往不是它们是什么,而更多的是它们像什么。
即使由欧几里得和亚历山大时期(200 - 284年)的丢番图的工作综合形成的古代数学,都是用三段论法进行描述。
可以将世界看作是一个名词或动词。
古代哲学家断言,世界在“没有太多”戒律下按照法律、所有生物体支配的方法进行论述。
斐波那契(1170年至1250年)在他的书《算术宝典》中第一次尝试引入计算。
然而,经过三个世纪后计算的重要性才得到体现。
笛卡尔(1596 〜1650年)提出了方法的概念。
伽利略(1564年〜1642年)开始使用物理实验,后来艾萨克·牛顿爵士(1642年〜1727年)和拜伦·戈特弗里德·莱布尼茨(1646年至1716年)引入微积分学,完成科学的第一次质变,将科学的运算基础(这主要是继承了亚里士多德的思想)转变成我们今天所知的现代形式。
现代控制理论的发展概况
现代控制理论的发展概况传统的控制理论是在20世纪30到40年代,奈奎斯特、伯德、维纳等人的著作为自动控制理论的初步形成而奠定了基础的。
而由于航空航天技术的推动和计算机技术飞速发展,控制理论在1960年前后有了重大的突破和创新。
在此期间,由卡尔曼提出的线性控制系统的状态空间法、能控性和能观测性的概念,奠定了现代控制理论的基础,其提出的卡尔曼滤波,在随机控制系统的分析与控制中得到广泛应用;庞特里亚金等人提出了极大值原理,深入研究了最优控制问题;由贝而曼提出最优控制的动态规划法,广泛用于各类最优控制问题。
这些就构成了后来被称为现代控制理论的发展起点和基础。
罗森布洛克、麦克法轮和欧文斯研究了使用于计算机辅助控制系统设计的现代频域法理论,将经典控制理论传递函数的概念推广到多变量系统,并探讨了传递函数矩阵与状态方程之间的等价转换关系,为进一步建立统一的线性系统理论奠定了基础。
20世纪70年代奥斯特隆姆和朗道在自适应控制理论和应用方面作出了贡献。
与此同时,关于系统辨识、最优控制、离散时间系统和自适应控制的发展大大丰富了现代控制理论的内容。
鲁棒控制理论阶段:由于现代数学的发展,结合着H2和H¥等范数而出现了H2和H ¥控制,还有逆系统控制等方法。
20世纪70年代末,控制理论向着“大系统理论”、“智能控制理论”和“复杂系统理论”的方向发展。
“大系统理论”:用控制和信息的观点,研究各种大系统的结构方案、总体设计中的分解方法和协调等问题的技术基础理论。
“智能控制理论”:研究与模拟人类智能活动及其控制与信息传递过程的规律,研制具有某些拟人智能的工程控制与信息处理系统的理论。
“复杂系统理论”:把系统的研究拓广到开放复杂巨系统的范筹,以解决复杂系统的控制为目标。
而“现代控制理论”这一名称是1960年卡尔曼的著名文章发表后出现的,其在经典控制理论的基础上,以线性代数和微分方程为主要的数学工具,以状态空间法为基础,分析与设计控制系统。
《现代控制理论》课程教案
《现代控制理论》课程教案第一章:绪论1.1 课程简介介绍《现代控制理论》的课程背景、意义和目的。
解释控制理论在工程、科学和工业领域中的应用。
1.2 控制系统的基本概念定义控制系统的基本术语,如系统、输入、输出、反馈等。
解释开环系统和闭环系统的区别。
1.3 控制理论的发展历程概述控制理论的发展历程,包括经典控制理论和现代控制理论。
介绍一些重要的控制理论家和他们的贡献。
第二章:数学基础2.1 线性代数基础复习向量、矩阵和行列式的基本运算。
介绍矩阵的特殊类型,如单位矩阵、对角矩阵和反对称矩阵。
2.2 微积分基础复习微积分的基本概念,如极限、导数和积分。
介绍微分方程和微分方程的解法。
2.3 复数基础介绍复数的基本概念,如复数代数表示、几何表示和复数运算。
解释复数的极坐标表示和欧拉公式。
第三章:控制系统的基本性质3.1 系统的稳定性定义系统的稳定性,并介绍判断稳定性的方法。
解释李雅普诺夫理论在判断系统稳定性中的应用。
3.2 系统的可控性定义系统的可控性,并介绍判断可控性的方法。
解释可达集和可观集的概念。
3.3 系统的可观性定义系统的可观性,并介绍判断可观性的方法。
解释观测器和状态估计的概念。
第四章:线性系统的控制设计4.1 状态反馈控制介绍状态反馈控制的基本概念和设计方法。
解释状态观测器和状态估计在控制中的应用。
4.2 输出反馈控制介绍输出反馈控制的基本概念和设计方法。
解释输出反馈控制对系统稳定性和性能的影响。
4.3 比例积分微分控制介绍比例积分微分控制的基本概念和设计方法。
解释PID控制在工业控制系统中的应用。
第五章:非线性控制理论简介5.1 非线性系统的特点解释非线性系统的定义和特点。
介绍非线性系统的常见类型和特点。
5.2 非线性控制理论的方法介绍非线性控制理论的基本方法,如反馈线性化和滑模控制。
解释非线性控制理论在实际应用中的挑战和限制。
5.3 案例研究:倒立摆控制介绍倒立摆控制系统的特点和挑战。
解释如何应用非线性控制理论设计倒立摆控制策略。
最优控制
§6-1 概述
例如,在时间定义域[ t 0,t f ]上的目标泛函数为
(8)
J
tf
t0
L[ x (t ), u(t ), t ]dt
基本约束条件是受控对象的状态方程,如
x f [ x (t ), u(t ), t ]
最优控制要解决的题目是 —— 在满足上式的约束条件下,寻求最优控制函数 使目标泛函数取得极值(最大值或最小值)。
(3)
j [ x (t0 )] 0
相应的始端集为 Ω0 { x (t0 ) | 此时,
j 1, 2,..., m m ≤ r
j [ x (t0 )] 0}
x (t0 ) Ω0
称之为可变始端。
四、明确终端条件 固定终端: 终端时刻 tf 给定,终端状态 自由终端: 终端时刻 tf 给定,终端状态
... ... ... ...
2 f u1 un 2 f u2 un 2 f 2 un
最优控制 21
§6-3 静态最优化问题的解 (5)
例题6-1 设:
2 2 f ( x) 2 x12 5 x2 x3 2 x2 x3 2 x3 x1 6 x2 3
§6-1 概述
四、最优化的通常描述 目标函数:
(5)
J ( x) f ( x)
gi ( x ) 0
约束条件为等式约束
i 1,2,..., m
j 1,2,..., l
和不等式约束
h j ( x) ≤0
最优化的任务:在上述约束条件下,寻求 x ,使目标 函数取得最优值(最大或最小)。
最优控制 9
求
f ( x)
第二章-线性系统理论-2.7最优控制
信息科学与技术学院自控教研室
二、研究最优控制的前提条件
在研究确定性系统的最优控制时,前提条件是: 1.给出受控系统的动态描述,即状态方程 对连续时问系统 对离散时间系统
2.7 最优控制
(6)
2.明确控制作用域 在工程实际问题中,控制矢量 意大。即 上式的点 往往不能在 空间中任意取值,
而必须受到某些物理限制,例如,系统中的控制电压,控制功率不能取得任 要满足某些约束条件,这时,在 的集合,记作: 空间中,把所有满足
信息科学与技术学院自控教研室
2.7 最优控制
3 无限时间状态调节器问题 对于无限时间状态调节器,这里要强调以下几点: 1)适用于线性定常系统,且要求系统完全能控,而在有限时间状态调节 器中则不强调这一点。 2)在性能泛函中,由于 去了意义,即 3)与有限时间状态调节器一样,最优控制也是全状态的线性反馈,结构 图也与前面的相同。但是,这里的P 是n×n 维的实对称常矩阵,是黎卡捉矩 阵代数方程的解。因此,构成的是一个线性定常闭环系统。 4)闭环系统是渐近稳定的,即系统矩阵 的特征值均具 信息科学与技术学院自控教研室 ,而使终端泛函 失
1
P(t ) 是下列黎卡提代数微分方程的解:
PA AT P PBQ2 BT P C T Q1C 0 g [ PBQ2 BT AT ]1 C T Q1 z
最优轨线满足: x (t ) [ A BQ 1BT P]x BQ 1BT g 2 2 信息科学与技术学院自控教研室
2.7 最优控制
相应的始端集为:
此时,
则称为可变始端。
和终端状态 都是给
4.明确终端条件 类似于始端条件,固定终端是指终端时刻 定的。 自由端则是在给定 则是指 情况下,
控制理论发展历史
控制理论发展历史综述一:20世纪40年代末-50年代的经典控制理论时期,着重解决单输入单输出系统的控制问题,主要数学工具是微分方程、拉氏变换、传递函数;主要方法是时域法、频域法、根轨迹法;主要问题是系统的稳、准、快。
二:20世纪60年代的现代控制理论时期,着重解决多输入多输出系统的控制问题,主要数学工具是以此为峰方程组、矩阵论、状态空间法主要方法是变分法、极大值原理、动态规划理论;重点是最优控制、随即控制、自适应控制;核心控制装置是电子计算机。
三:20世纪70年代之后的先进控制理时期,先进控制理论是现代控制理论的发展和延伸。
先进控制理论内容丰富、涵盖面最广,包括自适应控制、鲁棒控制、模糊控制、人工神经网络控制等。
经典控制理论经典控制理论适用于单输入、单输出的线性定常(参数不随时间而变)系统。
发展过程1.原始阶段中国,两千年前我国发明的指南车:一种开环自动调节系统,它利用差速齿轮原理,利用齿轮传动系统,根据车轮的转动,由车上木人指示方向。
不论车子转向何方,木人的手始终指向南方,“车虽回运而手常指南”。
2.起步阶段人类社会发展,有一个点把人类社会的发展分成两大部分,那就是工业革命。
18世纪中叶之前,不管你什么怎么划分人类社会也好(农业牧业手工业),社会的发展始终离不开人力,就是必须得有人亲自去做。
18世纪中叶之后,机器的出现,使得以机器取代了人力,所以称之为革命。
然后机器的出现变革了人类的整个历史,直至现代社会文明的如此进步。
工业革命的开始的标志为哈格里夫斯发明的珍妮纺纱机,而工业革命的标志是瓦特改良蒸汽机,为什么扯这么多?如果机器不能控制,那和工具又有什么区别?所以工业革命的标志是瓦特改良蒸汽机。
钱学森也在最新一版的工程控制论中提到技术革命。
1769年,控制思想首次应用于工业控制的是瓦特,发明用来控制蒸汽机转速的飞球离心控制器。
以后人们曾经试图改善调速器的准确性,却常常导致系统产生振荡。
1868年以前,这一百年来,自动控制装置的设计还出于“直觉”阶段,没有系统的理论指导,因此在控制系统的各项性能(稳、准、快)的协调方面经常出现问题。
基于自适应动态规划的一类带有时滞的离散时间非线性系统的最优控制
Vol.36,No.1ACTA AUTOMATICA SINICA January,2010An Optimal Control Scheme for a Class of Discrete-time Nonlinear Systems with Time Delays Using AdaptiveDynamic ProgrammingWEI Qing-Lai1ZHANG Hua-Guang2LIU De-Rong1ZHAO Yan3Abstract In this paper,an optimal control scheme for a class of nonlinear systems with time delays in both state and control variables with respect to a quadratic performance index function is proposed using a new iterative adaptive dynamic programming (ADP)algorithm.By introducing a delay matrix function,the explicit expression of the optimal control is obtained using the dynamic programming theory and the optimal control can iteratively be obtained using the adaptive critic technique.Convergence analysis is presented to prove that the performance index function can reach the optimum by the proposed method.Neural networks are used to approximate the performance index function,compute the optimal control policy,solve delay matrix function,and model the nonlinear system,respectively,for facilitating the implementation of the iterative ADP algorithm.Two examples are given to demonstrate the validity of the proposed optimal control scheme.Key words Adaptive dynamic programming(ADP),approximate dynamic programming,time delay,optimal control,nonlinear system,neural networksDOI10.3724/SP.J.1004.2010.00121The optimal control problem of nonlinear systems has always been a key focus in the controlfield in the last several decades.Coupled with this is the fact that noth-ing can happen instantaneously,as is so often presumed in many mathematical models.So strictly speaking,time delays exist in the most practical control systems.Time delays may result in degradation in the control efficiency even instability of the control systems.So there have been many studies on the control systems with time delay in various researchfields,such as electrical,chemical engineer-ing,and networked control[1−2].The optimal control prob-lem for the time-delay systems always attracts considerable attention of the researchers and many results have been obtained[3−5].In general,the optimal control for the time-delay systems is an infinite-dimensional control problem[3], which is very difficult to solve.So many analysis and appli-cations are limited to a very simple case:the linear systems with only state delays[6].For nonlinear case with state de-lays,the traditional method is to adopt fuzzy method and robust method,which transforms the nonlinear time-delay systems to linear systems[7].For systems with time delays both in states and controls,it is still an open problem[4−5]. The main difficulty lies in the formulation of the optimal controller which must use the information of the delayed control term so as to obtain an efficient control.This makes the analysis of the system much more difficult,and there is no method strictly facing this problem even in the linear cases.This motivates our research.Adaptive dynamic programming(ADP)is a powerful tool in solving optimal control problems[8−9]and has at-tached considerable attention from many researchers in re-cent years,such as[10−16].However,most of the results focus on the optimal control problems without delays.To Manuscript received September5,2008;accepted March3,2009Supported by National High Technology Research and Development Program of China(863Program)(2006AA04Z183),National Nat-ural Science Foundation of China(60621001,60534010,60572070, 60774048,60728307),and the Program for Changjiang Scholars and Innovative Research Groups of China(60728307,4031002)1.Key Laboratory of Complex Systems and Intelligence Sci-ence,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,P.R.China2.School of Information Science and Engi-neering,Northeastern University,Shenyang110004,P.R.China3. Department of Automatic Control Engineering,Shenyang Institute of Engineering,Shenyang110136,P.R.China the best of our knowledge,there are no results discussing how to use ADP to solve the time-delay optimal control problems.In this paper,the time-delay optimal control problem is solved by the iterative ADP algorithm for the first time.By introducing a delay matrix function,the explicit expression of the optimal control function is ob-tained.The optimal control can iteratively be obtained us-ing the proposed iterative ADP algorithm which avoids the infinite-dimensional computation.Also,it is proved that the performance index function converges to the optimum using the proposed iterative ADP algorithm.This paper is organized as follows.Section1presents the preliminaries.In Section2,the time-delay optimal control scheme is proposed based on iterative ADP algorithm.In Section3,the neural network implementation for the con-trol scheme is discussed.In Section4,two examples are given to demonstrate the effectiveness of the proposed con-trol scheme.The conclusion is drawn in Section5.1PreliminariesBasically,we consider the following discrete-time affine nonlinear system with time delays in state and control vari-ables as follows:x(k+1)=f(x(k),x(k−σ))+g0(x(k),x(k−σ))u(k)+ g1(x(k),x(k−σ))u(k−τ)(1)with the initial condition given by x(s)=φ(s),s=−σ,−σ+1,···,0,where x(k)∈R n is the state vector, f:R n×R n→R n and g0,g1:R n×R n→R n×m are dif-ferentiable functions and the control u(k)∈R m.The state and control delaysσandτare both nonnegative integral numbers.Assume that f(x(k),x(k−σ))+g0(x(k),x(k−σ))u(k)+g1(x(k),x(k−σ))u(k−τ)is Lipschitz continuous on a setΩin R n containing the origin,and that system(1) is controllable in the sense that there exists a bounded con-trol onΩthat asymptotically stabilizes the system.In this paper,how to design an optimal state feedback controller for this class of delayed discrete-time systems is mainly dis-cussed.Therefore,it is desired tofind the optimal control u(x)satisfying u(x(k))=u(k)to minimize the generalized performance functional as follows:122ACTA AUTOMATICA SINICA Vol.36V(x(0),u)=∞k=0x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u T(k)R0u(k)+2u T(k)R1u(k−τ)+u T(k−τ)R2u(k−τ)(2)whereQ0Q1Q T1Q2≥0,R0R1R T1R2>0,and l(x(k),x(k−σ),u(k),u(k−τ))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+ x T(k−σ)Q2x(k−σ)+u T(k)R0u(i)+2u T(k)R1u(k−τ)+ u T(k−τ)R2u(k−τ)is the utility function.Let V∗(x)de-note the optimal performance index function which satisfiesV∗(x)=minuV(x,u)(3)According to the Bellman s optimal principle,we can get the following Hamilton-Jacobi-Bellman(HJB)equationV∗(x(k))=minu(k)x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u T(k)R0u(k)+2u T(k)R1u(k−τ)+u T(k−τ)R2u(k−τ)+V∗(x(k+1))}(4) For the optimal control problem,the state feedback con-trol u(x)must not only stabilize the system onΩbut also guarantee that(2)isfinite,i.e.,u(x)must be admissible[17].Definition1.A control u(x)is defined to be admis-sible with respect to(3)onΩif u(x)is continuous on Ω,u(0)=0,u(x)stabilizes(1)onΩ,and∀x(0)∈Ω, V(x(0))isfinite.2Properties of the iterative ADP ap-proachSince the nonlinear delayed system(1)is infinite-dimensional[3]and the control variable u(k)couples with u(k−τ),it is nearly impossible to obtain the expression of the optimal control by solving the HJB equation(1).To overcome the difficulty,a new iterative algorithm is pro-posed in this paper.The following lemma is necessary to apply the algorithm.Lemma1.For the delayed nonlinear system(1)with respect to the performance index function(2),if there exists a control u(k)=0at time point k,then there exists a bounded matrix function M(k)that makesu(k−τ)=M(k)u(k)(5) hold for j=0,1,···,n.Proof.As u(k)and u(k−τj),j=0,1,···,n are bounded real vectors,can construct a function that sat-isfiesu(k−τ)=h(u(k))(6) where j=0,1,···,n.Then,using the method of undeter-mined coefficients,let M(u(k))satisfyh(u(k))=M(u(k))u(k)(7) Then,we can obtain M(u(k))expressed asM(u(k))=h(u(k))u T(k)u(k)u T(k)−1(8)whereu(k)u T(k)−1means the generalized inverse ma-trix ofu(k)u T(k).On the other side,u(k)and u(k−τ)are both bounded real vectors,then we have h(u(k))andu(k)u T(k)−1are bounded.So M(k)=M(u(k))is thesolution.According to Lemma1,the HJB equation becomesV∗(x(k))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u∗T(k)R0u∗(k)+2u∗T(k)R1M∗(k)u∗(k)+u∗T(k)M∗T(k)R2M∗(k)u∗(k)+V∗(x(k+1))(9)where u∗(k)is the optimal control and u∗(k−τ)=M∗(k)u∗(k).2.1Derivation of the iterative ADP algorithmAccording to the Bellman s principle of optimality,wecan obtain the optimal control by differentiating the HJBequation(9)with respect to control u.Then,we can obtain the optimal control u∗(k)formu-lated asu∗(k)=−1R0+2R1M∗(k)+M∗T(k)R2M∗(k)−1×g0(x(k),x(k−σ))+g1(x(k),x(k−σ))M∗(k)T×∂V∗(x(k+1))∂x x(k+1)(10)In(10),the inverse of the termR0+2R1M∗(k)+M∗T(k)R2M∗(k)should existand a proof is presented in Appendix to guarantee theexistence of the inverse.From(10),the explicit optimal control expression u∗isobtained by solving the HJB equation(9).We can see thatthe optimal control u∗depends on M∗and V∗(x),whereV∗(x)is a solution to the HJB equation(9).While how tosolve the HJB equation is still open,there is currently nomethod for rigorously seeking for this performance indexfunction of this delayed optimal control problem.Further-more,the optimal delay matrix function M∗is also un-known which makes the optimal control u∗more difficultto obtain.So an iterative index i is introduced into theADP approach to obtain the optimal control iteratively.Firstly,for i=0,1,···,letu(i+1)(k−τ)=M(i)(k)u(i+1)(k)(11)where M(0)(k)=I and u(0)(k−τ)=M(0)(k)u(0)(k).Westart with initial performance index V(0)(x(k))=0,andthe control u(0)(k)can be computed as followsu(0)(x(k))=arg minuΓ0+V(0)(x(k+1))(12)whereΓ0=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u(0)T(k)R0u(0)(k)+2u(0)T(k)R1M(0)(k)u(0)(k)+u(0)T(k)M(0)T(k)R2M(0)(k)u(0)(k)Then,the performance index function is updated asV(1)(x(k))=Γ0+V(0)(x(k+1))(13)No.1WEI Qing-Lai et al.:An Optimal Comtrol Scheme for a Class of (123)Thus,for i =1,2,···,the iterative ADP can be used to implement the iteration betweenu (i )(x (k ))=arg min u Γ(i )+V (i )(x (k +1))=−12R 0+2R 1M (i −1)(k )+M (i −1)T (k )R 2M (i −1)(k ) −1 g 0(x (k ),x (k −σ))+g 1(x (k ),x (k −σ))M(i −1)(k )T ∂V (i )(x (k +1))∂xx (k +1)(14)whereΓ(i )=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u (i )T (k )R 0u (i )(k )+2u (i )T (k )R 1M (i −1)(k )u (i )(k )+u (i )T (k )M (i −1)T (k )R 2M (i −1)(k )u (i )(k )andV (i +1)(x (k ))=Γ(i )+V (i )(x (k +1))(15)Then,the optimal control can be obtained iteratively.From (14)and (15),it can be seen that during the iteration pro-cess,the control actions for different control steps obey different control laws.After the iteration number of i ,the obtained control laws sequence is (u (0),u (1),···,u (i )).For the infinite-horizon problem,both the optimal performance index function and the optimal control law are unique.Therefore,it is necessary to show that the iterative per-formance index function V (i )(x (k ))will converge when the iteration number i →∞under the iterative control u (i )(k )and this will be proved in the following subsection.2.2Properties of the iterative ADP algorithm In this subsection,we focus on the proof of convergence of the iteration between (14)and (15),with the perfor-mance index V (i )(x (k ))→V ∗(x (k )),∀k .Lemma 2[17].Let ˜u(i )(k ),k =0,1,···be any se-quence of control,and u (i )(k )be expressed as (14).Define V (i +1)(x (k ))as (15)and Λ(i +1)(x (k ))asΛ(i +1)(x (k ))=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+˜u (i )T (k )R 0˜u (i )(k )+2˜u(i )T (k )R 1M (i −1)(k )˜u (i )(k )+˜u(i )T (k )M (i −1)T (k )R 2M (i −1)(k )˜u (i )(k )+Λ(i )(x (k +1))(16)If V (0)(x (k ))=Λ(0)(x (k ))=0,then V (i )(x (k ))≤Λ(i )(x (k )),∀i .In order to prove the convergence of the performance index function,the following theorem is also necessary.Theorem 1.Let the performance index function V (i )(x (k ))be defined by (15).If x (k )for system (1)is controllable,then there exists an upper bound Y such that 0≤V (i )(x (k ))≤Y ,∀i .Proof.As system (1)is Lipschitz,M (i )(k )is a bounded matrix for i =0,1,···.Define a delay matrix function¯M(k )which makes χTR 0+2R 1¯M(k )+¯M T (k )R 2¯M (k ) χ−χT (R 0+2R 1M (i )(k )+M (i )T (k )R 2M (i )(k )χ≥0(17)hold for ∀i ,where χis any nonzero m -dimensional vector.Let ¯u(k ),k =0,1···be any admissible control input.De-fine a new sequence P (i )(x (k ))as follows:P (i +1)(x (k ))=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+¯uT (k )R 0¯u (k )+2¯uT (k )R 1¯M (k )¯u (k )+¯uT (k )¯M T (k )R 2¯M (k )¯u (k )+P (i )(x (k +1))(18)where P (0)(x (k ))=V (0)(x (k ))=0and ¯u(k −τ)=¯M (k )¯u(k ).V (i )(x (k ))is updated by (15).Thus,we can obtainP (i +1)(x (k ))−P (i )(x (k ))=P (i )(x (k +1))−P (i −1)(x (k +1))...=P (1)(x (k +i ))−P (0)(x (k +i ))(19)Because P (0)(x (k +i ))=0,we haveP (i +1)(x (k ))=P (1)(x (k +i ))+P (i )(x (k ))+i j =0P (1)(x (k +j ))(20)According to (18),(20)can be rewritten asP(i +1)(x (k ))=i j =0Ξ(k +j )≤∞ j =0Ξ(k +j )(21)whereΞ(k +j )=x T (k +j )Q 0x (k +j )+2x T (k +j )Q 1x (k +j −σ)+x T (k +j −σ)Q 2x (k +j −σ)+¯uT (k +j )R 0¯u (k +j )+2¯uT (k +j )R 1¯M (k +j )¯u (k +j )+¯uT (k +j )¯M T (k +j )R 2¯M (k +j )u (k +j )Noting that the control input ¯u(k ),k =0,1,···is an ad-missible control,we can obtainP (i +1)(x (k ))≤∞ j =0P (1)(x (k +j ))≤Y,∀i (22)From Lemma 1,we haveV (i +1)(x (k ))≤P (i +1)(x (k ))≤Y,∀i(23)With Lemma 1and Theorem 1,the following main the-orem can be derived.Theorem 2.Define the performance index function V (i )(x (k ))as (15),with V (0)(x (k ))=0.If x (k )for system124ACTA AUTOMATICA SINICA Vol.36 (1)is controllable,then V(i)(x(k))is a nondecreasing se-quence that is V(i)(x(k))≤V(i+1)(x(k))and V(i)(x(k))isconvergent as i→∞.Proof.For the convenience of analysis,define a newsequenceΦ(i)(x(k))as follows:Φ(i+1)(x(k))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+u(i+1)T(k)R0u(i+1)(k)+2u(i+1)T(k)R1M(i)(k)u(i+1)(k)+u(i+1)T(k)M(i)T(k)R2M(i)(k)u(i+1)(k)+Φ(i)(x(k+1))(24)with u(i)(k)obtained by(14)andΦ0(x(k))=V0(x(k))=0.V(i)(x(k))is updated by(15).In the following part,we proveΦ(i)(x(k))≤V(i+1)(x(k))by mathematical induction.First,we prove it holds for i=0.Note thatV(1)(x(k))−Φ(0)(x(k))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)≥0(25)Thus for i=0,we can getV(1)(x(k))≥Φ(0)(x(k))(26)Second,we assume it holds for i−1,i.e.,V(i)(x(k))−Φ(i−1)(x(k))≥0,∀x(k).Then,for i,from(15)and(24),we can obtainV(i+1)(x(k))−Φ(i)(x(k))=V(i)(x(k+1))−Φ(i−1)(x(k+1))≥0(27)i.e.,Φ(i)(x(k))≤V(i+1)(x(k))(28)Therefore,the mathematical induction proof is com-pleted.Moreover,from Lemma1,we know that V(i)(x(k))≤Φ(i)(x(k))and therefore we can obtainV(i)(x(k))≤Φ(i)(x(k))≤V(i+1)(x(k))(29)which proves that V(i)(x(k))is a nondecreasing sequencebounded by(23).Hence,we conclude that V(i)(x(k))is anondecreasing convergent sequence as i→∞.We note the obvious corollary.Corollary1.If Theorem2holds,then the delay matrixfunction M(i)(k)is a convergent sequence,as i→∞.According to Corollary1,we defineM(∞)(k)=limi→∞M(i)(k)(30)Next,we will prove that the performance index functionsequence V(i)(x(k))converges to V∗(x(k))as i→∞.AsV(i)(x(k))is a convergent sequence as i→∞,we defineV(∞)(x(k))=limi→∞V(i)(x(k))(31)Let¯u l be the l-th admissible control.Similar to theproof of Theorem1,we can construct the performance in-dex function sequence P(i)l(x)as follows:P(i+1)l(x(k))=x T(k)Q0x(k)+2x T(k)Q1x(k−σ)+x T(k−σ)Q2x(k−σ)+¯u T l(k)R0¯u l(k)+2¯u l(k)R1M(∞)(k)¯u l(k)+¯u l(k)M(∞)T(k)R2M(∞)(k)¯u l(k)+P(i)l(x(k+1))(32)with P(0)l(·)=0and¯u l(k)=M(∞)(k)¯u l(k−τ).Accordingto Theorem1,we haveP(i+1)l(x(k))=ij=0x T(k+j)Q0x(k+j)+2x T(k+j)Q1x(k+j−σ)+x T(k+j−σ)Q2x(k+j−σ)+¯u T l(k+j)R0¯u l(k+j)+2¯u T l(k+j)R1M(∞)(k+j)¯u l(k+j)+¯u T l(k+j)M(∞)T(k+j)R2×M(∞)(k+j)¯u l(k+j)(33)LetP(∞)l(x(k))=limi→∞P(i+1)l(x(k))(34)So,we haveP(i)l(x(k))≤P(∞)l(x(k))(35)Theorem3.Define P(∞)l(x(k))as in(34),and definethe performance index function V(i)(x(k))as in(15)withV(0)(·)=0.For any state vector x(k),define V∗(x(k))=min lP(∞)l(x(k))starting from x(k)for all admissiblecontrol sequences.Then,we can conclude that V∗(x(k))is the limit of the performance index function V(i)(x(k))asi→∞.Proof.For any l,there exists an upper bound Y l,suchthatP(i+1)l(x(k))≤P(∞)l(x(k))≤Y l(36)According to(23),for∀l,we haveV(∞)(x(k))≤P(∞)l(x(k))≤Y l(37)Since V∗(x(k))=min lP(∞)l(x(k)),for any >0,there exists an admissible control¯u K,where K is a nonneg-ative number such that the associated performance indexfunction satisfies P(∞)K(x(k))≤V∗(x(k))+ .According to(23),we have V(∞)(x(k))≤P(∞)l(x(k))for any l.Thus,we can obtain V(∞)(x(k))≤P(∞)K(x(k))≤V∗(x(k))+ .Noting that is chosen arbitrarily,we haveV(∞)(x(k))≤V∗(x(k))(38)On the other hand,since V(i)(x(k))is bounded for∀i,according to the definition of admissible control,the con-trol sequence associated with the performance index func-tion V(∞)(x(k))must be an admissible control,i.e.,thereNo.1WEI Qing-Lai et al.:An Optimal Comtrol Scheme for a Class of ···125exists an admissible control ¯u (i )N such that V(∞)(x (k ))=P (∞)N (x (k )).Combining with the definition V ∗(x (k ))=min l P (∞)l(x (k )),we can obtainV (∞)(x (k ))≥V ∗(x (k ))(39)Therefore,combining (38)and (39),we can conclude thatV (∞)(x (k ))=lim i →∞V (i )(x (k ))=V ∗(x (k ))(40)namely,V ∗(x (k ))is the limit of the performance indexfunction V (i )(x (k )),as i →∞. Based on Theorem 3,we will prove that the performance index function V ∗(x (k ))satisfies the principle of optimality,which shows that V (i )(x (k ))can reach the optimum as i →∞.Theorem 4.For any state vector x (k ),the “op-timal”performance index function V ∗(x (k ))satisfies V ∗(x (k ))=min u (k ){x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u T (k )R 0u (k )+2u T (k )R 1M (k )u (k )+u T (k )M (k )R 2M (k )u (k )+V ∗(x (k +1))},where u (k −τ)=M (k )u (k ).Proof.For any u (k )and i ,based on Bellman s optimal-ity principle,we haveV (i )(x (k ))≤Υ(i −1)+V (i −1)(x (k +1))(41)whereΥ(i −1)=x T (k )Q 0x (k )+2x T(k )Q 1x (k −σ)+x T(k −σ)Q 2x (k −σ)+u T(k )R 0u (k )+2u T(k )R 1M (i −1)(k )u (k )+u T(k )M(i −1)T(k )R 2M(i −1)(k )u (k )As V (i )(x (k ))≤V (i +1)(x (k ))≤V (∞)(x (k ))andV (∞)(x (k ))=V ∗(x (k )),we can obtainV (i )(x (k ))≤Υ(i −1)+V ∗(x (k +1))(42)If i →∞,then we haveV ∗(x (k ))≤Υ(∞)+V ∗(x (k +1))(43)Since u (k )in the above equation is chosen arbitrarily,the following equation holdsV ∗(x (k ))≤min u (k )Υ(∞)+V ∗(x (k +1)) (44)On the other hand,for any i ,the performance index func-tion satisfiesV (i )(x (k ))=Ω(i −1)+V (i −1)(x (k +1))(45)whereΩ(i −1)=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u (i −1)T (k )R 0u (i −1)(k )+2u (i )T (k )R 1M (i −2)(k )u (i −1)T (k )+u(i −1)T(k )M(i −2)T(k )R 2M(i −2)(k )u(i −1)T(k )Combining with V (i )(x (k ))≤V ∗(x (k )),∀i ,we haveV ∗(x (k ))≥Ω(i −1)+V (i −1)(x (k +1))(46)Let i →∞,thenV ∗(x (k ))≥limi →∞Ω(i −1)+V(i −1)(x (k +1))≥min u (k )Ω(∞)+V ∗(x (k +1)) (47)Combining (44)with (47),we have V ∗(x (k ))=min u (k ){Ω(∞)+V ∗(x (k +1))}=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u ∗T (k )R 0u ∗(k )+2u ∗T (k )R 1M (∞)(k )u ∗(k )+u ∗T (k )M (∞)T (k )R 2M (∞)(k )u ∗(k )+V ∗(x (k +1))(48)Thus,we have that u (i )(k )→u ∗(k )as i →∞so does u (i )(k −τ).On the other hand,we also have M (i )(k )→M (∞)(k )and u (i )(k −τ)=M (i −1)(k )u (i )(k ).Letting i →∞,we getu ∗(k −τ)=M (∞)(k )u ∗(k )(49)Therefore,we have M (∞)(k )=M ∗(k )and (48)can be written asV ∗(x (k ))=x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u ∗T (k )R 0u ∗(k )+2u ∗T (k )R 1M ∗(k )u ∗(k )+u ∗T (k )M ∗T (k )R 2M ∗(k )u ∗(k )+V ∗(x (k +1))(50)where u ∗(k −τ)=M ∗(k )u ∗(k ). Therefore,we can conclude that the performance index function V (i )(x (k ))converges to the optimum V ∗(x (k ))as i →∞.2.3Implementation of iterative ADP algorithm Given the above preparation,we may formulate the de-sired iterative ADP approach to nonlinear systems with delays as follows.Step 1.Give initial state x (s )=φ(s ),s =−σ,−σ+1,···,0,initial control u (ρ),ρ=0,1,···,k −1;give i max and computation accuracy ε.Step 2.Set the iterative step i =0,M (0)(k )=I ,and V (0)(·)=0.Step pute u (0)(k )by (12)and the performance index function V (1)(x (k ))by (13).Step 4.For the iterative step i ≥1,compute u (i )(k )by (14).Step pute the performance index function V (i )(x (k ))by (15).Step 6.IfV (i )(x (k ))−V (i −1)(x (k )) 2<ε(51)go to Step 9;otherwise,go to Step 7.Step 7.If i >i max ,go to Step 9;otherwise,compute M (i )(k )byM (i )(k )=u (i )(k −τ)u (i )T (k ) u (i )(k )u (i )T (k ) −1(52)126ACTA AUTOMATICA SINICA Vol.36Step 8.Set i =i +1and go to Step 4.Step 9.Stop.In (52)of the above algorithm,the term u (i )(k )u (i )T (k ) −1can be obtained by the Moore-Penrose pseudoinverse technique to compute the delay matrix function M (i )(k ).There are two other methods to compute M (i )(k ).One choice is to introduce a small zero-mean Gaussian noise with variances γ2denoted by δ(0,γ2)into the control u (k −τ)[18].The other choice is to use a neural network to approximate delay matrix function M (i )(k ).In this paper,we use the neural network approximation method and the details will be shown in the next section.3Neural network implementationIn the case of linear systems,the performance index func-tion is quadratic and the control policy is linear.In the nonlinear case,this is not necessarily true and therefore we use neural networks to approximate u (i )(k )and V (i )(x (k )).Assume the number of hidden layer neurons is denoted by l ,that the weight matrix between the input layer and hidden layer is denoted by V ,and that the weight matrix between the hidden layer and output layer is denoted by W .Then the output of three-layer neural network (NN)is represented byˆF(X ,V,W )=W T σ(V T X )(53)where σ(V T X )∈R l ,[σ(z )]i =e zi −e−z ie zi +e −z i,i =1,···,l,are the activation functions.The NN estimation error can be expressed byF (X )=F (X ,V ∗,W ∗)+ε(X )(54)where V ∗and W ∗are the ideal weight parameters,andε(X )is the reconstruction error.Here,there are four neural networks,which are critic network,model network,action network,and delay matrix function network (M network),respectively.All the neu-ral networks are chosen as three-layer feedforward network.The whole structure diagram is shown in Fig.1.The utility term in the figure denotes x T (k )Q 0x (k )+2x T (k )Q 1x (k −σ)+x T (k −σ)Q 2x (k −σ)+u T (k )R 0u (k )+2u T (k )R 1u (k −τ)+u T (k −τ)R 2u (k −τ).Fig.1The structure diagram of the algorithm3.1The model networkThe model network is to approximate the system dy-namic and it should be trained before the implementation of the iterative ADP algorithm.The update rule of the model network is adopted as the gradient decent method.The training process is simple and general.The details can be seen in [13,19]and it is omitted here.After the model network is trained,its weights are kept unchanged.3.2The M networkThe M network is to approximate the delay matrix func-tion M (k ).The output of the M network is denoted asˆu (k −τ)=W T M σ(V TM u (k ))(55)We define the error function of the model network ase M (k )=ˆu(k −τ)−u (k −τ)(56)Define the performance error measure asE M (k )=12e TM (k )e M (k )(57)Then,the gradient-based weight update rule for thecritic network can be described byw M (k +1)=w M (k )+∆w M (k )(58)∆w M (k )=αM−∂E M (k )∂w M (k )(59)where αM is the learning rate of the M network.3.3The critic networkThe critic network is used to approximate the perfor-mance index function V (i )(x (k )).The output of the critic network is denoted asˆV (i )(x (k ))=W T ci σ(V T ci z (k ))(60)The target function can be written asV (i +1)(x (k ))=Γ(i )+ˆV(i )(x (k +1))(61)Then,we define the error function for the critic networkase ci (k )=ˆV(i +1)(x (k ))−V (i +1)(x (k ))(62)And the objective function to be minimized in the criticnetwork isE ci (k )=12e 2ci (k )(63)So the gradient-based weight update rule for the critic network is given byw c (i +1)(k )=w ci (k )+∆w ci (k )(64)∆w ci (k )=αc−∂E ci (k )∂w ci (k )(65)∂E ci (k )∂w ci (k )=∂E ci (k )∂ˆV(i )(x (k ))∂ˆV(i )(x (k ))∂w ci (k )(66)where αc >0is the learning rate of critic network andw c (k )is the weight vector in the critic network.No.1WEI Qing-Lai et al.:An Optimal Comtrol Scheme for a Class of ···1273.4The action networkIn the action network,the state x (k )is used as input to create the optimal control as the output of the network.The output can be formulated asˆu(i )(k )=W T ai σ(V Tai x (k ))(67)The target of the output of the action network is givenby (14).So,we can define the output error of the action network ase ai (k )=ˆu (i )(k )−u (i )(k )(68)where u (i )(k )is the target function which can be describedbyu (i )(k )=−12R 0+2R 1M (i −1)(k )+M (i −1)T (k )R 2M (i −1)(k ) −1×g 0(x (k ),x (k −σ))+g 1(x (k ),x (k −σ))M(i −1)(k )T ∂ˆV (i )(x (k +1))∂xx (k +1)As u (i )(k −τ)=M (i −1)(k )u (i )(k ),we have ∂uu (i )(k −τ)∂uu (i )(k )=M (i −1)(k ).Then,according to (55),M (i −1)(k )can be ex-pressed asM (i −1)ij (k )=V T Mi 1− σ(V TM u (k ))2iW Mj (69)for i,j =1,2,···,m .M (i −1)ij(k )denotes the element at row i ,column j of matrix M (i −1)(k );V Mi and W Mj mean the column i and column j of the weight matrices V M and W M ,respectively; σ(V TMu (k )) i is the i th element of the vector σ(V TMu (k )).The weighs in the action network are updated to mini-mize the following performance error measure:E ai (k )=12e Tai (k )e ai (k )(70)The weights updating algorithm is similar to the one for the critic network.By the gradient descent rule,we can obtainw a (i +1)(k )=w ai (k )+∆w ai (k )(71)∆w ai (k )=βa−∂E ai (k )ai(72)∂E ai (k )∂w ai (k )=∂E ai (k )∂e ai (k )∂e ai (k )∂uu (i )(k )∂uu (i )(k )∂w ai (k )(73)where βa >0is the learning rate of then action network.4SimulationIn this section,two examples are provided to demon-strate the effectiveness of the control scheme proposed inthis paper.4.1Optimal control for state delayed system For the first example,the nonlinear system is a modifi-cation of Example 1in [13],which introduces state delays into the system.Consider the following affine nonlinear system:x (k +1)=f (x (k ),x (k −σ))+g (x (k ),x (k −σ))u (k )(74)where x (k )=x 1(k )x 2(k )T ,u (k )=u 1(k )u 2(k ) T ,and f (x (k ),x (k −σ))= x 1(k )exp(x 32(k ))x 2(k −2)x 32(k )x 1(k −2) ,g (x (k ),x (k −σ))= −0.200−0.2.The time delay in thestate is σ=2and the initial condition is x (k )=[1−1]T for −2≤k ≤0.The performance index function is defined as (2),where Q 0=Q 2=R 0=I and Q 1=R 1=R 2=0.We implement the algorithm at the time instant k =5.We choose three-layer neural networks as the critic network,the action network,and the model network with the struc-tures 4-10-2,2-10-1,and 6-10-2,respectively.The initial weights of the action network,critic network,and model network are all set to be random in [−0.5,0.5].It should be mentioned that the model network should be trained first.For the given initial state,we train the model net-work for 3000steps under the learning rate αm =0.05.After the training of the model network,the weights keep unchanged.Then,the critic network and the action net-work are trained for 3000steps so that the given accuracy ε=10−6is reached.In the training process,the learning rate βa =αc =0.05.The convergence curve of the perfor-mance index function is shown in Fig.2.Then,we apply the optimal control to the system for T f =30time steps and obtain the following results.The state trajectories are given as Fig.3and the corresponding control curves are given as Fig.4.Fig.2The convergence of performance indexfunctionFig.3The state variable trajectories。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章离散时间系统最优控制
•前面所讨论的都是关于连续时间系统的最优控制问题。
•现实世界中,很多实际系统本质上是时间离散的。
•即使是系统是时间连续的,因为计算机是基于时间和数值上都离散的数字技术的,实行计算机控制时必须将时间离散化后作为离散系统处理。
引言
•因此,有必要讨论离散时间系统的最优控制问题。
•离散时间系统仍然属于连续变量动态系统(CVDS)范畴。
注意与离散事件动态系统(DEDS)的区别。
•
CVDS 与DEDS 是自动化领域的两大研究范畴,考虑不同的自动化问题。
5.1 离散时间系统最优控制问题的提法
(1) 离散系统最优控制举例——多级萃取过程最优控制
•萃取是指可被溶解的物质在两种互不相溶的溶剂之间的转移,一般用于将要提取的物质从不易分离的溶剂中转移到容易分离的溶剂中。
•多级萃取是化工生产中提取某种价值高、含量低的物质的常用生产工艺。
萃取器萃取器萃取器萃取器V u (0)u (1)u (k -1)u (N -1)
V
V V V V V
含物质A 的混合物以流量V 进入萃取器1,混合物中A 浓度x (0);
萃取剂以流量u (0)通过萃取器1,单位体积萃取剂带走A 的量为z (0);
一般萃取过程的萃取物含量均较低,可认为通过萃取器1后混合物流量仍为V ;
流出萃取器1的混合物中A 物质的浓度为x (1)。
以此类推至萃取器N 。
1
2
k
N
x (0)
z (0)z (1)
z (k-1)
z (N -1)
x (1)
x (2)
x (k -1)
x (k )
x (N )
x (N -1)
多级萃取过程
(2) 离散系统最优控制问题的提法
给定离散系统状态方程(5-1-6)和初始状态
(5-1-7)
其中分别为状态向量和控制向量,f 为连续可微的n 维
函数向量。
考虑性能指标
1
,,1,0],),(),([)1( N k k k u k x f k x 0
)0(x x m
n R k u R k x )(,)( 1
N 其中Φ、L 连续可微。
•离散系统的最优控制问题就是确定最优控制序列u *(0),u *(1),…,u *(N -1),使性能指标J 达到极小(或极大)值。
•
将最优控制序列u *(0),u *(1),…,u *(N -1)依次代入状态方程,并利用初始条件,可以解出最优状态序列x *(1),x *(2),…,x *(N ),也称为最优轨线。
(5-1-8)
]
),(),([]),([k k k u k x L N N x J
5.3离散极大值原理
•
与连续系统相似,离散变分法解最优控制问题多有不便,需考虑离散极大值原理。
考虑离散系统状态方程
(5-3-1)初始状态
(5-3-2)1
· · ·,1,0],),(),([)1( N k k k u k x f k x ,0)0(x x 终态应满足的约束条件
(5-3-3)其中:x (k )∈R n ,u (k )∈R m 。
u (k )不受约束,f 为n 维连续可微向量
函数,Ψ是x (N )的连续可微r 维向量函数,Φ是x (N )的连续可微标量函数,L 为x (k )、u (k )的连续可微标量函数,要求最优控制序列u *(k ), k =0,…, N -1,使J 最小。
]),([ N N x 和性能指标(5-3-4)
1
]),(),([]),([N k k k u k x L N N x J
上述问题中,当控制序列受到约束时,即
时,其中是m 维实函数空间的闭子集,
即,则与连续系统相同,有相应的极大值原理形式,即上述定理中(3)不同,为
(3’)离散H 函数对最优控制序列达到最小值,即:
(5-3-16)
离散最优控制的极大值原理)1,,1)(( N k k u 1,,0,)( N k k u m
R ]),(),(),([min ]),(),(),([*
*
)(*
*
*
k k u k k x H k k u k k x H k u 11
•充分条件为:
(i) 离散最优控制问题的状态集为凸集,(ii) 性能指标泛函为凸函数
•如果上述条件不能满足,则不能确定极大值原理是否是离散最优控制的充分AND/OR 必要条件。
5.4连续与离散极大值原理的比较
•本章讨论的离散系统极大值原理和在第三章讨论的连续系统极大值原理,基本原理是相同的,因此我们希望在解决同一个最优控制问题时应该得到同样的结果。
•然而,从连续系统极大值原理出发,以不同的变换途径所得的离散系统极大值原理在形式上有所不同,解决同一问题所得到的解
也会有所不同。
•通过比较两种不同的离散系统极大值原理获取途径,分析同一问题所得到的离散最优控制解不同的原因,可以帮助尽量避免这种现象产生。