§7.4动态规划与离散系统最优控制

合集下载

第七章--最优控制

第七章– 最优控制理论
Optimal Control Theory
同济大学汽车学院：赵治国教授 Prof. Zhiguo Zhao School of Automotive Studies, Tongji University Tel：69589117(O) E-mail: Zhiguozhao@
*
x(t ) x* (t )上的变分等于零，即 J [ x* (t )] 0
§7－3 泛函与变分的基本概念
证明：对于任意给定的
x(t ) 来说，J [ x* (t ) x(t )]是实变量的 * * J [ x ( t )] 函数。泛函在 x (t ) 达到极值，即函数 J [ x (t ) x(t )] 在 0 时达到极值，所以它的导数在 0 时应为零，即
二. 最优控制问题的一般提法用数学语言描述最优控制问题，应包括以下几个方面的内容： 1. 受控系统的数学模型用状态方程描述：x (t ) f [ x(t ), u (t ), t ] 2. 受控系统的始端和终端条件，即状态方程的边界条件对最优控制问题始端条件通常是已知的：x(t0 ) x0 终端条件可以用一个目标集表示：
J J [ x()] J [ x(t ) x(t )] 中的 x(t ) 应理解为某一特定函数的整体，而不是对应于的
dx(t ) J ( x (t ) t )dt 0 dt 1 5 2 J (t t )dt 0 6 2 1 e J (e 2t tet )dt 1 0 2
1 2
若 x (t ) t 有
t x ( t ) e 若有
§7－3 泛函与变分的基本概念
2.泛函自变量的变分泛函 J [ x (t )] 的自变量函数 x (t ) 与标称函数 x* (t )之间的差值函数

离散控制系统的最优控制理论

离散控制系统的最优控制理论离散控制系统的最优控制理论是控制工程领域中的一个重要研究方向。

离散控制系统是指在时间上只能在特定时间点进行操作的系统，相比连续控制系统，离散控制系统需要使用离散时间模型进行建模和控制设计。

最优控制理论是研究如何设计控制策略以使系统能够在某种指标下达到最优性能的一门学科。

离散控制系统的最优控制理论旨在寻找最优的控制策略，使得系统的性能指标如稳定性、响应速度、能耗等在给定约束条件下达到最优。

1. 离散控制系统的建模离散控制系统的建模是进行最优控制设计的基础。

在离散控制系统中，系统的状态在一系列离散时间点上进行更新。

离散控制系统的建模通常使用差分方程或状态空间模型。

差分方程描述了系统的状态在每个时间点的更新关系，而状态空间模型则将系统的状态和输入表示为向量，并使用矩阵形式描述系统的动态特性。

根据具体问题的需要，选择合适的建模方法可以更好地描述系统的动态行为。

2. 离散控制系统的性能指标离散控制系统的性能指标是评价系统控制性能的定量指标。

常见的性能指标包括稳定性、响应速度、能耗等。

稳定性是系统重要的性能指标之一，用于评估系统是否能够在有限时间内达到稳定状态。

响应速度是指系统对输入变化的快速响应能力。

能耗则是指系统在完成特定任务时所消耗的能源。

通过选取合适的性能指标，可以更好地评估和改进离散控制系统的性能。

3. 最优控制理论的基本原理最优控制理论的基本原理是寻找一组最优控制策略，使得系统的性能指标达到最优。

最优控制问题通常可以通过数学方法建立为一个优化问题。

其中，最常见的方法是最小化或最大化一个性能指标的数学表达式。

为了求解这些优化问题，可以使用动态规划、最优化理论等数学工具。

最优控制理论提供了一种系统优化设计的方法，可以帮助工程师设计更优秀的控制策略。

4. 最优控制策略的设计方法最优控制策略的设计方法取决于具体的离散控制系统和性能指标。

常见的设计方法包括经典控制方法和现代控制方法。

最优控制-第七章-动态规划法

当∆t很小时，有

t t
t
Lx, u, t d t Lx, u, t t
J x, t min
*
min
uU

uU

tf
t0
Lx, u, t d t Φ xt f
tf t t

t t
t
Lx, u, t d t
Lx, u, t d t Φ xt f
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 3 2 2 Q3 B
5 Q2
第一段：P1、Q1的前站是始发站A。显见从
A到B的最优值为12，故得最优路线为AQ1P2Q3B。
综上可见，动态规划法的特点是： 1) 与穷举算法相比，可使计算量大大减少。如
上述最优路线问题，用动态规划法只须做10次
J x, t min Lx, u, t t J xt t , t t
* * uU

(8)
* J x , t J x, t * * J x x, t t J x, t t (12) x t x * T
A城出发到B城的行车时间最短。
P1 3 A 4 Q1 1
7
P2
2
P3 4
4
6 8 2 Q2
3 3 3
2 Q3 4
2
B
现将A到B分成四段，每一段都要作一最优决策，使总过程时间为最短。所以这是一个多段最优决策问题。由图2可知，所有可能的行车路线共有8条。如果将各条路线所需的时间都一一计算出来，并作一比较，便可求得最优路线是AQ1P2Q3B，历时 12。这种一一计算的方法称为穷举算法。这种方法计算量大，如本例就要做3×23=24次加法和7次比较。如果决策一个n段过程，则共需(n-1)2n-1次加法和(2n-1-1)次比较。可见随着段数的增多，计算量将急剧增加。

动态规划与最优控制模型

第四章最优控制模型（管理、决策方面应用，因此可说管理决策模型）§1 最优控制的问题提法： §1.1 最优控制问题举例 §1.2 最优控制数学模型一、例，详见最优控制课听课笔记第一节；二、问题的数学描述――最优控制模型.寻找U )t (*u ∈（开，闭）[]f f 0t ,t ,t 可以固定或自由，使得： [][])t ( u J min )t (*u J Uu∈= (){()()0t ),t ( x g 0 t ),t ( x g ,R )t (x )t (x M x )t (x x )t ( x t ),t ( u ),t (x f dt (t) x d :t .s f f 2f f1f f f f 00≤=∈=∈==其中： n R )t (x ∈ ，且1C )t (x ∈ （一个连续可微）， R U )t (u m ≤∈，[] t ,u (t), x f：向量值函数，且)( f ⋅ 对t ),t ( u ),t ( x 连续，对t ),t ( x 连续可微. []()()()[]。

都可微 t (t), x 对 t (t), u (t), x L ,t ),t ( x,dt t ),t ( u ),t ( x L t ),t ( x )t ( u J f f tt f f fϕ+ϕ=⎰最优控制问题的求解方法：1．古典变分法：U 开集；2．极大值原理：U 闭集；现代变分法，把古典变分法看作特例 3．动态规划：便于数值计算，并有通用算法；发展了变分法，结果要充分条件.§2 最优控制模型的动态规划解法 §2.1 动态规划方法概述§2.2 生产——库存——销售管理系统的解法§2.1 动态规划方法概述某一类管理问题的数学模型（状态方程）是一个差分方程：()⎩⎨⎧∈==+M )(k x x )0( x k ),k ( u ),k ( x f )1k ( x f 0 使 ()∑-==1N 0i i ),i ( u ),i ( x L J 达到最小. 此为一个N 阶决策问题：动态规划法是求这一决策问题的有效办法，具有明显优点：（ⅰ）将一个N 阶决策问题转化为多次一步决策问题，即数学上的嵌入原理——将求一条极值曲线问题，嵌入到求一族极值曲线的更广泛的类似问题中；（ⅱ）大大简化了计算量；（ⅲ）具有局部优，就是整体优的最优性原理：可广泛应用于运输系统、生产库存管理系统、生产计划制定及最优投资分配问题、最优价格制定问题.下面以最短路问题举例说明这种方法：一、最短路问题（最小时间问题）1．问题：若有一辆汽车以S 城出发经过若干城市到达F 城，如图：3 ,2 ,1i ,Q ,P i i =，是一些可以通过的城镇.·P 1 6 ·P 2 1 ·P 3 4 4 1 2 4S · ·F 5 6 3 ·Q 1 7 · Q 2 2 ·Q 3图中两点间的数字：可以表示两城镇之间的距离（单位10公里），也可以表示行驶两城镇所用时间（应综合考虑：距离远近，路面好坏，是否拥挤等情况）.于是：汽车从S 到F 可经多种途径选择到达F . 问题是：从多种途径选择方案中，决定一种使S 到F 所走路线最短.或者若图中数字表示时间，则决定一种路径使从S 到F 所用时间最短.2．方法：Ⅰ决策树法（穷举法）：决策树法是最容易想到的一种方法，但运算量很大——即把所有可能选择的路途所用的时间都求出来，然后取最小值，即有最优策略（最优决策）.即： {}3 ,2 ,1i F Q SP min F *Q *SP i i i i == 因此有：1 P 3 4 F 15P 26 1 Q 3 3 F 14P 1 62 P34 F 164 Q 22 Q3 3 F 15S1 P 3 4 F 145 P 24 1 Q 3 3 F 13Q 1 7 2 P 3 4 F 18Q 22 Q3 3 F 17因此，最终得出：{}3 ,2 ,1i F Q SP min F P P SQ i i 321== 困难：这样共有8条线路可选择，每条线路要作3次运算.第1次：22211Q Q /P Q /P S →→→；第2次：3322Q /P Q /P →；第3次：F Q P 33→或因此，共需24次运算：2438＝⨯次，若阶段更多，则计算量更大. 2．“走一步瞧一步”（瞎子爬山？）法：第一步：从S 到1P 或1Q ：显然 5SQ 4SP 11=<=，因此取决策1SP ；第二步：从1P 到2P 或2Q ：显然 2121Q P 6P P ==，因此取2121Q Q ,P P 均可，但从2P 到3P 或3Q 距离为1，而2Q 到32P P 距离为2，因此，第2步决策为2P ，因此取21P P ；第三步：2P 到3P 或2P 到3Q ，均有1Q P P P 3232==，但3Q 到F 的距离为3，因此第3步取路线32Q P .因此使用这种方法得到的决策为：143164F Q P SP 321=+++= 显然不是“最优决策”，同时还有：14F P P SQ 321=问题出现在“局部优不能代替整体优”的问题. 3．动态规划：即可把每一步决策都看成一个状态的转移，而每一种状态的转移又影响到下一阶段的状态，因此又是动态的，故称为动态规划法.将上述问题分为四个阶段的多阶决策问题，故可将问题分为四阶段问题来考虑：第一阶段问题：11Q /P S →；第二阶段问题：2211Q /P Q /P →；第三阶段问题：3322Q /P Q /P →；第四阶段问题：F Q /P 33→ 解题方法从最后一个阶段开始：1° 分别计算33Q ,P 到F 的最小代价，此处花费代价为时间，记为J ，用[][]33Q J ,P J 分别表示3P 或3Q 到F 的代价，则显然有：[][]3Q *J 4P *J 33==2° 由后往前，考虑倒数第二阶段（即第三阶段），再把第三阶段和第四阶段联合作为一个子问题来考虑，若从2P 出发到F ，则有两种可能：[][]431Q *J 2J F Q P 541P *J 1J F P P 332332=+=+==+=+=∴ 线路F Q P 32最短，且[]4P *J 2=，故将线路F Q P 32记成P 2④Q 3.类似以2Q 出发到F ，则有两种可能：[][]532Q J 2J F Q Q 642P J 2J F P Q 332332=+=+==+=+=∴ 线路F Q Q 32最短，则[]5Q *J J 2==，故将线路F Q Q 32记成2Q ⑤3Q .3° 再由2、3、4这三个阶段构成的子问题：若从1P 出发到F 有两种可能：[][]1156Q *J 6J F Q P 61046P *J 6J F P P 221221=+=+==+=+=∴ 有线路F P P 21最短，且[]10P *J 1=，故将F P P 21记成：1P ⑩2P若从1Q 出发到F 有两种可能：[][]1257Q *J 7J F Q Q 844P *J 4J F P Q 221221=+=+==+=+=∴ 有线路F P Q 21最短，则[]8Q *J 1=，故将F P Q 21记成：1Q ⑧2P4° 把由1、2、3、4阶段作为子问题来考虑：从S 出发到F 有两种可能：[][]1385Q *J 5J F SQ 14104P *J 4J F SP 1111=+=+==+=+=且且故： F SQ 1最短，且[]13S *J = 5° 因此有最优策略：F SQ 1即： []13S *J F Q P SQ F SQ 3211==，除“二决一”比较之外，且运算只用了10次，而穷举法则算了24次，上次这种动态规划的办法：是将把一个四阶段决策问题化为四个互相嵌入子问题，逐一进行简化的计算方法，即数学上嵌入定理. 3．最优性原理“最优策略的一部分也是最优策略”例如：上例中知：F Q P SQ 321是最优决策，则F Q P Q 321也一定是从Q 1出发到F 的最优决策：证明［反证法］：设SQ 1P 2Q 3F 是最优决策，则Q 1P 2Q 3F 不是最优决策，则必存在另一个最优决策，不妨设为Q 1Q 2Q 3F 为最优决策.因而，SQ 1Q 2Q 3F 是整体最优决策，因而与SQ 1P 2.)1N (*u , ),1(*- 是N 阶决策问题的最优策略序列，那么：)1N (*u , ),1(*u - 也是一个最优策略序列，其初始状态为：())0(*u ),0(x f )1(x =证明：同最短路4．多阶决策问题的一般想法：设某系统的状态方程为：()⎩⎨⎧==+0x )0(x )i (u ),i (x f )1i (x目标函数为：()∑-==1N 0i N i ),i (u ),i (x L J ，NJ表示控制N 步时的目标函数值.最优控制问题，即：求最优决策序列{}{})1N (u , ),0(*u )i (*u -= ，使N J 取最小(大)值.为简化假定为定常状态，即L 不明显还有时间变量i因而有：()⎩⎨⎧==+0x )0( x )i (u ),i (x f )1i ( x()∑-==1N 0i N )i (u ),i ( x L J对目标函数(3)逐次应用(1)式有：()()()()()()()()()()())1N (u ),2N (u ,u(1) ,)0(u ),0(x f f f L ,u(1) ,)0(u ),0(x f L )0(u ),0(x L ,)1N ( u ),1N ( x L )1(u ),1(x L )0(u ),0(x L J N --+++=--+++=因此，可以由上式看出：N J 只依赖于)1N (u , ),1(u ),0(x - 因而可写成：())1N (u , ),1(u ),0(x J J N N -=又若用某种方法求出了最优决策)1N (*u , ),0(*u - ，则N J 的最小值只依赖于初始值)0(x ，记为() )0( x *J N ，它可用下式来定义：()())1N (u , ),1(u ),0( x J min)0(x *J N )1N (u ,),1(u ),0(u N -=-初始值是可变化的，因此：() )0( x *J N 表示初始状态为)0(x 时，控制N 步的目标函数最小值.5．动态规划的基本方程：动态规划的基本方程，给出N 阶决策问题的目标函数最优值与它的子问题)1N (阶决策问题-目标函数最优值之间的递推关系式，它是用动态规划解一切多阶决策问题的基础.设)0(*u 已求出，则求序列{})1N (*u , ),2(*u ),1(*u - 的问题，构成一个以() )0(u ),0( x f )1( x =为初始条件的1N -阶决策问题，若记这一子问题的目标函数最小值为：() )1(x *J 1N -；又若记() )0( x *J N 为N 阶决策问题最小值，则我们可以导出() )0( x *J N 与() )1(x *J 1N -之间的关系：()()() (k)u (k), x L ) )1(u ),0(x ( L min u(k) x(k),L min )0(x *J 1-N 1k 1)-u(N -u(0)1-N 0k )1N (u ,),1(u ),0(u N ⎭⎬⎫⎩⎨⎧+=⎭⎬⎫⎩⎨⎧=∑∑==- 由于则第一项：()())0(u ),0(x L min )0(u ),0(x L min)0(u )1N (u , ),0(u =-第二项： ()⎭⎬⎫⎩⎨⎧∑-=-1N 1k )1N (u , u(1) ),0(u )k ( u ),k ( x L min 并不明显依赖)0(u ，()())2N (u ),2N (x f )1N (x )0(u ),0(x f )1(x --=-=但由状态方程：可知：实际上第二项仍依赖于)1N (u , ),1(u ),0(u - ，因此，第二项可写成：()()(){})1( x J min (k)u (k), x L min min (k)u (k),x L min *1N )0(u 1-N 1k )1N (u ,),1(u )0(u 1-N 0k )1N (u ,),0(u ---=-=⎭⎬⎫⎩⎨⎧=⎭⎬⎫⎩⎨⎧∑∑此给出了())1(x J *1N -与())0(x J*N 之间的递推关系.它是动态规划的基本方程.类似有动态规划更一般的基本方程：(**) 因此依据基本递推方程的递推关系：可以把一个多阶决策问题化为若干个子问题，而在决策的每一个阶段中只须对一个变量进行最优化决策即可.例如：()(){})1N (u ),1N (x L min )1N (x J )1N (u *1--=-- 是对一个单变量)1N (u -的优化问题，当())1N (x J *1-求出后，由基本递推方程(**)式可得：()()(){})1N (x J )2N (u ),2N (x L min )2N (xJ *1)2N (u *2-+--=--这又是对)2N (u -的最优化决策问题，因而把原来N 阶决策问题化成一系列对单变量的最优化决策问题，从而使问题简化.§2.2 生产库存——库存管理决策问题的解设某工厂生产某种产品，四个季度定货量为：生产费用与产品平方成正比，即比例系数为0.005，)( u 005.0)x (C 2元= 库存费每件每季为：1.0元. 第i 季度库存量为：)i (x 件；第i 季度生产量为：)i (u 件；第i 季度销售量为：定货量=)i (s 因此有：下季度库存是：)i (S )i (u )i (x )1i (x －本季销售量本季生产量本季度库存量是+=+且要求年初、年终都没有存货即销售已空.x （0）＝x （5）＝0最优管理问题：求每季度的最优生产量)4(u ),3(u ),2(u ),1(u ，使之能正好完成订货计划且使生产费与库存费总和最小.即：求 {})i (*u 使[][][]∑=+=≤41i 240)i (x )i (u005.0)i (u J )i (*u J （1）⎪⎩⎪⎨⎧===+=+ (4) 0x(5)(3) 0x(0)(2) ,4 1,2,3is(i)-u(i)x(i)1)x(i t .s解：使用动态规划的办法：1．先由最后一个季度考虑起：)4(x )4(u 005.0J 21+=由（2） 0 x(5))4)4(s )4(u )4(x )14(x =-+=+及（得２００u(4)－(4)－1x(4)0+=得 )4(x 1200)4(*u -=代入（1）[]())4(x 005.0)4(x 117200)4(x )4(x 1200005.0)4(x J 22*4+-=+-= 2．再考虑3－4两个季度，由基本递推方程知：()()[]{}(){}{})4(x 005.0)4(x 117200)3(x )3(u005.0min )4(x J )3(x )3(u 005.0min )4(x J )3(u ),3(x L min )3(x J 22)3(u *12)3(u *1)3(u *2+-++=++=+=其中 500)3(u )3(x )3(s )3(u )3(x )4(x -+=-+= 代入上式即有：()()(){}22)3(u *2500)3(u )3(x 005.0500)3(u )3(x 117200)3(x )3(u 005.0min )3(x J -++-+-++=而)3(u 应使上式取最小值，因此有： {}0)3(u /=∂∙∂即：{}0)3(x 01.016)3(u 02.0)3(u =+-=∂∙∂即有： )3(x 5.0800)3(*u -= 为使0)3(*u ≥，必须有1600)3(x ≤，把)3(*u 代入())3(x J *2()()())3(x 0025.0)3(x 77550500)3(*u )3(x 005.0500)3(*u )3(x 117200)3(x )3(*u 005.0)3(x J 22*2+-=-++-+-++=3．再考虑2-3-4，由递推基本方程知：()()(){}{})3(x 0025.0)3(x 77550)2(x )2(u005.0min )3(x J )2(u ),2(x L min )2(x J 22)2(u *2)2(u *3+-++=+=其中 700)2(u )2(x )3(x -+= 代入上式 ())2(x J *3()()(){}22)2(u *3700)2(u )2(x 0025.0700)2(u )2(x 77550)2(x )2(u 005.0min )2(x J --+---++= 令 ()0)2(u /)2(x J *3=∂∂ 得(){}()0700)2(x 005.07)2(u 015.0)2(u )2(u )2(x J *3=-+-=∂∙∂=∂∂得 )2(x 31700)2(*u -= 再代 ())2(x J *3 得 ())2(x 3005.0)2(x 6000,10)2(x J 2*3+-= 4．再考虑1－2―3―4季度，由递推基本方程知：()()(){}⎭⎬⎫⎩⎨⎧+-++=+=)2(x 3005.0)2(x 6000,10)1(x )1(u 005.0min )2(x J )1(u ),1(x L min )1(x J 22)1(u *3)1(u *4 又由于 600)1(u 600)1(u 0)1(s )1(u )1(x )2(x -=-+=-+=并代入上式 ())1(x J *4得：()()()⎭⎬⎫⎩⎨⎧-+--++=22*4600)1(u 3005.0600)1(u 6000,10)1(x )1(u 005.0min )1(x J 令 ()0)1(u )1(x J *4=∂∂ 得()0600)1(u 301.06)1(u 01.0=-+- 得 600)1(*u =得 ()800,11)1(x J *4=（即四个季度总和的生产费用库存费）于是：由)1(x ),1(*u 代入 )1(s )1(u )1(x )2(x -+=可得 )2(x ，由)2(x 可得 )2(x 31700)2(*u -= 于是由600)1(*u0)1(x == 及方程 )i (s )i (u )i (x )1i (x -+=+ 及 )4(x 1200)4(*u )3(x 5.0800)3(*u )2(x 31700)2(*u -=-=-=可得900)4(*u ,800)3(*u ,700)2(*u ,600)1(*u 0)5(x ,300)4(x ,0)3(x ,0)2(x ,0)1(x =========即有以上最优决策序列：{})i (*u 若不按以上最优决策，按每季销售量生产1200)4(s )4(u 500)3(s )3(u 700)2(s )2(u ,100)1(s )1(u ========则显然总有存为总量0，但总费用： ()∑=+=4124700,12)i (x )i (u005.0J 要多用900元.。

离散控制系统中的最优控制方法

离散控制系统中的最优控制方法离散控制系统是一种在时间和状态上都是离散的控制系统，相对于连续控制系统来说，其最优控制方法也有所不同。

本文将介绍离散控制系统中的最优控制方法，主要包括动态规划、最优化算法和强化学习。

一、动态规划动态规划是一种基于状态转移的最优化方法，在离散控制系统中有着广泛的应用。

其基本思想是将原问题分解为若干子问题，并通过求解子问题的最优解来得到原问题的最优解。

在离散控制系统中，我们可以将状态和控制变量转化为状态转移方程，然后利用动态规划递推求解，得到最优的控制策略。

二、最优化算法最优化算法是一种通过迭代优化来求解最优控制问题的方法，常见的有梯度下降法、牛顿法等。

在离散控制系统中，我们可以将控制问题转化为一个优化问题，并使用最优化算法来求解最优的控制策略。

例如，在离散时间马尔可夫决策过程中，我们可以利用值迭代或策略迭代等最优化算法来求解最优策略。

三、强化学习强化学习是一种通过试错学习来求解最优控制问题的方法，其核心思想是智能体通过与环境的交互来学习最优的行为策略。

在离散控制系统中，我们可以将控制问题抽象为一个马尔可夫决策过程，并使用强化学习算法如Q-learning、SARSA等来求解最优策略。

强化学习在离散控制系统中具有较好的应用效果，在复杂的离散控制系统中能够找到近似最优的控制策略。

综上所述，离散控制系统中的最优控制方法包括动态规划、最优化算法和强化学习。

这些方法在不同的离散控制系统中有着广泛的应用，能够求解出最优的控制策略。

在实际应用中，我们需要根据具体的控制问题选择合适的方法，并结合系统的特点和需求进行调整和优化。

离散控制系统中的最优控制方法在提高系统性能和效率方面具有重要意义，对于实际工程应用具有较大的价值。

动态规划原理与最优控制(2024版)

式中
Ut
Ut {u(s), t s t f }
t f [x(s),u(s), s]ds
t
（4）（5）
而x(s)是在区间[t,t f ] 上和最优控制函数有关的轨线，
其中
t ，s 且t f
给x(t定0 ) 。
34
显然
V[x(t f ), t f ] [x(t f ), t f ]
（6）
加法次数: 4 * (n-2) + 2 次 n = 4时， 4 * (4-2) + 2 = 10 次
13
各个状态到终点的最短距离
J*[S] = 13 J*[X1(1) ] = 10 J*[X2(1) ] = 8 J*[X1(2) ] = 4 J*[X2(2) ] = 5 J*[X1(3) ] =4 J *[X2(3)] =3
（9）
上式称为Hamilton-Jacobi方程
或者称为 Hamilton-Jacobi-Bellman方程
38
对于所给最优控制问题，重复以上讨论，导致
V [ x(t ), t ] t
[
x(t
V
[
x(t t
),
t
]
t
V [ x(t ), t x(t)
]
T
f [x(t),u(t),t]t H.O.T.(t)}
36
min V[x(t),t] Ut
[x(t f ),t f ]
t f [x(s),u(s), s]ds
t
V
[
x(t
),t
]
V
[
x(t t
),
t
]
t
min u( )
J
*k

离散系统最优控制

k 0,1,2, , k f 1, k f 固定
（4-8）
令Hamilton函数H为
H[x(k), u(k), (k 1), k] 1 xT (k)Q(k)x(k) 1 uT (k)R(k)u(k)
2
2
T (k 1)[Φ(k)x(k) Γ (k)u(k)]
由协态方程
(k) H
x(k )
(
x(k
),
x(k
1),
k
)
k k0
x(k 1)
kf
1
xT
(k)
( x(k
1), x(k),k
1)
xT
(k)
( x(k
1), x(k),k
1)
k k0
x(k)
x(k) kf
xT (k) (x(k 1), x(k),k 1)
x(k) k0
kf xT (k) (x(k 1), x(k),k 1) xT (k) (x(k 1), x(k),k 1)
xT
(k
) (k )
k
f
k k0
k0
这相当于“分部积分”。从这里可看出(k 1)
x(k 1) 相对应
所以，泛函极值存在的必要条件为
xT
(k
f
)[[x(k f
x(k
),k f)
f
]
(k
f
)]
0
xT
(k )[ H x(k )
(k )]
0
uT (k ) H 0
u(k )
（横截条件）（Euler方程）
最优轨线为
x (k) 1 k 10
C
1
10
2
4.3 连续变分法与离散变分法求解结果的对比

最优控制理论及应用讲解

多级决策过程所谓多级决策过程是指将一个过程按时间或空间顺序分为若干级步然后给每一级步作出决策在控制过程中令每走一步所要决定的控制步骤称之为决策以使整个过程取得最优的效果即多次的决策最终要构成一个总的最优控制策略最优控制方案
第4章动态规划
求解动态最优化问题的两种基本方法：极小值原理和动态规划。
动态规划：是一种分级最优化方法，其连续形式与极小值原理相辅相成，深化了最优控制的研究。
Optimal Control Theory & its Application
主要内容
1
多级决策过程和最优性原理
2
离散控制系统的动态规划
3
连续控制系统的动态规划
4 动态规划与变分法、极小值原理的关系
5
本章小结
Optimal Control Theory
Dong Jie 2012. All rights reserved.
Dong Jie 2012. All rights reserved.
Date: 09.05.2019 File: OC_CH4.7
Optimal Control Theory & its Application
Optimal Control Theory
Dong Jie 2012. All rights reserved.
特点：1）将一个多阶段决策问题化为多个单阶段决策问题，易于分析 2）每阶段评估只与前一阶段结果有关，计算量减小
Optimal Control Theory
Dong Jie 2012. All rights reserved.
Date: 09.05.2019 File: OC_CH4.5
Optimal Control Theory & its Application

自动控制原理第7章离散控制系统

b(t )
H (s)
图7.5 数字控制系统的简化框图
2019/2/19
7
数字控制系统较之一般的连续控制系统具有如下一些优点：能够保证足够的计算精度；在数字控制系统中可以采用高精度检测元件和执行元件，从而提高整个系统的精度；数字信号或脉冲信号的抗干扰性能好，可以提高系统的抗干扰能力；可以采用分时控制方式，提高设备的利用率，并且可以采用不同的控制规律进行控制；可以实现一些模拟控制器难以实现的控制律，特别对复杂的控制过程，如自适应控制、最优控制、智能控制等，只有数字计算机才能完成。
2019/2/19
9
7.2.1 采样过程及其数学描述
将连续信号通过采样开关(或采样器)变换成离散信号的过程称为采样过程。相邻两次采样的时间间隔称为采样周期T。采样频率：f s 1/ T 采样角频率： s 2 /T 采样可分为：
等速采样:采样开关以相同的采样周期T动作，又称为周期采样多速采样:系统中有n个采样开关分别按不同周期动作随机采样:采样开关动作是随机的本章仅限于讨论等速同步采样过程。
j t xj ( ) xt () e d t
1 X( s ) Xs ( j k s) T k
*
2019/2/19
(7-7)
15
X ( j )
max
2max
(a)
o
max
图7.7 连续信号及离散信号的频谱
式中ω s=2π/T为采样频率，X(s)为x(t)的拉氏变换。若X*(s)的极点全都位于s左平面，可令s=jω ，求得x*(t)的傅氏变换为
离散控制系统最常见形式是数字控制系统。图 7.4是数字控制系统的结构图。图中用于控制的计算机D工作在离散状态，被控对象G(s)工作在模拟状态。

离散控制系统中的最优控制

离散控制系统中的最优控制离散控制系统是指由一系列离散（非连续）的控制器构成的系统，它对系统进行离散化处理和采样，并根据采样值进行控制。

在离散控制系统中，最优控制是一种优化问题，旨在找到使给定性能指标最小化或最大化的控制策略。

本文将介绍离散控制系统中的最优控制方法和应用。

一、动态规划方法动态规划是离散控制系统最优控制的常用方法之一。

它通过将控制问题划分为一系列互相关联的子问题，逐步求解并获得最优解。

动态规划方法有以下几个步骤：1. 状态定义：将系统的状态用离散变量表示，例如状态矢量。

2. 动态规划递推方程：建立系统状态在不同时间步长之间的递推关系，用于计算最优解。

3. 边界条件：确定初始和终止条件，保证递推方程的有效求解。

4. 最优化准则：选择适当的性能指标，例如代价函数或效用函数，作为最优化准则。

5. 迭代求解：根据动态规划递推方程和最优化准则进行迭代求解，得到最优控制策略。

动态规划方法在离散控制系统中有广泛的应用。

例如，在机器人路径规划和自动化生产线调度等领域，动态规划方法可以帮助确定最优路径和最优调度策略，实现系统的高效控制。

二、最优控制理论最优控制理论是离散控制系统中另一种常用的最优控制方法。

它通过优化控制问题的最优化准则，找到使性能指标达到最小值或最大值的控制策略。

最优控制理论的核心是求解最优控制问题的最优化方程。

最优控制问题的最优化方程通常通过极值原理或哈密顿-雅可比-贝尔曼（HJB）方程来建立。

这些方程使用众多数学工具，如变分法和微分几何学，将控制问题转化为求解偏微分方程或变分问题。

通过求解最优化方程，可以得到最优控制器的具体形式和参数。

最优控制理论在离散控制系统中具有重要的应用价值。

例如，在飞行器姿态控制和无线传感网络中，最优控制理论可以帮助设计出具有最佳性能的控制器，提高系统的稳定性和响应速度。

三、模型预测控制（MPC）模型预测控制是离散控制系统中一种基于模型的最优控制方法。

它将系统建模为一个预测模型，并根据预测模型的结果来制定最优控制策略。

动态规划与离散系统最优控制minimizer

结论：总结动态规划在非线性离散系统最优控制中的优
势和局限性
动态规划在离散系统最优控制minimizer中的优化效果分析
实例分析：一个简单的离散系统模型
优化效果：通过动态规划算法，实现系统性能的最优控制
对比分析：动态规划与其他控制方法的优劣比较
应用场景：动态规划在离散系统最优控制中的实际应用和效果评估
添加标题
动态规划算法：通过将问题分解为子问题，并求解子问题的最优解，逐步推导得到原问题的最优解。
添加标题添加标题
离散系统最优控制的动态规划实现：将离散系统最优控制问题转化为动态规划问题，通过状态转移方程和代价函数描述系统状态和最优控制策略，利用动态规划算法求解最优控制策略。
动态规划在离散系统最优控制中的应用：动态规划算法广泛应用于离散系统最优控制问题，如生产调度、路径规划、库存管理等。通过动态规划算法，可以找到离散系统最优控制问题的最优解，提高系统的性能和效率。
动态规划在离散系统最优控制中的应用具有广泛的实际意义，例如在机器人路径规划、智能交通系统、电力系统优化等领域都有重要的应用价值。
离散系统最优控制minimizer的动态规划实现
添加标题
离散系统最优控制问题：在给定离散时间系统的状态下，寻找最优的控制策略，使得系统状态在满足一定约束条件下达到预期目标。
应用场景：动态规划在处理复杂系统时更常见，如机器学习、人工智能等领域；离散系统最优控制ห้องสมุดไป่ตู้在工程和金融领域应用广泛。
05
动态规划与离散系统最优控制的实例分析
线性离散系统最优控制minimizer的动态规划实现
线性离散系统最优控制问题的数学模型
动态规划的基本原理和算法步骤

现代控制理论-第七章最优控制_动态规划

t
V (x(t),t) min (L(x(t t),u(t t),t t)t) u (t )U V (x(t), t) ( V )T dx t V t o(t)2 x dt t
第七章最优控制
V min (L(x(t t),u(t t),t t) (V )T dx o(t)2 )
x02
第七章最优控制
7.4.3 连续系统的动态规划
x f (x,u,t), x(t0 ) x0
u(t) U
性能指标
T
J (x(T )) L(x,u,t)dt
t
目标集
S {s | (x(T )) 0}
引进记号 V (x,t) J (x*(t),u*(t)) min J (x(t),u(t)) u(t )U
u0
第七章最优控制
7.4.2 离散系统动态规划
n 阶离散系统
xk1 f (xk ,uk ), k 0, , N 1
性能指标
N 1
J L(xk ,uk ) k 0
求决策向量
u0 , , uN 1
使 J 有最小值（或最大值），其终点可自由，
也可固定或受约束。
第七章最优控制

x12
(
1 2
x1 )2
(x1

1 2
x1 ) 2

3 2
x12
J (x0 ) x02 u02 J *(x1)

x02
u02

3 2
x12

x02
u02

3 2
( x0
u0 )2
J (x0 ) u0

第六章动态规划与离散系统最优控制1009.

内容为
最优性原理与离散系统的动态规划法
线性离散系统的二次型最优控制
最优性原理与离散系统的动态规划法(1/3)
6.1 最优性原理与离散系统的动态规划法
基于对多阶段决策过程的研究结果, 贝尔曼在20世纪50年代首先提出了求解离散多阶段决策优化问题的动态规划法。多阶段决策优化问题方法在许多领域得到应用和发展, 如在生产计划、资源配置、信息处理、模式识别等方面都有成功的应用。本节介绍将动态规划优化方法应用于动态系统的最优控制问题, 构成最优控制的两种主要求解方法之一的最优控制动态规划法。
分为4段。中间可能经过的各站及站间的行车时间均已标记在图上。试求最短行车时间的行车路线。
图10 某行车路线图
多阶段决策问题(2/12)
由S站出发至终点F站可有多种不同的行车路线 , 沿各种行车路线所耗费的时间不同。
为使总的行车时间最短,司机在路程的前3段要作出3次决策。首先，一开始司机要在经过x1(1)站还是x2(1)站两种情况中作出决策。到x1(1)站或x2(1)后, 又面临下一站是经过x1(2)站还是x2(2) 站的第2次决策。同样,在后续的每个阶段都要作出类似的决策。
如许多现代工业控制领域的实际计算机控制问题。
2) 有些实际控制问题本身即为离散系统, 如某些经济计划系统、人口系统的时间坐标只能以小时、天或月等标记; 再如机床加工中心的时间坐标是以一个事件(如零件加工活动)的发生或结束为标志的。
动态规划与离散系统最优控制(3/3)
本节将介绍解决离散系统最优控制的有效工具—贝尔曼动态规划, 以及线性离散系统的二次最优控制问题。
多阶段决策问题(5/12)
为便于今后求解过程的应用 , 可将从 x1(3) 站和 x2(3) 站到终点的最短时间 J[x1(3)] 和 J[x2(3)] 的数值标记于代表该站的小圆圈内, 如图11 所示。

动态规划原理与最优控制

动态规划原理与最优控制动态规划和最优控制是两个重要的数学方法，广泛应用于各种优化问题的求解。

动态规划主要用于处理具有重复子问题的最优化问题，而最优控制则是研究如何在连续时间和状态下选择和调整控制变量以实现最佳控制。

动态规划的基本原理是将大问题划分为若干个子问题，并分别求解子问题的最优解，然后根据子问题的解推导出大问题的最优解。

动态规划可以通过建立一个递归的状态转移方程来描述问题的最优解。

通过记忆化或者自底向上的方式，可以高效地求解出最优解。

最优控制是研究如何选择和调整控制变量以在给定的约束条件下实现最优控制目标。

最优控制的目标可以是最小化或最大化一些性能指标，例如最小时间、最小成本、最大收益等。

最优控制问题可以描述成一个变分问题，通过求解变分问题的极值来得到最优控制策略。

动态规划和最优控制之间有许多相似之处。

首先，它们都涉及到对系统状态的建模和描述，以及对控制变量的选择和调整。

其次，它们都是通过求解优化问题来寻找最优解。

最后，它们都可以通过离散化状态和控制变量来转化成动态规划问题。

因此，动态规划和最优控制可以相互参考和借鉴。

动态规划和最优控制在实际应用中具有广泛的应用。

例如，在运输、资源分配、排产等问题中，可以使用动态规划来求解最优方案。

在机器人导航、飞行器控制、自动驾驶等问题中，可以使用最优控制来实现最佳控制策略。

此外，动态规划和最优控制也在经济学、管理科学、生物学等领域有重要的应用。

总之，动态规划和最优控制是两个重要的数学方法，它们可以帮助我们解决各种优化问题。

动态规划主要用于求解具有重复子问题的最优化问题，而最优控制则研究如何在连续时间和状态下选择和调整控制变量以实现最佳控制。

动态规划和最优控制在实际应用中具有广泛的应用，可以帮助我们优化系统设计和控制策略，提高效率和性能。

最优控制理论PPT课件

生产计划与调度
在企业生产管理中，利用最优控制理论对生产计划和调度进行优化，提高生产效率和降低成本。
08
总结与展望
最优控制理论的重要性和应用前景
总结
最优控制理论是现代控制理论的重要组成部分，它在解决复杂系统的优化和控制问题方面具有显著的优势。该理论通过数学模型和算法，寻求在给定条件下实现系统性能最优化的控制策略。
非线性最优控制理论
20世纪70年代，基于微分几何、非线性分析和最优控制问题的研究。
智能优化算法与最优控制
20世纪80年代，考虑系统不确定性，引入概率论和随机过程理论。
03
最优控制问题的数学模型
状态方程与性能指标
状态方程
描述系统动态行为的数学方程，通常表示为状态变量对时间的导数等于其函数。
性能指标
态。这种控制策略的关键在于如何根据当前状态信息快速、准确地计算出最优控制输入。
离散系统的最优输出反馈控制
总结词
离散系统的最优输出反馈控制是一种基于系统输出的反馈控制策略，通过最优控制算法计算出在当前输出下的最优控制输入，使得系统状态在有限时间内达到预期目标。
VS
详细描述
离散系统的最优输出反馈控制是一种有效的最优控制策略，它根据系统的输出信息，通过最优控制算法计算出在当前输出下的最优控制输入，使得系统状态在有限的时间步内以最优的方式达到目标状态。这种控制策略的关键在于如何根据输出信息快速、准确地计算出最优控制输入。
控制问题分类
确定性和不确定性控制、线性与非线性控制、连续和离散控制等。
重要性及应用领域
重要性
在实际工程和科学问题中，许多问题都需要通过最优控制理论来解决，如航天器轨道控制、机器人运动控制、电力系统优化等。

动态规划最优控制现代控制理论教学PPT课件

减少。级数 N 越大，每级的状态变量越多，则动态规划计算量比穷举法计算量减少越多。
2021年4月30日
第7章第11页
对于本例，求解时采用的递推方程的一般形式为
J
N
(
x)
min
SN ( x)
d x, SN ( x) JN1 SN ( x)
以及
J1( x) d ( x, F )
在动态规划中，上述两式称为函数方程。当选择第一个决策 SN ( x) 时，其结果不但影
响第一级的距离 d x, SN (x) ，而且影响后面 N 1级的初始状态，因而也影响后面 N 1
级的最短距离。因此，最优策略（各阶段的决策组成的最佳集合）的选择应在递推过程结束后进行，不能在各级分散决定。
2021年4月30日
第7章第12页
从本例的分析过程可知，一个 N 级最优过程（如从 A 至 F 的 J5 ( A) ），不论第一级决策如何（如 S5 ( A) B1, B2 , B3 ），其余 N 1级决策过程（如从 B 至 F ），至少必须依据第一级决策所形成的状态（如 B1 ，B2 ，B3 ）组成一个 N 1最优过程（如 J4 (B1) 、J4 (B2 ) 、 J4 (B3) ）。在此基础上选择第一级决策（如选择 S5 ( A) B2 ），必可使总的 N 级过程最优（如求出 J5 ( A) 14 ）。在多级决策问题中，这种递推思想的核心，是贝尔曼提出的最优
动态规划
2021年4月30日
第7章第1页
动态规划又称为多级决策理论，是贝尔曼提出的一种非线性规划方法。动态规划的核心是贝尔曼的最优性原理，它将一个多级决策问题化为一系列单级决策问题，从最后一级状态开始到初始状态为止，逆向递推求解最优决策。
动态规划是求解最优化问题的重要方法，在应用动态规划时，有一个前提条件是系统的状

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

§ 7.4 动态规划与离散系统最优控制1. 动态规划基本原理最优性原则应有如此性质:即无论(整个过程的)初始状态和初始决策如何，其余(后段)各决策对于由第一个决策(后)所形成的状态作为(后段)初始状态来说，必须也是一个最优策略。

AB CDE最优性原则图7.5用式表示1()()min{(,())(())},1,2,,n n n n n u x J x R x u x J u x n N -=+=阶段变量n (分析次序) 状态变量x 决策变量()n u x 决策组11{,,,}n n u u u -损失(效益)函数:(,)n R x u 对x 用决策n u 所付代价(效益) 后部最优策略函数()n J x 由x 至终最小损失(最大效益)A 到D 的最短路线解 3阶段的决策过程，在CD 段(首), (分析)阶段变量1n =;7.6图A2C 1B D2B 3B 1C 3C 4555633)b (A2C 1B D2B 3B 1C 3C 445555566677733(a)3=n 1=n 2=n111111*********()(,)3,();()(,)5,();()(,)3,().J C R C D u C D J C R C D u C D J C R C D u C D ========= 在BC 段(首), (分析)阶段变量2n =； 21111,2,3()min{(,)()}min{73,65,53}8i i i J B R B C J C ==+=+++=，213()u B C =；22211,2,3()min{(,)()}min{63,55,73}9i i i J B R B C J C ==+=+++=，221()u B C =；23311,2,3()min{(,)()}min{53,65,73}8i i i J B R B C J C ==+=+++=，231()u B C =；在AB 段，阶段变量3n =；321,2,3()min{(,)()}min{48,49,58}12i i i J A R A B J B ==+=+++=，31()u A B =；所以整个过程的最优策略为：31()u A B =，213()u B C =，13()u C D =，即最优路线为13A B C D →→→。

穷举算法：共有13N -个策略，每策略做1N -次加法13(1)N N --次加，有131N --次比较，动态规划：在N 段，有3个加， 2 个比较运算，在(1N -)~2段, 有9(2)N -加，6(2)N -个比较运算，在1段，无加，也无比较运算， → 有915N -次加，610N -次比较(是N 的线性) → 确定最优策略；2. 离散系统最优控制设(1)()()x k x k u k ΦΓ+=+，0(0)x x =， (7.21)1[()()()(1)(1)(1)]NTTk J x k V k x k u k W k u k ==+---∑(7.22)求(),0,1,,1u k k N *=-,使(7.22)式最小.(),()V k W k 常取1()()()n v k V k v k ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦，1()()()n w k W k w k ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦. 或()0V k Q =≥(半正定)，()0W k R =>(正定).意: ()x k 与()u k 的各个分量上的权值，称为权矩阵。

1[()()(1)(1)]NTTk J x k Qx k u k Ru k ==+--∑。

控制次序 011011N NN x x x x u u u --⎧⎧⎧⎧⇒⇒⇒⇒⎨⎨⎨⎨⎩⎩⎩⎩公式推导 (i)时标在下标处，(ii) x N 分离出来，权矩阵改记为S ，(iii)添常数项(0)(0)Tx Qx (影响极值，但不影响极值点)，100(,,)[]N T T T NN kk kk k J x x u x Sx x Qx u Ru -==++∑ (7.23)定理7.4 系统 (7.21)，使指标(7.23)为最小的最优控制,0,1,2,,1kk k u F x k N *=-=-。

其中:11111,[],[],1,2,,1,0.N T Tk k k TT Tk k kk k P S F R P P P P F R P F Q k N N ΓΓΓΦΦΦΓΓ-++++==+=-++=-- (7.24)证运用(7.20)式，最后一段的损失为11111111111()()T T T T N N N N N N N N N TT N N N N N N N R x Sx u Ru x P x uRu x u P x u u Ru ΦΓΦΓ----------=+=+=+++1111112().T TT TT TN N N N N N N N N xP x uP x uR P u ΦΦΓΦΓΓ------=+++是1N u -的二次型函数，因T N R H P H +是正定的，故必有唯一最小值，由多元极值的必要条件，得111122()0T TN N N N N R P x R P u u ΓΦΓΓ---∂=++=∂，由TN R H P H +正定，知其可逆，从而得11(),T TN N N F R P P ΓΓΓΦ--=+1N u*-11.N N F x --=- (7.25)因此最后一段的最小损失为11111111min 2()T TT TT TN N N N N N N N N J R xP x uP x uR P uΦΦΓΦΓΓ****------==+++()111112(),T TT TT TN N N N N N N N xP FP FR P F x ΦΦΓΦΓΓ-----=-++(7.26)由公式组(7.25)中第一个公式得1()T TN N N P R P F ΓΦΓΓ-=+ (7.27)将(7.27)代入(7.26)，经整理后，有()111111()(),T TT TN N N N N N N J x xP FR P F x ΦΦΓΓ*-----=-+逆向第二段的最优化。

根据动态规划最优化原则, 得2222211111122()min{()}min{(())},N N N N u T TT TT N N N N N N N N u J x R J x xQ P F R P F x u Ru ΦΦΓΓ--**--------=+=+-++记111()TT TN N N N N P Q P FR P F ΦΦΓΓ---=+-+, (7.28)则最后二阶段的性能指标},{min )(22111222------*+=-N TN N N TN N R P J N u u x x x u与最后一段指标2211111()min min{},N N T T N NN N N N u u J x R x P x uRu --*---==+类比, 可得1211222(),.TTN N N N N N F R P P uF x ΓΓΓΦ----*---=+=-其中1N P -由(7.28)所确定, 最后二段的最小损失值为()22212122()()T TT TN N N N N N N J x xP FR P F x ΦΦΓΓ*-------=-+,以此类推, 可得公式组(7.24)。

推论若状态矩阵Φ是可逆的，则有111111,(),()(),1,2,,1,0.N TT k k TT k k kk k P S P PR Q F R P Q u F x k N N ΦΓΓΦΓΦ---+--*==++=-=-=-- (7.29)(证明略)。

(1) 预先逆序计算,k k P F , (从已知{Ф，Г}和{S ，Q ，R }) (2) 然后顺序控制. 例7.9 设一维101.50.2,10,k k k x x u x +=+=指标12220(4)kkk J x u ==+∑，计算k F 、k P 、k x 和k u 。

解这里1.5,0.2,0,4,1S Q R ΦΓ=====，由递推公式，得130,P S ==110.310.04k k k P F P ++=+2112.25[10.04]4,12,11,,2,1,0.k k k kP P P F k ++=-++=逆向计算表1k1312 11 10 9 8 7 6 5 4 3 2 1 0 k F 0 1.03 2.39 3.51 4.11 4.36 4.46 4.49 4.52 4.52 4.52 4.52 4.52 kP 0 4 11.75 21.99 30.32 4.83 36.74 37.47 37.74 37.83 37.87 37.88 37.88 37.88顺向最优控制和最优状态如表2，表2k1 2 3 4 5 6 7 8 9 10 11 12 13 k x 10 5.98 3.58 2.14 1.28 0.76 0.46 .28 0.18 0.12 0.10 0.10 0.13 0.19 *-ku 45.10 26.97 16.15 9.65 5.77 3.41 2.05 1.22 0.74 0.42 0.24 0.10 0趋于常值.定理.7.5 若 (7.21)完全能控，对于无限时间指标00(,,)[]T T kk kk k J x x u x Qx u Ru ∞==+∑，必有 lim N k N k NF F -→∞→=和lim N k N k NP P -→∞→=。

(7.30)(证明略)定值控制称为调节.由此得到最优控制为最优调节，最优调节器的表达式为,0,1,2,, 1.kk k u F x k N *=-=- 用(7.30)中F 代k F ，所得的状态反馈控制,0,1,2,,1kk u Fx k N *=-=-称为稳态最优调节器，F 称为稳态最优反馈增益。

F 的计算(1) 用计算机编程求得;(2) 据定理7.5极限的存在性，在 (7.29)两边求极限11111(),()()T T TT P P R Q F R P Q ΦΓΓΦΓΦ-----=++=- (7.31)中解出F 。

其中P 为非负定。

(3) 也可对公式组7.24的两边求极限而得。

例 7.10 例7.9中的指标改为220(4)kkk J x u ∞==+∑求稳态最优调节器。

解一维系统，由0.20Γ=≠，故[,][0.2,0.3]c Q ΓΦΓ==满秩，系统完全能控，由定理7.5稳态最优增益必存在。

各参数代入(7.31)得2211.50.24P P ⎛⎫=++ ⎪⎝⎭，整理为 20.04 1.4140P P --=，求得21.41 1.410.6437.890.08P ++=≈和第 21 页共 21 页 0.2(4) 4.521.5P F -=≈。