连续控制部分第七章最优控制

合集下载

第七章--最优控制

第七章– 最优控制理论
Optimal Control Theory
同济大学汽车学院：赵治国教授 Prof. Zhiguo Zhao School of Automotive Studies, Tongji University Tel：69589117(O) E-mail: Zhiguozhao@
*
x(t ) x* (t )上的变分等于零，即 J [ x* (t )] 0
§7－3 泛函与变分的基本概念
证明：对于任意给定的
x(t ) 来说，J [ x* (t ) x(t )]是实变量的 * * J [ x ( t )] 函数。泛函在 x (t ) 达到极值，即函数 J [ x (t ) x(t )] 在 0 时达到极值，所以它的导数在 0 时应为零，即
二. 最优控制问题的一般提法用数学语言描述最优控制问题，应包括以下几个方面的内容： 1. 受控系统的数学模型用状态方程描述：x (t ) f [ x(t ), u (t ), t ] 2. 受控系统的始端和终端条件，即状态方程的边界条件对最优控制问题始端条件通常是已知的：x(t0 ) x0 终端条件可以用一个目标集表示：
J J [ x()] J [ x(t ) x(t )] 中的 x(t ) 应理解为某一特定函数的整体，而不是对应于的
dx(t ) J ( x (t ) t )dt 0 dt 1 5 2 J (t t )dt 0 6 2 1 e J (e 2t tet )dt 1 0 2
1 2
若 x (t ) t 有
t x ( t ) e 若有
§7－3 泛函与变分的基本概念
2.泛函自变量的变分泛函 J [ x (t )] 的自变量函数 x (t ) 与标称函数 x* (t )之间的差值函数

最优控制-第七章-动态规划法

当∆t很小时，有

t t
t
Lx, u, t d t Lx, u, t t
J x, t min
*
min
uU

uU

tf
t0
Lx, u, t d t Φ xt f
tf t t

t t
t
Lx, u, t d t
Lx, u, t d t Φ xt f
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 3 2 2 Q3 B
5 Q2
第一段：P1、Q1的前站是始发站A。显见从
A到B的最优值为12，故得最优路线为AQ1P2Q3B。
综上可见，动态规划法的特点是： 1) 与穷举算法相比，可使计算量大大减少。如
上述最优路线问题，用动态规划法只须做10次
J x, t min Lx, u, t t J xt t , t t
* * uU

(8)
* J x , t J x, t * * J x x, t t J x, t t (12) x t x * T
A城出发到B城的行车时间最短。
P1 3 A 4 Q1 1
7
P2
2
P3 4
4
6 8 2 Q2
3 3 3
2 Q3 4
2
B
现将A到B分成四段，每一段都要作一最优决策，使总过程时间为最短。所以这是一个多段最优决策问题。由图2可知，所有可能的行车路线共有8条。如果将各条路线所需的时间都一一计算出来，并作一比较，便可求得最优路线是AQ1P2Q3B，历时 12。这种一一计算的方法称为穷举算法。这种方法计算量大，如本例就要做3×23=24次加法和7次比较。如果决策一个n段过程，则共需(n-1)2n-1次加法和(2n-1-1)次比较。可见随着段数的增多，计算量将急剧增加。

最优控制理论

智能优化方法
对于越来越多的复杂控制对象，一方面，人们所要求的控制性能不再单纯的局限于一两个指标；另一方面，上述各种优化方法，都是基于优化问题具有精确的数学模型基础之上的。但是许多实际工程问题是很难或不可能得到其精确的数学模型的。这就限制了上述经典优化方法的实际应用。随着模糊理论、神经网络等智能技术和计算机技术的发展。近年来，智能式的优化方法得到了重视和发展。 (1)神经网络优化方法人工神经网络的研究起源于1943年和Mc Culloch和Pitts的工作。在优化方面，1982年Hopfield首先引入Lyapuov能量函数用于判断网络的稳定性，提出了Hopfield单层离散模型；Hopfield和Tank又发展了Hopfield单层连续模型。1986年，Hopfield和Tank将电子电路与Hopfield模型直接对应，实现了硬件模拟；Kennedy和Chua基于非线性电路理论提出了模拟电路模型，并使用系统微分方程的Lyapuov函数研究了电子电路的稳定性。这些工作都有力地促进了对神经网络优化方法的研究。根据神经网络理论，神经网络能量函数的极小点对应于系统的稳定平衡点，这样能量函数极小点的求解就转换为求解系统的稳定平衡点。随着时间的演化，网络的运动轨道在空间中总是朝着能量函数减小的方向运动，最终到达系统的平衡点——即能量函数的极小点。因此如果把神经网络动力系统的稳定吸引子考虑为适当的能量函数（或增广能量函数）的极小点，优化计算就从一初始点随着系统流到达某一极小点。如果将全局优化的概念用于控制系统，则控制系统的目标函数最终将达到希望的最小点。这就是神经优化计算的基本原理。与一般的数学规划一样，神经网络方法也存在着重分析次数较多的弱点，如何与结构的近似重分析等结构优化技术结合，减少迭代次数是今后进一步研究的方向之一。由于Hopfield模型能同时适用于离散问题和连续问题，因此可望有效地解决控制工程中普遍存在的混合离散变量非线性优化问题。 (2)遗传算法遗传算法和遗传规划是一种新兴的搜索寻优技术。它仿效生物的进化和遗传，根据“优胜劣汰”原则，使所要求解决的问题从初始解逐步地逼近最优解。在许多情况下，遗传算法明显优于传统的优化方法。该算法允许所求解的问题是非线性的和不连续的，并能从整个可行解空间寻找全局最优解和次优解，避免只得到局部最优解。这样可以为我们提供更多有用的参考信息，以便更好地进行系统控制。同时其搜索最优解的过程是有指导性的，避免了一般优化算法的维数灾难问题。遗传算法的这些优点随着计算机技术的发展，在控制领域中将发挥越来越大的作用。目前的研究表明，遗传算法是一种具有很大潜力的结构优化方法。它用于解决非线性结构优化、动力结构优化、形状优化、拓扑优化等复杂优化问题，具有较大的优势。 (3)模糊优化方法最优化问题一直是模糊理论应用最为广泛的领域之一。自从Bellman和Zadeh在 70年代初期对这一研究作出开创性工作以来，其主要研究集中在一般意义下的理论研究、模糊线性规划、多目标模糊规划、以及模糊规划理论在随机规划及许多实际问题中的应用。主要的研究方法是利用模糊集的a截集或确定模糊集的隶属函数将模糊规划问题转化为经典的规划问题来解决。模糊优化方法与普通优化方法的要求相同，仍然是寻求一个控制方案（即一组设计变量），满足给定的约束条件，并使目标函数为最优值，区别仅在于其中包含有模糊因素。普通优化可以归结为求解一个普通数学规划问题，模糊规划则可归结为求解一个模糊数学规划(fuzzymathematicalprogramming)问题。包含控制变量、目标函数和约束条件，但其中控制变量、目标函数和约束条件可能都是模糊的，也可能某一方面是模糊的而其它方面是清晰的。例如模糊约束的优化设计问题中模糊因素是包含在约束条件（如几何约束、性能约束和人文约束等）中的。求解模糊数学规划问题的基本思想是把模糊优化转化为非模糊优化即普通优化问题。方法可分为两类：一类是给出模糊解（fuzzysolution）；另一类是给出一个特定的清晰解（crispsolution）。必须指出，上述解法都是对于模糊线性规划（fuzzylinearprogramming）提出的。然而大多数实际工程问题是由非线形模糊规划（fuzzynonlinearprogramming）加以描述的。于是有人提出了水平截集法、限界搜索法和最大水平法等，并取得了一些可喜的成果。在控制领域中，模糊控制与自学习算法、模糊控制与遗传算法相融合，通过改进学习算法、遗传算法，按给定优化性能指标，对被控对象进行逐步寻优学习，从而能够有效地确定模糊控制器的结构和参数

最优控制的计算方法

5
1、梯度法
3、用UK(t)、XK(t)和横截条件求得的终端值(tf)，从tf 到t0反向积分协态方程，求出协态向量K(tf)。 4、计算哈密顿函数H对U的梯度向量 H K g ( )K U H K ( ) K 表示在 U K 、X K 、处取值。当这些量非最优值 U 时， g K 0 。
U
（iii）边界条件（包括横截条件）最优控制的计算方法一般是先求出满足上面三个条件中某两个的解，然后用合适的迭代计算形式逐次改变这个解，以达到满足剩下的另一个条件的解（即最优解）。
4
一、直接法
1、梯度法这是一种直接方法，应用比较广泛。它的特点是：先猜测任意一个控制函数U(t)，它可能并不满足H 取极小的必要条件，然后用迭代算法根据H 梯度减小的方向来改善U(t)，使它最后满足必要条件。计算步骤如下： 1、先猜测[t0, tf]中的一个控制向量UK(t)=U0(t)，K是迭代步数，初始时K=0。U0 的决定要凭工程经验，猜得合理，计算收敛得就快 2、在第K步，以估计值UK和给定的初始条件X(t0)，从t0 到tf 顺向积分状态方程，求出状态向量XK(t)。
(2) 以 X (t 0 ) 为初值，从 t 0 到 t f 积分状态方程，得出状态轨迹 X K (t )。 (3) 以 (t f )为终值，从 t f 到 t 0 反向积分协态方程，求得协态轨迹 K (t ) 。 H (4) 计算梯度向量 g K ( ) u u k u
(5) 计算共轭系数
8
1、梯度法
0 1、选初始估计 u (t ) 0 。
2、将 u 0 (t ) 0 代入状态方程可得 dx dt 2 x 1 t c 积分上式可得 x 代入初始条件： x(0) 10 ，确定积分常数 1 c 10 10 0 可得 x(t ) x (t ) 10t 1

最优控制

四、最优控制在控制领域中的应用
模拟退火算法 1983年,Kirkpatrick与其合作者提出了模拟退火(SA)的方法,它是求解单目标多变量最优化问题的一项Monte-Caula技术。该法是一种物理过程的人工模拟,它基于液体结晶或金属的退火过程。液体和金属物体在加热至一定温度后,它们所有的分子、原子在状态空间D中自由运动。随着温度的下降,这些分子、原子逐渐停留在不同的状态。当温度降到相当低时,这些分子、原子则重新以一定的结构排列,形成了一个全部由有序排列的原子构成的晶体结构。模拟退火法已广泛应用于生产调度、神经网络训练、图像处理等方面。
三、最优控制的研究方法
古典变分法:古典变分法是研究泛函求极值的一种数字方法。古典变分法只能用在控制变量的取值范围不受限制的情况。在许多实际控制问题中,控制函数的取值常常三、最优控制的研究方法
古典变分法:
古典变分法是研究泛函求极值的一种数字方法。古典变分法只能用在控制变量的取值范围不受限制的情况。在许多实际控制问题中,控制函数的取值常常受到封闭性的边界限制,如方向舵只能在2个极限值范围内转动,电动机的力矩只能在正负的最大值范围内产生等。因此,古典变分法的应用范围十分有限。
二、最优控制问题的一般性描述
实际上，终端约束规定了状态空间的一个时变或非时变的集合，此满足终端约束的状态集合称为目标集M，并可表示为：
M {x(t f ) | x(t f ) Rn , N1[ x(t f ), t f ] 0, N2[ x(t f ), t f ] 0}
为简单起见，有时将上式称为目标集。
三、最优控制的研究方法
极小值原理:
极小值原理是对分析力学中古典变分法的推广,能用于处理由于外力源的限制而使系统的输入（即控制）作用有约束的问题。极小值原理的突出优点是可用于控制变量受限制的情况,能给出问题中最优控制所必须满足的条件。如高夯、汪更生、楼红卫等人论述了多种类型的抛物型方程和退化拟线性、半线性椭圆方程的极小值原理。

最优控制全部PPT课件

J
（x(t f ),t f）
tf t0
F（x(t),u(t),t)dt
为最小。
这就是最优控制问题。
如果问题有解，记为u*(t), t∈ [t0,tf],则u*(t)叫做最优控制（极值控制），相应的轨线X*(t)称为最优轨线（极值轨线），而性能指标J*=J（u*(·)）则称为最优性能指标。
第11页/共184页
目标质心的位置矢量和速度矢量为： xM xM
F(t)为拦截器的推力
x xL xM v xL xM
则拦截器与目标的相对运动方程为：
x v v a(t) F (t)
m(t)
m F (t) c
其中a(t)是除控制加速度外的固有相对加速度，是已知的。
初始条件为： x(t0 ) x0 v(t0 ) v0 m(t0 ) m0 终端条件为： x(t f ) 0 v(t f )任意 m(t f ) me
至于末态时刻，可以事先规定，也可以是未知的。有时初态也没有完全给定，这时，初态集合可以类似地用初态约束来表示。
第9页/共184页
3：容许控制在实际控制问题中，大多数控制量受客观条件的限制，只能在一定范围内取值，这种限制通常可以用如下不等式约束来表示：
0 u(t) umax 或ui i 1,2p
给定一个线性系统，其平衡状态X(0)=0，设计的目的是保持系统处于平衡状态，即这个系统应能从任何初始状态返回平衡状态。这种系统称为线性调节器。
线性调节器的性能指标为：
J
tf t0
n
xi 2 (t)dt
i 1
加权后的性能指标为：
J
tf t0
n
qi xi 2 (t)dt
i1
对u(t)有约束的性能指标为： J t f 1 [ X T (t)QX (t) uT (t)Ru(t)]dt

第7章随机系统最优控制

1 GQ' 2 0
τ >0 τ =0 τ <0
2．系统状态的随机型性能指标仍考虑系统 x(t) = A(t)x(t) + G(t)w(t)
及其初始状态
（7-4-10’）（7-4-11’）（7-4-13）
x(t0 ) = x0
（7-4-14）
由于 x(t)是在白噪声 w(t)作用下动力学系统的响应，是一个随机过程，如果采用与确定性二次型性能指标相同的表示方法，即
(7-4-2)
其中 x(t)是 n 维随机状态向量；x0 是 n 维随机初始状态向量，其统计性能为
E[x(t0 )] = E[x0 ] = µ0
(7-4-3)
Var[x(t0 )] = E{[x0 − µ0 ][x0 − µ0 ]T } = Px (t0 ) = Px0
(7-4-4)
w(t)是 m 维零均值高斯白噪声过程，统计性能为 Cov[w(t), w(τ )] = E[w(t)w(τ )T ] = Q'(t)δ (t −τ )
（7-4-7’）（7-4-8’）
APx + Px AT + GQ'GT＝0
iii’) x(t)的协方差阵为
（7-4-9’）
Px (τ ) = Φ(τ )Px Px (−τ ) = PxΦ T (τ )
τ
≥
0

iv’) x(t +τ ) 与 w(t)的协方差阵为
Φ(τ )GQ'
Pxw
(τ
)
=
（7-4-5）
其中
δ
(t
−τ
)
=

1 ε
,
τ

最优控制-极大值原理

近似算法
针对极大值原理的求解过程，开发了一系列近似算法，如梯度法、牛顿法等，提高了求解效率。
鲁棒性分析
将极大值原理应用于鲁棒性分析，研究系统在不确定性因素下的最优控制策略，增强了系统的抗干扰能力。
极大值原理在工程领域的应用
航空航天控制
在航空航天领域，利用极大值原理进行最优控制设计，实现无人机、卫星等的高精度姿态调整和轨道优化。
03
极大值原理还可以应用于经济学、生物学等领域，为这些领域的研究提供新的思路和方法。
02
最优控制理论概述
最优控制问题定义
01
确定一个控制输入，使得某个给定的性能指标达到最优。
02
性能指标通常由系统状态和控制输入的函数来描述。
03
目标是在满足系统约束的条件下，找到最优的控制策略。
最优控制问题的分类
1 2
确定型
已知系统的动态模型和控制约束，求最优控制输入。
随机型
考虑系统的不确定性，如随机干扰、参数不确定性等。
3
鲁棒型
考虑系统模型的不确定性，设计鲁棒控制策略。
最优控制问题通过求解优化问题得到最优解的解析表达式。
数值法
02
通过迭代或搜索方法找到最优解。
极大值原理
03
基于动态规划的方法，通过求解一系列的子问题来找到最优解。
03
极大值原理
极大值原理的概述
极大值原理是现代控制理论中的基本原理之一，它为解决最优控制问题提供了一种有效的方法。该原理基于动态系统的状态和性能之间的关系，通过寻求系统状态的最大或最小变化，来达到最优的控制效果。
在最优控制问题中，极大值原理关注的是在给定的初始和终端状态约束下，如何选择控制输入使得某个性能指标达到最优。它适用于连续和离散时间系统，以及线性或非线性系统。

最优控制笔记

最优控制又叫动态优化工程技术领域里的过程（物理过程或化学过程），通常都是可以控制的过程控制：使过程的发展变化按人们的需要进行动态优化问题的四个要素：1.建立过程的动态模型（动态系统的状态方程）2.指定所需的初始状态和结束状态（状态方程的边界条件）3.确立在可行控制策略4.性能指标动态系统的变化，可以看成对应状态的变化，其中每一个状态对应着n维状态空间中的一个点，系统的运动将在状态空间中画出一条状态曲线动态系统的状态方程：1.是对研究对象的动态数学建模2.体现了系统运动时应遵循的规律,反映了系统的动态特征3.一般是微分方程组描述状态方程f[x(t),u(t),t]的数学性质：1.f[x(t),u(t),t]是向量函数，维数与状态变量维数相同2.f[x(t),u(t),t]是关于x(t)/u(t)/t的连续函数3.f[x(t),u(t),t]是关于x(t)/t的连续可微函数4.u(t)是关于t的分段连续函数，只有有限个第一类间断点系统的初始时刻t0和初始状态x0一般都是已知的系统的结束时刻tf：固定或者不固定系统的结束状态xf：全部固定/全部不固定/部分固定性能指标：1.要根据实际任务确定，例如过程持续的时间最少/过程消耗的能量最少/成本最小/利益最大等等2.种类：终值型/积分型/复合型,它们都是关于x(t)/t的连续可微函数最优控制一定是容许控制，即最优控制策略（最优控制函数）在控制函数空间中的一个子集中选择当最优控制轨迹确定后，通过系统的状态方程，可以确立对应的最优状态轨迹现代控制理论相对于经典控制理论的优点：1.从时不变系统延伸到时变系统2.从单输入单输出系统延伸到多输入多输出系统3.从频域回到时域，采用能够揭示系统内部各状态变化规律的状态空间描述法最优控制理论属于现代控制理论的分支从数学角度来看，最优控制问题本质上是求泛函极值的变分学问题变分法分为古典变分法和现代变分法（最大值原理/动态规划）古典变分法只能解决容许控制集为开集的最优控制问题实际最优控制问题的容许控制集都是闭集，可以用现代变分法解决函数分为两类：普通函数和泛函普通函数随自变量t变化有确定值对应泛函随普通函数（称为泛函的宗量函数）的形式变化有确定值对应，t已确定或不产生影响复合函数也是普通函数，随自变量t变化有确定值对应具有某些相同特征的所有函数组成一个函数类，或称函数空间在函数空间内，每一个函数（形式不同的）成为函数空间的一个点，例如sin(x)和sin(2x)是正弦函数空间的两个点泛函宗量的变分：1.同一函数空间中的两个函数的差（t已确定或不产生影响）2.宗量的变分仍然是一个普通函数3.这里“变分”的意思是改变量宗量的维数为m时，则宗量的变分在m维函数空间中进行，其中每一维函数空间各自是具有某些相同特征的函数类两个普通函数k阶相近的定义，从几何上来看就是曲线的相似程度两个普通函数间的k阶距离定义，从几何上来看就是曲线的差异程度m维函数空间中，与点[x0(t),x1(t),...xm(t)]距离相同的点构成m维空间中的一个球面泛函k阶连续的定义（利用两个普通函数间的k阶距离来定义）线性泛函的定义：满足齐次性与可加性泛函的变分：1.是泛函增量的关于宗量变分的线性主部2.是关于宗量变分的线性连续泛函3.仍然是一个泛函4.泛函的变分是唯一的5.这里变分的意思相当于普通函数的微分泛函变分的计算公式，是关于宗量变分的泛函，也是关于alpha的普通函数，从普通函数极值条件出发推导得到泛函极值条件求普通函数的极值，必要条件是：极值在稳定点获得，稳定点即普通函数导数为0的点求泛函的极值，必要条件是：极值在泛函变分为0的点取得Lagrange/Mayer/Bolza形式指标的相互转换欧拉--拉格朗日方程的推导过程欧拉--拉格朗日方程是一个二阶微分方程欧拉--拉格朗日方程成立的前提：1.宗量函数对自变量的二阶导数存在2.积分函数二阶连续可微欧拉--拉格朗日方程的能积分出最优解的特殊情况含有多个宗量函数的欧拉--拉格朗日方程组形式等式约束条件下的泛函极值问题采用拉格朗日乘子思想等式约束下的多变量普通函数极值问题，拉格朗日乘子是m维常向量等式约束下的泛函极值问题，拉格朗日乘子是m维普通函数，称为协态变量拉格朗日乘子法的步骤：原问题-->辅助泛函-->解等式约束+欧拉方程-->用边界条件确定未知系数-->判断极大/极小/鞍点等式约束下的泛函极值问题中，拉格朗日乘子（本质上是普通函数）的欧拉方程就是原问题的等式约束条件对于最优控制问题，控制函数u(t)和状态函数x(t)都看成是泛函的宗量，系统的动态方程作为等式约束条件Hamilton函数是泛函，其t的范围由x(t)/u(t)中的t范围确定，可以看成是mayer型泛函Hamilton函数的作用：积分型泛函J对u(t)的等式约束条件极值问题，转换成H对u(t)的无约束条件机制问题Hamilton函数方法解决最优控制问题，是基于必要条件，而不是充分条件Hamilton函数沿着最优空之轨迹和最优状态轨迹，对时间t的全导数等于偏导数当Hamilton函数不显含t时，H是不依赖于t的常数基础数理化：数学是理路，物理和化学是实践；工程中的物理和化学变化过程都是可控的；过程：与时间有关，随着时间推荐的变化，又叫动态过程；动态过程的数学模型又称状态方程，为OEDs或者DAEs形式对一个过程实施控制往往可以选择的策略不唯一，为了使得任务完成得最好，需要选择最优控制策略；最优的意义：根据任务确定的技术或者经济指标，可以是时间上最快、能量上最省、成本最低、利润最大等；状态微分方程f[x(t),u(t),t]是关于u(t),x(t),t的连续函数，是关于x(t),t的连续可微函数，u(t)只有有限个第一类间断点；状态、状态空间、动态系统的变化过程对应于状态空间中的点运动轨迹、点运动轨迹的起始点和结束点就是状态方程的边界条件；系统的初始时间t0和初始状态x0通常是给定的；系统的结束状态根据结束时间tf是否固定和结束状态是否固定可分为6种情况；性能指标的类型：终值型（Mayer型）、积分型（Lagrange型）、复合型（Bolza型；）终值型（Mayer型）是x(t),t的连续可微函数；积分型（Lagrange型）是u(t),x(t)，t的连续函数，是x(t),t的连续可微函数，u(t)只有有限个第一类间断点；注意终值型（Mayer型）指标中不含u(t)；最优控制轨迹往往在m维控制函数空间的一个子集omiga中选择；经典控制论的特点：针对SISO、线性、时不变（定常）、集中参数系统，以laplace变换作为分析工具，频域内；现代控制论的特点：针对MIMO、非线性、时变、分布参数系统，以状态空间分析方法为分析工具，时域内分析；对系统的状态空间描述，最大好处在于能够反映系统内部各状态变量之间的关系；最优控制理论属于现代控制理论的一部分；最优控制问题在数学上来说属于求泛函极值的变分学领域；古典变分法的局限性：只能处理u(t)无约束或者为开集的泛函极值问题；现代变分学的两个代表：最大值原理（苏联，Pontryagin提出）和动态规划（美国，Bellman 提出）；现代计算机的发展推动了控制理论和优化理论的发展与应用，增加了基于计算的科研活动方式；函数分为一般函数和泛函两类；一般函数：自变量形式唯一，当自变量确定为某一值时，函数值也随之确定；泛函：自变量形式和取值（范围）已经确定，当宗量函数形式确定时，泛函值也随之确定；复合函数属于一般函数；终值型泛函中，tf能被确定，所以泛函值取决于终值型泛函的宗量形式；积分型泛函中，被积函数往往是u(t),x(t),dx(t)/dt,t的函数，u(t),x(t)都属于积分型泛函的宗量；积分型泛函中，由于宗量的维数大于1：宗量为u(t),x(t)，且各自维数也可能大于1，所以积分型泛函属于多维泛函（宗量为多维，在多维函数空间内取值）；Hamiltonian属于多维泛函，自变量取值范围为t0~tf，宗量包括控制函数u(t),状态函数x(t)，协态函数y(t);函数空间：具有相同性质的函数类（按函数不同形式区分函数类中的单个函数），构成了一维函数空间（一根轴），每个属于该函数类的具体形式函数都是该一维函数空间（轴）上的一个点；宗量函数的变分deltax(t)：是同一函数类中两个一般函数的差，或者说是某一维函数空间中两个点之间的距离，本质上仍然是一个一般函数；一般函数相近的几何意义：曲线形态相似；泛函连续性的定义及与宗量函数相近（宗量函数的变分趋于0）的关系；线性泛函的定义：满足针对宗量函数的齐次性和可加性（将宗量看成一般函数的自变量）；泛函变分detalJ[x(t)]：是泛函增量关于“宗量函数变分”的线性主部，是关于“宗量函数变分”的线性连续泛函，本质是泛函；泛函的变分具有唯一形式；求一个泛函的变分不直接使用定义，而用偏导数方法获得，这与一般函数的微积分知识相似；泛函达到极值的必要条件：泛函在宗量函数x*(t)处的变分为0，有三种情况：非极值，极大值，极小值；古典变分法中的欧拉方程由积分型泛函变分为0的必要条件推出，所以欧拉方程也是泛函达到极值的必要条件；欧拉方程本质上是一个二阶偏微分方程；欧拉方程成立的前提是:L[x(t),dx(t)/dt,t]对宗量函数x(t)、宗量函数的导数dx(t)/dt、自变量t存在二阶偏导数；注意L[x(t),dx(t)/dt,t]本身不能称为泛函（自变量的值没有给定），也不能称为宗量函数（宗量函数是x(t)）；欧拉方程可以求解的条件：L[x(t),dx(t)/dt,t]中不显含x(t)、dx(t)/dt、t三者其一或其二；宗量函数为向量函数时，欧拉方程也成为向量二阶偏微分方程（二阶偏微分方程组）；phi(tf)这条终端曲线实际靠测试获得，并作为已知曲线；横街条件反应的是：极值曲线终端斜率与给定曲线斜率之间的关系横街条件成立的前提：L[x(t),dx(t)/dt,t]对宗量函数x(t)、宗量函数的导数dx(t)/dt、自变量t存在二阶偏导数；phi(t)对自变量t存在一阶偏导数；终端点可变情况下，泛函极值的必要条件共有两个：欧拉方程、横街条件；Lagrange型泛函的一阶变分和二阶变分的表达式；泛函极值属性的判断需要借助二阶变分表达式，它是一个对称函数矩阵；涉及到最优控制问题时，最优状态轨迹不仅要使目标函数最优，更重要的是满足系统的状态方程；系统的状态方程（等式）可以看成是求泛函极值问题时的微分等式约束；带等式约束的泛函极值问题，处理思想和一般函数的等式约束极值问题思路一样，采用拉格朗日乘子法思想；带等式约束的泛函极值问题，拉格朗日乘子是一般函数（一般函数的等式约束极值问题中，拉格朗日乘子是常数）；带等式约束的泛函极值问题，与一般函数的等式约束极值问题相比，梯度为0的必要条件进化成为变分为0（欧拉方程的满足）；带等式约束的泛函极值问题，原等式约束可以视为F[x(t),dx(t)/dt,lamda(t),t]对宗量函数lamda(t)的欧拉方程；利用古典变分法求解最优控制问题，是将控制函数u(t)和拉格朗日乘子函数lamda(t)都作为泛函的宗量函数；Hamiltonian的作用是将dx(t)/dt从F[u(t),x(t),dx(t)/dt,lamda(t),t]中分离出去，它们的关系是：H[u(t),x(t),lamda(t),t]=F[u(t),x(t),dx(t)/dt,lamda(t),t]-lamda(t)dx(t)/dt正则方程组的推导既可以从F[u(t),x(t),dx(t)/dt,t]的欧拉方程推导，也可以直接从变分=0的必要条件推导（欧拉方程从变分=0的必要条件中推导出来）；推导tf固定、tf自由时的最优控制问题必要条件时，辅助函数的做法：终态约束等式约束放在积分号外面，状态方程等式约束放在积分号里面；tf固定时的三种情况：x(tf)固定（仅需要欧拉方程无需横截条件）属于x(tf)自由的特殊情况，x(tf)自由又属于x(tf)受约束的情况；tf自由时的三种情况：x(tf)固定（仅需要欧拉方程无需横截条件）属于x(tf)自由的特殊情况，x(tf)自由又属于x(tf)受约束的情况；tf固定又属于tf自由时的特殊情况，仅缺少关于最优时间的方程，所以6种情况最终都可以归类为tf自由、x(tf)受约束的情况处理；Hamiltonian沿着最优控制轨迹和最优状态轨迹（即H[u(t),x(t),lamda(t),t]中的u(t),x(t),lamda(t)都在最优轨迹上取值）时，对时间的偏导数等于对时间的全导数；以上性质说明：沿着最优控制轨迹和最优状态轨迹时，若Hamiltonian不显含t，则Hamiltonian为常数；不等式约束泛函极值问题？古典变分法要求u(t)属于一个全函数空间或者一个函数空间中的开集；现代变分法从实际出发，u(t)可以属于一个函数空间中的闭集；现代变分法中的代表：极小值原理（苏联，Pontryagin）和动态规划（美国，Bellman）极小值原理比古典变分法的进步：u(t)可以属于一个函数空间内的闭集，不要求Hamiltonian对u(t)可微；当u(t)属于一个函数空间内的闭集时，H对u(t)的偏导数可能不为0（在闭函数空间内取不到极点）、deltau(t)可以为0，两方面原因造成古典变分法不再适用；与古典变分法对应的是，极小值原理也有6种情况，最普遍的是tf可变、x(tf)受约束的情况；对于tf可变的情况，需要增加一个确定tf的方程（属于横截条件的一部分）；Hamiltonian达到极小值的定义？极小值原理仅是最优控制问题的必要条件；如果x(tf)有终端约束，那么两点边值问题的求解难度会增加很多，常用方法为打靶法（扫描法）；协态变量就是等式约束泛函极值问题的拉格朗日乘子函数；状态变量终态的自由与固定，对应协态变量终态的固定与自由；状态变量微分方程求解联合协态变量微分方程求解体现了原问题--对偶问题的共同求解思想？目标泛函对u(t)求偏导，实际是泛函对宗量函数求偏导；从理论分析可以得到，目标泛函对u(t)的梯度（偏导数）在最优控制问题中与Hamiltonian 对u(t)的梯度（偏导数）等价；最优控制（动态优化）问题转换成静态优化问题的理论：通过对u(t)的离散化，将函数空间变为向量空间？从而可以直接使用静态优化算法；处理x(tf)受约束的方法除了惩罚函数法还有其他方法没？[文档可能无法思考全面，请浏览后下载，另外祝您生活愉快，工作顺利，万事如意!]。

第7章经济系统的最优控制1

2)] min {L[x(N 2),u(N 2)] u( N 2)
1)] min {L[x(N 1),u(N 1)]} u( N 1)
J1*[ x( N
1)]}
19
① 求第N级的最优控制u*(N-1)
J
* 1
[x
(
N

1)]

min
u ( N 1)
L[x(N

1),
即要求出 u(1)、u(2) 、u(3)、u(4)使目标函数
4
J 4 [au 2 (k) bx(k)] min k 1
J4—生产库存系统的目标函数（反映成本构成）。 N-1＝4 称为最优控制问题的时间水平/决策阶段数。
5
归纳上例分析：
一个动态系统的最优控制问题应包括两组变量：状态变量、控制变量；还包括：系统的状态方程、目标函数，初始条件、末端条件。
J*N
j[x(
j)]

min{L[x(
u( j)
j),
u(
j)]

J*N
j1[x
(
j

1)]}
由状态方程得：x(j+1)=f[x(j),u(j)]，
可求出 u*(j)， J*Nj[x(j)]，均为 x(j)的函数。

22
④ 求第2级的最优控制u*(1)
J
* N
1[x
(1)]

min{L[x(1),
第七章经济系统的最优控制
第一节、最优控制问题的提法第二节、动态规划法第三节、生产库存系统的最优控制第四节、设备的最优分配问题
第一节最优控制问题的提法
生产库存问题：
设某企业生产产品 A，四个季度的销售订单分别为 600、700、500、1200 件。

最优控制总结

最优控制理论总结宫庆义2010.6.301. 最优控制问题可用下列泛函表示:[][]0()00min (),(),(),..(1)()(),(),,()(2)(),0ft f f t u t f f J x t t L x t u t t dt s t xt f x t u t t x t x x t t ϕψ∈Ω⎡⎤=+⎣⎦==⎡⎤=⎣⎦⎰2. 最优控制的应用类型:(一) 积分型性能指标: []0(),(),ft t J L x t u t t dt =⎰(1) 最小时间控制: 00ft f t J dt t t ==-⎰(2) 最少燃耗控制: 01()fmt jt j J u t dt ==∑⎰(3) 最少能量控制: 0()()ft T t J u t u t dt =⎰(二) 末值型性能指标: (),f f J x t t ϕ⎡⎤=⎣⎦ (三) 复合性能指标:(1) 状态调节器:011()()()()()()22f t T T Tf f t J x t Fx t x t Qx t u t Ru t dt ⎡⎤=++⎣⎦⎰ (2) 输出跟踪系统:011()()()()()()()()()22f t T T Tf f t J e t Fe t e t Qe t u t Ru t dt e t z t y t ⎡⎤=++=-⎣⎦⎰3. 欧拉-拉格朗日方程:0L d L x d t x ∂∂⎛⎫-= ⎪∂∂⎝⎭注: 若()min (,,)..(,,)0ft x t J g x xt dt s t f x xt ==⎰ (,,,)(,,)()(,,)TL x xt g x x t t f x x t λλ=+例题:(1)求通过点(0,0)及(1,1)且使120()J x xdt =+⎰取极值的轨迹*()x t 解: 欧拉-拉格朗日方程: 2(2)0dx x dt-= 即 0x x -= ()c o s h s i n hx t a t b t =+ 由初始条件:(0)00x a =⇒= 末端条件: 1(1)1sinh1x b =⇒= 因而极值轨迹为:*1()sinh sinh1x t t = (2)求使指标1230()J xx dt =+⎰取极值的轨迹*()x t , *(0)0x = 解:这是终端自由的情况, 欧拉-拉格朗日方程为:()2230dx x dt+= 即 223x x C += 令()xt at b =+ 由(0)00x b =⇒= 又末端自由, 横截条件为:2310ft t Lx x x=∂⎡⎤=+=⎣⎦∂ 即 2230a a +=得:0a =或23a =-, *()0,0x t J ==对应局部极小, *24(),327x t t J =-=对应局部极大(3)设系统状态方程: x u = 边界条件为: (0)1,()0,f f x x t t ==自由性能指标为: 2012f t f J t u dt =+⎰ 要求确定最优控制*u , 使J 最小解: 这是f t 自由问题, 末端状态固定, ()0f x t =是满足约束集的特殊情况, 即 (),()0f f f x t t x t ψ⎡⎤==⎣⎦(),f f f x t t t ϕ⎡⎤=⎣⎦哈密顿函数: 212H u u λ=+ 正则方程: 0HHxu xλλ∂∂===-=∂∂ 控制方程: 0Hu u uλλ∂=+=⇒=-∂()1f fH t t ϕ∂=-=-∂ 即 : 221()()10()2f f f t t t λλλ-+=⇒=由正则方程: ()0t λ= 所以 ()t λ=于是 *()u t =再由正则方程: xu λ==- 可得()x t c =+ 由初始条件 (0)1x = 得 1c =故最优轨迹为: *()1x t =+ *()02f f x t t =⇒=(4) 设系统的状态方程为: ()()()xt x t u t =-+ 边界条件为: (0)1,()0f x x t ==, 求()u t , 使221()2f t J x u dt =+⎰为最小解: 221()()2H x u x u λ=++-+协态方程和控制方程为: H x x λλ∂=-=-+∂ Hu uλ∂=+=0∂ 即 u λ=- 故可得正则方程: ()()()xt x t t λ=-- ()()()t x t t λλ=-+ 拉氏变换: ()(0)()()sX s x X s s λ-=-- ()(0)())s s X s s λλλ-=-+( 解代数方程得:()(0)(0)()(0)(0)s x X s x λ==拉氏反变换:()()()()()(0)1)1)(0)()(0)1)1)(0)t e x e x t ee x λλλ⎤=-++⎦⎡⎤=-++⎣⎦由: (0)1,()0f x x t ==得:(0)f fλ=*()()1)1)u t t eeλ⎧⎫⎪⎤=-=-+⎬⎦⎪⎭注: 拉氏变换表(5)设系统状态方程为: 122()()()()x t x t xt u t == 初始条件为: 12(0)(0)1x x ==, 末端条件为: 12(1)0(1)x x =自由要求确定最优控制*()u t , 使泛函1201()2J u t dt =⎰取极小值解: 边界条件222()(1)0(1)f t x ϕλλ∂===∂ 哈密顿函数: (,,)(,,)T H L x u t f x u t λ=+ 212212u x u λλ=++ 正则方程: 12112()0()()H Ht t t x x λλλ∂∂=-==-=-∂∂ 状态方程: 1222()()()()xt x t xt t λ==- 极值条件:0Hu∂=∂ ⇒ 20u λ+= 即 : *2()()u t t λ=- 边界条件: 12(0)1(0)1x x ==1222(1)0()(1)0(1)f x t x ϕλλ∂====∂ 对正则方程和状态方程进行拉氏变换:11222211221()(0)()()(0)()()(0)0()(0)()sX s x X s sX s x s s s s s s λλλλλλ-=-=--=-=-解以上代数方程得:11221222112123234111()(0)()(0)(0)1111111()(0)(0)()(0)(0)s s ss s X s X s s s ss s s sλλλλλλλλλ==-=--=+-+拉氏反变换:2312122111()1(0)(0)26()(0)(0)x t t t t t tλλλλλ=+-+=- 利用末端条件: 1212(1)0,(1)0(0)(0)6x λλλ==⇒== 最优状态轨迹:*231()13x t t t t =+-+ 最优协态:*2()6(1)t t λ=- 最优控制: **2()()6(1)u t t t λ=-=-(6) 设系统的状态方程为:10()()()001xt x t u t ⎡⎤⎡⎤=+⎢⎥⎢⎥⎣⎦⎣⎦指标泛函: 2201()2J u t dt =⎰ 边界条件: 10(0)(2)10x x ⎡⎤⎡⎤==⎢⎥⎢⎥⎣⎦⎣⎦求使指标泛函取极值的极值轨线*()x t 和极值控制*()u t 解: []121212221,,2T f x x g u f f u xλλλ-⎡⎤⎡⎤====⎢⎥⎢⎥-⎣⎦⎣⎦ 拉格朗日标量函数: 2121221()()2TL g f u x xu x λλλ=+=+-+- 欧拉方程:1111122222000L d L a x dt x L d L at b x dt xL d L u u at bu dt uλλλλλλ∂∂-===∂∂∂∂-=+==-+∂∂∂∂-=+==-∂∂由于状态约束方程:22223212112111262xu at b x at bt c xx at bt c x at bt ct d==-=-+==-+=-++代入边界条件: 10(0)(2)10x x ⎡⎤⎡⎤==⎢⎥⎢⎥⎣⎦⎣⎦得: 73,,12a b c d ====于是极值轨线: *321**22()0.5 1.751()3 3.5() 1.5 3.51x t t t t u t t x t t t ⎡⎤⎡⎤-++==-⎢⎥⎢⎥-+⎢⎥⎣⎦⎣⎦*x =(7)设性能指标泛函: 0ft J =⎰(0)1,()()2f f f x x t c t t ===-求使泛函为极值的最优轨线*()x t 及相应的**,ft J 解: L = 欧拉-拉格朗日方程:22220,()1L d L d C C x a x t at b x dt x dt C⎡⎤∂∂-=-=⇒===⇒=+∂∂- 由(0)1x =得: 1b =由横截条件:()(10()11ffTf t t L L cx x xt a x ⎤∂⎡⎤+-=--=⇒=⇒=⎢⎥∂⎣⎦最优轨线为: *()1x t t =+当f t t =时, ()()f f x t c t = 即: 12f f t t +=-, 求得末端时刻 *12f t = 将**(),f x t t 代入指标泛函,可得最优性能指标*J =(8) 设系统方程为: 122()()()()x t x t xt u t == 初态:12(0)(0)0x x == 末端时刻: 1f t = 末端约束: 12(1)(1)1x x += 性能指标: 121()2J u t dt =⎰ 求使J 最小的最优控制*()u t 和相应的最优轨线*()t x 解: 2121()0,()()(1)(1)12f f t L u t x x ϕψ⎡⎤⎡⎤===+-⎣⎦⎣⎦ x x212212H u x u λλ=++ 由协态方程: 1110()H t a x λλ∂=-==∂2122()H t at b x λλλ∂=-=-=-+∂由极值条件:220Hu u at b uλλ∂=+=⇒=-=-∂由状态方程:2222321211()2111()262xu at b x t at bt c xx at bt c x t at bt ct d==-=-+==-+=-++由初态: 12(0)(0)00x x c d ==⇒== 由目标集: 12(1)(1)10496x x a b +-=⇒-=根据横截条件:1212(1)(1)(1)(1)x x ψψλγγλγγ∂∂====∂∂即: 121(1)(1)2a b λλ=⇒=于是解得: 36,77a b =-=-最优解为: *3()(2)7u t t =-- 最优轨线: *211()(6)14x t t t =-- *23()(4)14x t t t =--例题:(1) 最短时间控制问题:状态方程: 122,x x xu == 初始条件: 101220(0)(0)(0)x x x x ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦x = 末端条件: 12()()0f f x t x t ==约束控制: ()10f u t t t ≤≤≤求使性能指标0ft f J dt t ==⎰取极小的最优控制.解: 1221T H L f x u λλ=+=++λ协态方程: 110H x λ∂=-=∂ 212H x λλ∂=-=-∂12()()t at at b λλ==-+选择u 使H 取极小 []2221()0()sgn ()1()0t u t t t λλλ<⎧==⎨->⎩2()t λ为t 的线性函数, u 最多改变一次符号当()1u t =时, 状态方程的解为:220212010()1()2x t t x x t t x t x =+=++ 消去t 得相轨迹方程: 2121()()2x t x t C =+ 当()1u t =-时, 状态方程的解为:220212010()1()2x t t x x t t x t x =-+=-++ 消去t 得相轨迹方程: 2121()()2x t x t C '=-+ 相轨迹的方向总是逆时针两簇曲线中, 每一簇中有一条曲线的半支进入末端状态点(原点) ()1u t =的曲线簇中, 通过原点的曲线方程为: 21221()()()02x t x t x t =≤ 记: γ+()1u t =-的曲线簇中, 通过原点的曲线方程为:21221()()()02x t x t x t =-≥ 记: γ-,γγ+-称为开关线, 其方程为: 1221()()()2x t x t x t =-开关线左侧区域用R +表示, 开关线右侧区域用R -表示于是最优控制律, 可以表示为状态[]12,Tx x x =的函数, 即*121,(,)1,x R u x x x R γγ++--∈⎧=⎨-∈⎩(2)最少燃料控制问题状态方程: 122,xx x u == 初始条件: 101002020()()()x t x t x t x ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦x = 末端条件: 12()()0f f x t x t == 约束控制: 0()1f u t t t t ≤≤≤ 求使性能指标0()ft t J u t dt =⎰取极小的最优控制. 解: 122()T H L f u t x u λλ=+=++λ协态方程: 110H x λ∂=-=∂ 212H x λλ∂=-=-∂ 12()()t a t at b λλ==-+使H 取得极小值, 等价于求下式的极小值2()min ()()()u t u t t u t λ∈⎡+⎤⎣⎦Ω 使H 取得极小值的最优控制律为:[]222220()1()sgn ()()10()1()11()0()1t u t t t u t t u t t λλλλλ⎧<⎪=⎨->⎪⎩≤≤=--≤≤= 当()1u t =时, 2121()()2x t x t C =+ (开口向右--抛物线) 当()1u t =-时, 2121()()2x t x t C =-+ (开口向左--抛物线) 当()0u t =时, 220110200(),()()x t x x t x x t t ==+- (水平线)由状态方程得: 21120211120110222112112121222121222221:()1()20:()()()()()()1:0()()10()()()()2f f u x t t x x t t x t x u x t x t Cx t x t x t t t u x t t t x t x t t t t t =-=-+=-++====+-==+-=+-+-由以上6个方程, 来解6个未知数:(3)设系统状态方程为: 122()(),()()xt x t x t u t == 边界条件: 12121(0)(0)0,()()4f f x x x t x t ==== 控制约束: ()1u t ≤, 末端时刻f t 自由求: 最优控制*()u t 使性能指标20()f t J u t dt =⎰最小解: 22212221221124H u x u u x λλλλλ⎛⎫=++=++- ⎪⎝⎭ 由极小值条件知:2*2221()21()()()221()2t u t t t t λλλλ<-⎧⎪⎪=-≤⎨⎪->⎪⎩ 由协态方程: 1112122()0()()()()H t t a x H t t t at b x λλλλλ∂=-==∂∂=-=-=-+∂ *211()()()22u t t at b λ=-=- 代入状态方程: 22232121111()()()24211()()()124x t u at b x t at bt c x t x t x t at bt ct d ⎧==-⇒=-+⎪⎪⎨⎪=⇒=-++⎪⎩ 由初始条件: 12(0)(0)00x x c d ==⇒==根据末端条件: 321221()12441()424f f f f f f a b x t t t a b x t t t =-==-= 根据H 沿最优轨线变化律: 2122()()()()()()0f f f f f f H t u t t x t t u t λλ=++=解得: 323(2)31,0,39f f f ff t t a b t t t --===== 最优控制: *1()()218t u t at b =-= 验证: 在0,f t ⎡⎤⎣⎦区间上, 2()1,()2u t t λ≤≤满足要求最优轨线: *3*21211(),()10836x t t x t t == 最优性能指标: 23*01()36J u t dt ⎡⎤==⎣⎦⎰7. 对于线性连续系统, 提出二次型目标函数:00011()()()()()()()22()()()()(),(),(),(),()f t T T T f f J x t Px t x t Qx t u t R t u t dt x t A t x t B t u t x t x R t P t Q t ⎡⎤=++⎣⎦=+=⎰ 正定半正定 0,f t t 固定求: 最优反馈控制, 并论述如何选择二次型目标函数中的加权矩阵.解: []1()()()()()()()()()()2T T T H x t Qx t u t R t u t t A t x t B t u t λ⎡⎤=+++⎣⎦ 协态方程: ()()()()T H Q t x t A t t xλλ∂⎡⎤=-=-+⎣⎦∂ 控制方程: 1()()()()0()()()()T T H R t u t B t t u t R t B t t u λλ-∂=+=⇒=-∂ 横截条件: 1()()()()()()2T f f f f f f t x t Px t Px t x t x t ϕλ∂∂⎡⎤===⎢⎥∂∂⎣⎦由此可见, 协态()t λ状态()x t 在末端时刻f t 成线性关系.设: ()()()t K t x t λ= 代入状态方程:1()()()()()()()()T x t A t x t B t R t B t K t x t -=- 由协态方程: ()()()()()()()()()()T t K t x t K t x t Q t x t A t K t x t λ⎡⎤=+=-+⎣⎦ 将()xt 代入: 1()()()()()()()()()()()()0T T K t K t A t K t B t R t B t K t A t K t Q t x t -⎡⎤+-++=⎣⎦ ()K t 由下面的黎卡提矩阵微分方程确定:1()()()()()()()()()()()T T K t K t A t A t K t K t B t R t B t K t Q t -=--+- 边界条件: ()f K t P =由此可得最优反馈控制: 1()()()()()()()T u t R t B t K t X t G t x t -=-=- 加权阵的选择: 若已知各加权变量允许的最大值为:1max 2max max ,,,n x x x 和1max 2max max ,,,n u u u1m a x 2m a x m a x 111,,,,n Q d i a gx x x ⎡⎤=⎢⎥⎣⎦ , 1max 2max max 111,,,,n R diag u u u ⎡⎤=⎢⎥⎣⎦8. 最优性原理: 一个多级决策问题的最优决策具有这样的性质: 当把其中任何一级及其及其状态作为初始级和初始状态时, 则不管初始状态是什么, 达到这个初始状态的决策是什么, 余下的决策对此初始状态必定构成最优策略.例题:(1) 系统方程为: (1)()()x k x k u k +=+, (0)x 给定 (1)122011(2)()22k J cx u k ==+∑ (2) 要求: 用动态规划寻找最优控制序列(0),(1)u u 使J 最小解: 先考虑最后一步, 即从(1)(2)x x → 这时由(1),(2)得:(2)(1)(1)x x u =+[]222211111(2)(1)(1)(1)(1)2222J cx u c x u u =+=++ 求(1)u 使1J 最小, 得:[]1(1)(1)(1)(1)0(1)(1)1J cx c x u u u u c∂=++=⇒=-∂+ 将(1)u 代入1J 和(2)x 得: 2*1(1)(1)(2)211c x x J x c c==++ 再考虑倒数第二步, 即从(0)(1)x x → 这时: (1)(0)(0)x x u =+[]22*22011(1)1(0)(0)(0)(0)22122(1)c x c J J J u u x u c c =+=+=++++ 求(0)u 使J 最小得:[](0)(0)(0)0(0)1J c u x u u c∂=++=∂+ (0)(0)12cx u c=-+ 于是最优性能指标与最优状态转移为: 2*(0)2(12)cx J c =+ 1(1)(0)(0)(0)12c x x u x c +=+=+ 9. (1)直接法: 在每一步迭代中, ()u t 不一定要满足H 取极小值的必要条件, 而是逐步改善它, 在迭代终了使它满足这个必要条件, 而且, 积分状态方程是从0f t t →, 积分协态方程是从0f t t →, 这样就避免了去寻找缺少的协态初值0()t λ的困难. 常用的有: 梯度法, 二阶梯度法, 共轭梯度法(2)间接法: 在每一步迭代中, ()u t 都要满足H 取极小值的必要条件, 而且要同时积分状态方程和协态方程,两种方程的积分都是从0f t t →或从0f t t →. 常用的有边界迭代法, 拟线性化法.10. 分离定理: 按照此定理, 可以把最优控制问题和状态变量的最优估计问题分开讨论.在研究最优控制问题时, 假定所有状态变量都可以直接得到, 而在研究状态变量的最优估计时, 则假定控制信号是已知的确定性函数.最后把控制器中的状态变量用其估计值代替, 就得到了随机线性系统的最优控制.11. 分离定理应用: 在随机线性系统最优控制中, 目前理论上和应用上比较成熟的是所谓LQG 问题, 即线性系统, 二次型指标, 高斯分布噪声情况下的最优调节器问题. 这时分离定理可以成立.根据分离定理: 可将LQG 分成两部分, 即根据确定性系统来求出最优反馈控制律, 再由卡尔曼滤波器来测定最优状态估计值, 将这个状态估计值代替状态变量本身, 就得到了最优反馈控制.。

第七章最优控制：最大值原理

以上推导得到：u
1 2
t
（7.39)
1 4 ke
t
( t ) ke （7.40)
（7.41)
t
y ce

步骤4
根据边界条件
t
y (0) 1
1 4
2
和
2
y (1) 0
代入 y ( t ) ce
ke
t
，得：
4e 1 e
2
c

1 1 e
k
第四章最优控制
第一节最大值原理第二节其他终结条件第三节变分法与最优控制的比较第四节政治商业周期
导入例子
• 最大化

T
U ( E )e
t
dt
0
满足和
dS dt
E (t )

S (0) S 0
S (T ) 自由
E (t ) 表示时间 t 时这种资源的抽取速度
S 表示资源的储量

所以
V
T 0
F ( t , y , u ) ( t ) f ( t , y , u ) y dt
( t ) f ( t , y , u ) y dt
0
T

T
( t ) f ( t , y , u ) y dt 0
0
*
综合情况一和二： (T ) 0
( y T y min ) (T ) 0
*

一般横截条件：
(T ) y T 0
H t T T

（7.30）
截断水平终结线：情况一

武汉大学自动化专业《现代控制理论》第七章最优控制

第七章最优控制
1
最优控制研究的主要问题是：根据已建立的被控对象的数学模型，选择一个容许的控制规律，使得被控对象按预定要求运行，并使给定的某一性能指标达到极小值（或极大值）；从数学观点看，最优控制研究的是求解一类带有约束条件的泛函极值问题，属于变分学的范畴。古典变分理论只能解决控制无约束（即容许控制属于开集）的一类最优控制问题，为满足工程实际的需要，在20世纪50年代中期出现了现代变分理论，常用的数学工具是Bellman(美国)的“动态规划”，和Pontryagin(苏联)的‘极大值原理“。，又进一步推动了现代控制论的发展
T t0 T tf t0
∴ ..J = {θ [ X (t ), t ] λ (t ) X (t )}
+ ∫ {H [ X (t ), u (t ), t ] + λT (t ) X (t )}dt
t0
tf
9
极大值曲线的充分条件为 δ2 J＜0
五无约束条件的泛函极值
& 求 J ( X ) = ∫t Φ( X , X , t )dt 的极值，就是确定X(t)，使 J = min .
0
tf
& 几何意义：寻找一条曲线X(t)，使给定的可微函数 Φ ( X , X , t ) 沿X(t) 的积分达到极值，此时X(t)=X*(t)
横截条件： ①两端固定 ②两端状态自由
δX 0 = 0,.....δX f = 0
Φ & X Φ & X
tf
= 0,.....
③始端自由，终端固定 ④始端固定，终端自由 ⑤终端 t f 自由，但状态 X (tf )=c (tf ) 受约束——拦截问题
Φ & X

最优控制的基本理论及应用

前苏联学者庞特里亚金等则在1956～1958年间创立了极小值原理, 也发展了经典变分原理,成为处理控制有闭集约束的变分问题的强有力工具。
本章在介绍解决最优控制问题3种基本方法(变分法、极小值原理和动态规划)的基础上，阐述两类典型最优反馈系统的设计,即线性二次型最优控制和最小时间控制。
6.2 最优控制问题的提出及数学描述
6.3.2 用变分法求解无约束条件的泛函极值问题
设积分型性能泛函为
Jtt0f L[x(tx)(,t)]d,tt
(6-24)
在区间[t0 ,t f ]上，被积函数 L[x(t),x(t),t]二次连续可微，轨线x(t)有连续的二阶导数，x(t)Rn ,对x(t)没有任何约束。要求确定极值轨迹 x *(t) ，使泛函J为极值。
级数 ,则
J()tt0f L x Tη(t) L x Tη (t)R dt
(6-29)
式中,R表示泰勒（Taylor）级数展开式中的高阶项。
如果定义x(t)和 x (t) 的一阶变分为 δ x εη (t),δ x εη (t)
由泛函变分的定义，泛函的一阶变分为
(6-30)
6.2.2 最优控制问题的数学描述
构成最优控制问题必须具备以下几个基本条件：
1.被控系统的数学模型，即动态系统的状态方程
状态方程在最优控制中为等式约束条件。
2.控制变量的约束条件(容许控制)
任何实际物理系统，控制变量总是受约束的，一
般可写成
u(t)U
(6-3)
式中,U表示一个封闭的点集合，称为控制域。此时称 u(t)为容许控制。
1)积分型性能泛函
Jtt0f Lx((t)u,(t),dtt)
2)终值型性能泛函
J[x(tf ),tf]

最优控制

最优控制学院专业班级姓名学号1948年维纳发表了题为《控制论—关于动物和机器中控制与通讯的科学》的论文，第一次科学的提出了信息、反馈和控制的概念，为最优控制理论的诞生和发展奠定了基础。

钱学森1954年所着的《工程控制论》直接促进了最优控制理论的发展和形成。

最优控制理论所研究的问题可以概括为：对一个受控的动力学系统或运动过程，从一类允许的控制方案中找出一个最优的控制方案，使系统的运动在由某个初始状态转移到指定的目标状态的同时，其性能指标值为最优。

这类问题广泛存在于技术领域或社会问题中。

从数学上看，确定最优控制问题可以表述为：在运动方程和允许控制范围的约束下，对以控制函数和运动状态为变量的性能指标函数（称为泛函）求取极值（极大值或极小值）。

解决最优控制问题的主要方法有古典变分法（对泛函求极值的一种数学方法）、极大值原理和动态规划。

最优控制已被应用于综合和设计最速控制系统、最省燃料控制系统、最小能耗控制系统、线性调节器等。

例如，确定一个最优控制方式使空间飞行器由一个轨道转换到另一轨道过程中燃料消耗最少，选择一个温度的调节规律和相应的原料配比使化工反应过程的产量最多，制定一项最合理的人口政策使人口发展过程中老化指数、抚养指数和劳动力指数等为最优等，都是一些典型的最优控制问题。

最优控制理论是50年代中期在空间技术的推动下开始形成和发展起来的。

苏联学者Л.С.庞特里亚金1958年提出的极大值原理和美国学者R.贝尔曼1956年提出的动态规划，对最优控制理论的形成和发展起了重要的作用。

线性系统在二次型性能指标下的最优控制问题则是R.E.卡尔曼在60年代初提出和解决的。

最优控制理论-主要方法解决最优控制问题的主要方法解决最优控制问题，必须建立描述受控运动过程的运动方程为了解决最优控制问题，必须建立描述受控运动过程的运动方程，给出控制变量的允许取值范围，指定运动过程的初始状态和目标状态，并且规定一个评价运动过程品质优劣的性能指标。

最优控制理论第七章

Chapter 7 Applications to marketing
State Equation: Sale expressed in terms of advertising (which is a control variable) Objective: Profit maximization
Defining as the elasticity of demand with respect to goodwill and using (7.3), (7.5), and (7.9), we can derive ( sto obtain the optimal long-run stationary equilibrium or turnpike . That is, we obtain from (7.8) by using . We then set and in (7.9). Finally, from (7.11) and (7.9), or also the singular level can be obtained as
Because of these conditions it is clear that for a given G0 , a choice of 0 such that (0 ,G0 ) is in Regions II and III, will not lead to a path converging to the turnpike point . On the other hand, the choice of (0 ,G0 ) in Region I when or (0 ,G0 ) in Region IV when , can give a path that converges to From a result in Coddington and Levinson(1955), it can be shown that at least in the neighborhood of , there exists a locus of optimum starting points . Given , we choose 0 on the saddle point path in Region I of figure 7.3. Clearly, the initial control u*(0)=f1(0). Furthermore, (t) is increasing and by (7.17), u(t) is increasing, so that in this case the optimal policy is to advertise at a low rate initially and

现代控制理论-第七章最优控制_动态规划

t
V (x(t),t) min (L(x(t t),u(t t),t t)t) u (t )U V (x(t), t) ( V )T dx t V t o(t)2 x dt t
第七章最优控制
V min (L(x(t t),u(t t),t t) (V )T dx o(t)2 )
x02
第七章最优控制
7.4.3 连续系统的动态规划
x f (x,u,t), x(t0 ) x0
u(t) U
性能指标
T
J (x(T )) L(x,u,t)dt
t
目标集
S {s | (x(T )) 0}
引进记号 V (x,t) J (x*(t),u*(t)) min J (x(t),u(t)) u(t )U
u0
第七章最优控制
7.4.2 离散系统动态规划
n 阶离散系统
xk1 f (xk ,uk ), k 0, , N 1
性能指标
N 1
J L(xk ,uk ) k 0
求决策向量
u0 , , uN 1
使 J 有最小值（或最大值），其终点可自由，
也可固定或受约束。
第七章最优控制

x12
(
1 2
x1 )2
(x1

1 2
x1 ) 2

3 2
x12
J (x0 ) x02 u02 J *(x1)

x02
u02

3 2
x12

x02
u02

3 2
( x0
u0 )2
J (x0 ) u0

第七章稳定性

2
dt
ess 其中， sup表示真上确界。所谓函数在点集 Q 上的真上确界是指它在 Q 中除某个零测度集外的上确界。对于连续函数，其上确界就是真上确界。
在空间 L p , 中，所有对 t 0 除去测度为零的集合上函数的全体所构成的集合记为L p [0,) ，它是L p , 的一个闭空间。因为实际信号均满足 t 0，所以我们讨论的信号均属于 L p [0,) 空间。需要说明的是：对于函数空间中的元素ut 可以是单个的函数，也可以是向量函数。
由特征方程

，得
a1 a12 4a0 conx1e 2
设 a0 0, a1 0, 则
①当 cos x1e 0 时，系统在 xe 渐近稳定；
1 1 2 ② cos x1e 0 时，1 2 (a1 a1 4a0 cos x1e ) 2 (a1 a1 ) 0
返回子目录
在控制系统中，经常要面临各种信号，这些信号通常可以表示为时域或者频域内的函数。而系统在这些信号激励下的响应，同样也可以表示为各种函数。因此，一个系统可以看成是从一个函数空间到另一个函数空间的映射，即算子。与向量和矩阵的情况类似，如果在函数空间引入范数的概念来表述信号在某种工程意义上的强度，以此来描述控制系统的性能，那么，系统作为算子时的范数就反映了系统在传递信号过程中的一种“增益”，它是描述系统性能的一个重要手段。
f1 f1 f1 x x n y n 1 G( y) o( y 2 ) f n f n f n y n xn x x y 0 x1 e
定理 1
7.1
数学基础知识

第7章最优控制原理总结

第7章最优控制原理总结第7章的最优控制原理是指在动态系统中，通过分析系统的状态和控制输入，确定最佳的控制策略，以达到系统的最优性能。

这一原理在工程、经济和生态等领域都有广泛的应用。

本文将从最优控制的基本概念、最优控制方法以及最优控制的应用方面进行总结。

最优控制的基本概念包括系统模型、性能指标和约束条件。

系统模型描述了动态系统的行为，可以通过微分方程或差分方程表示。

性能指标用来衡量系统的性能，可以是一些状态的值、系统的能耗等。

约束条件是系统在控制过程中必须满足的限制条件，例如系统的输入上下限、状态的约束等。

最优控制方法主要包括动态规划、变分法和数值优化等。

动态规划是一种通过将问题分解为一系列子问题来求解最优控制策略的方法。

通过选取最优子问题解来确定最优策略，并使用递推算法进行求解。

变分法是一种通过构建泛函，并通过最小化泛函来求解最优控制策略的方法。

通过求解欧拉-拉格朗日方程，得到最优控制策略的微分方程，并通过求解微分方程得到最优策略。

数值优化是一种通过数值计算方法求解最优化问题的方法。

通过建立优化模型，将最优控制问题转化为最优化问题，并应用优化算法进行求解。

最优控制在实际应用中有广泛的应用。

在工程领域，最优控制可以应用于飞行器、机器人和自动控制系统等。

例如，对于无人机飞行控制问题，可以通过最优控制方法来实现自动飞行，提高飞行性能。

在经济领域，最优控制可以应用于经济模型和金融产品的定价等。

例如，在股票市场中，可以通过最优控制方法来确定最佳交易策略，以最大化利润。

在生态领域，最优控制可以应用于生态系统的保护和管理等。

例如，通过最优控制方法来优化捕鱼策略，保护渔业资源。

最优控制原理的研究还面临一些挑战和问题。

首先，最优控制问题的求解往往需要耗费大量的计算资源和时间。

因此，如何提高求解效率是一个重要的问题。

其次，最优控制的求解通常需要对系统进行建模，而模型的准确性对最优控制的效果有重要影响。

因此，如何建立准确的系统模型也是一个关键问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

问题6-2 对于问题6-1中的直流他励电动机，如果电动机从初始
时刻 t0 0 的静止状态转过一个角度又停下，求控制 ID (t（) ID (t)是
受到限制的），使得所需时间最短。
这也是一个最优控制问题：
系统方程为
x1
x2
0 0
1 0
x1
x2
0 Km
JD
I
D
0 1
JD
拉方程
L x
d dt
L x
0
及横截条件
L T
x
tf
x(t f
)
L x
T
x(t0 ) 0
t0
注意：满足欧拉方程是必要条件，不是充分条件。
6.2 用变分法求解最优控制问题
6.2.1 末值时刻固定、末值状态自由情况下的最优控制
非线性时变系统状态方程为
x f (x,u,t)
（6）
初始状态
x(t) tt0 x(t0 )
因为如果令
λ H L f λ x x x
H 0 u
L f λ 0 u u
H ( x, u, λ,t) L( x, u, λ,t) λT (t)[ f ( x, u,t) x ]
简记成
H L λT [ f x ]
由欧拉方程得到
H x
d dt
H x
0
L f λ (λ) 0 x x
（10）
则 J [x(t f )] t f [H (x, u, λ,t) λT (t)x]d t
t0
[x(t f )] t f H (x, u, λ,t) d t t f λT (t)x d t
t0
t0
（11）
对（11）式中的第三项进行分部积分，得
J [x(t f )] t f H (x, u, λ,t) d t λT (t)x t0
TF
初始状态
x1(0)
x2
(0)
0 0
末值状态
x1(t f )
x2
(t
f
)
0
I D (t) ≤ I D max
（5）
性能指标 J t f d t t f 0
（6）
最优控制问题为：在状态方程的约束下，寻求最优控制 I D (t)≤ I Dmax
，将 x(t f ) 转移到 x(0) ，使J 为极小。
6.2.2 末值时刻固定，末端状态固定情况下的最优控制
非线性时变系统状态方程为
x f (x,u,t)
（27）
初始状态末值状态
x(t) tt0 x(t0 ) x(t) tt f x(t f )
（28）（29）
性能指标
J t f L(x, u,t) d t
（30）
t0
寻求最优控制 u* ，在 [t0 , t f ] 内，将系统从 x(t0 )转移到 x(t f ) ，
当 t t0 时，代入上式，求得 c1 x(t0 ) ，所以
x(t) cx(t f )(t t0 ) x(t0 )
当 t t f 时，
x(t
f
)
1
x(t0 ) (t f
t0
)
最优性能指标为
J
*
1 2
cx2
(t
f
)
1 2
tf t0
u2 d t 1 cx2 (t0 ) 2 1 c(t f t0 )
引言
什么是最优控制？以下通过直流他励电机的控制问题来说明
问题电动机的运动方程为
KmID
TF
JD
d
dt
（1）
其中，Km为转矩系数；J D为转动惯量；为恒T定F 的负载转矩；
tf (t) d t const 0
（2）
希望：在时间区间[0，tf]内，电动机从静止起动，转过一定角度
后停止，使电枢电阻 RD 上的损耗 E
2
由伴随方程 H 0
x
const
(t
f
)
x(t
f
)
1 2
cx2 (t
f
)
cx(t
f
)
因为 const
(t) (t f ) cx(t f )
由控制方程
H u 0
u
即
u* (t) cx(t f )
将 u* 代入状态方程 x u cx(t f )
解为 x(t) cx(t f )(t t0 ) c1
对于一个任意小正数，总是可以找到，当 x(t) x0(t) 时，有
J[x(t)] J[x0(t)] 就称泛函J[ x(t)]在 x(t) x0 (t) 处是连续的。
2、泛函的变分
所谓泛函 J[x(t)]的宗量 x(t) 的变分是指两个函数间的差。
δ x x(t) x0 (t)
x(t), x0 (t) Rn
第6章最优控制
最优控制是控制系统设计的一种方法。它所研究的中心问题是如何选择控制信号，才能保证控制系统的性能在某种意义下最优。本章内容为： 1. 引言
2. 用变分法求解最优控制问题
3. 极小值原理及其在快速控制中的应用
4. 用动态规划法求解最优控制问题 5. 线性状态调节器 6. 线性伺服机问题
t f
tf
t0
t0
λT (t)x d t （12）
当泛函J 取极值时，其一次变分等于零。即
δJ 0
可以变分的量： u(t) u(t) δ u
x(t f ) x(t f ) δ x(t f )
x(t) x(t) δ x
不可以变分的量： t0 t f x(t0 ) λ(t)
求出J 的一次变分并令其为零
最优控制问题的一般性提法为
系统状态方程为 x f ( x,u,t) 初始状态为 x(t0 )
其中，x 为n 维状态向量； u 为r 维控制向量； f 为n 维向量函数，它是 x 、u 和t 的连续函数，并且对x 、t 连续可微。
寻求在[t0 , t f ]上的最优控制 u Rr或 uU Rr ，以将系统状态从 x(t0 ) 转移到 x(t f ) 或 x(t f ) 的一个集合，并使性能指标
同时使性能指标J 取极小值。
定义：设J[ x]是线性赋泛空间 Rn 上的连续泛函，其增量可表示为
Δ J[x] J[x δ x] J[x] L[x, δ x] r[x,δ x]
其中，L[x, δ x]是关于 δ x 的线性连续泛函，r[x,δ x] 是关于δ x 的高阶无穷小。则 δ J L[x,δ x] 称为泛函 J[x]的变分。
即
λ L f λ
x x
（18）（19）（20）
（21）
H u
d dt
H u
0
L f λ 0 u u
（22）
可见（21）式和（18）式相同，（22）式和（19）式相同。因此，（14）式和（17）就是欧拉方程，而（7）式和（15）就是横截条件。
2） δ J 0 是泛函取极值的必要条件是否为极小值还需要二次变分 δ2 J 来判断， δ2 J 0 则泛函J 取极小值。
δ J[x0,δ x] 0
欧拉方程：
定理：设有如下泛函极值问题：
min J[x] x(t)
t f L(x, x,t)dt
t0
其中， L(x, x,t) 及 x(t) 在 [t0,t f ] 上连续可微， t0 和 t f 给定，
已知 x(t0 ) x0，x(t f ) x f ，x(t) Rn ，则极值轨线 x* (t) 满足如下欧
δ J
x(t f
T
)
δ
x(t f
)
λT
(t f
)δ
x(t f
)
tf t0
H x
T
δ
x
H u
T
δ
u
λT
δ
xd t
0
将上式改写成
T
δ
J
x(t f
)
λ(t f
)
δ x(t f )
tf t0
H x
T
λ
δ
x
H u
T
δ ud t
0
（13）
由于 λ(t) 未加限制，可以选择λ(t) 使上式中 δ x 和 δ x(t f ) 的系数
J [ x(t f ),t f ] t f L(x, u,t) d t t0
最优。其中 L(x, u,t) 是 x 、u 和t 的连续函数
最优控制问题就是求解一类带有约束条件的条件泛函极值问题。
补充：泛函与变分法
一、泛函与变分
1、泛函的基本定义：
如果对于某个函数集合x(t)中的每一个函数 x(t)，变量J 都有一个
x0 D ，若在 x0 的某领域内 U(x0, ) x
x x0 , x Rn
在 x U (x0, ) D 时，均有
Δ J[ x] J[ x] J[ x0 ] ≤0 或 Δ J[ x] J[ x] J[ x0 ] ≥0
则称 J (x) 在x x0处达到极大值或极小值。
定理：设J[ x] 是在线性赋泛空间 Rn 上某个开子集D 中定义的可微泛函，且在 x x0 处达到极值，则泛函 J[ x] 在 x x0 处必有
值与之对应，则称变量J 为依赖于函数 x(t)的泛函，记作 J x(t)
可见，泛函为标量，可以理解为“函数的函数”
例如：
3
J[x] x(t) d t
0
（其中，x(t)为在[0,3]上连续可积函数）
当x(t) t 时，有 J 4.5 ；当x(t) et 时，有 J e3 1 。
泛函 J [ x(t )]如果满足以下条件时，称为线性泛函： 1） J[cx(t)] cJ[x(t)] ，其中c 为任意常数； 2） J[ x1(t) x2 (t)] J[ x1(t)] J[ x2 (t)]

连续控制部分第七章 最优控制

第七章--最优控制

最优控制-第七章-动态规划法

最优控制理论

最优控制的计算方法

最优控制

最优控制全部PPT课件

第7章 随机系统最优控制

最优控制-极大值原理

最优控制笔记

第7章经济系统的最优控制1

最优控制总结

第七章 最优控制：最大值原理

武汉大学自动化专业 《现代控制理论》第七章 最优控制

最优控制的基本理论及应用

最优控制

最优控制理论第七章

现代控制理论-第七章 最优控制_动态规划

第七章 稳定性

第7章最优控制原理总结

连续控制部分第七章最优控制

第7章随机系统最优控制

第七章最优控制：最大值原理

武汉大学自动化专业《现代控制理论》第七章最优控制

现代控制理论-第七章最优控制_动态规划

第七章稳定性