最优控制动态规划法

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

uk
xk
k+1 xk+1
uN-1
xN-1
N
xN
图1 多段决策过程示意图当然，如果对每一段的决策都是按照使某种性能指标为最优的原则作出的，那么这就是一个多段最优决策过程。
容易理解，在多段决策过程中，每一段(如第 k+1段)的输出状态(xk+1)都仅仅与该段的决策(uk)及该段的初始状态(xk)有关。而与其前面各段的决策及状态的转移规律无关。这种性质称为无后效性。
P1
P2
P3
7
11
4
4
12
A
4
4 8
2
3
5
2
4 2B
Q1
Q2
Q3
第三段：P3、Q3的前站是P2、Q2。在这一段也
不论其先后的情况如何，只需对从P2或Q2到B进行最优决策。从P2到B有两条路线：P2P3B，历时为6； P2Q3B，历时为4，取最短历时4，标注在P2旁。从Q2 到B也有两条路线：Q2P3B，历时为7；Q2Q3B，历时为5，取最短历时5，标注在Q2旁。比较P2与Q2的最优值，可知这一段的最优路线是P2Q3B。
段作出相应的“决策”(或控制)uk后，才能确定该段输
入状态与输出状态间的关系，即从xk变化到xk+1的状态转移规律。在选择好每一段的“决策”(或控制) uk 以后，那么整个过程的状态转移规律从x0经xk一直到 xN也就被完全确定。全部“决策”的总体，称为 “策
略”。
u0
u1
x0
1 x1
2 x2
P1
P2
P3
7
11
4
4
12
A
4
4 8
2
3
5
2
4 2B
Q1
Q2
Q3
第二段： P2、Q2的前站是P1、Q1。同样不管汽车是如何到达的P1、Q1，重要的是保证从P1或 Q1到B要构成最优路线。从P1到B的两条路线中， P1P2Q3B，历时为11；P1Q2Q3B，历时为11，取最
短历时11，标注在P1旁。从Q1到B的也有两条路线中，Q1P2Q3B，历时为8；Q1Q2Q3B，历时为 13，取最短历时8，标注在Q1旁。比较P1与Q1的最优值，可知这一段的最优路线是Q1P2Q3B。
P1
P2
P3
7
11
4
4
12
4
A
4
8 Q1
2
3
5
2
Q2
Q3
4 2B
最后一段(第四段)：终点B的前站是P3或Q3，不论汽车先从哪一站始发，行驶路线如何，在这最后一段，总不外乎是从P3到B，历时为4，或从Q3到B，历时为2，将其标明在图3中相应的圆圈内。比较P3与 Q3这一最后一段最优决策为Q3B。
象这样将一个多段决策问题转化为多个单段决策的简单问题来处理，正是动态规划法的重要特点之一。
2) 最优路线的整体决策是从终点开始，采用逆推方法，通过计算、比较各段性能指标，逐段决策逐步延伸完成的。
全部最优路线的形成过程已充分表达在图3中。从最后一段开始，通过比较P3、Q3，得到Q3B；倒数第二段，通过比较P2、Q2，得到P2Q3B；倒数第三段，通过比较P1、Q1，得到最优决策为 Q1P2Q3B；直至最后形成最优路线AQ1P2Q3B。
P1 7
P2 2
P3
3

A
4 6 32
B
4
2
Q1
8
Q2
3
Q3
1
2
3
4
最后一段(第四段)：终点B的前站是P3或Q3，不论汽车先从哪一站始发，行驶路线如何，在这最后一段，总不外乎是从P3到B，历时为4，或从Q3到B，历时为2，将其标明在图3中相应的圆圈内。比较P3与 Q3这一最后一段最优决策为Q3B。
下面先介绍动态规划的基本概念，然后讨论连续型动态规划。
一、多段决策问题
动态规划是解决多段决策过程优化问题的一种强有力的工具。所谓多段决策过程，是指把一个过程按时间或空间顺序分为若干段，然后给每一步作出“决策”(或控制)，以使整个过程取得最优的效果。
如图1所示，对于中间的任意一段，例如第k+1
A
4 6 32
B
4
2
Q1
8
Q2
3
Q3
1
2
3
4
现将A到B分成四段，每一段都要作一最优决策，使总过程时间为最短。所以这是一个多段最优决策问题。
由图2可知，所有可能的行车路线共有8条。如果将各条路线所需的时间都一一计算出来，并作一比较，便可求得最优路线是AQ1P2Q3B，历时 12。这种一一计算的方法称为穷举算法。这种方法计算量大，如本例就要做3×23=24次加法和7次比较。如果决策一个n段过程，则共需(n-1)2n-1次加法和(2n-1-1)次比较。可见随着段数的增多，计算量将急剧增加。
动态规划是贝尔曼在50年代作为多段决策过程研究出来的，现已在许多技术领域中获得广泛应用。动态规划是一种分段最优化方法，它既可用来求解约束条件下的函数极值问题，也可用于求解约束条件下的泛函极值问题。它与极小值原理一样，是处理控制矢量被限制在一定闭集内，求解最优控制问题的有效数学方法之一。
动态最优的核心是最优性原理，它首先将一个多段决策问题转化为一系列单段决策问题，然后从最后一段状态开始逆向递推到初始段状态为止的一套求解最优策略的完整方法。
下面以最优路线问题为例，来讨论动态规划求解多段决策问题。
设汽车从A城出发到B城，途中需穿越三条河流，它们各有两座桥P、Q可供选择通过，如图2所示。各段间的行车时间(或里程、费用等)已标注在相应段旁。问题是要确定一条最优行驶路线，使从 A城出发到B城的行车时间最短。
P1 7
P2 2
P3
3
4
应用动态规划法可使计算量减少许多。动态规划法遵循一个最优化原则：即所选择的最优路线必须保证其后部子路线是最优的。
例如在图2中，如果AQ1P2Q3B是最优路线，那么从这条路线上任一中间点到终点之间的一段路线必定也是最优的。否则AQ1P2Q3B就不能是最优路线了。
根据这一原则，求解最优路线问题，最好的办法就是从终点开始，按时间最短为目标，逐段向前逆推。依次计算出各站至终点之间的时间最优值，并据此决策出每一站的最优路线。如在图2中，从终点B开始逆推。
P1
P2
P3
7
11
4
4
12
4
A
4
8 Q1
2
3
5
2
Q2
Q3
4 2B
第一段：P1、Q1的前站是始发站A。显见从
A到B的最优值为12，故得最优路线为AQ1P2Q3B。
综上可见，动态规划法的特点是： 1) 与穷举算法相比，可使计算量大大减少。如上述最优路线问题，用动态规划法只须做10次加法和6次比较。如果过程为n段，则需做加法。以上例为例，用穷举法需作4608次加法，而后者只需做34次加法。