最优控制 第七章 动态规划法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P1 3
7
P2
2
P3 4
A
4 Q1 1
4 8 2
6 Q2
3 3 3
2 Q3 4
2
B
最后一段(第四段 :终点B的前站是 的前站是P 最后一段 第四段):终点 的前站是 3或Q3,不 第四段 论汽车先从哪一站始发,行驶路线如何, 论汽车先从哪一站始发,行驶路线如何,在这最后 一段,总不外乎是从P 一段,总不外乎是从 3到B,历时为 ,或从 3到B, ,历时为4,或从Q , 历时为2,将其标明在图3中相应的圆圈内 比较P 中相应的圆圈内。 历时为 ,将其标明在图 中相应的圆圈内。比较 3与 这一最后一段最优决策为Q 。 Q3这一最后一段最优决策为 3B。
第七章 动态规划法
动态规划是贝尔曼在50年代作为多段决策过程 动态规划是贝尔曼在 年代作为多段决策过程 研究出来的, 研究出来的,现已在许多技术领域中获得广泛应 动态规划是一种分段最优化方法 分段最优化方法, 用。动态规划是一种分段最优化方法,它既可用来 求解约束条件下的函数极值问题,也可用于求解约 求解约束条件下的函数极值问题, 束条件下的泛函极值问题。它与极小值原理一样, 束条件下的泛函极值问题。它与极小值原理一样, 是处理控制矢量被限制在一定闭集内, 是处理控制矢量被限制在一定闭集内,求解最优控 制问题的有效数学方法之一。 制问题的有效数学方法之一。
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 2 2 Q3 B
5 Q2
3
第三段: 的前站是P 第三段:P3、Q3的前站是 2、Q2。在这一段也 不论其先后的情况如何,只需对从P 不论其先后的情况如何,只需对从 2或Q2到B进行最 进行最 优决策。 有两条路线: 优决策。从P2到B有两条路线:P2P3B,历时为 ; 有两条路线 ,历时为6; P2Q3B,历时为 ,取最短历时 ,标注在 2旁。从Q2 ,历时为4,取最短历时4,标注在P 也有两条路线: 到B也有两条路线:Q2P3B,历时为 ;Q2Q3B,历时 也有两条路线 ,历时为7; , 比较P 为5,取最短历时 ,标注在 2旁。比较 2与Q2的最 ,取最短历时5,标注在Q 优值,可知这一段的最优路线是P 优值,可知这一段的最优路线是 2Q3B。 。
u0 x0 1 x1
u1 2 x2 xk
uk k+1 xk+1 xN-1
uN-1 N xN
前k段子过程 k
后N-k段子过程
u0 x0 1 x1
u1 2 x2 xk
uk k+1 xk+1 xN-1
uN-1 N xN
图1 多段决策过程示意图 当然, 当然,如果对每一段的决策都是按照使某种性 能指标为最优的原则作出的, 能指标为最优的原则作出的,那么这就是一个多段 最优决策过程。 最优决策过程。
容易理解,在多段决策过程中,每一段(如第 容易理解,在多段决策过程中,每一段 如第 k+1段)的输出状态 k+1)都仅仅与该段的决策 k)及 段 的输出状态 的输出状态(x 都仅仅与该段的决策 都仅仅与该段的决策(u 及 该段的初始状态(x 有关 有关。 该段的初始状态 k)有关。而与其前面各段的决策 及状态的转移规律无关。这种性质称为无后效性。 及状态的转移规律无关。这种性质称为无后效性。 无后效性 下面以最优路线问题为例, 下面以最优路线问题为例,来讨论动态规划求 解多段决策问题。 解多段决策问题。
应用动态规划法可使计算量减少许多。 应用动态规划法可使计算量减少许多。动态规 划法遵循一个最优化原则: 划法遵循一个最优化原则:即所选择的最优路线必 须保证其后部子路线是最优的。 须保证其后部子路线是最优的。 例如在图2中,如果AQ1P2Q3B是最优路线,那么 是最优路线, 例如在图 中 如果 是最优路线 从这条路线上任一中间点到终点之间的一段路线必 定也是最优的。否则 定也是最优的。否则AQ1P2Q3B就不能是最优路线 就不能是最优路线 了。
一、多段决策问题
动态规划是解决多段决策过程优化问题的一 种强有力的工具。所谓多段决策过程, 种强有力的工具。所谓多段决策过程,是指把一 个过程按时间或空间顺序分为若干段, 个过程按时间或空间顺序分为若干段,然后给每 一步作出“决策” 或控制 或控制), 一步作出“决策”(或控制 ,以使整个过程取得最 优 的效果。 的效果。
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 2 2 Q3 B
5 Q2
3
第一段: 的前站是始发站A。 第一段:P1、Q1的前站是始发站 。显见从 A到B的最优值为 ,故得最优路线为 1P2Q3B。 到 的最优值为 的最优值为12,故得最优路线为AQ 。
综上可见,动态规划法的特点是: 综上可见,动态规划法的特点是: 1) 与穷举算法相比,可使计算量大大减少。如 与穷举算法相比,可使计算量大大减少。 上述最优路线问题,用动态规划法只须做 次 上述最优路线问题,用动态规划法只须做10次 加法和6次比较。如果过程为 段 加法和 次比较。如果过程为n段,则需做加 次比较 以上例为例,用穷举法需作4608次加法, 次加法, 法。以上例为例,用穷举法需作 次加法 而后者只需做34次加法。 而后者只需做 次加法。 次加法
2) 最优路线的整体决策是从终点开始,采用逆推方 最优路线的整体决策是从终点开始, 通过计算、比较各段性能指标, 法,通过计算、比较各段性能指标,逐段决策逐步 延伸完成的。 延伸完成的。 全部最优路线的形成过程已充分表达在图3中。 全部最优路线的形成过程已充分表达在图 中 从最后一段开始,通过比较P 得到Q ; 从最后一段开始,通过比较 3、Q3,得到 3B; 倒数第二段,通过比较P 得到P 倒数第二段,通过比较 2、Q2,得到 2Q3B; ; 倒数第三段,通过比较P 倒数第三段,通过比较 1、Q1,得到最优决策 为Q1P2Q3B; ; 直至最后形成最优路线AQ1P2Q3B。 直至最后形成最优路线 。 象这样将一个多段决策问题转化为多个单段决 策的简单问题来处理, 策的简单问题来处理,正是动态规划法的重要特点 之一。 之一。
P1 3
7
P2
2
P3 4
A
4 Q1 1
4 8 2
6 Q2
3 3 3
2 Q3现将 到B分成四段,每一段都要作一最优决 使总过程时间为最短。 策,使总过程时间为最短。所以这是一个多段最 优决策问题。 优决策问题。 由图2可知,所有可能的行车路线共有8条 由图 可知,所有可能的行车路线共有 条。 可知 如果将各条路线所需的时间都一一计算出来, 如果将各条路线所需的时间都一一计算出来,并 作一比较,便可求得最优路线是AQ 作一比较,便可求得最优路线是 1P2Q3B,历时 , 12。这种一一计算的方法称为穷举算法。这种方 。这种一一计算的方法称为穷举算法。 法计算量大,如本例就要做3× 次加法和7次 法计算量大,如本例就要做 ×23=24次加法和 次 次加法和 比较。如果决策一个n段过程 则共需(n-1)2n-1次 段过程, 比较。如果决策一个 段过程,则共需 次比较。 加法和(2 次比较 可见随着段数的增多, 加法和 n-1-1)次比较。可见随着段数的增多,计 算量将急剧增加。 算量将急剧增加。
设汽车从A城出发到 城 设汽车从 城出发到B城,途中需穿越三条河 城出发到 它们各有两座桥P、 可供选择通过 如图2所 可供选择通过, 流,它们各有两座桥 、Q可供选择通过,如图 所 示。各段间的行车时间 或里程、费用等 已标注在 各段间的行车时间(或里程 费用等)已标注在 或里程、 相应段旁。问题是要确定一条最优行驶路线, 相应段旁。问题是要确定一条最优行驶路线,使从 A城出发到 城的行车时间最短。 城出发到B城的行车时间最短 城出发到 城的行车时间最短。
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 2 2 Q3 B
5 Q2
3
第二段: P2、Q2的前站是 1、Q1。同样不管 的前站是P 第二段: 汽车是如何到达的P 重要的是保证从P 汽车是如何到达的 1、Q1,重要的是保证从 1或 Q1到B要构成最优路线。从P1到B的两条路线中, 要构成最优路线。 的两条路线中, 要构成最优路线 的两条路线中 P1P2Q3B,历时为 ;P1Q2Q3B,历时为 ,取最 ,历时为11; ,历时为11, 短历时11,标注在P 的也有两条路 短历时 ,标注在 1旁。从Q1到B的也有两条路 线中, 线中,Q1P2Q3B,历时为 ;Q1Q2Q3B,历时为 ,历时为8; , 比较P 13,取最短历时 ,标注在 1旁。比较 1与Q1的 ,取最短历时8,标注在Q 最优值,可知这一段的最优路线是Q 最优值,可知这一段的最优路线是 1P2Q3B。 。
3) 动态规划法体现了多段最优决策的一个重要 规律,即所谓最优性原理 最优性原理。 规律,即所谓最优性原理。它是动态规划的理 论基础。 论基础。
对图4所示的 段决策过程 如果在第k+1段处把全 对图 所示的N段决策过程,如果在第 所示的 段决策过程, 段处把全 过程看成前k段子过程和后 段子过程两部分。 过程看成前 段子过程和后N-k段子过程两部分。对于后 段子过程和后 段子过程两部分 部子过程来说, 可看作是由x 及前k段初始决策 段初始决策(或控 部子过程来说,xk可看作是由 0及前 段初始决策 或控 所形成的初始状态。那么, 制) u0,u1,…, uk-1所形成的初始状态。那么,多段决策的 最优决策略具有这样的性质:不论初始状态和初始决策 最优决策略具有这样的性质: 如何,其余(后段 决策(或控制 后段)决策 或控制)对于由初始决策所形成的 如何,其余 后段 决策 或控制 对于由初始决策所形成的 状态来说,必定也是一个最优策略。 状态来说,必定也是一个最优策略。这个性质称为最优 性原理。 性原理。
如图1所示,对于中间的任意一段,例如第k+1 如图 所示,对于中间的任意一段,例如第 所示 段作出相应的“决策” 或控制 或控制)u 段作出相应的“决策”(或控制 k后,才能确定该段 输 入状态与输出状态间的关系,即从 变化到x 入状态与输出状态间的关系,即从xk变化到 k+1的状 态转移规律。在选择好每一段的“决策” 或控制 或控制) 态转移规律。在选择好每一段的“决策”(或控制 uk 以后,那么整个过程的状态转移规律从x 以后,那么整个过程的状态转移规律从 0经xk一直到 xN也就被完全确定。全部“决策”的总体,称为 也就被完全确定。全部“决策”的总体, “策 略”。
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 2 2 Q3 B
5 Q2
3
最后一段(第四段 :终点B的前站是 的前站是P 最后一段 第四段):终点 的前站是 3或Q3,不 第四段 论汽车先从哪一站始发,行驶路线如何, 论汽车先从哪一站始发,行驶路线如何,在这最后 一段,总不外乎是从P 一段,总不外乎是从 3到B,历时为 ,或从 3到B, ,历时为4,或从Q , 历时为2,将其标明在图3中相应的圆圈内 比较P 中相应的圆圈内。 历时为 ,将其标明在图 中相应的圆圈内。比较 3与 这一最后一段最优决策为Q 。 Q3这一最后一段最优决策为 3B。
根据这一原则,求解最优路线问题, 根据这一原则,求解最优路线问题,最好的办 法就是从终点开始,按时间最短为目标, 法就是从终点开始,按时间最短为目标,逐段向前 逆推。依次计算出各站至终点之间的时间最优值, 逆推。依次计算出各站至终点之间的时间最优值, 并据此决策出每一站的最优路线。如在图2中 并据此决策出每一站的最优路线。如在图 中,从终 开始逆推。 点B开始逆推。 开始逆推
动态最优的核心是最优性原理, 动态最优的核心是最优性原理,它首先将一个 最优性原理 多段决策问题转化为一系列单段决策问题, 多段决策问题转化为一系列单段决策问题,然后从 最后一段状态开始逆向递推到初始段状态为止的一 套求解最优策略的完整方法。 套求解最优策略的完整方法。 下面先介绍动态规划的基本概念, 下面先介绍动态规划的基本概念,然后讨论连 续型动态规划。 续型动态规划。