动态规划与离散系统最优控制
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 基于对多阶段决策过程的研究,贝尔曼在20世纪50年代首先 提出了求解离散多阶段决策优化问题的动态规划法。 ? 如今,这种决策优化方法在许多领域得到应用和发展,如 在生产计划、资源配置、信息处理、模式识别等方面都 有成功的应用。 ? 下面要介绍的是,贝尔曼本人将动态规划优化方法成功 地应用于动态系统的最优控制问题,即构成最优控制的 两种主要求解方法之一的最优控制动态规划法。
? 从上述解题的叙述过程可以看出 ,动态规划法具有如下 特点。
多阶段决策问题 (9/12)
1) 与穷举法相比,动态规划法可使计算量大为减少。
? 事实上,用动态规划法解多阶段决策问题 ,只需作一 些简单的、非常有限的加法运算和求极大运算。
? 如对一个有n个阶段,除最后一段外每一个状态下一 步有 m种可能决策方案的多阶段决策问题 ,共需作 (n-2)m2+m=(mn-2m+1)m 次 加 法 运 算 , 以 及 (mn2m+1)(m-1)次从二取一的极大运算
? 由于从x1(3)站和x2(3)站分别前往终点的最短时间已经计 算出,因此,从x1(2)站和x2(2)到终点的最短时间分别为 J[x1(2)]=min{1+J[x1(3)],1+J[x2(3)]}=4 J[x2(2)]=min{2+J[x1(3)],2+J[x2(3)]}=5
其相应的最短时间行车路线为 {x1(2),x2(3),F}和{x2(2),x2(3), F}。
? 若行车问题需作决策的阶段数 n较大,每次决策中可供选 择的方案较多时 ,用上述穷举法来解决最短行车时间问 题计算量非常大。
? 一般说来,用穷举法计算时间与作决策的阶段数 n和每次 决策中可供选择的方案数成指数关系 ,即通常所称的指 数爆炸、维数灾难。
多阶段决策问题 (4/12)
? 通过分析发现,另一种求最短时间行 车路线方法的是:
x(k+1)=f(x(k),u(k),k) (7-182)
最优性原理一般问题的问题描述 (5/22)
? 对多阶段的决策问题,可以详细描述如下。 ? 设系统由决策 u(k),经变换式 (7-182)把状态从 x(k)转移到 x(k+1),其相应耗费的代价为F(x(k),u(k),k),k=0,1,…,N-1。 ? 现需通过一变换序列
多阶段决策问题 (7/12)
? 类似于前面过程 ,其他各站到终 点的最短时间和相应的行车路 线如图图7-11所示.
? 从图7-11可以很方便地得到各站到终点站 F的最短时间 行车路线和所耗费的行车时间 ,当然,也可以得到从起点 站S到终点站F的最短时间行车路线和所耗费的行车时间。
多阶段决策问题 (8/12)
? 其他站的情况依此类推。
多阶段决策问题(5/12)
图7-11 最优行车路线图
多阶段决策问题 (6/12)
? 由此向后倒推,继续考察倒数第2 段,计算x1(2)站和x2(2)站到终点F 的最短时间 ,并分别记为 J[x1(2)] 和J[x2(2)]。
? 由图7-10可知,从x1(2)站到达终点 F的路线中下一站只能 是x1(3)站和x2(3)站中之一。
? 从最后一段开始 , 先分别算出 x1(3)站和x2(3)站到终点F的最短 时 间 , 并 分 别 记 为 J[x1(3)] 和 J[x2(3)]。
? 实际上,最后一段没有选择的余地。
? 因此,由图7-10可求得 J[x1(3)]=4, J[x2(3)]=3
? 为便于今后求解过程的应 用,可将从x1(3)站和x2(3)站 到终点的最短时间 J[x1(3)] 和J[x2(3)]的数值标记于代 表该站的小圆圈内 ,如图711所示。
? 而对穷举法 ,则需作 m×mn-2×(n-1)=mn-1(n-1)次 加法运算和mn-1-1次的从二取一的极大运算。
? 如对前面的n=4,m=2的最短时间行车问题 ,用动态规 划法求解共需作 10次加法运算和 5次从二取一的极 大运算。而用穷举法求解,则分别为24次和8次。
多阶段决策问题(10/12)
? 因此,动态规划法在减少计算量上的效果是显著的。 ? 阶段数n越大,决策方案m越多,则动态规划法的优点
更为突出。 ? 如对 n=10,m=4的多阶段决策问题 ,用动态规划
法求解共需作 132次加法运算和 33次从二取一 的极大运算,而用穷举法求解分别为次和 262143次。 ? 因此,动态规划法的效果是非常显著的。
动态规划与离散系统最优控制(2/3)
? 离散系统的控制问题为人们所重视的原因有二。 1) 有些连续系统的控制问题在应用计算机控制技术、数字 控制技术时,通过采样后成为离散化系统, ? 如许多现代工业控制领域的实际计算机控制问题。 2) 有些实际控制问题本身即为离散系统, ? 如某些经济计划系统、人口系统的时间坐标只能以 小时、天或月等标记; ? 再如机床加工中心的时间坐标是以一个事件(如零 件加工活动)的发生或结束为标志的。
Ch.7 最优控制原理
目录
7.1 最优控制概述 7.2 变分法 7.3 变分法在最优控制中的应用 7.4 极大值原理 7.5 线性二次型最优控制 7.6 动态规划与离散系统最优控制 本章小结
目录(1/1)
动态规划与离散系统最优控制 (1/3)
7.6 动态规划与离散系统最优控制
? 前面讨论了连续系统最优控制问题的基于经典变分法和庞特 里亚金的极大值原理的两种求解方法。 ? 所谓连续系统 ,即系统方程是用线性或非线性微分方程 描述的动态系统。
? 同样,在后续的每个阶段都要作出类似的决策。
多阶段决策问题 (3/12)
? 在该行车问题中 ,阶段数 n=4,需作n1=3次决策。
? 由于每次决策只有两种可能的 选择,3次选择共有 2n-1=23=8种 不同的行车路线。
? 因此,计算8种不同的行车路线所耗费的总行车时间 ,取最 小者即可求出最短时间行车路线。
? 该类系统的控制问题是与传统的控制系统和控制元件的 模拟式实现相适应的 ,如模拟式电子运算放大器件、模 拟式自动化运算仪表、模拟式液压放大元件等。
? 随着计算机技术的发展及计算机控制技术的日益深入 , 离散系统的最优控制问题也必然成为最优控制中需深入 探讨的控制问题 ,而且成为现代控制技术更为关注的问 题。
3) 策略{u(0),u(1),…,u(N-1)},是个阶段的决策所组成的决策 集合。
4) 代价J,由于状态发生转移所耗费的代价。 ? 对控制问题,相当于性能指标。
最优性原理一般问题的问题描述(3/22)
? 设在决策u(k)的作用下,发生了状态从x(k)到x(k+1)的转移。 ? 显然新的状态 x(k+1)完全取决于原来的状态 x(k)和所采 取的决策u(k)。 ? 也可以把这种转移看成是在决策 u(k)作用下的状态从x(k) 到x(k+1)的一种变换,且这种变换关系是唯一的,并用 x(k+1)=f(x(k),u(k),k) 表示。 ? 在每一阶段 ,通常有若干个决策可供选择 ,我们用 Ω(k)代 表第k个阶段可供选择的决策的集合。 ? 一般说来,阶段不同,其决策集合Ω(k)也不同。 ? 下面,我们还用Ω代表全部可供选择的决策的集合,即 Ω=Ω(0)∪Ω(1)∪…∪Ω(N-1)
? 下面将在函数空间中描述N阶段的决策过程,为此先引进下述 概念与定义。 1) 状态向量x(k),表示过程在 k时刻的状态。对控制问题 ,相 当于状态变量向量。
最优性原理一般问题的问题描述 (2/22)
2) 决策向量u(k),表示过程在k时刻的从某一状态转变为另一 状态的动因。 ? 对控制问题,则相当于控制输入向量。
? 至于连续系统的最优控制问题的动态规划法,不仅是一 种可供选择的有充分性的最优控制求解法,它还揭示了 动态规划与变分法、极大值原理之间的关系,具有重要 的理论价值。
最优性原理与离散系统的动态规划法(3/3)
? 下面分别介绍 ? 多阶段决策问题 ? 最优性原理一般问题的问题描述 ? 离散系统的动态规划法
多阶段决策问题(11/12)
2) 用动态规划法求解多阶段决策问题的思路是: ? 为最后求出由起点S至终点F的最优路线,先逆向递 推求出各状态至终点F的最优路线。 ? 在取得当前状态到终点的极值时,只需要知道当前 状态值和上一次的最优(集合)值,就可以得到当前的 最优值,并作为下一次优化的初始数据。
f(x(0),u(0),0), f(x(1),u(1),1), …, f(x(N-1),u(N-1),N-1)
? 将初始状态 x(0)经x(1),…,x(N-1)转移到终态 x(N),与这 N 次转移相对应的所耗费的总代价为
试求出一个决策序列{u(0),u(1),…,u(N-1)}? Ω,使N阶段决策 问题的总代价最小。
x(k+1)=f(x(k),u(k),k) (7-182)
最优性原理一般问题的问题描述 (4/22)
? 对多阶段的决策问题,可以详细描述如下。 ? 设系统由决策 u(k),经变换式 (7-182)把状态从 x(k)转移到 x(k+1),其相应耗费的代价为F(x(k),u(k),k),k=0,1,…,N-1。 ? 现需通过一变换序列
? 类似地,从x1(2)站至终点F的最优路线{x1(2),x2(3),F} 是从起点S至终点F的最优路线{S,x2(1),x1(2),x2(3),F} 的一部分,也是从x2(1)至终点F的最优路线{x2(1), x1(2),x2(3),F}的一部分。
? 对于多阶段决策问题,最优路线和最优决策具有这 种性质不是偶然的,而反映了该问题的一种规律性, 即所谓的贝尔曼的最优性原理。
图7-10 某行车路线图
多阶段决策问题 (2/12)
? 由S站出发至终点 F站可有多种不同 的行车路线,沿各种行车路线所耗费 的时间不同。
? 为使总的行车时间最短 ,司机在 路程的前3段要作出3次决策。
? 也就是说,一开始司机要在经过x1(1)站还是x2(1)站两种情 况中作出决策。
? 到x1(1)站或x2(1)后,又面临下一站是经过 x1(2)站还是 x2(2)站的第2次决策。
多阶段决策问题 (1/12)
1. 多阶段决策问题
? 在讨论动态规划法之前 ,先考察一个简单的最短时间行车问 题,简称行车问题。
? 例 如图7-10所示,某交通工具从 S站出发,终点为F站,全程可
分为4段。
? 中间可以经过的各站及 它们之间的行车时间均 已标记在图上。
? 试求最短行车来自百度文库间的行 车路线。
? 上述最短行车时间路线问题及其求解方法可以推广到许多多 阶段决策优化问题 ,如建筑安装工期计划、经济发展计划、 资源合理配置等 ,其相应的最优性指标可以为所耗费的时间 最短,也可以为所耗费的能源最小、所得到的效益最好等。
? 因此,前面介绍逆向递推求解最优化问题的方法是一种 具有普遍性意义的多阶段决策优化方法 ,称为动态规划 法。
动态规划与离散系统最优控制(3/3)
? 本节将介绍解决离散系统最优控制的强有力工具--贝尔曼动 态规划,以及线性离散系统的二次最优控制问题。 ? 内容为 ? 最优性原理与离散系统的动态规划法 ? 线性离散系统的二次型最优控制
最优性原理与离散系统的动态规划法 (1/3)
7.6.1 最优性原理与离散系统的动态规划法
最优性原理与离散系统的动态规划法 (2/3)
? 动态规划的核心是贝尔曼最优性原理。
? 这个原理归结为一个基本的递推公式,求解多阶段决策 问题时,要从末端开始,逆向递推,直至始端。
? 动态规划的离散基本形式受到问题的维数的限制,应用 有一定的局限性。
? 但是,它用于解决线性离散系统的二次型性能指标的最 优控制问题特别有效。
? 贝尔曼的最优性原理就是运用这个原理给出递推方 法的。
多阶段决策问题(12/12)
3) 由图7-11可知,与从起点S至终点F的最优路线{S,x2(1), x1(2),x2(3),F}相对应的,该最优路线的从x2(1)站至终点F 的部分路线{x2(1),x1(2),x2(3),F}是从x2(1)站至终点F的最 优路线。
? 它是动态规划法的核心。
最优性原理一般问题的问题描述 (1/22)
2. 最优性原理一般问题的问题描述
? 现在正式阐述动态规划的基本原理。 ? 在引进一些专门的名词之后 ,先叙述所要求解的多阶段 决策问题 ,接着给出和证明动态规划法的核心问题最优 性原理,并应用这一基本原理求解多阶段决策过程 ,并将 该求解方法推广至在离散系统最优控制问题。
? 从上述解题的叙述过程可以看出 ,动态规划法具有如下 特点。
多阶段决策问题 (9/12)
1) 与穷举法相比,动态规划法可使计算量大为减少。
? 事实上,用动态规划法解多阶段决策问题 ,只需作一 些简单的、非常有限的加法运算和求极大运算。
? 如对一个有n个阶段,除最后一段外每一个状态下一 步有 m种可能决策方案的多阶段决策问题 ,共需作 (n-2)m2+m=(mn-2m+1)m 次 加 法 运 算 , 以 及 (mn2m+1)(m-1)次从二取一的极大运算
? 由于从x1(3)站和x2(3)站分别前往终点的最短时间已经计 算出,因此,从x1(2)站和x2(2)到终点的最短时间分别为 J[x1(2)]=min{1+J[x1(3)],1+J[x2(3)]}=4 J[x2(2)]=min{2+J[x1(3)],2+J[x2(3)]}=5
其相应的最短时间行车路线为 {x1(2),x2(3),F}和{x2(2),x2(3), F}。
? 若行车问题需作决策的阶段数 n较大,每次决策中可供选 择的方案较多时 ,用上述穷举法来解决最短行车时间问 题计算量非常大。
? 一般说来,用穷举法计算时间与作决策的阶段数 n和每次 决策中可供选择的方案数成指数关系 ,即通常所称的指 数爆炸、维数灾难。
多阶段决策问题 (4/12)
? 通过分析发现,另一种求最短时间行 车路线方法的是:
x(k+1)=f(x(k),u(k),k) (7-182)
最优性原理一般问题的问题描述 (5/22)
? 对多阶段的决策问题,可以详细描述如下。 ? 设系统由决策 u(k),经变换式 (7-182)把状态从 x(k)转移到 x(k+1),其相应耗费的代价为F(x(k),u(k),k),k=0,1,…,N-1。 ? 现需通过一变换序列
多阶段决策问题 (7/12)
? 类似于前面过程 ,其他各站到终 点的最短时间和相应的行车路 线如图图7-11所示.
? 从图7-11可以很方便地得到各站到终点站 F的最短时间 行车路线和所耗费的行车时间 ,当然,也可以得到从起点 站S到终点站F的最短时间行车路线和所耗费的行车时间。
多阶段决策问题 (8/12)
? 其他站的情况依此类推。
多阶段决策问题(5/12)
图7-11 最优行车路线图
多阶段决策问题 (6/12)
? 由此向后倒推,继续考察倒数第2 段,计算x1(2)站和x2(2)站到终点F 的最短时间 ,并分别记为 J[x1(2)] 和J[x2(2)]。
? 由图7-10可知,从x1(2)站到达终点 F的路线中下一站只能 是x1(3)站和x2(3)站中之一。
? 从最后一段开始 , 先分别算出 x1(3)站和x2(3)站到终点F的最短 时 间 , 并 分 别 记 为 J[x1(3)] 和 J[x2(3)]。
? 实际上,最后一段没有选择的余地。
? 因此,由图7-10可求得 J[x1(3)]=4, J[x2(3)]=3
? 为便于今后求解过程的应 用,可将从x1(3)站和x2(3)站 到终点的最短时间 J[x1(3)] 和J[x2(3)]的数值标记于代 表该站的小圆圈内 ,如图711所示。
? 而对穷举法 ,则需作 m×mn-2×(n-1)=mn-1(n-1)次 加法运算和mn-1-1次的从二取一的极大运算。
? 如对前面的n=4,m=2的最短时间行车问题 ,用动态规 划法求解共需作 10次加法运算和 5次从二取一的极 大运算。而用穷举法求解,则分别为24次和8次。
多阶段决策问题(10/12)
? 因此,动态规划法在减少计算量上的效果是显著的。 ? 阶段数n越大,决策方案m越多,则动态规划法的优点
更为突出。 ? 如对 n=10,m=4的多阶段决策问题 ,用动态规划
法求解共需作 132次加法运算和 33次从二取一 的极大运算,而用穷举法求解分别为次和 262143次。 ? 因此,动态规划法的效果是非常显著的。
动态规划与离散系统最优控制(2/3)
? 离散系统的控制问题为人们所重视的原因有二。 1) 有些连续系统的控制问题在应用计算机控制技术、数字 控制技术时,通过采样后成为离散化系统, ? 如许多现代工业控制领域的实际计算机控制问题。 2) 有些实际控制问题本身即为离散系统, ? 如某些经济计划系统、人口系统的时间坐标只能以 小时、天或月等标记; ? 再如机床加工中心的时间坐标是以一个事件(如零 件加工活动)的发生或结束为标志的。
Ch.7 最优控制原理
目录
7.1 最优控制概述 7.2 变分法 7.3 变分法在最优控制中的应用 7.4 极大值原理 7.5 线性二次型最优控制 7.6 动态规划与离散系统最优控制 本章小结
目录(1/1)
动态规划与离散系统最优控制 (1/3)
7.6 动态规划与离散系统最优控制
? 前面讨论了连续系统最优控制问题的基于经典变分法和庞特 里亚金的极大值原理的两种求解方法。 ? 所谓连续系统 ,即系统方程是用线性或非线性微分方程 描述的动态系统。
? 同样,在后续的每个阶段都要作出类似的决策。
多阶段决策问题 (3/12)
? 在该行车问题中 ,阶段数 n=4,需作n1=3次决策。
? 由于每次决策只有两种可能的 选择,3次选择共有 2n-1=23=8种 不同的行车路线。
? 因此,计算8种不同的行车路线所耗费的总行车时间 ,取最 小者即可求出最短时间行车路线。
? 该类系统的控制问题是与传统的控制系统和控制元件的 模拟式实现相适应的 ,如模拟式电子运算放大器件、模 拟式自动化运算仪表、模拟式液压放大元件等。
? 随着计算机技术的发展及计算机控制技术的日益深入 , 离散系统的最优控制问题也必然成为最优控制中需深入 探讨的控制问题 ,而且成为现代控制技术更为关注的问 题。
3) 策略{u(0),u(1),…,u(N-1)},是个阶段的决策所组成的决策 集合。
4) 代价J,由于状态发生转移所耗费的代价。 ? 对控制问题,相当于性能指标。
最优性原理一般问题的问题描述(3/22)
? 设在决策u(k)的作用下,发生了状态从x(k)到x(k+1)的转移。 ? 显然新的状态 x(k+1)完全取决于原来的状态 x(k)和所采 取的决策u(k)。 ? 也可以把这种转移看成是在决策 u(k)作用下的状态从x(k) 到x(k+1)的一种变换,且这种变换关系是唯一的,并用 x(k+1)=f(x(k),u(k),k) 表示。 ? 在每一阶段 ,通常有若干个决策可供选择 ,我们用 Ω(k)代 表第k个阶段可供选择的决策的集合。 ? 一般说来,阶段不同,其决策集合Ω(k)也不同。 ? 下面,我们还用Ω代表全部可供选择的决策的集合,即 Ω=Ω(0)∪Ω(1)∪…∪Ω(N-1)
? 下面将在函数空间中描述N阶段的决策过程,为此先引进下述 概念与定义。 1) 状态向量x(k),表示过程在 k时刻的状态。对控制问题 ,相 当于状态变量向量。
最优性原理一般问题的问题描述 (2/22)
2) 决策向量u(k),表示过程在k时刻的从某一状态转变为另一 状态的动因。 ? 对控制问题,则相当于控制输入向量。
? 至于连续系统的最优控制问题的动态规划法,不仅是一 种可供选择的有充分性的最优控制求解法,它还揭示了 动态规划与变分法、极大值原理之间的关系,具有重要 的理论价值。
最优性原理与离散系统的动态规划法(3/3)
? 下面分别介绍 ? 多阶段决策问题 ? 最优性原理一般问题的问题描述 ? 离散系统的动态规划法
多阶段决策问题(11/12)
2) 用动态规划法求解多阶段决策问题的思路是: ? 为最后求出由起点S至终点F的最优路线,先逆向递 推求出各状态至终点F的最优路线。 ? 在取得当前状态到终点的极值时,只需要知道当前 状态值和上一次的最优(集合)值,就可以得到当前的 最优值,并作为下一次优化的初始数据。
f(x(0),u(0),0), f(x(1),u(1),1), …, f(x(N-1),u(N-1),N-1)
? 将初始状态 x(0)经x(1),…,x(N-1)转移到终态 x(N),与这 N 次转移相对应的所耗费的总代价为
试求出一个决策序列{u(0),u(1),…,u(N-1)}? Ω,使N阶段决策 问题的总代价最小。
x(k+1)=f(x(k),u(k),k) (7-182)
最优性原理一般问题的问题描述 (4/22)
? 对多阶段的决策问题,可以详细描述如下。 ? 设系统由决策 u(k),经变换式 (7-182)把状态从 x(k)转移到 x(k+1),其相应耗费的代价为F(x(k),u(k),k),k=0,1,…,N-1。 ? 现需通过一变换序列
? 类似地,从x1(2)站至终点F的最优路线{x1(2),x2(3),F} 是从起点S至终点F的最优路线{S,x2(1),x1(2),x2(3),F} 的一部分,也是从x2(1)至终点F的最优路线{x2(1), x1(2),x2(3),F}的一部分。
? 对于多阶段决策问题,最优路线和最优决策具有这 种性质不是偶然的,而反映了该问题的一种规律性, 即所谓的贝尔曼的最优性原理。
图7-10 某行车路线图
多阶段决策问题 (2/12)
? 由S站出发至终点 F站可有多种不同 的行车路线,沿各种行车路线所耗费 的时间不同。
? 为使总的行车时间最短 ,司机在 路程的前3段要作出3次决策。
? 也就是说,一开始司机要在经过x1(1)站还是x2(1)站两种情 况中作出决策。
? 到x1(1)站或x2(1)后,又面临下一站是经过 x1(2)站还是 x2(2)站的第2次决策。
多阶段决策问题 (1/12)
1. 多阶段决策问题
? 在讨论动态规划法之前 ,先考察一个简单的最短时间行车问 题,简称行车问题。
? 例 如图7-10所示,某交通工具从 S站出发,终点为F站,全程可
分为4段。
? 中间可以经过的各站及 它们之间的行车时间均 已标记在图上。
? 试求最短行车来自百度文库间的行 车路线。
? 上述最短行车时间路线问题及其求解方法可以推广到许多多 阶段决策优化问题 ,如建筑安装工期计划、经济发展计划、 资源合理配置等 ,其相应的最优性指标可以为所耗费的时间 最短,也可以为所耗费的能源最小、所得到的效益最好等。
? 因此,前面介绍逆向递推求解最优化问题的方法是一种 具有普遍性意义的多阶段决策优化方法 ,称为动态规划 法。
动态规划与离散系统最优控制(3/3)
? 本节将介绍解决离散系统最优控制的强有力工具--贝尔曼动 态规划,以及线性离散系统的二次最优控制问题。 ? 内容为 ? 最优性原理与离散系统的动态规划法 ? 线性离散系统的二次型最优控制
最优性原理与离散系统的动态规划法 (1/3)
7.6.1 最优性原理与离散系统的动态规划法
最优性原理与离散系统的动态规划法 (2/3)
? 动态规划的核心是贝尔曼最优性原理。
? 这个原理归结为一个基本的递推公式,求解多阶段决策 问题时,要从末端开始,逆向递推,直至始端。
? 动态规划的离散基本形式受到问题的维数的限制,应用 有一定的局限性。
? 但是,它用于解决线性离散系统的二次型性能指标的最 优控制问题特别有效。
? 贝尔曼的最优性原理就是运用这个原理给出递推方 法的。
多阶段决策问题(12/12)
3) 由图7-11可知,与从起点S至终点F的最优路线{S,x2(1), x1(2),x2(3),F}相对应的,该最优路线的从x2(1)站至终点F 的部分路线{x2(1),x1(2),x2(3),F}是从x2(1)站至终点F的最 优路线。
? 它是动态规划法的核心。
最优性原理一般问题的问题描述 (1/22)
2. 最优性原理一般问题的问题描述
? 现在正式阐述动态规划的基本原理。 ? 在引进一些专门的名词之后 ,先叙述所要求解的多阶段 决策问题 ,接着给出和证明动态规划法的核心问题最优 性原理,并应用这一基本原理求解多阶段决策过程 ,并将 该求解方法推广至在离散系统最优控制问题。