运筹学5(动态规划)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
2
3
4
2)、 状态 ( state) 各阶段开始时的出发点称作状态。 描述各阶段状态的变量,称作状态变量,用sk 表示。
在例7.1 中,第一阶段的状态为 A ,第二阶段的状态为城市 B1,B2 所以状态变量 S1 的集合 S1={A},S2 的集合是 S2={B1,B2,B3}, 和 B3。 依次有 S3={C1,C2,C3}, S4={D1,D2} 。
为了求出例7.1的最短路线,一个简单的方法是,可以求出 所有从A到E的可能走法的路长并加以比较。不难知道,从A到 E共有18条不同的路线,每条路线有四个阶段,要做3次加法,要 求出最短路线需做54次加法运算和17次比较运算,这叫做穷举 法。 当问题的段数很多,各段的状态也很多时,这种方法的计算 量会大大增加,甚至使得寻优成为不可能。
1
2
3
4
3)、 决策(Decision )
当各阶段的状态确定以后,就可以做出不同的决定或选择,从而确 定下一阶段的状态,这种决定就是决策,表示决策的变量称为决策变量。 常用 X k ( s k )表示第 K 阶段当状态为 s k 时的决策变量,
在例7.1中第二阶段如决定从B1出发,即S2=B1,可选择走C1或C2,
第七章 动态规划
7.1 动态规划问题和基本概念 7.2 动态规划的基本原理 7.3 动态规划的应用
引言
动态规划与多阶段决策:
多阶段决策是指这样一类特殊的活动过程, 它们可以按时间顺序分 解成若干相互联系的阶段, 每个阶段都要作出决策, 全部过程的决策是 一个决策序列, 所以多阶段决策问题又称为序贯决策问题。
其中, Tk 表示从状态 s k 出发经过 xk 向下一阶段的转移 (Transfer) ,换 言之,即 s k +1 是从状态 s k 出发经过决策 xk 转移的结果。 由于上式表示了由 K 段到第 K+1 段的状态转移规律,所以就称为状态 转移方程。在例 7.1中, 状态转移方程即 s k +1 = x k 。
例中,路线图(共18条路线,3×3×2×1=18)
枚举法:
例中,路线图(共18条路线,3×3×2×1=18)
为解决这个最短路径问题,首先给出几个定义。
1)、阶段 (stage) 将所给问题的过程,按时间或空间特征分解成若干相互联系的段落, 以便按次序求解就形成了阶段 , 阶段变量常用字母 K 来表示。如例 7.1 有四个阶段, K 就等于 。第一阶段共有 3 条路线即 (A,B1), (A,B2) 和(A,B3), 第二阶段有 9 条路线,第 3 阶段有 6 条路线 , 第 4 阶段有 2 条 路线。
1
2
3
4
S1
S2
S3
S4
d (C3 , D1 ) + f 4 ( D1 ) 1+ 4 =min =5 f 3 ( C 3 )=min d (C3 , D2 ) + f 4 ( D2 ) 3+3
d (C1 , D1 ) + f 4 ( D1 ) 3+ 4 =min =7 f 3 ( C1 )=min d(C1 , D2 ) + f 4 ( D2 ) 5+3
( C1 )= D1
这说明 , 由 c1 到 E 的最短距离为 7, 其路径为以 C1 → D1 →E,相应的决策 为x
* 3
1 S1 S2
多阶段决策的目标是要达到整个活动过程的总体效果最优 , 所以多 阶段决策又叫做过程最优化。 所谓动态规划, 就是解决多阶段决策和过程最优化问题的一
种规划方法。
7.1
动态规划问题和基本概念
例7.1 最短路问题 设A地的某一企业要把一批货物由A地运到E城销售, 其间 要经过八个城市,各城市间的交通路线及距离如下图所示, 问应 选择什么路线才能使总的距离最短?
状态变量S4可取两种状态D1, D2,它们到E点的距离 分别为4和3,这也就是由D1和D2到终点E 的最短距离, 即 f4(D1)=4, f4(D2)=3.
1
2
3
4
S1
S2
S3
S4
第二步 ,K=3 状态变量 S3 可取 3 个值即 C1,C2 和 C3。
为方便应用,规定用d(sk,sk+1)表示由状态sk出发,到达下一阶段sk+1时的 两点距离。
在例7.1中,目标函数就是距离。如在第2阶段,状 态为B2时,f2 (B2)则表示从B2到E的最短距离。本问题 的总目标是求f 1(A), 即从A到E的最短距离。
1
2
3
4
6)、 状态转移方程 在动态规划中,本阶段的状态往往是上阶段决策的结果。所以如果给 定了第 K 阶段的状态 s k 和该阶段的决策 x k ( s k ) ,则第 K+1 段的状态 s k +1 由于 K 阶段决策的完成也就完全确定了 , 它们之间的关系可用如下公式表示: s k +1 = Tk ( s k , x k )
1
2
3
4
下面应用动态规划方法求解例7.1。运用逆序递 推方法求解,即由最后一段到第一段逐步求出各点到 终点的最短路线,最后求出A点到E点的最短路线。 运用逆序递推方法的好处是可以始终盯住目标,不 致脱离最终目标。 例7.1是一个四阶段决策问题,一般可分为四步:
●逆序法求解最短路问题
第一步,从K=4开始
2 S3
3
S4
4
d (C 2 , D1 ) + f 4 ( D1 ) 6+4 =min =5 f 3 ( C2 )=min d (C 2 , D2 ) + f 4 ( D2 ) 2+3 即从 C2 到 E 的最短距离为 5, 其路径为 C2 → D2 →E,相应的决策为
* x3 ( C 2 ) = D2
C3 ,如果我们选择,从C2走,则此时的决策变量可表示x2(B1)=C2。
1
2
3
4
4)、策略( Policy)
在各阶段决策确定以后,整个问题的决策序列就构成了一个策略, 用P1n(s1)表示。 如对于例7.1总共可有18个策略,但最优策略只有一个。
1
2Biblioteka Baidu
3
4
5)、目标函数
用于衡量所选定策略优劣的数量指标称作目标函数。 一个n阶段的决策过程,从1到n 叫作问题的原过程。 目标函数的最优值称为最优目标函数,最优目标函 数记为fk(sk),它表示从第K阶段的状态Sk出发采用的最优 , 策略。 当K=1时, f1(s1 )就是从初始状态S1到全过程结束的整体 最优目标函数。