运筹学-动态规划
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多阶段决策的目标是要达到整个活动过程的总体效果最优, 所以多 阶段决策又叫做过程最优化。
所谓 动态规划,就是解决多阶段决策和过程最优化问题的一
种规划方法。
7.1 动态规划问题和基本概念
例7.1 最短路问题 设A地的某一企业要把一批货物由A地运到E城销售, 其间
要经过八个城市,各城市间的交通路线及距离如下图所示, 问应 选择什么路线才能使总的距离最短?
1
2
3
4
运筹学-动态规划
3)、 决策(Decision )
当各阶段的状态确定以后,就可以做出不同的决定或选择,从而确 定下一阶段的状态,这种决定就是决策,表示决策的变量称为决策变量。
常用X k ( sk )表示第 K 阶段当状态为 sk 时的决策变量,
在例7.1中第二阶段如决定从B1出发,即S2=B1,可选择走C1或C2,
例7.1是一个四阶段决策问题,一般可分为四步:
运筹学-动态规划
●逆序法求解最短路问题
第一步,从K=4开始
状态变量S4可取两种状态D1, D2,它们到E点的距离 分别为4和3,这也就是由D1和D2到终点E 的最短距离, 即
f4(D1)=4, f4(D2)=3.
1 S1
2
3
4
S2
S3
S4
运筹学-动态规划
=5
即从 C2 到 E 的最短距离为 5,其路径为 C2 → D2 →E,相应的决策为
x
* 3
(
C2
)=
D2
1 S1
2
3
4
S2
S3
S4
f 3 ( C3 )=min
d (C3 , D1 ) + f4 (D1 ) d (C3 , D2 ) + f4 (D2 )
=min
1+ 4 3+3
=5
即从 C3 到 E 的最短距离为 5,其路径为 C3→D1→E,相应的决策为
=7
这说明,由 c1 到 E 的最短距离为 7,其路径为以 C1 → D1 →E,相应的决策
为x
* 3
(
C1
)=
D1
1
2
3
4
S1
S 运筹学-动态2规划
S3
S4
f 3 ( C2 )=min
d (C2 , D1 ) + f 4 (D1 ) d (C2 , D2 ) + f 4 (D2 )
=min
6+4 2+3
1
2
3
4
运筹学-动态规划
6)、状态转移方程
在动态规划中,本阶段的状态往往是上阶段决策的结果。所以如果给
定了第 K 阶段的状态 sk 和该阶段的决策 xk ( sk ),则第 K+1 段的状态 sk+1
由于 K 阶段决策的完成也就完全确定了 ,它们之间的关系可用如下公式表示:
sk +1 = Tk ( sk , x k )
第二步 ,K=3 状态变量 S3 可取 3 个值即 C1,C2 和 C3。
为方便应用,规定用d(sk,sk+1)表示由状态sk出发,到达下一阶段sk+1时的
两点距离。
f 3 ( C1 )=min
d (C1, D1 ) + f4 (D1 ) d(C1, D2 ) + f4 (D2 )
=min
3+4 5+3
一个n阶段的决策过程,从1到n 叫作问题的原过程。
目标函数的最优值称为最优目标函数,最优目标函
数记为fk(sk),它表示从第K阶段的状态Sk出发采用的最优
策略。
,
当K=1时, f1(s1 )就是从初始状态S1到全过程结束的整体
最优目标函数。
在例7.1中,目标函数就是距离。如在第2阶段,状 态为B2时,f2 (B2)则表示从B2到E的最短距离。本问题 的总目标是求f 1(A), 即从A到E的最短距离。
1
2
3
4
2)、状态 ( state) 各阶段开始时的出发点称作状态。
描述各阶段状态的变量,称作状态变量,用sk 表示。
在例7.1 中,第一阶段的状态为 A ,第二阶段的状态为城市 B1,B2 和 B3。所以状态变量 S1 的集合 S1={A},S2 的集合是 S2={B1,B2,B3}, 依次有 S3={C1,C2,C3}, S4={D1,D2} 。
例中,路线图(共18条路线,3×3×2×1=18)
பைடு நூலகம் 枚举法:
例中,路线图(共18条路线,3×3×2×1=18)
运筹学-动态规划
为解决这个最短路径问题,首先给出几个定义。
1)、阶段 (stage) 将所给问题的过程,按时间或空间特征分解成若干相互联系的段落,
以便按次序求解就形成了阶段 ,阶段变量常用字母 K 来表示。如例 7.1 有四个阶段, K 就等于 1,2,3,4 。第一阶段共有 3 条路线即(A,B1), (A,B2) 和(A,B3),第二阶段有 9 条路线,第 3 阶段有 6 条路线,第 4 阶段有 2 条 路线。
第七章 动态规划
7.1 动态规划问题和基本概念 7.2 动态规划的基本原理 7.3 动态规划的应用
引言
动态规划与多阶段决策:
多阶段决策是指这样一类特殊的活动过程, 它们可以按时间顺序分 解成若干相互联系的阶段, 每个阶段都要作出决策, 全部过程的决策是 一个决策序列, 所以多阶段决策问题又称为序贯决策问题。
当问题的段数很多,各段的状态也很多时,这种方法的计算 量会大大增加,甚至使得寻优成为不可能。
运筹学-动态规划
1
2
3
4
下面应用动态规划方法求解例7.1。运用逆序递 推方法求解,即由最后一段到第一段逐步求出各点到 终点的最短路线,最后求出A点到E点的最短路线。
运用逆序递推方法的好处是可以始终盯住目标,不 致脱离最终目标。
其中, Tk 表示从状态 sk 出发经过
x 向下一阶段的转移 (Transfer),换 k
言之,即 sk+1 是从状态 sk 出发经过决策 xk 转移的结果。
由于上式表示了由 K 段到第 K+1 段的状态转移规律,所以就称为状态
转移方程。在例 7.1中,状态转移方程即 sk+1 = x k。
为了求出例7.1的最短路线,一个简单的方法是,可以求出 所有从A到E的可能走法的路长并加以比较。不难知道,从A到 E共有18条不同的路线,每条路线有四个阶段,要做3次加法,要 求出最短路线需做54次加法运算和17次比较运算,这叫做穷举 法。
C3 ,如果我们选择,从C2走,则此时的决策变量可表示x2(B1)=C2。
1
2
3
4
4)、策略( Policy)
在各阶段决策确定以后,整个问题的决策序列就构成了一个策略,
用P1n(s1)表示。
如对于例7.1总共可有18个策略,但最优策略只有一个。
1
2
3
4
运筹学-动态规划
5)、目标函数
用于衡量所选定策略优劣的数量指标称作目标函数。
所谓 动态规划,就是解决多阶段决策和过程最优化问题的一
种规划方法。
7.1 动态规划问题和基本概念
例7.1 最短路问题 设A地的某一企业要把一批货物由A地运到E城销售, 其间
要经过八个城市,各城市间的交通路线及距离如下图所示, 问应 选择什么路线才能使总的距离最短?
1
2
3
4
运筹学-动态规划
3)、 决策(Decision )
当各阶段的状态确定以后,就可以做出不同的决定或选择,从而确 定下一阶段的状态,这种决定就是决策,表示决策的变量称为决策变量。
常用X k ( sk )表示第 K 阶段当状态为 sk 时的决策变量,
在例7.1中第二阶段如决定从B1出发,即S2=B1,可选择走C1或C2,
例7.1是一个四阶段决策问题,一般可分为四步:
运筹学-动态规划
●逆序法求解最短路问题
第一步,从K=4开始
状态变量S4可取两种状态D1, D2,它们到E点的距离 分别为4和3,这也就是由D1和D2到终点E 的最短距离, 即
f4(D1)=4, f4(D2)=3.
1 S1
2
3
4
S2
S3
S4
运筹学-动态规划
=5
即从 C2 到 E 的最短距离为 5,其路径为 C2 → D2 →E,相应的决策为
x
* 3
(
C2
)=
D2
1 S1
2
3
4
S2
S3
S4
f 3 ( C3 )=min
d (C3 , D1 ) + f4 (D1 ) d (C3 , D2 ) + f4 (D2 )
=min
1+ 4 3+3
=5
即从 C3 到 E 的最短距离为 5,其路径为 C3→D1→E,相应的决策为
=7
这说明,由 c1 到 E 的最短距离为 7,其路径为以 C1 → D1 →E,相应的决策
为x
* 3
(
C1
)=
D1
1
2
3
4
S1
S 运筹学-动态2规划
S3
S4
f 3 ( C2 )=min
d (C2 , D1 ) + f 4 (D1 ) d (C2 , D2 ) + f 4 (D2 )
=min
6+4 2+3
1
2
3
4
运筹学-动态规划
6)、状态转移方程
在动态规划中,本阶段的状态往往是上阶段决策的结果。所以如果给
定了第 K 阶段的状态 sk 和该阶段的决策 xk ( sk ),则第 K+1 段的状态 sk+1
由于 K 阶段决策的完成也就完全确定了 ,它们之间的关系可用如下公式表示:
sk +1 = Tk ( sk , x k )
第二步 ,K=3 状态变量 S3 可取 3 个值即 C1,C2 和 C3。
为方便应用,规定用d(sk,sk+1)表示由状态sk出发,到达下一阶段sk+1时的
两点距离。
f 3 ( C1 )=min
d (C1, D1 ) + f4 (D1 ) d(C1, D2 ) + f4 (D2 )
=min
3+4 5+3
一个n阶段的决策过程,从1到n 叫作问题的原过程。
目标函数的最优值称为最优目标函数,最优目标函
数记为fk(sk),它表示从第K阶段的状态Sk出发采用的最优
策略。
,
当K=1时, f1(s1 )就是从初始状态S1到全过程结束的整体
最优目标函数。
在例7.1中,目标函数就是距离。如在第2阶段,状 态为B2时,f2 (B2)则表示从B2到E的最短距离。本问题 的总目标是求f 1(A), 即从A到E的最短距离。
1
2
3
4
2)、状态 ( state) 各阶段开始时的出发点称作状态。
描述各阶段状态的变量,称作状态变量,用sk 表示。
在例7.1 中,第一阶段的状态为 A ,第二阶段的状态为城市 B1,B2 和 B3。所以状态变量 S1 的集合 S1={A},S2 的集合是 S2={B1,B2,B3}, 依次有 S3={C1,C2,C3}, S4={D1,D2} 。
例中,路线图(共18条路线,3×3×2×1=18)
பைடு நூலகம் 枚举法:
例中,路线图(共18条路线,3×3×2×1=18)
运筹学-动态规划
为解决这个最短路径问题,首先给出几个定义。
1)、阶段 (stage) 将所给问题的过程,按时间或空间特征分解成若干相互联系的段落,
以便按次序求解就形成了阶段 ,阶段变量常用字母 K 来表示。如例 7.1 有四个阶段, K 就等于 1,2,3,4 。第一阶段共有 3 条路线即(A,B1), (A,B2) 和(A,B3),第二阶段有 9 条路线,第 3 阶段有 6 条路线,第 4 阶段有 2 条 路线。
第七章 动态规划
7.1 动态规划问题和基本概念 7.2 动态规划的基本原理 7.3 动态规划的应用
引言
动态规划与多阶段决策:
多阶段决策是指这样一类特殊的活动过程, 它们可以按时间顺序分 解成若干相互联系的阶段, 每个阶段都要作出决策, 全部过程的决策是 一个决策序列, 所以多阶段决策问题又称为序贯决策问题。
当问题的段数很多,各段的状态也很多时,这种方法的计算 量会大大增加,甚至使得寻优成为不可能。
运筹学-动态规划
1
2
3
4
下面应用动态规划方法求解例7.1。运用逆序递 推方法求解,即由最后一段到第一段逐步求出各点到 终点的最短路线,最后求出A点到E点的最短路线。
运用逆序递推方法的好处是可以始终盯住目标,不 致脱离最终目标。
其中, Tk 表示从状态 sk 出发经过
x 向下一阶段的转移 (Transfer),换 k
言之,即 sk+1 是从状态 sk 出发经过决策 xk 转移的结果。
由于上式表示了由 K 段到第 K+1 段的状态转移规律,所以就称为状态
转移方程。在例 7.1中,状态转移方程即 sk+1 = x k。
为了求出例7.1的最短路线,一个简单的方法是,可以求出 所有从A到E的可能走法的路长并加以比较。不难知道,从A到 E共有18条不同的路线,每条路线有四个阶段,要做3次加法,要 求出最短路线需做54次加法运算和17次比较运算,这叫做穷举 法。
C3 ,如果我们选择,从C2走,则此时的决策变量可表示x2(B1)=C2。
1
2
3
4
4)、策略( Policy)
在各阶段决策确定以后,整个问题的决策序列就构成了一个策略,
用P1n(s1)表示。
如对于例7.1总共可有18个策略,但最优策略只有一个。
1
2
3
4
运筹学-动态规划
5)、目标函数
用于衡量所选定策略优劣的数量指标称作目标函数。