(仅供参考)清华大学运筹学课件动态规划

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

阶段1 阶段2 阶段3 阶段4 阶段5
s1 u1 s2 u2 s3 u3 s4 u4 s5 u5 s6 状态 sk
4
A
5
2 C1 5
B1 3
8
4
6 C2 5
8
3
7 C3 4
D1 3
5 6
D2 2
1 3
E1 4
3 E2
状态集 Sk
决策 uk
决策集 Uk (sk )
F
策略
pk,5 uk ,,u5
B2
f s min d s,u f T s,u, s S uU s 动态规划的核心是解最优值方程
多阶段问题
(多阶段决策)最短路问题
2 C1 5
B1 3
8 D1 3
4
4 6 C2 5
5 6
E1 4
A 5
8
3
D2 2
F 3
7 C3 4
1
E2
3
B2
7
8
4
D3
C4
选择从 A 至 F 的最短路铺设输油管道
7
8
4
D3
C4
策略集 Pk,5
如: S2 B1, B2 U4 (D2 ) E1, E2 Pk,5 Uk (sk ),,U5 (s5 )
2 C1 5
B1 3
8 D1 3
4
4 6 C2 5
5 6
E1 4
A 5
8
3
D2 2
F 3
7 C3 4
1
E2
3
B2
7
8
4
D3
C4
状态转移函数 Tk (sk ,uk ) Sk1, sk Sk , uk Uk (sk )
Tk (sk ,uk ) uk , sk Sk ,uk Uk (sk ), k 1, 2,,5
阶段指标函数
dk (sk ,uk ), sk Sk ,uk Uk (sk ), k 1, 2,,5
求 p1,5 P1,5使下述过程指标函数达到最小
5
V1,5 ( p1,5 | s1) dk sk ,uk k 1
定义最优值函数 f s 为从起点到 s 的最短路程,并根
据多阶段结构将其表示为
f s fk s , s Sk , k 1,, 6
初始条件: f s f1 s 0, s S1
由于对任意 k 成立 Sk1 Tk Sk ,Uk Sk ,所以
f s min d s ,u f s T s ,us sS ,uU s
动态规划
主要内容
基本概念 多阶段问题 建模与求解 迭代求解方法
基本概念
例、(无阶段划分)最短路问题
下图五个城市,任何两个城市间均有道路相连,往返 路程一样,由图中数字所示。求每个城市到第五个城 市的最短路线和最短路程
2 v1
5 6
v2
v5 2 75
0.5
3 v4
5 1
v3
状态与状态集 S vi ,i 1,,5
fk 1
s
min
Tk s ,u s
dk s , u fk s , s Sk1
sSk ,uUk s
结论:最优值函数 f s 可以用以下公式顺推确定
f1(s) 0, s S1
决策与决策集
2 v1
U (s) vi ,i 1,,5, s S
5
6
策略与策略集
v2
P ui U vi ,i 1,,5
状态转移函数 T (s,u) S, s S,u U (s)
v5 2 75
0.5
3 v4
5 1
v3
阶段指标函数 d (s,u), s S,u U (s) ( d (s, s) 0 )
最短路问题的动态规划模型
5
min V1,5 ( p1,5 | s1) dk sk ,uk k 1 s.t. sk1 Tk sk ,uk , sk Sk , uk Uk (sk ), 1 k 5
满足马尔可夫性:
给定 sk ,系统在 k 阶段以后的状态和系统经由什 么路径到达 sk 无关,即和 s1, s2,, sk1 的取值无关
利用多阶段结构,可得到最优性方程的以下等价式
f s min d s,u f T s,u uU s
fk
s
min
uUk s
dk s, u fk1
Tk s, u
, s Sk
结论:最优值函数 f s 可以用以下公式逆推确定
f6 (s) 0, s S6
f5
(s)
min
最优值函数一定满足最优值方程
f s min d s,u f T s,u, s S uU s
多阶段最短路问题的逆推求解
定义最优值函数 f s 为从 s 到终点的最短路程,并根
据多阶段结构将其表示为
f s fk s , s Sk , k 1,, 6
终止条件: f s f6 s 0, s S6
uU5 (s)
d5
s, u
f6
T5 s, u
,
s S5
f4
(s)
min
uU4 (s)
d4
s, u
f5
T4 s, u
,
s S4
f3
(s)
min
uU3 (s)
d3
s, u
f4
T3 s, u
,
s S3
f2
(s)
min
uU2 (s)
d2
s, u
f3
T2 s, u
,
s S2
f1
0.5
3 v4
5 1
v3
最优性原理
若 vj 在自 vi 到 v5 的最优路线上,那么这条路线 上自 vj 到 v5 的部分就是自 vj 到 v5 的最优路线
理由:马尔科夫性
v5
2
3
v1 65
2 75
v4 5
1
v2 0.5 v3
定义各点到目的地的最优值函数 f s, s S
根据最优性原理,最优值函数一定满足最优值方程
问题 对每个初始状态,以极小化阶段指标函数之和为 目标,确定一个能够转移到末状态 v5 的最优策略
2 v1
5 6
v2
v5 2 75
0.5
3 v4
5 1
v3
马尔可夫(Markov)性(或无后效性)
以任何状态为初始状态进行决策所产生的 效果,不受如何到达这个状态的决策影响
2 v1
5 6
v2
v5 2 75
阶段指标函数 过程指标函数
dk (sk , uk ), sk Sk , uk Uk (sk )
5
Vk,5 ( pk,5 | sk ) di si , u问题
状态集 Sk , k 1,2,,6 决策集 Uk (sk ), sk Sk , k 1,2,,5 状态转移函数
(s)
min
uU1 (s)
d1
s, u
f2
T1 s, u
,
s S1
最短路问题的逆推结果(最优决策可由最优值得到)
12
13 2 C1 5 7
B1 3 108 D1 3 4
17 4
4 6 C2 5
56 5
E1 4 0
A
5
158
7
83
C3 4
D2 2
51 3
3 3
E2
F
B2 7 984 D3
C4
多阶段最短路问题的顺推求解
相关文档
最新文档