《运筹学》 第四版 连续动态规划
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f 4 (x4) u4*
34
34 2
34 31
31 3
34 31 25 25 4
34 31 25 25 4
34水电与31数字化2工5 程学院25
4
u3 x3
v3(x3, u3) + f 4 (x3-u3)
2
3
4
f 3 (x3)
u3*
4 24+34
58 2
5 24+31 22+34
55 2
6 24+25 22+31 21+34 49 2
第三章 动态规划(Dynamic Programming)
主讲人:莫 莉 moli@hust.edu.cn
2015 年 6 月
水电与数字化工程学院
莫莉
前节回顾
温故
引例 动态规划基本概念 离散动态规划
多种应用
知新
引例 动态规划优劣 经营管理中的应用
水电与数字化工程学院
莫莉
前节回顾
差别,具体数字见下表。问该警卫部门应往各部位分别派多少
巡逻队,使总的预期损失为最小。
部位 预期损失 巡逻队数
A BCD
2 3 4
水电与数字化工程学院
18 38 24 34 14 35 22 31 10 31 21 25
莫莉
2.1 引例
解: 阶段数:把12支巡逻队往各部 位派遣看成依次分四个阶段。 状态变量:xk表示每个阶段初 拥有的可派遣的巡逻队数。
7 24+25 22+25 21+31 47 3 8 24+25 22+25 21+25 46 莫 莉 4
部位 预期损失 巡逻队数
2 3 4
AB C D
18 38 24 34 14 35 22 31 10 31 21 25
2.1 引例 u3 v3(x3,u3) f4(x3 u3)
x3
2
3
4
2
3
4
18水+8电0与数字14化+工8程4 学院10+87
f1(x1) u1
97 4
最优策略为:A部位4支, B 部位2支,C部位2支,D部位 4支,总预期损失为97莫单莉位。
2.2 动态规划的特点
动态规划与静态规划的关系
动态规划与静态规划(线性与非线性规划等)研究的对象本质上 都是在若干约束条件下的函数极值问题,两种规划在很多情况下 原则上可以相互转换。 1.动态规划可以看作求决策 u1,u2,,un 使指标函数 V1n (x1,u1, x2,, xn )
最后考虑对 A, B,C, D 四个部位
派巡逻队,即 k 1,有
u1
f1(x1)
min
u1U1 ( x1 )
v1(x1, u1)
f2 (x2 )
x1
v1(x1, u1)+f 2 (x1-u1)
2
3
4
f 1 (x1) u1*
12 18+80 14+84 10+87 97 4
因 x1 12,又 U1(x1) 2,3,4,
达到最优(最大或最小)的极值问题,状态转移方程、端点条件 以及允许状态集、允许决策集等是约束条件,原则上可以用非 线性规划方法求解。
2. 一些静态规划只要适当引入阶段变量、状态、决策等就可以
用动态规划方法求解。
水电与数字化工程学院
莫莉
2.2 动态规划的特点
动态规划的优越性
与静态规划相比,动态规划的优越性在于:
水电与数字化工程学院
莫莉
2.2 动态规划的特点
⑵ 可以得到一族最优解。与非线性规划只能得到全过程的一个 最优解不同,动态规划得到的是全过程及所有后部子过程的 各个状态的一族最优解。有些实际的问题需要这样的解族, 即使不需要,它们在分析最优策略和最优值对于状态的稳定 性时也是很有用的。当最优策略由于某种原因不能实现时, 这样的解族可以用来寻找次优策略。
min
u2U 2 ( x2 )
v2 (x2 , u2 )
f3 (x3 )
同样有 U2(x2) 2,3,4,又 8 x2 10,故可得到下表的计算结果。
u2 x2
v2(x2, u2)+f 3 (x2-u2)
2
3
4
f 2 (x2) u2*
8 38+49 35+55 31+58 87 2 9 38+47 35+49 31+55 84 3 水电与数字化工1程0学院38+46 35+47 31+49 80 4
图解法,基解,单纯形法 大M法
第2次作业
P74-2.3(1)(2),2.7 P75-2.8
对偶问题,对偶问题性质求最优解 对偶单纯形法
第3次作业 第4次作业
P187-7.3,7.4,7.5 P187-7.7,7.13
P188-7.13(3),7.17 P189-7.21,7.23 P211-8.2,8.3
莫莉
部位 预期损失 巡逻队数
2 3 4
AB C D
18 38 24 34 14 35 22 31 10 31 21 25
u2 x2
2.1 引例 v2(x2, u2)+f 3 (x2-u2)
f 2 (x2) u2*
2
3
4
8 38+49 35+55 31+58 87 2 9 38+47 35+49 31+55 84 3 10 38+46 35+47 31+49 80 4
f 2 (x2 )
u
2
87 2 84 3 80 4
因此 u1 4,故 x2 12 4 8 , 所以 u2 2,因而 x3 8 2 6, 再由前面表知 u3 2,推算得
x4 6 2 4
因此该警卫部门的派巡逻队的
u1
x1
12
v1(x1, u1) f2 (x1 u1)
⑶ 能够利用经验提高求解效率。如果实际问题本身就是动态的, 由于动态规划方法反映了过程逐段演变的前后联系和动态特 征,在计算中可以利用实际知识和经验提高求解效率。如在 策略迭代法中,实际经验能够帮助寻找较好的初始策略,提 高收敛速度。
水电与数字化工程学院
莫莉
2.2 动态规划的特点
动态规划的缺点: (1)没有统一的标准模型,也没有构造模型的通用方法,甚至还
莫莉
f4 (x4 )
min u4U 4 ( x4 )
v4 (x4 , u4 )
因
U
4
(
x4
)
2,3,4,又
x
的可能值为
4
2 x4 6,故由已知数据,可得
下表的结果。
部位 预期损失 巡逻队数
2 3 4
A 2.B1 C引例D
18 38 24 34 14 35 22 31 10 31 21 25
(1)能够得到全局最优解。由于约束条件确定的约束集合往往 很复杂,即使指标函数较简单,用非线性规划方法也很难求出 全局最优解,而动态规划方法把全过程化为一系列结构相似的 子问题,每个子问题的变量个数大大减少,约束集合也简单得 多,易于得到全局最优解。特别是对于约束集合、状态转移和 指标函数不能用分析形式给出的优化问题,可以对每个子过程 用枚举法求解,而约束条件越多,决策的搜索范围越小,求解 也越容易。对于这类问题,动态规划通常是求全局最优解的唯 一方法。
f 3 (x3 )
u
3
4 24+34
58 2
5 24+31 22+34
55 2
6 24+25 22+31 21+34 49 2
7 24+25 22+25 21+31 47 3
8 24+25 22+25 21+25 46 4
下面考虑对 B 、C、D 三个部位派巡逻队,即 k 2,这时有
f2 (x2 )
动态规划所解决的问题:多阶段问题
动态规划的核心: 在于将问题公式化,也可以说
,动态规划是将多阶段决策问 题进行公式化的一种技术。
动态规划的优缺点:
适用范围广,模型算法一体化,方便编程。 由于没有统一的标准模型,使得动态规划的应用 难度增加 。
水电与数字化工程学院
莫莉
前节回顾
动态规划根据多阶段决策过程的时间参量类 型可以分为离散型决策过程和连续型决策过程; 根据决策过程的演变性态又可以分为确定型决策 过程和随机型过程。组合起来有下列类型:
再联合考虑对 C 、D 两个部位派巡逻队,即 k 3。这时有
f3 (x3 )
min u3U3 ( x3 )
v3 (x3, u3 )
f4 (x4 )
因有 U3 (x3 ) 2,3,4,又 4 x3 8,故可得到下表的计算结果。
u4 x4
2 3 4 5 6
v4(x4, u4) 2 34
采用后向算法,先考虑给 D 部位派巡逻队,k 4,则上式可写为:
f4 (x4 )
min
u4U 4 ( x4 )
v4 ( x4 , u4 )
f5 ( x5 )
f5 (x5 ) 0
f4 (x4 )
min
u4U 4 ( x4 )
v4 (x4 , u4 )
水电与数字化工程学院
75 1
B4
水电与数字化工程学院
莫莉
前节回顾
用穷举法的计算量: 如果从A到E的站点有k个,除A、E之外每站有3个位
置则总共有3k条路径; 计算各路径长度总共要进行3k-1 次比较。随着 k 的值增加时,需要进行的加法和比较的 次数将迅速增加;
例如当 k=20时,加法次数为 4.2550833966227×1015 次,比较 1.3726075472977×1014 次。若用1亿次/秒的计 算机计算需要约508天。
判定凸规划,斐波那契法,0.618法 最速下降法,共轭梯度法
变尺度法,Kuhn-Tucker条件 SUMT外点法,SUMT内点法
最短路线
水电与数字化工程学院
莫莉
前节回顾
温故
引例 动态规划基本概念 离散动态规划
多种应用
知新
引例 动态规划优劣 经营管理中的应用
水电与数字化工程学院
• 阶段的编号与递推的方向
• 一般采用反向递推,所以阶段的编号也是逆向的
• 当然也可以正向递推
水电与数字化工程学院
莫莉
作业
参照公共邮箱的电子版教材中的页码,完成第3次、第4次作 业,于2015年6月17日完成。
序号 课后作业 页码、题号
备注
第1次作业
P44-1.1(1),1.3,1.4 P45-1.6(1)(2)
计算得右表。
水电与数字化工程学院
莫莉
u4 x4
2 3 4 5 6
v4 (x4 , u4 )
2 34 34 34 31 34 31 25 34 31 25 34 31 25
f4(x4)
u
4
34 2 31 3 25 4 25 4 25 4
u3
x3
4 5 6 7 8
2.1 引例 v3(x3,u3) f4(x3 u3)
f 3 (x3 )
u
3
2
3
4
24+34
58 2
24+31 22+34
55 2
24+25 22+31 21+34 49 2
24+25 22+25 21+31 47 3
24+25 22+25 21+25 46 4
u2 x2
8 9 10
v2(x2,u2) f3(x2 u2)
2
3
4
38+49 35+55 31+58 38+47 35+49 31+55 38+46 35+47 31+49
部位 预期损失 巡逻队数
2 3 4
A BCD
18 38 24 34 14 35 22 31 10 31 21 25
决策变量:uk表示对ຫໍສະໝຸດ Baidu部位派出的巡逻队数,各阶段允许的决策
集合为:
Uk (xk ) {uk 2 uk 4},(k 1,2,3,4)
状态转移方程:xk+1= xk-uk
若用
莫莉
第三章 动态规划
1
基本概念介绍
2
离散动态规划★
3
连续动态规划
4
在水库调度中的应用
水电与数字化工程学院
莫莉
2.1 引例
例某警卫部门共有12支巡逻队,负责4个要害部位 A, B,C , D
的警卫巡逻。对每个部位可分别派出2~4支巡逻队,并且派出
巡逻队数的不同,各部位预期在一段时期内可能造成的损失有
水电与数字化工程学院
莫莉
前节回顾
基本概念
• 状态(每阶段初始的出发点)
• 最短路问题中,各个节点就是状态
• 生产库存问题中,库存量是状态
• 物资分配问题中,剩余的物资量是状态
• 控制变量(决策变量)
• 最短路问题中,走哪条路
• 生产库存问题中,各阶段的产品生产量
• 物资分配问题中,分配给每个地区的物资量
vk (xk ,uk )
表示
k
阶段派出的巡逻队数为u
时,该阶段的部位的预
k
期损失值,
水电与数字化工程学院
莫莉
2.1 引例
设用
fk
(xk
)
表示
k阶段状态为
x
,以此出发采用最优子策略到过
k
程结束时的预期损失值,则有:
fk (xk )
min
uk U k ( xk
){vk
( xk
,
uk
)
f k 1 ( xk 1 )}
离散确定型、离散随机型、连续确定型、连 续随机型。本章主要介绍离散确定型决策过程。
水电与数字化工程学院
莫莉
前节回顾
例. (最短路径问题)
下图表示从起点A到终点E之间各点的距离。
求A到E的最短路径。
4
A
3
B1
2 1
6
4
B2
7 2
C1 8 6
7 C2 5
D1 10 E
3
2
48
B3 3
1
6 C3
D2 6