运筹学10动态规划

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

12 11
f2(B3)=19
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态 A ( A,B2) B2
f1(A)=19
A
f2(B1)=20
f1(A)=19
A
f2(B1)=20
B1 12 14
2 f2(B2)=1104
6
5
B2 10
4
1
13
B3
12 11
f2(B3)=19
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
ห้องสมุดไป่ตู้
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态 A ( A,B2) B2 (B2,C1) C1 (C1,D1) D1 (D1,E) E 从A到E的最短路径为19,路线为A→B 2→C1 →D1 →E
B1 12 14
2 f2(B2)=1104
6
5
B2 10
4
1
13
B3
12 11
f2(B3)=19
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态 A ( A,B2) B2 (B2,C1) C1
6
5
B2 10
4
1
13
B3
12 11
f2(B3)=19
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
f1(A)=19
A
f2(B1)=20
B1 12 14
2 f2(B2)=1104
6
5
B2 10
4
1
13
B3
策略集合:有可供选择的策略构成的集合;
最优策略:在预定标准下达到最好效果的策略.
静态决策
输入
一次性决策
u
决策
s1 决策 s2
输出
v
决策效应
动态决策 多阶段决策
u1
u2
s1
第一月 s2 第二月 s3
v1
v2
u3 第三月 s4
v3
例1
给定一个线路网络图,两点之间联线上的数字 表示两点间的距离(或运费),试求一条由s到t的铺管 线路,使总距离最短.
每个最优策略只能由最优子策略构成。
显然,对于具有无后效性的多段决策过 程而言,如果按照k后部子过程最优的原则来 求各阶段状态的最优决策,那么这样构成的 最优决策序列或策略一定具有最优性原理所 提示的性质。
10.1 多阶段决策问题
多阶段决策过程,是指这样的一类特殊的活动过
程,问题可以按时间顺序分解成若干相互联系的 阶段,在每一个阶段都要做出决策,全部过程的 决策是一个决策序列。要使整个活动的总体效果
达到最优的问题,称为多阶段决策问题。
决策:在多个可行方案中选择或选定一个的过程
或行为;
策略:由一系列相互衔接的决策构成的决策序列;
运筹学10动态规划
动态规划——Dynamic programming 是解决多阶段决策过程(multi-step decision process
)最优化的一种数量化方法,所以又名多阶段规划( multi-stage programming) 五十年代贝尔曼(Richard Bellman)为代表的研究成果 属于现代控制理论的一部分
例3 已知货物的单位重量ωi,单位体积υi及价值pi 如表所示,船的最大载重能力为W=5,最大装载
体积为V=8,求最优装载方案。
i
ωi
υi
pi
1
1
2
30
2
3
4
80
3
2
3
65
10.2 动态规划的基本概念和基本方程
(1) 动态规划的基本概念 阶段与阶段变量: 将所要研究的问题,按时间或空间特征分成若
问题的引入:最短路问题
2
A5
1
B1
12 14
10
6
B2 10
4 13
B3
12 11
C1
3
9
6
C2
5 8
C3
10
D1
5 f5(E)=0
E
D2 2
求上述问题中A到E的最短路。
2
A5
1
B1
12 14
10
6
B2 10
4 13
B3
12 11
C1
3
9
6
C2
5 8
C3
10
f4(D1)=5
D1
5 f5(E)=0
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
f2(B1)=20
2
A5
B1 12 14 10 6
B2 10
4
1
13
B3
12 11
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
动态规划能够求出全局极大或极小,这也是 其它优化方法很难做到的.
注意
动态规划是求解某类问题的一种方法,是考 察问题的一种途径,
而不是一种特殊的算法,没有统一的数学模 型和算法
必须具体问题具体分析 针对具体问题,运用动态规划的原理和方法
,建立起相应的模型,然后再用动态规划方 法去求解.
动态规划(dynamic programming)是运筹学的一个分支, 是求解决策过程(decision process)最优化的数学方法。 20世纪50年代初美国数学家R.E.Bellman等人在研究多阶 段决策过程(multi-step decision process)的优化问题时, 提出了著名的最优化原理(principle of optimality),把多
f1(A)=19
A
f2(B1)=20
B1 12 14
2 f2(B2)=1104
6
5
B2 10
4
1
13
B3
12 11
f2(B3)=19
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态 A ( A,B2) B2 (B2,C1) C1 (C1,D1) D1
阶段过程转化为一系列单阶段问题,逐个求解,创立了解 决这类过程优化问题的新方法——动态规划。1957年出版 了他的名著Dynamic Programming,这是该领域的第一 本著作。
动态规划问世以来,在经济管理、生产调度、工程技术和 最优控制等方面得到了广泛的应用。例如最短路线、库存 管理、资源分配、设备更新、排序、装载等问题,用动态 规划方法比用其它方法求解更为方便。
转移规律,所以称为状态转移方程.
u1(s1 u2 (s2)
uk (sk)
un
)
(sn)
s1
T1 s2 T2
s3 … sk
Tk sk+! … sn
Tn sn+1
v1 (s1, u1)
v2 (s2 ,u2)
vk (sk,uk)
vn (sn,un)
指标函数与最优值函数
用于衡量所选定策略优劣的数量指标称为指标函 数.
指标函数应具有可分离性,满足递推公式
Vkn=Ψ(sk,xk, Vkn+1( sk+1,xk+1, …,sn,xn)) 函数Ψ是一个关于变量Vk+1 n单调递增的函数。 指标函数Vkn达到最优值,称为最优值函数。 fk(sk)=opt. Vkn (sk,xk,sk+1,xk+1, …,sn,xn) (k=1,2, …,n) 使指标函数Vkn达到最优值的策略是从k开始的后部子过 程的最优策略,记作pkn*={uk*,..un*},p1n*又是全过程的
5 f5(E)=0
E
D2 2
f4(D2)=2
f2(B1)=20
B1 12 14
2 f2(B2)=1104
6
A5
B2 10
4
1
13
B3
12 11
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
f2(B1)=20
E
D2 2
f4(D2)=2
2
A5
1
B1 12 14
10
6
B2 10
4 13
B3
12 11
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5
8
C3
10
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
2
A5
1
B1 12 14
10
6
B2 10
4 13
B3
12 11
f3(C1)=8
C1
3
9
a7
9
4
d
5
s
8
5 b6
e
7
t
7
45
4
c
6
f
例2 某公司拟将50万元资金投放下属A、B、C三 个部门,各部门在获得资金后的收益如表所示 ,求总收益最大的投资分配方案(投资数以10 万元为单位)。
投放资金(万元)
A
收益
B
(万元) C
0 10 20 30 40 50 0 15 20 25 28 30 0 0 10 25 45 70 0 10 20 30 40 50
E
D2 2
2
A5
1
B1
12 14
10
6
B2 10
4 13
B3
12 11
C1
3
9
6
C2
5 8
C3
10
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
2
A5
1
B1 12 14
10
6
B2 10
4 13
B3
12 11
f3(C1)=8
C1
3
9
6
C2
5
8
C3
10
f4(D1)=5
D1
5 f5(E)=0
关,我们称这种特性为“无后效性.”
决策、决策变量和策略
当个阶段的状态取定以后,就可以做出关于下一步的 选择,从而确定下一阶段的状态,这种决定称为决策;
表示决策的变量叫做决策变量,常用uk(sk)表示.第k 阶段当状态为sk时的决策变量;
在实际问题中决策变量的取值往往限制在一定的范 围内,我们称此范围为允许决策集,常用Dk(sk)表示第 k阶段从状态sk出发的允许决策集,因此有uk(sk) ∈Dk(sk).
各段决策确定后,整个问题的决策序列就构成了一个 策略,用P1,n{u1(s1),u2(s2), …,un(sn)}表示;
使整个问题达到最优效果的的策略就是最优策略.
动态规划中本阶段的状态是上一阶段的决策结果.如 果给定了第k阶段的状态sk,本阶段的决策就为uk(sk), 则第k+1段的状态uk+1也就完全确定了,它的关系可表 示为:sk+1=Tk(sk,uk).由于它表示了由k到k=1段的状态
以长远利益为目标的一系列决策
1951年提出了 “最优化原理”(principle of decision optimality)可归结为一个递推公式
1957年《动态规划》 《动态规划应用》等其它著作.
成功之处:把一个n维决策问题变换为n个 一维最优化问题,一个一个地求解。
这是经典极值方法所做不到的,它几乎超越 了所有现存的计算方法,特别是经典优化 方法.
最优策略,简称最优策略。
指标函数的两种基本形式: Ⅰ

(2) 最优化原理
最优化原理 “最优策略具有的基本性质是:无论初始状态
和初始决策如何,对于前面决策所造成的某一状 态而言,剩下的决策序列必构成最优策略”。
B A
M
最优性原理的涵义
最优策略的任何一部分子策略,也是相 应初始状态的最优策略。
B1 12 14
2 f2(B2)=1104
6
A5
B2 10
4
1
13
B3
12 11
f2(B3)=19
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
f1(A)=19
A
f2(B1)=20
B1 12 14
2 f2(B2)=1104
阶段指标函数vk(sk,xk) 一个n段决策过程,从1到n叫作问题的原过程,对于
任意一个给定的k ,从第k 到n段的过程称为原过程 的一个后部子过程.V1,n(s1,p1,n)表示初始状态s1采用 策略p1,n.时原过程指标函数值.
Vkn=(sk,xk,sk+1,xk+1, …,sn,xn) (k=1,2, …,n)
V1n=(s1,x1,s2,x2, …,sn,xn)
uk (xk)
un (xn)
sk
Tk
sk+! … sn
sn+1 Tn
vk (sk,uk)
vn (sn,un)
多段决策过程中从第k阶段到最终阶段的过程 称为k-后部子过程,简称k-子过程。
指标函数应具有三个条件 指标函数在全过程和所有后部子过程上有定义;
干个互相联系的阶段.简称“阶段” 我们就是要按阶段的顺序来求解. 描述阶段的变量阶段变量,常用字母k来表示;
状态、状态变量和状态集合
相关文档
最新文档