动态规划的基本原理和基本应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
t
使 S = f ( xi ) 16 u j =
i 1
j 1
6
f (xi Βιβλιοθήκη Baidu 16(5x1 4x2 3x3 2x4 x5 185 )
i 1
为最小,其中
f
(xi )
100xi ,0 120xi
xi 15 300,15 xi
30
10
例3 运输网络问题:如图1所示的运输网络, 点间连线上的数字表示两地距离(也可是运费、
6
C2 5
5
E1
4
6
A
5
8 7
3
C3 4
B2
7
8
C4 4
D2 2
1
D3
3
3
E2
F
第1阶段 第2阶段 第3阶段
第4阶段 第5阶段
v2 ( B1, C2 ) 3
v35 (C2 , D1, E1, F ) 11
28
其中 opt 可根据具体情况取max 或min。
v1 →v2 → v5 → v8 →v10 ,最短距离是27.
13
显然,当组成交通网络的节点很多时,用穷举 法求最优路线的计算工作量将会十分庞大,而且其 中包含着许多重复计算.
第二种方法即所谓“局部最优路径”法,是 说某人从k出发,他并不顾及全线是否最短,只是选 择当前最短途径,“逢近便走”,错误地以为局部 最优会致整体最优,在这种想法指导下,所取决策
5
例1
若以y与x-y分别投入生产方式A与B,在第一 阶段生产后回收的总资源为x1=ay+b(x-y),再将x1 投入生产方式A和B,则可得到收入g(y1)+h(x1-y1), 继续回收资源x2=ay1+b(x1-y1),……
若上面的过程进行n个阶段,我们希望选择n 个变量y,y1,y2,…,yn-1,使这n个阶段的总收入最大。
最优指标函数:表示从第k阶段状态为 xk 时采用最佳策略 pk*n 到过程终止时的最佳效益。记为
fk ( xk ) Vkn ( xk , pk*n ) opt Vkn ( xk , pkn )
27
pknU kn ( xk )
状
状
状
态
态
态
3
状 态
状 态
状 态
1
2
4
5
6
2
C1
5
8
B1 3
4
D1
3
4
状态A
决策A
决策B
状态B
A
B
决策C 状态C
C
决策D 状态D
D
决策E 状态E
E
状态F
策的选定即依赖于当前面临的状态,又影响以后总体的效果。
当每一阶段的决策选定以后,就构成一个决策序列,称为一个
策略,它对应着一个确定的效果。多阶段决策问题就是寻找使
此效果最好的策略。
21
动态规划问题实例
例 给定一个线路网络,要从A向F铺设一条输油管道, 各点间连线上的数字表示距离,问应选择什么路线,可使总
同样,当阶段3上所有可能状态的最优后继过程都已求得后,便可
以开始考虑阶段2上所有可能状态的最优决策和最优后继过程,如v2的 最优决策是到v5,最优路线是
17
(27)
v1
(22)
6
v2
8
5
11
(16)
v5
6
5
(10)
6
9 (22) 8
(15)5
v8
10
v3 7
v6
9
14
v10
7 57
8 3
v9
8
(21)v4
状态:各阶段开始时的客观条件,第k阶段的状态常用状态
变量 xk 表示,状态变量取值的集合称为状态集合,用 X k
表示。
例如,例中, X1 { A}, X 2 {B1, B2 }.
23
状
状
状
态
态
态
3
状 态
状 态
状 态
1
2
4
5
6
2
C1
5
8
B1 3
4
D1
3
4
6
C2 5
5
E1
4
6
A
5
8 7
3
C3 4
B2
7
8
C4 4
D2 2
1
D3
3
3
E2
F
第1阶段 第2阶段 第3阶段
第4阶段 第5阶段
X1 { A}, X 2 {B1, B2 }.
24
决策:是指从某阶段的某个状态出发,在若干个不同方案中
做出的选择。表示决策的变量,称为决策变量,用 uk ( xk ) 表示
例如: u3(C2 ) D1 表示走到3阶段,当处于C2 路口时,下一 步奔D1. 决策变量允许的取值范围称为允许决策集合,第k阶段状态为 xk 时的允许决策集合记为 Uk ( xk ) ,例如:U2(B1 ) {C1,C2 ,C3 } 策略:全过程策略 p1n;子策略pkn;最优策略。 状态转移方程:是从上一阶段的某一状态值转变为下一阶段 某一状态值的转移规律,用
时间等),要求从v1至v10的最短路线。
这种运输网络问题也是静态决策问题。但 是,按照网络中点的分布,可以把它分为4个阶 段,而作为多阶段决策问题来研究。
11
5 9
v1
7
6
v2
8
11
6 8
v3 7
57
8 v4
v5
6
5
5
v8
10
v6 9
14
v10
8 3
v9
v7
1
2
3
图1 运输网络图示
4
12
动态规划方法导引
19
动态规划与倒推求解:
拾火柴游戏: 桌子上放30根火柴, 每人一次 可拾起1-3根, 谁拾起最后一根火柴谁输, 如果你先选择, 如何保证你能赢得游戏? 29-25-21-17-13-9-5-1
20
动态规划是解决多阶段决策问题的一种方法。所谓多阶段 决策问题是指这样的决策问题:其过程可分为若干个相互联 系的阶段,每一阶段都对应着一组可供选择的决策,每一决
7
例2 生产和存储控制问题
某工厂生产某种季节性商品,需要作下一 年度的生产计划,假定这种商品的生产周期需 要两个月,全年共有6个生产周期,需要作出 各个周期中的生产计划。
设已知各周期对该商品的需要量如下表所示: 周期 1 2 3 4 5 6
需求量 5 5 10 30 50 8
8
例2
假设这个工厂根据需要可以日夜两班生产或只是日 班生产,当开足日班时,每一个生产周期能生产商品15 个单位,每生产一个单位商品的成本为100元。当开足 夜班时,每一生产周期能生产的商品也是15个,但是由 于增加了辅助性生产设备和生产辅助费用,每生产一单 位商品的成本为120元。由于生产能力的限制,可以在 需求淡季多生产一些商品储存起来以备需求旺季使用, 但存储商品是需要存储费用的,假设每单位商品存储一 周期需要16元,已知开始时存储为零,年终也不存储商 品备下年使用,问应该如何作生产和存储计划,才能使 总的生产和存储费用最小?
第9章 动态规划的 基本原理和基本应用
1
动态规划是解决多阶段决策过程最优 化问题的一种方法。由美国数学家贝尔曼 (Bellman)等人在20世纪50年代提出。他 们针对多阶段决策问题的特点,提出了解决 这类问题的“最优化原理”,并成功地解决 了生产管理 、 工程技术等方面的许多实际 问题。
2
动态规划是现代企业管理中的一 种重要决策方法,可用于最优路径问 题、资源分配问题、生产计划和库存 问题、投资问题、装载问题、排序问 题及生产过程的最优控制等。
距离最短?
2
C1
5
8
B1 3
4
D1
3
4
6
C2 5
5
E1
4
6
A
5
8 7
3
C3 4
B2
7
8
C4 4
D2 2
1
D3
3
3
E2
F
22
9.2 动态规划的基本概念和基本原理
一、基本概念
阶段:是指问题需要做出决策的步数。阶段总数常记为n,相 应的是n个阶段的决策问题。阶段的序号常记为k,称为阶段 变量,k=1,2, …,n. k即可以是顺序编号也可以是逆序编号, 常用顺序编号。全过程;后部子过程。
为了找出所有可能状态的最优后继过程, 动态规划方法是从过程的最后阶段开始考虑,然 后逆着实际过程发展的顺序,逐段向前递推计算 直至始点。
15
5 9
v1
7
6
v2
8
11
6 8
v3 7
57
8 v4
v5
6
5
5
(10)
v8
10
v6
9
14
v10
8 3
v7
v9
(14)
1
2
3
4
具体说,此问题先从v10开始,因为v10是终点。再无后继过程,故可以 接着考虑第4阶段上所有可能状态v8 ,v9的最优后续过程.因为从v8 ,v9 到v10的路线是唯一的,所以v8 ,v9 的最优决策和最优后继过程就是到 v10 ,它们的最短距离分别是10和14。
xk1 Tk ( xk , uk ) 表示。
25
状
状
状
态
态
态
3
状 态
状 态
状 态
1
2
4
5
6
2
C1
5
8
B1 3
4
D1
3
4
6
C2 5
5
E1
4
6
A
5
8 7
3
C3 4
B2
7
8
C4 4
D2 2
1
D3
3
3
E2
F
第1阶段 第2阶段 第3阶段
第4阶段 第5阶段
u3 (C2 ) D1
U2 (B1 ) {C1 , C2 , C3 }
26
指标函数:分阶段指标函数和过程指标函数。阶段指标函数
是指第k阶段从状态 xk 出发,采取决策 uk 时的效益,用
vk ( xk , uk ) 表示。而过程指标函数指从第k阶段的某状态出发,
采取子策略 pkn {uk , uk1, , un } 时所得到的阶段效益之和:
n
Vkn ( xk , pkn ) v j ( x j , u j ) jk
为了说明动态规划的基本思想方法和特点,下面以 图1所示为例讨论求最短路问题的方法。
第一种方法称做全枚举法或穷举法,它的基本思 想是列举出所有可能发生的方案和结果,再对它们一
一进行比较,求出最优方案。这里从v1到v10的路程可
以分为4个阶段。第一二段的走法有三种,第三段的 走法有两种,第四段的走法仅一种,因此共有 3×3×2×1=18条可能的路线,54次加法算出各条路 线的距离,最后进行17次两两比较,可知最优路线是
必是v1 →v2 →v5 → v9 → v10 ,全程长度是30;显
然,这种方法的结果常是错误的.
14
第三种方法是动态规划方法,动态规划方法 寻求该最短路问题的基本思想是,首先将问题划 分为4个阶段,每次的选择总是综合后继过程的一 并最优进行考虑,在各段所有可能状态的最优后 继过程都已求得的情况下,全程的最优路线便也 随之得到。
接着考虑阶段3上可能的状态v5 ,v6 , v7 到v10的最优决策和最优 后继过程.在状态V5上,虽然到v8是6,到v9是5,但是
16
5 9
v1
7
6
(16)
v2
8
11
6 8
v5
6
5
(15)5
(10)
v8
10
v3 7
v6
9
14
v10
57
8 v4
8 3
v7 (17)
v9
(14)
1
2
3
4
综 合 考 虑 后 继 过 程 整 体 最 优 , 取 最 优 决 策 是 到 v8, 最 优 后 继 过 程 是 v5→v8→ v10 ,最短距离是16.同理,状态v6的最优决策是至v8 ;v7 的最优决策是到v9 。
9
例2
么这个设问第题i个用周式期子的写生出产来量就为是x:i,求周x期1,x末2,的…存,x6储,量满为足u条i,件那: x1=5+u1 x2+u1=5+u2 x3+u2=10+u3 x4+u3=30+u4 x5+u4=50+u5 x6+u5=8 0 xi 30, 0 uj , i=1,2,…,6 ; j=1,2, …,5
v7 (17)
(14)
1
2
3
4
v2→v5→v8→v10 ,最短距离是22…依此类推,最后可以得到从初始状 态v1的最优决策是到v2最优路线是v1→v2→v5→v8→v10 ,全程的最短距
离是27。图1中红线表示最优路线,每点上圆括号内的数字表示该点到 终点的最短路距离。
18
综上所述可见,全枚举法虽可找出最优方案,但不是个好算 法,局部最优法则完全是个错误方法,只有动态规划方法属 较科学有效的算法。它的基本思想是,把一个比较复杂的问 题分解为一系列同类型的更易求解的子问题,便于应用计算 机。整个求解过程分为两个阶段,先按整体最优的思想逆序 地求出各个子问题中所有可能状态的最优决策与最优路线值, 然后再顺序地求出整个问题的最优策略和最优路线。计算过 程中,系统地删去了所有中间非最优的方案组合,从而使计 算工作量比穷举法大为减少。
3
9.1多阶段决策过程最优化问题举例
多阶段决策过程最优化 多阶段决策过程是指这样一类特殊的活动
过程,他们可以按时间顺序分解成若干相互联 系的阶段,在每个阶段都要做出决策,全部过 程的决策是一个决策序列,所以多阶段决策问 题也称为序贯决策问题。
4
例1 多阶段资源分配问题
设有数量为x的某种资源,将它投入两种 生产方式A和B中:以数量y投入生产方式A,剩 下的量投入生产方式B,则可得到收入 g(y)+h(x-y),其中g(y)和h(y)是已知函数,并且 g(0)=h(0)=0;同时假设以y与x-y分别投入两种 生产方式A,B后可以回收再生产,回收率分别 为a与b。试求进行n个阶段后的最大总收入。
6
例1
因此,我们的问题就变成:求y,y1,y2,…,yn-1,以使 g(y)+h(x-y)+g(y1)+h(x1-y1)+…+g(yn-1)+h(xn-1-yn-1) 达到最大,且满足条件
x1=ay+b(x-y) x2=ay1+b(x1-y1)
………
xn-1=ayn-2+b(xn-2-yn-2) yi与xi均非负,i=1,2, …,n-1