运筹学概论 第6章 动态规划

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
pk , n ( sk ) u k ( sk ), u k 1 ( sk 1 ), , u n ( sn )
当k=1时,此决策函数序列成为全过程的一个策略,简称策略,记为p1,n (s1)
p1, n ( s1 ) u1 ( s1 ), u 2 ( s2 ), , u n ( sn )
E1 E2
4 3
A
5
F
B2
3
C4 1 2
3
4
5
一种简单的方法,可以求出所有从A至F的可能铺设的路长并加以比较。
从A至F共有24条不同路径,要求出最短路线需要做23次比较运算,这种
方法称穷举法。当问题的段数很多、各段的状态也很多时,穷举法的计 算量会大大增加,甚至使得求优成为不可能。
下面介绍动态规划方法。注意本方法是从过程的最后一段开始,用逆序
到过程终止时的最佳效益值。 f k ( s k ) 与 Vk ,n (sk , pk ,n ) 间的关系为:
f k (sk ) Vk ,n (sk , pk , n ) opt Vk , n ( sk , pk , n ) pk ,n P k ,n
opt全称optimum,表示最优化,根据具体问题分别表为max或min。 当k=1时, f1 ( s1 ) 就是从初始状态 s1 到全过程结束的整体最优函数。 在例2中,指标函数是距离。如第2阶段,状态为B1时, V2,5 ( B1 ) B1到F的距离,而
f 2 ( B1 )
表示从
则表示从B1到F的最短距离。本问题的总目标是
求 f ( A) ,即从A到终点F的最短距离。 1
二、动态规划的基本思想与基本原理
下面结合例2最短路线问题介绍动态 规划的基本思想。
2 4
C1 C2 C3
8 4
5 8 5 3 4 4
B1
3 6 8 7 7
D1 D2 D3
3 6 2 1 5
sk Sk
2 4
C1 C2 C3
8 4
5 8 5 3 4 4
B1
3 6 8 7 7
D1 D2 D3
3 6 2 1 5
E1 E2
4 3
A
5
F
B2
3
C4 1 2
3
4
5
在例2中,第一阶段状态为A,第二阶段则有二个状态:Bl,B2。状 态变量s1的集合 S1 A ,后面各段的状态集合分别是:
S 2 B1 , B2
不断地做出决策;
3、找到不同时刻的最优决策以及整个过程的最优策略。 决策 状态 决策 状态 决策 状态 n
状态
1
2
多阶段决策问题的典型例子
例4 生产决策问题
企业在生产过程中,由于需求是随时间变化的,因此企业为了获 得全年的最佳生产效益,就要在整个生产过程中逐月或逐季度地根据 库存和需求决定生产计划。 某工厂每月需供应市场一定数量的产品,并将所余产品存入仓库。 一般某月适当增加产量可降低生产成本,但超产部分存入仓库会增加 库存费用。要求确定一个逐月的生产计划,在满足需求条件下,使一 年的生产与存贮费用之和最小。 显然,可以把每个月作为一个阶段,全年分为12个阶段逐次决策。
sk 1 Tk (sk , uk )
s1
u1
1
s2
u2
2
s3
sk
uk
k
Sk+1
例2中,状态转移方程为:
sk 1 uk (sk )
6. 指标函数和最优值函数
用于衡量所选定策略优劣的数量指标称为指标函数,包括阶段指标函数和 过程指标函数;阶段指标函数是指第k阶段,从状态sk出发,采取决策uk时的 效益,用d(sk, uk)或用dk(sk, uk)表示。过程指标函数是定义在全过程或所有后 部子过程上确定的数量函数。 费用、成本、利润、路长等 。用 Vk, n 表示之。 一个n段决策过程,从l到n叫作问题的原过程,对于任意一个给定的 k(1≤k≤n),从第k段到第n段的过程称为原过程的一个后部子过程。
例2中,从A到F可以分成从A到B (B有两种选择B1,B2),
从B到C (C有四种选择C1,C2,C3,C4),从C到D (D有三 种选择D1,D2 ,D3),从D到E (E有两种选择E1,E2),再
从E到F五个阶段。
2 4
k=1,2,3,4,5。
C1 C2 C3
8 4 5 3 4 4 5 8
B1
3. 决策、决策变量
过程的某一阶段、 某个状态, 可以做出不同的决定(选择), 下一阶段的状态,这种决定称为决策。 决定
描述决策的变量,称为决策变量。常用 u k (sk ) 表示第 k 阶段当状态 为sk 时的决策变量。 决策变量是状态变量的函数。 在实际问题中决策变量的取值往往在某一范围之内,此范围称为允许 决策集合。常用 Dk(sk) 表示第 k 阶段从状态sk出发的允许决策集合。
使用旧设备,还是购买新设备。
说明
不包含时间因素的静态决策问题(本质上是一次 决策问题)也可以适当地引入阶段的概念,作为多阶 段的决策问题用动态规划方法来解决。 线性规划、非线性规划等静态的规划问题也可以 通过适当地引入阶段的概念,应用动态规划方法加以 解决。
第 5章

动态规划
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立与求解
我们决定选择C3,则可表为:
u 2 ( B1 ) C3
uk(sk) Dk(sk)
4. 策略
按顺序排列的决策组成的集合;
由第k阶段第 n阶段(终止状态)为止的过程,称为问题的后部子过程 (k 子过程) 由每段的决策按顺序排列组成的决策函数序列称为 k子过程策略,简称 子策略,记为pk,n(sk),即
例5
投资决策问题
某公司现有资金 Q 万元,在今后 5 年内考虑
给 A,B,C,D 4 个项目投资,这些项目投资的 回收期限、回报率均不相同,问该公司应如何
确定这些项目每年的投资额,使到第5年末拥有
资金的本利总额最大。 这是一个5阶段决策问题。
例 6 设备更新Baidu Nhomakorabea题
企业在使用设备时都要考虑设备的更新问题,因为设备
越陈旧所需的维修费用越多,但购买新设备则要一次性支出
较大的费用。现某企业要决定一台设备未来8年的更新计划, 已预测了第 j 年购买设备的价格为 Kj,设 Gj 为设备经过 j 年后 的残值,Cj为设备连续使用j-1年后在第j年的维修费(j=1, 2,…,8),问应在哪些年更新设备可使总费用最小。
这是一个8阶段决策问题,每年年初要作出决策,是继续
可供选择的策略有一定范围,此范围称为允许策略集合,用 P 表示。 1, n 从允许策略集合中找出达到最优效果的策略称为最优策略。
5. 状态转移方程
状态转移方程是确定过程由一个状态到另一个状态的演变 过程。如果第k阶段状态变量 sk 的值、该阶段的决策变量一经 确定,按照动态规划的无后效性,第k+1阶段状态变量 sk+1的 值也就确定了。
某部门欲采购一批原料,原料价格在五周内可能有 所变动,已预测得该种原料今后五周内取不同单价的概
率如表所示。试确定该部门在五周内购进这批原料的最
优策略,使采购价格的期望值最小。
原材料单价(元) 500 600 700
概率 0.3 0.3 0.4
动态规划问题的特点:
(1)多阶段决策过程,也称序贯决策。在多阶段决策
给定一个交通网络图如下,其中两点之间的数字表示距离 (或花费),试求从A点到G点的最短距离(总费用最小) 1 5 A 3 B1 6 3 C1 6 2 2 1
8
C2 3 5 C3 3 3 8 C4 4 3
D1
8 B2 7 6
D2
2 3 D3 3
E1 3 5 F1 4 5 E2 2 6 F2 3 E3 6
uk(sk) Dk(sk)
2 4
C1 C2 C3
8 4
5 8 5 3 4 4
B1
3 6 8 7 7
D1 D2 D3
3 6 2 1 5
E1 E2
4 3
A
5
F
B2
3
C4 1 2
3
4
5
在例2中,从第二阶段的状态B1出发,可选择下一段的C1,C2,C3,即其 允许决策集合为:
D2 ( B1 ) C1 , C2 , C3
位,每月最大生产能力为6单位,计划开始和计划期末库存量都是零。试制定 四个月的生产计划,在满足用户需求条件下总费用最小。假设第i+1个月的库 存量是第i个月可销售量与该月用户需求量之差;而第 i个月的可销售量是本 月初库存量与产量之和。
i (月)
gi (需求)
1
2
3
4
2
3
2
4
例3
限期采购问题——离散随机型
S 3 C1 , C 2 , C 3 , C 4 S 4 D1 , D2 , D3 S 5 E1 , E 2
2 4
C1 C2 C3
8 4
5 8 5 3 4 4
B1
3 6 8 7 7
D1 D2 D3
3 6 2 1 5
E1 E2
4 3
A
5
F
B2
3
C4 1 2
3
4
5
动态规划中的状态应具有如下性质:当某阶段状态给定以后,在这阶段 以后过程的发展不受这段以前各段状态的影响。也就是说,当前的状态是过 去历史的一个完整总结,过程的过去历史只能通过当前状态去影响它未来的 发展,这称为无后效性。如果所选定的变量不具备无后效性,就不能作为状 态变量来构造动态规划模型。 例 2中,当某段的初始状态已选定某个点时,从这个点以后的铺管路线 只与该点有关,不受以前的铺管路线影响,所以满足状态的无后效性。
过程中,总可以按照时间(也可人为引入)进程分为状态相
互联系而又相互区别的各个阶段; (2)整个活动过程总体效果最优。各时段决策有机联 系,上阶段影响下一阶段决策,进而影响总体。每个阶段 都要进行决策,但最终要使整个过程的决策达到最优效果。
动态规划问题的特点:
1、系统所处的阶段和状态是进行决策的重要因素; 2、在系统发展的不同时刻(或阶段)根据系统所处的状态,
第 6章

动态规划
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立
第一节 多阶段决策过程的最优化
美国数学家贝尔曼(R. Bellman ) 1943年在威斯康星
大学获理学硕士学位,1946年在普林斯顿大学获博士学位。
1946~1948年在普林斯顿大学任助理教授,1948~1952年在 斯坦福大学任副教授,1953~1956年在美国兰德公司任研究 员,1956年后在南加利福尼亚大学任数学教授、电气工程 教授和医学教授。1957年发表“Dynamic Programming”一 书,标志动态规划的正式诞生。
G
1
2
4
5
6
例2
生产与存贮问题——离散连续型
某工厂生产并销售某种产品,已知今后四个月市场需求预测如表,又每 月生产j单位产品费用为:
( j 0) 0 C( j) (千元) 3 j ( j 1,2, ,6) 每月库存j单位产品的费用为 E( j ) 0.5 j (千元) ,该厂最大库存容量为3单
第二节 动态规划的基本概念和基本原理 一、动态规划的基本概念
使用动态规划方法解决多阶段决策问题,首先要将 实际问题写成动态规划模型,此时要用到以下概念: (1)阶段; (2)状态;
(3)决策和策略;
(4)状态转移; (5)指标函数。
1. 阶段、阶段变量
把所给问题的过程,适当地分为若干个相互联 系的阶段,以便按次序去求每阶段的解 ; 描述阶段的变量称为阶段变量,常用k表示; 阶段的划分,一般是按时间和空间的自然特征 (年、月、路段)来划分 ;
动态规划是解决复杂系统优化问题的一种方法。可
用于解决最优路径问题、资源分配问题、生产计划与库
存、投资、装载、排序等问题及生产过程的最优控制等,
是解决动态系统多阶段决策过程的基本方法之一。 动态规划模型的分类:①离散确定型;②离散随机 型;③连续确定型;④连续随机型。其中离散确定型是 最基本的。
例1 最优路径问题——离散确定型
3 6 8 7 7
D1 D2 D3
3 6 2 1 5
E1 E2
4 3
A
5
F
B2
3
C4 1 2
3
4
5
2.
状态、状态变量
每个阶段开始所处的自然状态或客观条件。通
常一个阶段有若干个状态。 描述过程状态的变量称为状态变量,常用sk(一 个数、一组数、一个向量)表示第k阶段的状态。 状态变量的取值有一定的允许集合或范围,此集合 称为状态集合,用Sk表示。
V1,n (s1 , p1,n ) 表示初始状态为s1采用策略 p1, n 时原过程的指标函数值。
Vk ,n (sk , pk ,n ) 表示在第k段,状态为sk采用策略 pk ,n ,后部子过程的指
标函数值。
* 最优指标函数记为 f k ( s k ),它表示从第 k 段状态 sk 采用最优策略 pk ,n
相关文档
最新文档