运筹学 动态规划2
运筹学动态规划
运筹学动态规划第7章动态规划动态规划是Bellman 在1957年提出的解多阶决策问题的方法,在那个时期,线性规划很流行,它是研究静态问题的,而Bellman 提出的解多阶决策问题的方法适用于动态问题,相对于线性规划研究静态问题,取名动态规划。
动态规划方法应用范围非常广泛,方法也比较简单。
动态规划是将一个多阶决策问题分解为一系列的互相嵌套的一步决策问题,序贯求解使问题得到简化。
动态规划问题按照问题的性质可以分为确定性的和随机性的,按决策变量的和状态变量的取值可以分为离散型的和连续型的。
此外还有依据时间变量连续取值还是离散取值又分为连续时间动态规划问题和离散时间动态规划问题。
本章重点讨论离散时间确定性动态规划问题,包括状态变量和决策变量连续取值和离散取值两种情况。
7.1解多阶决策问题的动态规划法1.多阶决策问题的例(1)最优路径问题—多阶决策问题的例为了直观,先从最优路径问题谈起,它可以看作一个多阶决策过程。
通过最优路径问题的解可以看到用动态规划法解多阶决策问题的基本思想。
考虑图7-1所示的最优路径问题。
一汽车由S 点出发到终点F ,P 和Q 是一些可以通过的点。
图中两点间标出的数字是汽车走这一段路所需的时间(单位为小时)。
最优路径问题是确定一个路径,使汽车沿这条路径由S 点出发达到F 点所用时间最短。
最优路径问题可以看作一个多阶决策问题,由S 到城市甲是第1个阶段,第1个结点P 1或第2个结点Q 1做为第1阶段可以通过的两个站点,由城市甲到城市乙是第2阶段,这个阶段是从P 1或Q 1到P 2或Q 2,由城市乙到城市丙是第3阶段,这个阶段是从P 2或Q 2到P 3或Q 3,由城市丙的P 3或Q 3到F 做为第四阶段。
(2)最优路径问题的解对最优路径问题,存在一个非常明显的原理,即最优路径的一部分还是最优路径。
换句话说,如果SQ P Q F 123是所求的最优路径,那么,汽车从这一路径上的任何一点,例如P 2,出发到F 的最优路径必为P Q F 23。
第07章 动态规划 《运筹学》PPT课件
动态规划
模型分类
离散确定型 离散随机型 连续确定型 连续随机型
§1 多阶 段决 策过 程的 最优
化
多阶段决策问题
(Multi-Stage decision process)
决策u1 决策u2
决策uk
32
维护费
8 8 9 9 10 6 6 8 8 10 5 6 8 9 5 5 6 4 54Βιβλιοθήκη 新设备购置费 5050
52 52 55 60
旧设备折价
20 15 10 5 2 30 25 20 15 10 31 26 21 15 33 28 20 35 30
40
§1 多阶 段决 策过 程的 最优
化
3)连续生产过程的控制 问题:一般化工生产过程中,
本章 内容
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立与求解 动态规划在经济管理中的应用 马氏决策规划简介
创始时间 创始人
上个世纪50年代
美国数学家贝尔曼 (Richard. Bellman)
是运筹学的一个主要分支 是解决多阶段决策过程的最优化的一
种方法多阶段决策过程: 多阶段决策过程的最优化的目标: 达到整个活动过程的总体效果最优 •主要用于解决:
不过,实际中尚有许多不包含时间 因素的一类“静态”决策问题,就其本 质而言是一次决策问题,是非动态决策 问题,但是也可以人为地引入阶段的概 念当作多阶段决策问题,应用动态规划 方法加以解决。
§1 多阶 段决 策过 程的 最优
化
4)资源分配问题:便属于这类静 态问题。如:某工业部门或公司,拟对 其所属企业进行稀缺资源分配,为此需 要制定出收益最大的资源分配方案。这 种问题原本要求一次确定出对各企业的 资源分配量,它与时间因素无关,不属 动态决策,但是,我们可以人为地规定 一个资源分配的阶段和顺序,从而使其 变成一个多阶段决策问题(后面我们将 详细讨论这个问题)。
第五章 物流运筹学——动态规划
表5-2 设i 仪器换成 j 仪器所需中断试验的时间
tij
j
1 10 9 6
仪器 2 9 12 5 3 14 10 8
i 仪器
1 2 3
• 【例5-4】(机器负荷问题)设某机器可以在高、 低两种不同的负荷下进行生产。若年初有 x 台 机器在高负荷下进行生产,则产品年产量a = 8x , 机器的年折损率 β = 0.3 ;若年初有 y 台机器在低 负荷下进行生产,则产品年产量 b = 5 y ,机器的 年折损率α = 0.1。若初始时有性能正常的机器1000 台,要求制定机器负荷的四年分配计划,确定每年 年初分配正常机器在不同负荷下工作的台数,使四 年内产品总产量最大。
• 状态转移方程(state transfer equation):动 态规划中本阶段的状态往往是上一阶段状 态和上一阶段的决策结果。如果给定了第 k 段的状态sk ,本阶段决策为uk (sk ) ,则第 k +1 段的状态s k + 1 也就完全确定,两者的关系可 用下式表示: sk +1 = Tk ( sk , uk ) (5-1) 由于它表示了由 k 段到 k +1 段的状态转移 规律,所以称为状态转移方程。
• •
动态规划的求解方法
动态规划的求解有两种基本方法:逆序解法(后向 动态规划方法)和顺序解法(前向动态规划方 法)。 • 在对例5-5的求解中,寻优的方向与多阶段决策过 程的实际进行方向相反,即从最后一段开始计算 逐步前推,从而求得全过程的最优策略,这样的 解法称为逆序解法;与之相反,顺序解法的寻优 方向与过程的前进方向相同,计算时从第一段开 始逐段向后递推,后一阶段要用到前一阶段的求 优结果,最后一段计算的结果就是全过程的最优 结果。
运筹学教案动态规划
运筹学教案动态规划一、引言1.1 课程背景本课程旨在帮助学生掌握运筹学中的动态规划方法,培养学生解决实际问题的能力。
1.2 课程目标通过本课程的学习,学生将能够:(1)理解动态规划的基本概念和原理;(2)掌握动态规划解决问题的方法和步骤;(3)能够应用动态规划解决实际问题。
二、动态规划基本概念2.1 定义动态规划(Dynamic Programming,DP)是一种求解最优化问题的方法,它将复杂问题分解为简单子问题,并通过求解子问题的最优解来得到原问题的最优解。
2.2 特点(1)最优子结构:问题的最优解包含其子问题的最优解;(2)重叠子问题:问题中含有重复子问题;(3)无后效性:一旦某个给定子问题的解确定了,就不会再改变;(4)子问题划分:问题可以分解为若干个子问题,且子问题之间是相互独立的。
三、动态规划解决问题步骤3.1 定义状态状态是指某一阶段问题的一个描述,可以用一组变量来表示。
3.2 建立状态转移方程状态转移方程是描述从一个状态到另一个状态的转换关系。
3.3 确定边界条件边界条件是指初始状态和最终状态的取值。
3.4 求解最优解根据状态转移方程和边界条件,求解最优解。
四、动态规划应用实例4.1 0-1背包问题问题描述:给定n个物品,每个物品有一个重量和一个价值,背包的最大容量为W,如何选择装入背包的物品,使得背包内物品的总价值最大。
4.2 最长公共子序列问题描述:给定两个序列,求它们的最长公共子序列。
4.3 最短路径问题问题描述:给定一个加权无向图,求从源点到其他各顶点的最短路径。
5.1 动态规划的基本概念和原理5.2 动态规划解决问题的步骤5.3 动态规划在实际问题中的应用教学方法:本课程采用讲授、案例分析、上机实践相结合的教学方法,帮助学生深入理解和掌握动态规划方法。
教学评估:课程结束后,通过课堂讨论、上机考试等方式对学生的学习情况进行评估。
六、动态规划算法设计6.1 动态规划算法框架介绍动态规划算法的基本框架,包括状态定义、状态转移方程、边界条件、计算顺序等。
运筹学第章动态规划
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
f2(B2)m id n d((B B22,,C C2 1)) ff3 3((C C12)) m i1n6 0 87 m i1 1n 7 414 d(B2,C3)f3(C3) 41 2 1 6
6
第一种方法称做全枚举法或穷举法。它的基本思想是列 举出所有可能发生的方案和结果,再对它们一一进行比较, 求出最优方案。这里从A到E的路程共有3×3×2×1=18 条可能的路线,分别算出各条路线的距离,最后进行比较, 可知最优路线。显然,当组成交通网络的节点很多时,用 穷举法求最优路线的计算工作量将会十分庞大,而且其中 包含着许多重复计算.
2019/11/7
19
f1(A)=19
A
f2(B1)=20
B1 12 14
2 f2(B2)=110 4
6
5
B2 10
4
1
13
B3
12 11
f2(B3)=19
f3(C1)=8
C1
3
9
f3(C2)=7
6
C2
5 8
C3
10
f3(C3)=12
f4(D1)=5
D1
5 f5(E)=0
E
D2 2
f4(D2)=2
(6)最优指标函数fk (sk) :它表示从第k阶段的状态sk开始到第 n阶段的终止状态的过程,采取最优策略得到的指标函数值
fk(sk) { O u k, u n } V P k ,n (sk T ,u k, ,sn 1 )
2019/11/7
24
逆推公式
哈尔滨工业大学运筹学教案教案_动态规划2
x (1) 1
* 2
8
管理运筹学课程组 ftp://211.71.69.239
s2 2
f 2 (2) max {g 2 ( x2 ) f 3 ( s3 )}
0 x2 s 2 * x2 (2) 2
3
例1 工业部拟将5台某种设备分配给所属的甲、乙、丙 三个工厂,各工厂若获得这种设备,可以为公司 提供的盈利如表。 问:这五台设备如何分配给各工厂,才能使 公司得到的盈利最大。 解:将问题按工厂分为三 个阶段,甲、乙、丙分别 编号为1,2,3。
工厂 盈利 设备台数 0 1 2 3 4 5 甲 0 3 7 9 12 13 乙 0 5 10 11 11 11 丙 0 4 6 11 12 12
0 x2 s 2 * x2 (0) 0 f 2 (1) max { g 2 ( x2 ) f 3 ( s3 )}
0 x2 s 2
s
2
1
g 2 (0) f 3 (1) 0 4 max max 5 x2 0,1 g 2 (1) f 3 (0) x2 0,15 0
动态规划应用举例 资源分配问题 生产与存贮问题 设备更新问题
2014-9-4
管理运筹学课程组 ftp://211.71.69.239
1
6.3Байду номын сангаас
资源分配问题
将数量一定的一种或若干种资源,恰当地分配 给若干个使用者,使目标函数为最优。 6.3.1一维离散资源分配问题 设有某种原料,总数量为 a ,用于生产 n 种产品。 若分配数量xi用于生产第i 种产品,其收益为gi(xi) 问应如何分配,才能使生产 n 种产品的总收入最大? MAX =g1(x1)+ g2(x2)+‥ ‥+ gn(xn) s.t. x1+x2+…+ xn=a xi≥0 i=1,2, …,n
运筹学:第4章 动态规划 动态规划第1节
opt {v k(sk
x k D k (sk )
1) 0,k
,x k ) n,n
fk 1(sk 1
1, ,2,1
)}
n
指标函数为阶段指标之 和,即 V kn v i(si ,xi )
或
i k
fk(sk )
fn 1(sn
opt {v k(sk
x k D k (sk )
1) 1,k
,x k ) n,n
P* 14
AB2C 1D1E
f1 19
最短路 最短距离
• 总结以上求解过程,可用如下递推方程表示
fk(s k
)
x
k
min
D k (sk
{v
)
k(s
k
,x
k
)
fk 1(sk 1 )}
f5(s5 ) 0,k 4,3,2,1
一般动态规划基本(逆序递推)方程表示为:
fk(sk )
fn 1(sn
表示两点间距离。现需选一条由A到E的旅行路线, 使总距离最短。
• 以上两个例子代表了这样一种特殊的决策 过程,该过程可分为互相联系的若干阶段, 每一阶段都需做出决策,从而形成全过程 的决策。这种把一个问题看作一个前后关 联具有链状结构的多阶段过程称为多阶段 决策过程,也称序贯决策过程,相应的问 题称为多阶段决策问题。
运筹学动态规划
运筹学动态规划运筹学是一门综合运筹学、优化学、决策学和统计学等多学科知识的学科,它的核心内容是对决策问题进行建模和分析,并通过数学方法进行求解和优化。
动态规划是运筹学中的一种重要方法,它通过将问题划分为相互重叠的子问题,并通过解决子问题的最优解来求解原问题的最优解。
下面将详细介绍运筹学中的动态规划方法。
动态规划方法的核心思想是将原问题分解为若干个相互重叠的子问题,并通过求解子问题的最优解来求解原问题的最优解。
为了可以使用动态规划方法,必须满足以下两个条件:子问题的最优解可以作为原问题的最优解的一部分;子问题之间必须具有重叠性,即一个子问题可以被多次使用。
动态规划方法的具体步骤如下:首先,将原问题分解为若干个子问题,并定义出每个子问题的状态和状态转移方程;其次,通过迭代求解每个子问题的最优解,直到求解出原问题的最优解;最后,根据子问题的最优解和状态转移方程,得到原问题的最优解。
动态规划方法的应用非常广泛,可以用于求解各种各样的优化问题。
例如,在物流配送中,可以使用动态规划方法求解最短路径问题;在生产计划中,可以使用动态规划方法求解最优生产计划;在股票投资中,可以使用动态规划方法求解最优投资策略等。
动态规划方法的优点是可以通过求解子问题的最优解来求解原问题的最优解,避免了穷举法的复杂性。
此外,动态规划方法还可以通过引入一定的约束条件,来对问题进行更精确的建模和求解。
然而,动态规划方法也存在一些局限性。
首先,动态规划方法要求问题能够满足子问题的最优解可以作为原问题的最优解的一部分,这限制了动态规划方法的应用范围。
其次,动态规划方法通常需要建立较为复杂的状态转移方程,并进行复杂的计算,使得算法的实现和求解过程比较困难。
综上所述,动态规划是运筹学中的一种重要方法,通过将问题划分为相互重叠的子问题,并通过解决子问题的最优解来求解原问题的最优解。
动态规划方法的优点是可以高效地求解优化问题,但同时也存在一些局限性。
《运筹学动态规划》PPT课件 (2)
7.2 动态规划的基本原理
7.2.1 最优化原理
动态规划方法是由美国数学家贝尔曼 (R.Bellman)等人于本世纪 50 年 代提出的。他们针对多阶段决策问题的特点 ,提出了解决这类问题的”最优 化原理”,并成功地解决了生产管理、工程技术许多方面的实际问题。 最优化 原理可以表述为:“一个过程的最优策略具有这样的性质, 即无论初始状态 和初始决策如何,对于先前决策所形成的状态而言 ,其以后的所有决策必构成 最优策略。”
1 S1
2
3
4
S2
S3
S4
精选PPT
17
第三步, K=2 由于第 3 段各点 C1,C2,C3 到终点 E 的最短距离 f3(C1),
f3(C2), f3(C3),已知,所以要求城市 B1 到 E 的最短距离,只需以它们为基础,
分别加上 B1 到达 C1,C2,C3 的一段距离,加以比较取其最短者即可。
x
* 3
(
C2
)=
D2
1 S1
2
3
4
S2
S3
S4
f 3 ( C3 )=min
d (C3 , D1 ) + f4 (D1 ) d (C3 , D2 ) + f4 (D2 )
=min
1+ 4 3+3
=5
即从 C3 到 E 的最短距离为 5,其路径为 C3→D1→E,相应的决策为
x
* 3
(
C
3
)=
D1
。
1
2
3
4
精选PPT
6
3)、 决策(Decision )
当各阶段的状态确定以后,就可以做出不同的决定或选择,从而确 定下一阶段的状态,这种决定就是决策,表示决策的变量称为决策变量。
运筹学第五章动态规划
和 dk 2 (sk ));
(4) 允许决策集: D k ( s k ) ( x k , y k ) 0 ≤ y k ≤ s k ; 0 ≤ x k ≤ 1 0 0 0 ( s k y k )
状态转移方程: s k 1 s k x k y k ,s 1 5 0 0k4,3,2,1
其中s 5 表示第四阶段末的状态; (5) 阶段指标: v k ( s k ,x k ,y k ) q k y k p k x k ,k4,3,2,1;
5.1 动态规划的基本概念和模型
5.1.1 动态规划的基本概念
下面结合实例来介绍动态规划的基本概念:
【例5.1】 如图5.1所示,在处有一水库,现需从点铺设一条 管道到点,弧上的数字表示与其相连的两个地点之间所需修建 的渠道长度,请找出一条由到的修建线路,使得所需修建的渠 道长度最短。
2
A4
3
B
7
(1) 按月份分段: k4,3,2,1;
(2) 状态变量: s k 表示第 k 个月月初的库存量;
(3) 决策变量: dk1(sk表) 示第 k 个月已有库存 s的k 情况下,要定
购的商品量, dk2表(sk示) 第 个月k 已有库存 的商品量(为方便,后面将分别依次用 ,
的 来x sk 情 代k y况 替k 下,要d销k1(售sk )
(6) 动态规划基本方程:
fk(s k) (x k,y m k) a D x k(s k)v k(s k,x k,y k) fk 1 (s k 1 )
f5 (s 5 ) 0 k 4 ,3 ,2 ,1
求解(要求板书) 辅图1
辅图2
辅图3
5.2.3 动态规划的顺序解法
【 例 5.3】 图 5.3 所 示 为 一 水 利 网 络 , A 为 水 库 , 分B 1 ,别B 2 为,B 3 不;C 同1 ,C 的2 ,供C 3 水;D 目1 ,D 的2地,试找出给各供水目的地供水的 最短路线。
运筹学 第8章 动态规划
Vk , n sk , xk ,, sn k sk , xk , Vk 1, n sk 1 , xk 1 ,, sn
① 是各阶段指标的和
常见指标函数为:
x k D k s k
vk sk , xk f k 1 sk 1 vk sk , xk f k 1 sk 1
(8.3a)
(2) 当各阶段指标函数为求积时
f k S k opt
x k D k s k
(8.3b)
边界条件,即当k=n时,f n 1 sn 1 的值,要根据问题的条件 来决定,一般指标函数值为式(8.3a),取 f n 1 sn 1 0 ;当 指标函数值为式(8.3b),取 f n 1 sn 1 1。
3、决策 指某阶段状态给定以后,决策者在面临的若干种 不同方案中作出的选择。描述决策的变量,称为决策变量 xk(sk)。它表示第k阶段状态为sk时对方案的选择。
决策变量的取值往往限制在一定范围内,此范围为允许 决策集合,常用Dk(sk)表示,显然有:xk(sk)Dk(sk) 4、策略和子策略 各阶段决策组成的序列总体称为一个策 略。n阶段策略可写为 x1 s1 , x2 s2 ,, xn sn 从阶段k开始到过程最终的决策序列称为问题的子策略, 可写为 xk sk , xk 1 sk 1 ,, xn sn 5、状态转移律 从上阶段的某一状态值到下一阶段某一状 态值的转移规律称为状态转移律,也称为状态转移方程 记为: sk 1 T sk , xk sk 或 6、指标函数
ci 为最大。 (i=1, ,n),问如何分割使其乘积 i 1
运筹学课件(动态规划)
(二)、动态规划的基本思想 1、动态规划方法的关键在于正确地写出基本的递推 关系式和恰当的边界条件(简称基本方程)。要做到 这一点,就必须将问题的过程分成几个相互联系的阶 段,恰当的选取状态变量和决策变量及定义最优值函 数,从而把一个大问题转化成一组同类型的子问题, 然后逐个求解。即从边界条件开始,逐段递推寻优, 在每一个子问题的求解中,均利用了它前面的子问题 的最优化结果,依次进行,最后一个子问题所得的最 优解,就是整个问题的最优解。
d( B1,C1 ) + f1 (C1 ) 3+1 f2 ( B1 ) = min d( B1,C2 ) + f1 (C2 ) = min 3+3 d( B1,C3 ) + f1 (C3 ) 1+4 4 = min 6 = 4 (最短路线为B1→C1 →D) 5
3
2 A 4 B2 B1 2 1 3
最优策略为(30,20),此时最大利润为105万元。
f 2 ( 40)
g2 ( y) y 0 ,10 ,, 40
max
f1 ( 40 y )
90
最优策略为(20,20),此时最大利润为90万元。
f 2 (30)
g2 ( y) y 0 ,10 , 20 , 30
max
f1 (30 y )
70
最优策略为(20,10),此时最大利润为70万元。
f 2 ( 20) ma 0 ,10 , 20
50
最优策略为(20,0),此时最大利润为50万元。
f 2 (10) maxg 2 ( y ) f1 (10 y )
3 2 A 4 B2 B1 2 3 1 3 1
C1 C2 4 3
运筹学第四章动态规划
7
7
5
8
4
3
B1
4
C1
8
C4
4
D1
3
5 E1
4
6
D2 2
F
3
1
3 E2
D3
解:(逆序解法)
(1)从k=5开始,到终点的路长
f 5 ( E1 ) 4, f 5 ( E2 ) 3
(2)k=4, 状态有3个D1,D2,D3,到终点的最短路长
d ( D1 , E1 ) f5 ( E1 )
资数额才能使总收益最大?
解:求x1,x2,x3,使
max z 4 x1 9 x2 2 x
2
3
x1 x2 x3 10
s.t.
xi 0 (i 1,2,3)
本例可转化为3阶段的决策问题。
4.2 动态规划的基本概念和基本原理
一、动态规划的基本概念
(1)阶段:将问题按时间或空间特征分解成若干相互联系
ቊ
∗2 (1 ) = 1
(1 , 2 ) + 1 (1 )
3+4
2 (2 ) = min
= min
=7
(2 , 2 ) + 1 (2 )
൞
8+5
∗2 (2 ) = 1
(1 , 3 ) + 1 (1 )
6+4
2 (3 ) = min
= min
= 10
uk
f 0 ( s1 ) 0
顺序解法与逆序解法在本质上没有区别。
当问题给定了一个初始状态和一个终止状态时
,两种方法都可以用。
4.3 动态规划模型的建立与求解
动态规划(运筹学讲义).
)
min
d d
( (
E2 E2
, ,
F1) F2 )
f6 (F1) f6 (F2 )
min
5 2
4 3
5
u*5 (E2 )= F2
f5
(E3
)
min
d d
( (
E3 E3
, ,
F1) F2 )
f6 (F1) f6 (F2 )
min
fk
(sk
)
opt
uk Dk ( sk
)
vk (sk ,uk ) fk1(sk1)
fn1(sn1) 0
k=n, n 1, ,1
(8.4a) (8.4b)
Opt 可根据题意取 min 或 max
11
动态规划的基本思想如下:
(1)动态规划方法的关键在于正确写出基本递推关系式和恰当的边界条 件,因此必须将多阶段决策过程划分为n个相互联系的阶段,恰当地选取 状态变量、决策变量及定义最优指标函数,从而把问题化为一族同类型 的子问题,然后逐个求解 (2)求解时从边界条件开始,逆(或顺)过程逐段递推寻优。在每一个 子问题求解中,均利用了它前面子问题的最优结果,最后一个子问题的 最优解,就是这个问题的最优解。 (3)动态规划方法既把当前阶段与未来阶段分开,又把当前效益和未来 效率结合,因此每段的最优决策选取是从全局来考虑。 (4)在求这个问题的最优解时,由于初始状态是已知,而每阶段的决策 都是该段状态的函数,故最优策略所经过的各各阶段状态可逐次变换得 到,从而确定最优路线。
量最高。
决策
决策
决策
运筹学 第05章 动态规划
动态规划模型
动态规划模型如下
u1 ,,u n
opt R rk xk , u k
n k 1
表示求和或加权求和 opt表示求最优(最大值 或最小值) Xk表示k阶段状态可能 的取值范围,称为状态 可能集合 Uk表示k阶段决策可能 的取值范围,称为决策 允许集合
x1
决 策 Z
x2 x1 表示决策所依赖的资源和环境
Z表示目标函数
x2 表示决策后的资源和环境状况
动态规划概念(2)
例如,前面讲过的生产计划问题就是一次决策
某工厂用三种原料生产三种产品,已知的条件如 下表所示,试制订总利润最大的日生产计划
产品所需原料数量 (公斤/ 件) 原料P1 原料P2 原料P3 产品的利润 (千元/ 件) 产品Q1
贝尔曼方程
对于无后效性的多阶段决策过程,根据最 优性原理和贝尔曼函数定义,可得
f k xk optrk xk , uk f k 1 xk 1 其中,xk 1 Tk xk , uk 称为动态规划基本方程,也称为 贝尔曼方程
uk
动态规划问题求解步骤(1)
k阶段决策uk是决定下一步走到哪里,有
u1∈{a,b,c} u2(a)∈{d,f},u2(b)∈{d,e} ,u2(c)∈{d,e,f} u3∈{t}
示例(5.2-3)
状态转移方程
xk+1=uk
阶段效应rk(xk , uk ) 取为从xk 走到uk 的路线 长度,如r1(s , a) =9 贝尔曼函数 fk(xk ) 定义为从xk 走到 t 的最短 路线 贝尔曼方程
f k xk opt ri xi , ui
n u k ,,u n i k
为了将从初始状态xk 出发的k-后部子过程的 最优策略和最终的最优策略相区别,称前 者为条件最优策略
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
该例题对S6没有限制,有时会对最后一年年末 完好设备数施以约束,例如S6〉=300。 这时决策变量x5的决策允许集合为:
D5 (S5 ) X 5 | 0.7 X 5 0.9(S5 X 5 ) 300, X 5 0
即 下面数需重新算
0 X 5 4.5S5 1500
0 x 5 s 5 0 x 5 s 5
x5
x s5
* 5
s5
第 s 6 … 5 年
指标值 (产量) V5(s5,x5)
+f6(s6)
f4 (s4 ) max 8x4 5(s4 x4 ) f5 (s5 )
0 x4 s4
max 8x4 5(s4 x 4 ) 8s5
物品1
s2
2x2
物品2
S3
5x3
物品3
S4
v1(s1,u1)=60x1
v2(s2,u2)=40x2
v3(s3,u3)=60x3
阶段k: 物品(k=3,2,1); 状态变量sk:从第k种物品到第3种物品可载重量; 决策变量xk:装第k种物品数量;
决策允许集合:Dk(sk)={xk|0xk[sk/wk]} 状态转移方程:sk+1=sk-wk*xk 阶段指标:vk(sk,xk)=ck*xk
有一个徒步旅行者,其可携带物品重量的限度为w 公 斤,有n 种物品可供他选择装入包中。已知每种物品的 重量及使用价值(作用),问此人应如何选择携带的 物品(各几件),使所起作用(使用价值)最大?
物品 重量(公斤/件) 使用价值
1 w1 c1
2 w2 c2
… … …
i wi ci
… … …
n wn cn
作业 某公司有资金8万元,投资A、B、C三个项 目,单位投资为2万元。每个项目的投资效益率与 投入项目的资金有关。三个项目A、B、C的投资 效益(万吨)和投入资金(万元)关系见下表:
求对三个项目的最优投资分配,使总投资效 益最大。
(二)机器负荷分配问题
例3 某种机器可以在高、低两种负荷下运行。在高 负荷条件下运行时,机器完好率为0.7,即如果年初 有u台完好机器投入运行,则年末时完好机器的数量 为0.7u台,产量8吨/台;在低负荷下运行时,机器 完好率为0.9,产量5吨/台。设开始时有1000台完好 机器,要制订五年计划,每年年初将完好的机器一 部分分配到高负荷运行,剩下的机器分配到低负荷 运行,如何分配生产使五年的总产量为最高。
从上题计算结果可以看出:前两年低负荷运行, 后三年高负荷运行。是否有这样的规律,n年的生 产计划,总是前1~t-1年底负荷运行,t~n年高负荷 运行。
一般地,设一个周期为n年,
条件:g(x)、h(x)为线性函数,且g(0)=h(0)=0。
则最优设备分配策略是:从1至t-1年,年初将全 部完好设备投入低负荷运行,从t至n年,年初将 全部完好设备投入高负荷运行,总产量达到最大。
(产量)
V4(s4,x4)
+f5(s5)
f3(s3)=max{8x3+5(s3-x3)+f4(s4)}
0x3s3
=max{8x3+5(s3-x3)+13.6s4}
0x3s3 0x3s3 0x3s3
=max{8d3+5(s3-d3)+13.6[0.7d3+0.9(s3-d3)]} x3 =max{0.28x3+17.24s3}=17.52s3
求对三个项目的最优投资分配,使总投资效 益最大。
分析: 1、阶段k:每投资一个项目作为一个阶段;
2、状态变量xk:投资第k个项目前的资金数;
3、决策变量dk:第k个项目的投资; 4、决策允许集合:0≤dk≤xk 5、状态转移方程:xk+1=xk-dk 6、阶段指标:vk(xk ,dk)见表中所示; 7、递推方程:fk(xk)=max{vk(xk ,dk)+fk+1(xk+1)} 8、终端条件:f4(x4)=0
阶段指标: 终端条件:
vk(sk,xk)=8xk+5(sk-xk) f6(s6)=0
递推方程: fk(sk)=max{vk(sk,xk)+fk+1(sk+1)} 0 x k s k =max{8xk+5(sk-xk)+fk+1[0.7xk+0.9(sk-xk)]} 0 x k s k
f 5 (s5 ) max 8x5 5(s5 x 5 ) f 6 (s6 ) max 3x5 5s5 8s5
第二节 生产与存储问题
在生产和经营管理中,经常会遇到要合理 地安排生产(或购买)与库存的问题,达到既要 满足社会的需要,又要尽量降低成本费用。因 此,正确制定生产(采购)策略,确定不同时 期的生产量(或采购量)和库存量,以使总的 生产成本费用和库存费用之和最小,这就是生 产和存储问题的目标。
第三节 背包问题
x1
x2
x3
x4
x5
s1
第 s 2 1 年
指标值
(产量) V1(s1,x1)
第 s 3 2 年
指标值
(产量) V2(s2,x2)
第 s 4 3 年
指标值
(产量) V3(s3,x3)
第 s5 4 年
指标值
(产量) V4(s4,x4)
第 s 6 5 年
指标值
(产量) V5(s5,x5)
动态规划模型构造
计算t: 高负荷生产时设备的完好率为a,单台产量为g; 低负荷生产时设备的完好率为b,单台产量为h;
n t 1
i 0
n t g h a ai g (b a ) i 0 i
习题1:
某公司有1000辆运输卡车,在超负荷运输(即每 天满载行驶500km以上)情况下,年利润为25万元 /辆,这时卡车的年损坏率为0.3;在低负荷下运输 (即每天行驶300km以下)情况下,年利润为16万 元/辆。年损坏率为0.1。现要制定一个5年计划,问 每年年初应如何分配完好车辆在两种不同的负荷下 运输的卡车数量,使在第5年年末剩余的完好卡车 数量为500台,并且使在5年内的总利润最大?
s3
第 s 4 … 3 年
指标值 (产量) V3(s3,x3)
x3*=s3
+f4(s4)
f2(s2)=max{8x2+5(s2-x2)+f3(s3)}
0x2s2
=max{8x2+5(s2-x2)+17.52s3}
0x2s2
=max{8x2+5(s2-x2)+17.52[0.7x2+0.9(s2-x2)]} x2
建立模型:
max Z 4 x1 9 x2 2 x3
x1 x2 x3 xi 0
10 (i 1, 2, 3)
例2 有资金4万元,投资A、B、C三个项目,每 个项目的投资效益与投入该项目的资金有关。三 个项目A、B、C的投资效益(万吨)和投入资金 (万元)关系见下表:
D3(s3)
s4
60x3+f4(s4)
f3(s3)
解:终端条件:f4(s4)=0 k=3时,递推方程为
f3 ( s3 ) max
0 x s3 w3
c3 x3
f 4 (s4 ) max
0 x s3 5
60 x3
X*3 0 0 …
s3 0 1 … 5 … 10
D3(s3) 0 0 … 0 1 … 0 1 2
k=4,f4(x4)=0 k=3,0≤d3≤x3,x4=x3-d3
k=2,0≤d2≤x2,x3=x2-d2
k=1,0≤d1≤x1,x2=x1-d1
最优解为 x1=4, d1*=1, x2=x1-d1=3, d2*=0, x3=x2-d2*=3, d3=3, x4=x3-d3=0, 即项目A投资1万元,项目B投资0万元,项目C投资3 万元,最大效益为60万吨。
f2(s2)=20.77s2, f3(s3)=17.52s3, f4(s4)=13.60s4, f5(s5)=8s5
x1*=0
x2*=0 x3*=s3 x4*=s4 x5*=s5
用s1=1000代入,得到五年最大产量为 f1(s1)=f1(1000)=23690
每年投入高负荷运行的机器数以及每年初完好的机 器数为: s1=1000
这就是背包问题。类似的还有运输中的货物装载问 题、人造卫星内的物品装载问题等。
设xi 为第i 种物品的装件数(非负整数)则问题的数 学模型如下:
max Z ci ( x i )
i 1 n
i 1
wi xi w
n)
n
xi 0且为整数(i 1.2.
例1 有一辆最大货运量为10 t 的卡车,用以装载3种 货物,每种货物的单位重量及相应单位价值如表所示。
0x1s1
=max{8x1+5(s1-x1)+20.77[0.7x1+0.9(s1-x1)]}
0x1s1
x1
=max{-0.05x1+23.69s1}=23.69s1
0x1s1
s1
第 s 2 … 1 年
指标值 (产量) V1(s1,x1)
x1*=0
+f2(s2)
由此可以得到:
f1(s1)=23.69s1,
物品
重量(公斤) 使用价值
1 2 3 3 2 5 60 40 60
应如何装载可使总价值最大? 例题:求下面背包问题的最优解
max Z 60 x1 40 x2 60 x3 3 x1 2 x2 5 x3 10 x1 , x2 , x3 0且为整数
分析:
状态s1
3x1