运筹学第五章动态规划
《运筹学》第五章习题及答案
《运筹学》第五章习题及答案《运筹学》第五章习题1.思考题(1)试述动态规划的“最优化原理”及它同动态规划基本方程之间的关系。
(2)动态规划的阶段如何划分?(3)试述用动态规划求解最短路问题的方法和步骤。
(4)试解释状态、决策、策略、最优策略、状态转移方程、指标函数、最优值函数、边界函数等概念。
(5)试述建立动态规划模型的基本方法。
(6)试述动态规划方法的基本思想、动态规划的基本方程的结构及正确写出动态规划基本方程的关键步骤。
2.判断下列说法是否正确(1)动态规划分为线性动态规划和非线性动态规划。
(2)动态规划只是用来解决和时间有关的问题。
(3)对于一个动态规划问题,应用顺推法和逆推法可能会得到不同的最优解。
(4)在用动态规划的解题时,定义状态时应保证各个阶段中所做的决策的相互独立性。
(5)在动态规划模型中,问题的阶段等于问题的子问题的数目。
(6)动态规划计算中的“维数障碍”,主要是由于问题中阶段数的急剧增加而引起的。
3.计算下图所示的从A到E的最短路问题4.计算下图所示的从A到E的最短路问题5.计算从A到B、C、D的最短路线。
已知各线段的长度如下图所示。
6.设某油田要向一炼油厂用管道供应油料,管道铺设途中要经过八个城镇,各城镇间的路程如下图所示,选择怎样的路线铺设,才使总路程最短?7.用动态规划求解下列各题(1).222211295m a x x x x x z-+-=;???≥≤+0,52121x x x x;(2).33221m a x x x x z=???≥≤++0,,6321321x x x x x x;8.某人外出旅游,需将3种物品装入背包,但背包重量有限制,总重量不超过10千克。
物品重量及其价值等数据见下表。
试问每种物品装多少件,使整个背包的价值最大?913千克。
物品重量及其价值的关系如表所示。
试问如何装这些物品,使整个背包价值最大?10量和相应单位价值如下表所示,应如何装载可使总价值最大?303011底交货量,该厂的生产能力为每月600件,该厂仓库的存货能力为300件,又每生产100件产品的费用为1000元。
运筹学课件 第五章动态规划
(1) 指标函数
指标函数: 描述问题的数量函数用Vk,n表示.
Vk,n Vk,n (sk,uk ,.....,sn , un , sn1)
k 1,2,..,n
要求Vk,n 满足可分离性及递推关系 .
2020/5/30
22
10 指标和 Vk,n为阶段指标v j (s j , u j )之和
n
n
Vk,n v j (s j , u j ) vk (sk , uk ) v j (s j , u j )
▪
在实际问题中,决策变量的取值往往限制
在某一范围之内,此范围称为允许决策集合。
常用Dk (sk)表示第k阶段从状态sk出发的允许决 策集合。
2020/5/30
20
4.策略
策略:决策按顺序构成的序列,用p表示。
pk,n (sk ) : 第k阶段起至第n阶段止的策略
pk,n (sk ) {uk (sk ), uk1(sk1)..., un (sn )}
23
(2) 最优值函数 最优值函数fk (sk ) : 指标函数的最优值 fk (sk ) opt Vk.n (sk , uk ,...,sn , un , sn1)
uk un
opt : 最优化,取 max或 min
2020/5/30
24
四、动态规划模型的最优性原理和基本方程
1、动态规划的最优性原理
2020/5/30
12
▪ 于是
2020/5/30
13
▪ ▪ (3)在第二阶段 ▪ 在第二阶段,还有三步才能到达终点 ▪ 同理f2 (s2)=min { d2 (s2, X2) +f3 (s3)}
2020/5/30
14
管理运筹学第5章动态规划
根据阶段划分、状态转移方程和最优解的性质,建立递推关系。
递推关系的求解
通过递推关系求解各阶段的最优解,最终得到整个问题的最优解。
03
动态规划的求解方法
逆推法
总结词
逆推法是从目标状态出发,逆向推算出达到目标状态的最优决策,逐步推算出初始状态的最优决策。
详细描述
逆推法的基本思想是将问题分解为若干个相互联系的阶段,从最后阶段开始,依次向前推算出每个阶 段的最优决策,直到达到初始状态。这种方法适用于具有重叠子问题和最优子结构的问题,可以避免 重复计算,提高求解效率。
详细描述
资源分配问题通常需要考虑资源的约束条件、 各部门或个体的需求和优先级,以及如何平 衡各方利益。动态规划通过将问题分解为一 系列子问题,逐一求解最优解,最终得到整 体最优解。
生产与存储问题
总结词
生产与存储问题主要研究在生产过程 中如何平衡生产与库存的关系,以最 小化生产成本和库存成本。
详细描述
特点
动态规划适用于具有重叠子问题和最优子结构特性的问题,通过将原问题分解 为子问题,逐个求解并存储子问题的解,避免了重复计算,提高了求解效率。
动态规划的重要性
解决复杂问题
动态规划能够解决一些复杂的问题,如资源分配、生产计 划、物流调度等,这些问题通常难以通过传统方法求解。
提高计算效率
通过避免重复计算,动态规划能够显著提高计算效率,尤 其在处理大规模问题时,能够大大减少计算时间和资源消 耗。
05
动态规划的优化策略
多阶段决策优化
01
02
03
阶段划分
将问题划分为若干个相互 关联的阶段,每个阶段都 有自己的决策变量和状态 转移方程。
状态转移
管理运筹学 第5章 动态规划
第一阶段:
* * * * 最优解: x = 0 x = 1 x = 0 x = 1 1 2 3 4
练习.
1.石油输送管道铺设最优方案的选择问题.下图中A为出 发点,E为目的地,B,C,D分别为三个必须建立油泵加压 站的地区,图中的线段表示管道可铺设的位置,线段旁 的数字为铺设管道线所需的费用.问如何铺设管道才使 总费用最小.
-
- -
0
0 0
0
0 0
-
-
0
0
0
0 1 1 1 1
20 20 20 20
20 20 20 1
第三阶段:
s3
0 1 2 3 4
x3
r ( s , x ) f ( s 4 x ) 3 3 3 4 3 3
0 1 2 - - - - -
f 3 ( s3 )
0 0 0 0 11
x *3
0 0 0 0 1
咨询项目类型 待处理客户数 处理每个客户所 处理每个客 需工作日数 户所获利润
1 3 4 7 2 8 11 20
1 2 3 4
4 3 2 2
解:用动态规划来求解此题。 我们把此问题分成四个阶段,第一阶段我们决策将 处理多少个第一种咨询项目类型中的客户,第二阶段决 策将处理多少个第二种咨询项目类型中的客户,第三阶 段、第四阶段我们也将作出类似的决策。我们设 s k =分配给第k种咨询项目到第四种咨询项目的所 有客户的总工作日(第k阶段的状态变量)。 x k =在第k种咨询项目中处理客户的数量(第k阶段 的决策变量)。 已知 s 1 =10 并有 s T ( s , x ) s 3 x , T ( s , x ) s x ,s 3 2 2 2 2 2
件重量为wi公斤,每件价值ci元。现有一只可装载重量W 公斤的背包,求各种物品应各取多少件放入背包,使背 包中物品的价值最高。 这个问题可以用整数规划模型来描述。设xi为第i种 物品装入背包的件数(i =1, 2, …, n),背包中物品的总 价值为z,则 Max z = c1x1+c2x2+ … +cnxn s.t. w1x1+w2x2+…+wnxn≤W x1, x2, …, xn0 且为整数。
运筹学第5章:动态规划
10
3
例3 第一阶段:给第三市场分配
s1 有0~9种可能,第一阶段最优决策表如下:
为什么与例1 的第一阶段的表有差别?
11
例3 第二阶段:给第二市场分配
s2 有0~9种可能,第二阶段最优决策表如下:
12
例3 第三阶段:给第一市场分配
由边界条件 s3=9,第三阶段最优决策表如下:
4
1838 1768 1762 1698 1692 1686 1628 1622 1616 1610 s 2 =2 s 2 =3 s 2 =4 s 2 =5
第三阶段最优决策表
第四阶段:初始库存量 s4=0 由状态转移方程: s3=s4+x4-60 可知 x46,由阶段效果递推公式有: f4(0,6)=d4(0,6)+f3*(0,10) =706+1902=2322 得第四阶段最优决策表,如下
得第三阶段最优决策表,如下
8 9 1908 1832 1756 1680 1604 s 2 =6 10 1902* 1826* 1750* 1674* 1598* s 2 =7 x 3 * f 3 (s 3 ,x3 *) 10 10 10 10 10 1902 1826 1750 1674 1598
将 s2= s1 + x1 – 600= x1 – 600 代入 f1(s1,x1) 得:
由此回溯:得最优生产–库存方案 x1*=600,s2*=0; x2*=700,s3*=0; x3*=800,s4*=300; x4*=900。
9
5.2.2 资源分配问题
例3 某公司有9个推销员在全国三个不同市场推销货物,这三个市
第三步:(第二、三、四季度) 总效果 f2(s2,x2)=0.005 x22+s2+ f3*(s3) 将 s3= s2 + x2 - 700 代入 f2(s2,x2) 得:
运筹学——动态规划
优子策略。该原理的具体解释是,若某一全过程
最优策略为:
p1
(s1 )
{u1
(s1 ),
u 2
(s2
),
,
u
k
(sk
),
u
n
(sn
)}
则对上述策略中所隐含的任一状态而言,
第k子过程上对应于该状态的最优策略必然包
含在上述全过程最优策略p1*中,即为
pk
(sk
)
{u
k
(sk
),
u
k 1
(sk
1
),
2.正确地定义状态变量sk,使它既能正确地描述过 程的状态,又能满足无后效性.动态规划中的状 态与一般控制系统中和通常所说的状态的概念是 有所不同的,动态规划中的状态变量必须具备以 下三个特征:
20
2021/7/26
(1)要能够正确地描述受控过程的变化特征。 (2)要满足无后效性。即如果在某个阶段状态已经给定,那么在
sk 1 Tk (sk ,uk (sk ))
上式称为多阶段决策过程的状态转移方程。有些问题的 状态转移方程不一定存在数学表达式,但是它们的状态 转移,还是有一定规律可循的。
12
2021/7/26
(六) 指标函数 用来衡量策略或子策略或决策的效果的某种数量
指标,就称为指标函数。它是定义在全过程或各 子过程或各阶段上的确定数量函数。对不同问题 ,指标函数可以是诸如费用、成本、产值、利润 、产量、耗量、距离、时间、效用,等等。
7
2021/7/26
(二)状态、状态变量和可能状态集 1.状态与状态变量。用以描述事物(或系统)在某特 定的时间与空间域中所处位置及运动特征的量,称 为状态。反映状态变化的量叫做状态变量。状态变 量必须包含在给定的阶段上确定全部允许决策所需 要的信息。按照过程进行的先后,每个阶段的状态 可分为初始状态和终止状态,或称输入状态和输出 状态,阶段k的初始状态记作sk,终止状态记为sk+1 。但为了清楚起见,通常定义阶段的状态即指其初 始状态。
第五章 物流运筹学——动态规划
的单件重量和装载收费如表5-1所示,又规 由于它表示了由 段到 段的状态转移
因此,在物流管理中,如何进行决策,制定一个最优的设备维护更新策略,是非常重要的。
第三节 动态规划模型的建立与求解
定货物2和货物3都至多装两件。问如何装 但假设初始状态虽已给定,终点状态有多个,需比较到达不同终点状态的各个路径及最优指标函数值,以选取总效益最正确的终点状
3
• 【例5-1】〔生产与存储问题〕工厂在3个季度中
• 安排某种产品的生产方案。假设该季度生产此
种产x
x2
• 品 〔吨〕,那么本钱为 元。假设当季
生产的
• 每吨产品未销售a k 掉,那么进库,季末需付存储费,
• 产品每季的存储费为1元。现估计3个季度对该 产
• 品的需求量 分别为100吨,110吨和120吨,
3
j 仪器
1
2
3
10
9
14
9
12
10
6
5
8
7
• 【例5-4】〔机器负荷问题〕设某机器可以在高、
• 低两种不同的负荷下进行生产。假设年初x 有 台
• 机器在高负荷下进行生产,那么产品年a产 8x
量
,
0.3
y
• 机器的年折损率
低
0.1
;假设年b 初5有y 台机器在
• 负荷下进行生产,那么产品年产量
,机器
的
• 年折损率
。假设初始时有性能正常的机器
1000
• 台,要求制定机器负荷的四年分配方案,确定每
年
8
A
运筹学 第五章 动态规划
根据问题本身的特点,可以将其求解的全过 程划分为若干个相互联系的阶段(即将问题 划分为许多个相互联系的子问题),在它的 每一阶段都需要做出决策,并且在一个阶段 的决策确定以后再转移到下一阶段。往往前 一个阶段的决策要影响到后一个阶段的决策, 从而影响整个过程。这样的决策过程称作多 阶段决策过程。
描述决策变化的量称为决策变量。
常用uk uk sk 表示 k 阶段状策变量的取值的容许范围。
决策变量uk sk 的允许决策集用Uk sk 表示, uk sk Uk sk ,
允许决策集合实际是决策的约束条件。
三、动态规划求解的多阶段决策问题的特点
(2)设备更新问题 企业在使用设备时都要考虑设备的更新问题。现某企业要决定 一台设备未来 8 年的更新计划,已预测了第 j 年购买设备的价
格为 K j ,设Gj 为设备经过 j 年后的残值,C j 为设备连续使用
j 1年后在第 j 年的维修费 j 1, 2, ,8,问应在哪些年更
新设备可使总费用最小。
(4)资源分配问题 某工业部门或公司,拟对其所属企业进行稀缺 资源分配,为此需要制订出收益最大的资源分 配方案。
(5)运输网络问题
图5-11 运输网络图示
多阶段决策过程最优化的目标: 要达到整个活动过程的总体效果最优。
v1
第二节 动态规划的基本概念和基本 原理
一、动态规划的基本概念 (1)阶段;(2)状态;(3)决策和策略; (4)状态转移;(5)指标函数
二、多阶段决策问题举例
(1)生产与存贮过程。
某工厂每月需供应市场一定数量的产品,并 将所余产品存入仓库。一般某月适当增加产 品可降低生产成本,但超产部分存入仓库会 增加库存费用。要求确定一个逐月的生产计 划,在满足需求条件下,使一年的生产与存 贮费用之和最小。
运筹学 CH5动态规划
动态规划是求解某类问题的一种方法,是考察问题的一 种途径,而不是一种算法。必须对具体问题进行具体分析, 运用动态规划的原理和方法,建立相应的模型,然后再用动 态规划方法去求解。
动态规划是现代企业管理中的一种重要决策方法,可用于 最优路径问题、资源分配问题、生产计划和库存问题、投资 问题、装载问题、排序问题及生产过程的最优控制等。
g=g(u1)
多阶段决策问题
Page 8
3.航天飞机飞行控制问题:由于航天飞机的运动的环境是 不断变化的,因此就要根据航天飞机飞行在不同环境中的 情况,不断地决定航天飞机的飞行方向和速度(状态), 使之能最省燃料和实现目的(如软着落问题)。
4.不包含时间因素的线性规划、非线性规划等静态决策问 题(本质上是一次决策问题)也可以适当地引入阶段的概 念,作为多阶段的决策问题用动态规划方法来解决。
状态集合S K 。
2
A5
1
B1
12 14
10
6
B2 10
4 13
B3
12 11
C1
3
9
6
C2
5
8
C3 10
D1 5 D2 2
S 1 ={A} S 2 ={B1,B2, B 3} E S 3 ={C1,C2, C 3} S 4 ={D1,D2}
k=1
k=2
k=3
k=4
基本概念
Page 12
Hale Waihona Puke 状态应满足: (1)能描述问题的变化过程。 (2)具有无后效性:当某阶段状态给定后,在这阶段以后 过程的发展不受这阶段以前各状态的影响。 (3)能直接或间接地计算出来。
基本概念
Page 13
3、决策:表示当过程处于某一阶段的某个状态时,可以作出不 同的决定,从而确定下一阶段的状态,这种决定称为决策。
运筹学第5章:动态规划
fk (sk , xk ) = hk (dk (sk , xk ), fk1(sk1, xk1 )
6
动态规划的步骤
– hk 是一般表达形式,求当前阶段当前状态下的阶段最优 是一般表达形式, 总效果
(1) 如最短路问题,是累加形式,此时有 如最短路问题,是累加形式,
14
生产–库存管理问题 连续变量) 库存管理问题(连续变量 例2 生产 库存管理问题 连续变量
第三步: 第二 第二, 四季度) 第三步:(第二,三,四季度 总效果 f2(s2,x2)=0.005 x22+s2+ f3*(s3) 将 s3= s2 + x2 - 700 代入 f2(s2,x2) 得:
回 溯 得 此 表
12
生产–库存管理问题 连续变量) 库存管理问题(连续变量 例2 生产 库存管理问题 连续变量
设某厂计划全年生产某种产品A.其四个季度的订货量分别为 设某厂计划全年生产某种产品 .其四个季度的订货量分别为600 公斤, 公斤 公斤, 公斤和 公斤和1200公斤.已知生产产品 的生产费 公斤. 公斤,700公斤,500公斤和 公斤 已知生产产品A的生产费 用与产品的平方成正比,系数为0.005.厂内有仓库可存放产品, 用与产品的平方成正比,系数为 .厂内有仓库可存放产品, 存储费为每公斤每季度1元 求最佳的生产安排使年总成本最小. 存储费为每公斤每季度 元.求最佳的生产安排使年总成本最小.
1260* 10 1188 9 1116 8 1044 7 972 6 900 5 s1=5
第二阶段最优决策表
s2 2 3 4 5 6 7
x2* f2(s2,x2*) 10 1260 9 1182 8 1104 7 1026 6 948 5 870
动态规划的基本概念
优指标函数(k=1,2,…,n)。
§2 动态规划的最优性原理
多阶段决策过程的特点是每个阶段都要进行决策,具有 n个阶段的决策过程的策略是由n个相继进行的阶段决策构成 的决策序列。由于前阶段的终止状态又是后一阶段的初始状态 ,因此确定阶段最优决策不能只从本阶段的效应出发,必须通 盘考虑,整体规划。就是说,阶段k的最优决策不应只是本阶 段的最优,而必须是本阶段及其所有后续阶段的总体最优,即 关于整个后部子过程的最优决策。
运筹学
动态规划
L/O/G/O
第五章 动态规划
动态规划是运筹学的一个重要分支,它是从1951年开始,由美国人贝 尔曼(R.Belman)为首的一个学派发展起来的。动态规划在经济、管理、 军事、工程技术等方面都有广泛的应用。
动态规划是解决多阶段决策过程的最优化问题的一种方法。所谓多阶段 决策过程是指这样一类决策过程:它可以把一个复杂问题按时间(或空间) 分成若干个阶段,每个阶段都需要作出决策,以便得到过程的最优结局。由 于在每个阶段采取的决策是与时间有关的而且前一阶段采取的决策如何,不 但与该阶段的经济效果有关,还影响以后各阶段的经济效果,可见这类多阶 段决策问题是一个动态的问题,因此,处理的方法称为动态规划方法。然而 ,动态规划也可以处理一些本来与时间没有关系的静态模型,这只要在静态 模型中人为地引入“时间”因素,分成时段,就可以把它看作是多阶段的动 态模型,用动态规划方法去处理。
运筹学-第3版-课件-第5章 动态规划
C1
2
1 2 2 3
D1 D2
3
2
A
B2
5
C2
6
E
4
2
B3
C3
3
D3
同样的理由,可以递推得其余阶段的铺设路线,如阶 段3在C1点的决策是D1,阶段4在D1点的决策只有E点; 由于到E点是整个铺设管道的终点,至此,决策过程完成, 铺设一条A点到E点的管道是由四个阶段的管道组成的, 如A---B3---C1---D1---E,它也称为一个策略。
B
阶段2
C
阶段3
D
阶段4
E
5
B1
4 4
6
3 6
C1
2
1 2
2
D1 D2 D3
3 4
2
A
B2
5
C2
6
E
2
3
B3
C3
3
在阶段2,从B3点出发,只有C1、C3两种可 选择的点, 如选C1,则C1就是阶段2在B3点的决策结果; C1点既是阶段2铺设管道的终点,又是阶段3 铺设管道的起点;
5
B1
4 4
6 3 6
使S= f ( xi ) 16 u j =
i 1 6 t
f ( x ) 16(5x
为最小,其中
i 1 i
6
j 1
1
4 x2 3x3 2 x4 x5 185)
100xi ,0 xi 15 f ( xi ) 120xi 300,15 < xi 30
第5章 动态规划
运 筹 帷 幄 之 中 Dynamic Programming
决 胜 千 里 之 外
运筹学第五章动态规划
和 dk 2 (sk ));
(4) 允许决策集: D k ( s k ) ( x k , y k ) 0 ≤ y k ≤ s k ; 0 ≤ x k ≤ 1 0 0 0 ( s k y k )
状态转移方程: s k 1 s k x k y k ,s 1 5 0 0k4,3,2,1
其中s 5 表示第四阶段末的状态; (5) 阶段指标: v k ( s k ,x k ,y k ) q k y k p k x k ,k4,3,2,1;
5.1 动态规划的基本概念和模型
5.1.1 动态规划的基本概念
下面结合实例来介绍动态规划的基本概念:
【例5.1】 如图5.1所示,在处有一水库,现需从点铺设一条 管道到点,弧上的数字表示与其相连的两个地点之间所需修建 的渠道长度,请找出一条由到的修建线路,使得所需修建的渠 道长度最短。
2
A4
3
B
7
(1) 按月份分段: k4,3,2,1;
(2) 状态变量: s k 表示第 k 个月月初的库存量;
(3) 决策变量: dk1(sk表) 示第 k 个月已有库存 s的k 情况下,要定
购的商品量, dk2表(sk示) 第 个月k 已有库存 的商品量(为方便,后面将分别依次用 ,
的 来x sk 情 代k y况 替k 下,要d销k1(售sk )
(6) 动态规划基本方程:
fk(s k) (x k,y m k) a D x k(s k)v k(s k,x k,y k) fk 1 (s k 1 )
f5 (s 5 ) 0 k 4 ,3 ,2 ,1
求解(要求板书) 辅图1
辅图2
辅图3
5.2.3 动态规划的顺序解法
【 例 5.3】 图 5.3 所 示 为 一 水 利 网 络 , A 为 水 库 , 分B 1 ,别B 2 为,B 3 不;C 同1 ,C 的2 ,供C 3 水;D 目1 ,D 的2地,试找出给各供水目的地供水的 最短路线。
大学运筹学经典课件第五章动态规划
生产计划问题的动态规划解法
根据生产阶段和生产量的不同组合,构建动 态规划模型进行求解。
经典案例
多阶段生产问题、批量生产计划问题等。
图像处理与计算机视觉中的应用
图像处理中的动态规划应用
通过动态规划算法对图像进行分割、边缘检测、特征提取等 操作。
计算机视觉中的动态规划应用
在目标跟踪、立体视觉、光流计算等领域,利用动态规划求 解最优路径或策略。
决策的无后效性
在动态规划中,每个阶段的决策只与 当前状态有关,而与过去的状态和决 策无关。
边界条件与状态转移方程
边界条件
动态规划问题的边界条件通常指的是问题的初始状态和终止 状态。
状态转移方程
描述问题状态之间转移关系的方程,通常根据问题的具体性 质建立。通过状态转移方程,可以逐步推导出问题的最优解 。
应用领域
03
适用于具有时序性和阶段性特点的问题,如资源分配、任务调
度、路径规划等。
动态规划与人工智能的融合应用
强化学习
结合动态规划和强化学习算法, 通过智能体与环境交互学习最 优决策策略,实现自适应的动
态规划求解。
深度学习
利用深度学习模型强大的特征 提取和表达能力,对动态规划 中的状态转移和决策规则进行
经典案例
图像分割中的最短路径算法、立体匹配中的动态规划算法等 。
06
动态规划的扩展与前沿研究
随机动态规划
随机动态规划模型
描述随机环境下多阶段决策 问题的数学模型,涉及期望 总收益最大化或期望总成本
最小化。
求解方法
通过引入状态转移概率和决 策规则,将随机动态规划问 题转化为确定性动态规划问 题求解,常用方法有值迭代
自顶向下的求解方法(记忆化搜索)
运筹学-第3版-课件-第5章 动态规划
opt是 max 或 min ,运算符 “ * ” 表示加法或乘 法。
下面以下图所示的网络中确定A—E最短路 (例1)为例,来说明应用动态规划最优化定理解 决问题的步骤。
5
A4
2
B1 6
3 4
B2 6
5
B3 6
C1
1 2
D1
2
2
C2 2
D2 3
E
3
C3 3
4
D3
由最优化定理可知,一条 A---E 最短路的后 部子路也是最短的。即如果找到一条 A---E 最短 路 A---B3---C1---D1---E,则 C1---D1---E 也是一 条连接 C1 与 E 的最短路。利用最短路的这一特 性,寻找 A---E 最短路的方法,就是从最后一段, 即 D---E 段开始,用由后向前逐步逆推的方法, 求出各点到 E 的最短路线,最后求出从 A 点到 E 点的最短路。
其中两点连线上的数字表示两点间管线的长度。
5
A4
2
B1 6
3 4
B2 6
5
B3 6
C1
1 2
2
C2 2
3
C3 3
D1
2
D2 3
E
4
D3
从A点到E点铺设管道,可以按其地理特点自然地 分成四个阶段:(如下图所示) 从A到B是第一阶段,从B到C是第二阶段, 从C到D是第三阶段,从D到E是第四阶段,
阶段1
A
阶段2
阶段3
阶段4
B
C
D
E
5
A4
2
B1 6
3 4
B2 6
5
B3 6
C1
1 2
2
运筹学 第05章 动态规划
多阶段决策过程(2) 多阶段决策过程
uk 代表k 阶段对第k 子问题进行的决策,称uk为k 阶段的决策变量,uk的一组确定的取值称为一个 决策 rk 表示k 阶段从状态xk 出发做决策uk 之后产生的 后果,称为k 阶段的阶段效应
所有可能的fn ( xn )都已求出
根据 xn = Tn1( xn1, un1 ) ,就阶段n-1的所有可能状 态 xn1 ∈ Xn1 计算 u'n1 (xn1) 和 fn1( xn1 ) 余者类推,直到阶段1
un1
动态规划问题求解步骤(3) 动态规划问题求解步骤
通过状态转移方程顺序求出最优决策序列 和最优路线
则
fk ( xk ) = opt ⊕ ri ( xi , ui ')
n uk ,Lun i=k ,
执行条件最优策略时的阶段状态序列称为 条件最优路线,表示为{xk, xk+1',…, xn', xn+1'} 条件最优路线
贝尔曼函数(3) 贝尔曼函数
动态规划方法的原理就是建立起fk(xk )与 fk+1(xk+1 )之间的递推关系,然后逐步求出所 有的fk(xk )
fn+1(xn+1 ) ≡ 0
un
fn ( xn ) = rn ( xn , u'n (xn ))
必须就阶段n的所有可能状态 xn ∈ Xn计算 u'n (xn )和 fn ( xn )
动态规划问题求解步骤(2) 动态规划问题求解步骤
k=n-1时,
fn1( xn1 ) = opt{rn ( xn1, un1 ) ⊕ fn ( xn )}
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这时,机器的年完好率为a,即如果年初完好机器的数量为 u,到年终完好的机器就为au, 0<a<1。
在低负荷下生产时,产品的年产量h和投入生产的机器数 量u2的关系为
h=h(u2)
相应的机器年完好率b, 0<b<1。
假定开始生产时完好的机器数量为s1。要求制定一个五
年计划,在每年开始时,决定如何重新分配完好的机器在 两种不同的负荷下生产的数量,使在五年内产品的总产量 达到最高。
10 9
○2
6
7 7
○3
4
2 ○1
3 甘肃
8 3○4
k=1:第一阶段,甘肃 陕西
山西 陕西
线路: 1 2,1 3,1 4
k=3:第三阶段:山西 河北
线路:5 8,5 9,6 8,6 9,7 8,7 9
2、状态: 各阶段开始时所处的自然状况或客观条件
状态变量 描述各阶段状态的变量,简称为状态
sk 第k阶段的状态变量
3 . 线性规划、非线性规划等静态的规划问题也 可以通过适当地引入阶段的概念,应用动态规划 方法加以解决。
不包含时间因素的静态决策问题(本质上 是一次决策问题)也可以适当地引入阶段的 概念,作为多阶段的决策问题用动态规划方 法来解决。
4 . 最短路问题:给定一个交通网络图如下,其中两 点之间的数字表示距离(或花费),试求从A点到G 点的最短距离(总费用最小)。
7
3 甘肃
8 3○4
陕西
铺设方案2:路长= 16
○1 ○4 ○6 ○9 ○10
一个策略
每一个阶段的决策合在一起构成一个铺设方案
每个策略对应一个路长
寻找路长最短的铺设方案
寻找最优策略
1、阶段: 通常用k表示阶段,是指对整个 过程的自然划分
划分阶段的规则:
根据时间顺序或空间特征来划分阶段
如k=最目问1,短的题2路:分,问以成3,题便4个4:按阶次段序:来解○1北0优京8化4 河○ ○问89北题566891○ ○○675
多阶段决策问题的典型例子:
1 .生产决策问题:企业在生产过程中,由于需 求是随时间变化的,因此企业为了获得全年的 最佳生产效益,就要在整个生产过程中逐月或 逐季度地根据库存和需求决定生产计划。
2. 机器负荷分配问题:某种机器可以在高低两种不同的负荷 下进行生产。在高负荷下进行生产时,产品的年产量g和投 入生产的机器数量u1的关系为
阶段
阶段
阶段
分类
离散确定型
动态规划
离散随机型
连续确定型
连续随机型
根据决策过程的时间参数是离散的还是连 续的、过程的演变是确定性的还是随机性的
注意:
动态规划是求解某类问题的一种方法, 是考察问题的一种途径,而不是一种算法。
必须对具体问题进行具体分析,运用 动态规划的原理和方法,建立相应的模型, 然后再用动态规划方法去求解。
动态规划
(Dynamic programming)
多阶段决策过程的最优化 基本概念和基本原理 动态规划模型的建立与求解 动态规划在经济管理中的应用
创始时间
上个世纪50年代
创始人
美国数学家贝尔曼 (Richard. Bellman)
第一节 多阶段决策过程的最优化
动态规划是用来解决多阶段决策过程最 优化的一种数量方法
5 A
3
1 B1 3
6பைடு நூலகம்
8 B2 7
6
C1 6 8
3 C2 5
3 C3 3
84 C4
2 D1
2
D2 1 2
3 D3
3
E1 3
5 5 E2 2
6 6
E3
F1 4
G 3 F2
1
2
3
4
5
6
第二节 基本概念和基本原理
决策 状态 状态
1
决策 2 状态 状态
决策 n
阶段
阶段
阶段
策略 状态转移
指标函数
基本概念
设从甘肃要铺一条煤气管道到北京,途中须经过三个省:
这类活动可以按时间顺序分解成若干个相互联 系的阶段,每个阶段都有若干个方案可供选择
多阶段决策过程的最优化的目标:
达到整个活动过程的总体效果最优
系统的动态过程可以按照时间进程分为状态相互 联系而又相互区别的各个阶段,每个阶段都要进行 决策,目的是使整个过程的决策达到最优效果。
决策 决策
决策
状态 1 状态 2 状态 状态 n
陕西、山西、河北,每省设一个中间站。各省建站可供选
最 择的地点及各段距离如下图,现要求选择一条甘肃到北京
短 路 问 题
的铺管线路 使总距离最短。
多阶段决策问题
○8
8
○10
5 ○5
8
6 9○6
铺设方案1:路长=策21略
○1 ○3 ○5 ○8 ○10
4 北京
○9
河北
6
1
○7
山西
10 9
○2
7
6
○3
4
2 ○1
Sk ={sk} 第k阶段的状态集合
如最短路问题:
第一阶段的状态:○1
○北10 京84
○8 ○9
河北
5 6
○5
8
6 9○6
1○7
山西
第二阶段的状态:○2 ○3 ○4
10 9
○2
7 76○3
2 4 ○1
3 甘肃
8 3○4
陕西
s4 第4阶段的初始状态变量
○ s4 =⑧ 第4阶段的初始状态为 8
S3 ={s3}={⑤,⑥,⑦} S5 ={⑩}
择从而演变到下一阶段的某个状态,这种选 择手段称为决策
决策变量 描述决策的变量 ,简称为决策
uk
sk
第k阶段处
于
状态s
时的决策
k
变
量
U k sk 决策变量uk (sk )允许取值的范围
○北10 京84
○8 ○9
河北
5 8 ○5 6 9○6 6 1○7
山西
10 9
○2
7
6 7
○3
8 3○4
2 4 ○1
注:n个阶段的决策过程有个n+1状态变量 sn+1,表示sn演变的结果
动态规划中的状态应具有以下性质:
1、能描述过程的特征 2、具有无后效性(马尔可夫性)
当某阶段的状态给定时,这个阶段以后过 程的演变与该阶段以前各阶段的状态无关 3、状态是直接或间接可以观测的
3、决策: 当一个阶段的状态确定后,可以作出各种选
P 策略 ——允许策略集合
最优策略:使整个问题达到最优效果的策略
最短路问题: 策略 =铺设方案
策○1北0略京84
○8
○9
河北
5 8 ○5 6 9○6
6 1○7
如{ 1 3, 3 7 , 7 9 , 9 10} p1,4 山1西
10 9
○2
7 76○3
3 甘肃
陕西
允许决 策集合
u2 3 第2阶段当状态为③时的决策变量
可取值为:⑤,⑥,⑦
u 2
3
7
决策3 7
U 2 3 ={⑤,⑥,⑦}
4、策略:由各阶段的决策组成的序列称为策略
p1,n s1 从第一阶段初始状态s1开始到
第n阶段全过程的策略
即p1,n s1 u1 s1 , u2 s2 , un sn