动态规划
动态规划
=MIN(3+12,4+10)=14
最短路线: A—— B2 ——C2——D2——E2——F 最优解: d1*(A)= B2,最短用时14
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
最优解: d2*(B1)= C1
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S2=B2,则下一步能取C2或C3,故
f2(B2)=MIN r(B2,C2)+ f3(C2)
r(B2,C3)+ f3(C3) =MIN(2+8,1+11)=10
最短路线: B2 ——C2——D2——E2——F
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S4=D3,则下一步只能取E2,故
动态规划
多阶段决策问题中,各个阶段采取的决策,一般来说是与时间有关的,决策依赖于当前状态,又随即引起状 态的转移,一个决策序列就是在变化的状态中产生出来的,故有“动态”的含义,称这种解决多阶段决策最优化 问题的方法为动态规划方法 。
任何思想方法都有一定的局限性,超出了特定条件,它就失去了作用。同样,动态规划也并不是万能的。适 用动态规划的问题必须满足最优化原理和无后效性 。
动态规划
运筹学的分支
01 原理
03 局限性
目录
02 分类
动态规划(Dynamic Programming,DP)是运筹学的一个分支,是求解决策过程最优化的过程。20世纪50年 代初,美国数学家贝尔曼(R.Bellman)等人在研究多阶段决策过程的优化问题时,提出了著名的最优化原理, 从而创立了动态规划。动态规划的应用极其广泛,包括工程技术、经济、工业生产、军事以及自动化控制等领域, 并在背包问题、生产经营问题、资金管理问题、资源分配问题、最短路径问题和复杂系统可靠性问题等中取得了 显著的效果 。
最优化原理可这样阐述:一个最优化策略具有这样的性质,不论过去状态和决策如何,对前面的决策所形成 的状态而言,余下的诸决策必须构成最优策略。简而言之,一个最优化策略的子策略总是最优的。一个问题满足 最优化原理又称其具有最优子结构性质 。
将各阶段按照一定的次序排列好之后,对于某个给定的阶段状态,它以前各阶段的状态无法直接影响它未来 的决策,而只能通过当前的这个状态。换句话说,每个状态都是过去历史的一个完整总结。这就是无后向性,又 称为无后效性 。
状态:状态表示每个阶段开始面临的自然状况或客观条件,它不以人们的主观意志为转移,也称为不可控因 素。在上面的例子中状态就是某阶段的出发位置,它既是该阶段某路的起点,同时又是前一阶段某支路的终点 。
第6章动态规划
第6章 动态规划动态规划(Dynamic Programming )是解决多阶段决策过程最优化的一种有用的数学方法。
它是由美国学者Richard .Bellman 在1951年提出的,1957年他的专著《动态规划》一书问世,标志着运筹学的一个重要分支-动态规划的诞生.动态规划也是一种将多变量问题转化为单变量问题的一种方法。
在动态规划中,把困难的多阶段决策问题变换成一系列相互联系的比较容易的单阶段问题一个个地求解。
动态规划是考察解决问题的一种途径 ,而不是一种特殊的算法,不像线性规划那样有统一的数学模型和算法(如单纯形法).事实上,在运用其解决问题的过程中还需要运用其它的优化算法。
因此,动态规划不像其它方法局限于解决某一类问题,它可以解决各类多阶段决策问题。
动态规划在工程技术、经济管理等社会各个领域都有着广泛的应用,并且获得了显著的效果。
在经济管理方面,动态规划可以用来解决最优路径问题、资源分配问题、生产调度问题、库存管理问题、排序问题、设备更新问题以及生产过程最优控制问题等,是经济管理中一种重要的决策技术。
许多规划问题用动态规划的方法来处理,常比线性规划或非线性规划更有效。
特别是对于离散的问题,由于解析数学无法发挥作用,动态规划便成为了一种非常有用的工具。
动态规划可以按照决策过程的演变是否确定分为确定性动态规划和随机性动态规划;也可以按照决策变量的取值是否连续分为连续性动态规划和离散性动态规划。
本教材主要介绍动态规划的基本概念、理论和方法,并通过典型的案例说明这些理论和方法的应用。
6.1动态规划的基本理论6.1.1多阶段决策过程的数学描述有这样一类活动过程,其整个过程可分为若干相互联系的阶段,每一阶段都要作出相应的决策,以使整个过程达到最佳的活动效果。
任何一个阶段(stage ,即决策点)都是由输入(input )、决策(decision )、状态转移律(transformation function )和输出(output )构成的,如图6-1(a )所示.其中输入和输出也称为状态(state ),输入称为输入状态,输出称为输出状态。
动态规划
(3)决策(Decision)
(4)策略(Policy)各阶段的决策组成的一个决策序列称为
一个策略,记为: p x1, x2 ,, xn
从阶段i开始的过程,称为i子过程,它包含阶段i,阶 段i+1,…,阶段n。i子过程的决策序列称为i子策略,记
为 pi xi , xi1,, xn i 1, 2 ,, n 1
,
3 资源分配问题
设有数量为a的资源,计划分配给n 个项目。设xi (i=1, 2, …, n)为分配给第i 个项目的资源量,gi(xi)为第i个项目得到 数量为xi的资源后可提供的收益,问如 何分配资源a,可使总收益为最高?
►静态规划模型
n
max f gi (xi )
i 1
n xi a
1.3 动态规划的基本方程
(1) 动态规划的基本方程(逆序递推公式)
si1
g(si , xi )
,f
* n 1
(
x
n 1
)
0
fi* (si )
opt
v(si , xi )
f
i
* 1
(si
1
)
xi
i n, n 1,,1
(2) 动态规划的基本方程(正序递推公式)
si1 g(si , xi ) ,f1*(s1) opt{v(s1, x1)}
1
6
7
X
2
(
B2
,
C3
)
f
3
(C3
)
1 6
最短路线B2C3D。
C1
5
5
4
B1 5
3
A
C2
3
D
4
6
第6章-动态规划
求解过程
由最后一个阶段的优化开始,按逆向顺序逐步 向前一阶段扩展,并将后一阶段的优化结果带 到扩展后的阶段中去,以此逐步向前推进,直 至得到全过程的优化结果。
f1
(
A)
min
dd11
( (
A, A,
B1) B2 )
ff22((BB12))
min
4 9
9 11
13
d1( A, B3) f2 (B3)
5 13
其最短路线是A→ B1→C2 →D2 →E ,相应的决 策变量是u1(A)=B1
因此,最优策略序列是:
u1(A) =B1, u2(B1)=C2, u3(C2)=D2, u4(D2)=E
5 8 C2 4 6 4
4 C3 2
C3
D1 4 2 6
D2 9 7
D3 5
D4
E1 1 F
E2 2
E5
F
动态规划的逆序解法与顺序解法
逆序(递推)解法:即由最后一段到第一段逐步 求出各点到终点的最短路线,最后求出A点到E点 的最短路线。运用逆序递推方法的好处是可以始 终盯住目标,不致脱离最终目标。 顺序解法:其寻优方向与过程的行进方向相同, 求解时是从第一段开始计算逐段向后推进,计算 后一阶段时要用到前一段求优的结果,最后一段 的计算结果就是全过程的最优结果。
B1
A
4+9=13
d(u1)+f2
B2
B3
f1(s1) u1*
动态规划(完整)
主要内容:
§7.1多阶段决策问题 §7.2 动态规划的基本概念和基本原理
§7.3 动态规划应用举例
例 求解最短路问题
A1 2 Q 4 3 A3 A2 6 3 7 4 B1 1 4 2 4 4 1 5 6 B2 3 B3 3 3 C2 C1 3 4 T
Ⅰ
Ⅱ
Ⅲ
Ⅳ
分阶段的最短路径
• • • • • • • Ⅳ : C1—T Ⅲ --Ⅳ : B1—C1—T Ⅱ--Ⅲ--Ⅳ :A2—B1—C1—T Ⅰ--Ⅱ--Ⅲ --Ⅳ: Q—A2—B1—C1—T Q--A3—B1—C1—T Q--A3—B2—C2—T 3 4 7
决策为 xk 时的指标,则它就是第 k 段指标函
数,简记为vk 。 (2)过程指标函数(也称目标函数) 用f(sk , xk)表示第k子过程的指标函数。表
示处于第 k 段 sk 状态且所作决策为xk时,
从 sk 点到终点的距离。由此可见, f(sk , xk)
不仅跟当前状态 sk 有关,
还跟该子过程策略 pk(sk) 有关,严格说来,应
(6) 指标函数
用来衡量策略或子策略或决策的效果的 某种数量指标,就称为指标函数。它是定义 在全过程或各子过程或各阶段上的确定数量 函数。对不同问题,指标函数可以是诸如费 用、成本、产值、利润、产量、耗量、距离、 时间、效用,等等。
(1)阶段指标函数(也称阶段效应)
用vk(sk , xk)表示第 k 段处于状态 sk且所作
资规划, 排序问题和生产过程的最优控制
等问题;
§7.2 动态规划的基本概念和基本思想
一、基本概念
使用动态规划方法求解决策问题首先要将 问题改造成符合动态规划求解要求的形式, 要涉及以下概念: (1)阶段 (3)决策与策略 (2)状态 (4)状态转移方程
动态规划-动态规划-美国数学家贝尔曼-动态规划领域
物品
1 2 … j …n
重量(公斤/件) a1 a2 … aj … an
每件使用价值 c1 c2 … cj … cn
类似问题:工厂里的下料问题、运输中的 货物装载问题、人造卫星内的物品装载问题等。
生产决策问题:企业在生产过程中,由于需求 是随时间变化的,因此企业为了获得全年的最佳 生产效益,就要在整个生产过程中逐月或逐季度 地根据库存和需求决定生产计划。
描述状态的变量称为状态变量,它可用一个数、 一组数或一向量(多维情形)来描述,第k阶段 的状态变量常用sk表示,通常一个阶段有若干个 状态。
第k阶段的状态就是该阶段所有始点的集合, 用Sk表示。在第1阶段状态变量s1是确定的,称初 始状态。如引例中:
S1 A,S2 B1, B2, B3,S3 C1,C2,C3,S4 D1, D2
min
4
9
12
决策点为B3
AB3
f2
B3
3 9*
f1(A)=12说明从A到E的最短距离为12,最短路 线的确定可按计算顺序反推而得。即
A→B3→C2→D2→E 上述最短路线问题的计算过程,也可借助于图
形直观的表示出来:
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
多阶段决策过程特点:
(1)根据过程的特性可以将过程按空 间、时间等标志分为若干个互相联系又互相 区别的阶段。
(2)在每一个阶段都需要做出决策,从 而使整个过程达到最好的效果。
(3)在处理各阶段决策的选取上,不仅只 依赖于当前面临的状态,而且还要注意对以后 的发展。即是从全局考虑解决局部(阶段)的 问题。
第9章-动态规划
最小费用流问题来求解。通过建立一个网络图来代
表这个问题。首先根据四个季度建立四个产量节点
和四个需求节点。每个产量节点由一个流出弧连接
对应的需求节点。
产量节点
2
弧 的 流 量 代 表 了 600 1季度产量
需求节点 1季度需求 400
该季度所生产的
毛 毯 数 量 。 相 对 300 2季度产量
5
于每个需求节点
本问题是要确定该公司明年每个季度的生产 计划,所以设
公司每个季度生产xi(i=1,2,3,4)双皮鞋; 还有,设辅助决策变量:每个季度的期末库存 为si(i=1,2,3,4)双皮鞋。
RUC, Information School, Ye Xiang
9.2.1 生产与存贮问题 第9章 动态规划
(2) 目标函数
RUC, Information School, Ye Xiang
9.2.1 生产与存贮问题 第9章 动态规划
例9.3 某皮鞋公司根据对去年的市场需求
分析预测明年的需求:一季度3000双,二 季 度 4000 双 , 三 季 度 8000 双 、 四 季 度 7000双。企业现在每个季度最多可以生产 6000双皮鞋。为了满足所有的预测需求, 前两个季度必须有一定的库存才能满足后 两个季度的需求。已知每双皮鞋的利润为 20元,每个季度的库存成本8元。请确定 该公司明年每个季度的生产计划,使公司 的年利润最大。
9.2.1 生产与存贮问题
第9章 动态规划
例9.5 某厂根据订货合同在今后四个季度对某 产品的需求量如表9-4所示。如果该季度生产 ,需要生产准备费用为3千元,每件产品的生 产成本为1千元,由于生产能力的限制,每季 度最多不超过6件。又设每一件产品存贮一个 季度的费用为0.5千元,并且第一季度开始与 第四季度末均没有产品库存。
运筹学——动态规划
优子策略。该原理的具体解释是,若某一全过程
最优策略为:
p1
(s1 )
{u1
(s1 ),
u 2
(s2
),
,
u
k
(sk
),
u
n
(sn
)}
则对上述策略中所隐含的任一状态而言,
第k子过程上对应于该状态的最优策略必然包
含在上述全过程最优策略p1*中,即为
pk
(sk
)
{u
k
(sk
),
u
k 1
(sk
1
),
2.正确地定义状态变量sk,使它既能正确地描述过 程的状态,又能满足无后效性.动态规划中的状 态与一般控制系统中和通常所说的状态的概念是 有所不同的,动态规划中的状态变量必须具备以 下三个特征:
20
2021/7/26
(1)要能够正确地描述受控过程的变化特征。 (2)要满足无后效性。即如果在某个阶段状态已经给定,那么在
sk 1 Tk (sk ,uk (sk ))
上式称为多阶段决策过程的状态转移方程。有些问题的 状态转移方程不一定存在数学表达式,但是它们的状态 转移,还是有一定规律可循的。
12
2021/7/26
(六) 指标函数 用来衡量策略或子策略或决策的效果的某种数量
指标,就称为指标函数。它是定义在全过程或各 子过程或各阶段上的确定数量函数。对不同问题 ,指标函数可以是诸如费用、成本、产值、利润 、产量、耗量、距离、时间、效用,等等。
7
2021/7/26
(二)状态、状态变量和可能状态集 1.状态与状态变量。用以描述事物(或系统)在某特 定的时间与空间域中所处位置及运动特征的量,称 为状态。反映状态变化的量叫做状态变量。状态变 量必须包含在给定的阶段上确定全部允许决策所需 要的信息。按照过程进行的先后,每个阶段的状态 可分为初始状态和终止状态,或称输入状态和输出 状态,阶段k的初始状态记作sk,终止状态记为sk+1 。但为了清楚起见,通常定义阶段的状态即指其初 始状态。
第10章 动态规划
管理运筹学
7
缺点
①没有统一的处理方法,求解时要根据问题的 性质,结合多种数学技巧。因此实践经验及 创造性思维将起重要的引导作用;
②“维数障碍”,当变量个数太多时,由于计 算机内存和速度的限制导致问题无法解决。 有些问题由于涉及的函数没有理想的性质使 问题只能用动态规划描述,而不能用动态规 划方法求解。
盈利 工厂 设备台数
0 1 2
3 4 5
甲厂
0 3 7 9 12 13
乙厂
0 5 10 11 11 11
管理运筹学
29
第一阶段:只有1个始点A,终点有B1,B2,B3,B4 。对始点和终 点进行分析和讨论分别求A到B1,B2,B3,B4的最短路径问题:
表10-4
本阶段始 点(状态)
A
阶段1 本阶段各终点(决策)
B1
B2
B3
B4
4+12=16 3+13=16 3+14=17 2+12=14
到E的最 本阶段最优终 短距离 点(最优决策)
第四阶段:两个始点D1和D2,终点只有一个;
表10-1
阶段4
本阶段始点 本阶段各终点(决策) 到E的最短距离
(状态)
E
D1
10
10
D2
6
6
分析得知:从D1和D2到E的最短路径唯一。
本阶段最优终点 (最优决策)
E E
管理运筹学
27
第三阶段:有三个始点C1,C2,C3,终点有D1,D2,对始点
和终点进行分析和讨论分别求C1,C2,C3到D1,D2 的最短路
动态规划-动态规划
过程指标函数是指过程所包含的各阶段的状 态和决策所产生的总效益值,记为
Vkn (sk , Pkn ) Vkn (sk , dk (sk ), sk1, dk1(sk1), , sn , dn (sn ), sn1) k 1, 2, , n
动态规划所要求的过程指标函数应具有可分 离性,即可表达为它所包含的各阶段指标函数的 函数形式。
能用动态规划方法求解的多阶段决策过程是一 类特殊的多阶段决策过程,即状态具有无后效性 的多阶段决策过程。
无后效性(马尔可夫性):是指如果某阶段状 态给定后,则在这个阶段以后过程的发展不受 这个阶段以前各段状态的影响;构造动态规划 模型时,要充分注意是否满足无后效性的要求; 状态变量要满足无后效性的要求;如果状态变 量不能满足无后效性的要求,应适当改变状态 的定义或规定方法。
3、决策(decision)
决策:在某一阶段,当状态给定后,往往可以 作出不同的决定,从而确定下一阶段的状态,这种 决定称为决策。
决策变量:描述决策的变量。dk(sk) :第k阶段 的决策变量(状态变量sk的函数)。
允许决策集合:决策变量的取值范围。常用 Dk(sk)表示。显然dk(sk)∈Dk(sk)。
3 3*
3
4
6 决策点为D1
第二阶段,由Bj到Ci分别均有三种选择
f2
B1
min
B1C1 B1C2
B1C3
f3 f3 f3
C1 C2
C3
min
7 6 4 7* 6 6
11决策点为C2
f2
B2
min
BB22CC21
f3 f3
C1 C2
min
3 6* 2 7*
min
4
什么是动态规划?
什么是动态规划?⼀、基本思想态规划算法的基本思想与分治法类似,都是将问题⼤问题拆分为⼩问题,通过⼩问题的求解来得到最后的解。
与分治法不同的是,分治法是分⽽治之,分治法将⼤问题拆分为相同性质的⼦问题,最后合并⼦问题的解来构成最终解。
⽽动态规划是,将⼦问题拆解后,按顺序求解⼦问题,前⾯阶段的求解为后⼀阶段提供有⽤信息,通过动态的选择来到达最终解。
⽤图来表⽰就是如下所⽰:⼆、适⽤情况(1)最优化原理:如果问题的最优解所包含的⼦问题的解也是最优的,就称该问题具有最优⼦结构,即满⾜最优化原理。
(2)⽆后效性:即某阶段状态⼀旦确定,就不受这个状态以后决策的影响。
也就是说,某状态以后的过程不会影响以前的状态,只与当前状态有关。
(3)有重叠⼦问题:即⼦问题之间是不独⽴的,⼀个⼦问题在下⼀阶段决策中可能被多次使⽤到。
(该性质并不是动态规划适⽤的必要条件,但是如果没有这条性质,动态规划算法同其他算法相⽐就不具备优势)----摘⾃百度百科三、求解步骤动态规划中有三个⾮常重要的概念:最优⼦结构、边界、状态转移公式。
最优⼦结构:最优⼦结构指的是,问题的最优解包含⼦问题的最优解。
反过来说就是,我们可以通过⼦问题的最优解,推导出问题的最优解。
边界:就是问题的出⼝。
状态转移公式:动态规划问题的这⼀阶段的最优解是可以通过前⾯阶段的解和上⼀阶段的决策推导出来的。
这个推导过程就是⼀个状态转移公式我们通常按照如下4个步骤设计⼀个动态规划算法:1.刻画⼀个最优解的结构特征2.递归地定义最优解的值3.计算最优解的值,通常采⽤⾃底向上的⽅法(采⽤⼀张表格记录之前的状态)4.利⽤计算出的信息构造⼀个最优解我们之前的和也是⼀样的求解步骤。
以硬币找零问题为例:⾸先,⾯对⼀枚新的硬币,我们有两个选择:使⽤和不使⽤。
构成当前阶段的最优解 = min{使⽤这枚硬币的解,不使⽤这枚硬币的解} ----(1.刻画⼀个最优解的结构特征)然后,我们就得到转移⽅程 Value(i) = min {Value(i-1), Value(s-c[i])) + 1} ---- (2.递归地定义最优解的值)之后我们从找零1⾓开始算起,⼀直到达我们想要找零的数⽬。
运筹学动态规划
特别注意:动态规划是求解某类问题的一种 方法,是考察问题的一种途径,而不是一种算法 (如线性规划是一种算法)。
因而,动态规划没有标准的数学表达式和明 确定义的一组规则,而必须对具体问题进行具体 分析处理.
动态规划
8.1 多阶段决策过程及实例 8.2 动态规划的基本概念和
基本方程 8.3 动态规划的最优性定理 8.4 动态规划与静态规划关系
综述
动态规划是运筹学的一个分支,是解决多 阶段决策过程最优化问题的一种数学方法。
该方法是由美国数学家贝尔曼(R.Bellman)等 人在本世纪50年代初提出的。
他们针对多阶段决策问题的特点,把多阶段 决策问题变换为一系列互相联系单阶段问题,然 后逐个加以解决。
1
2
3
始点
5
B1
6 3
A
4 B2 4 6
2
5
B3 6
C1
1 2
2
C2 2
3
C3
3
4 终点
D1 2
D2 3
E
4
D3
2、状态
5
B1
6 3
A 4 B246
25
B3 6
C1
1 2
2
C2 2
C3 3 3
D1 2
D2 3 E 4
D3
各个阶段开始时所处的自然状况和客观条件称为
状态,描述了研究问题过程的状况(称不可控因素).
一些与时间没有关系的静态规划(如线性 规划,非线性规划)问题,只要人为地引进 “时间”因素,也可把它视为多阶段决策问题, 用动态规划方法去处理。
动态规划
5 . 最短路问题:给定一个交通网络图如下,其 中两点之间的数字表示距离(或花费),试求从A点 到G点的最短距离(总费用最小)。
1 C1 3 6 8 3 D1 1 2 2 2 5 E2 2 D2 E1 3
5
A 3
B1
6
8 B2 7 6
C2
5
3
5
F1
3
4
G
C3 8 C4
3
4 D3
3
3 4 E3
6
6
F2
3.航天飞机飞行控制问题:由于航天飞机的运 动的环境是不断变化的,因此就要根据航天飞机飞 行在不同环境中的情况,不断地决定航天飞机的飞 行方向和速度(状态),使之能最省燃料和实现目 的(如软着落问题)。
不包含时间因素的静态决策问题(本质上是一 次决策问题)也可以适当地引入阶段的概念,作为 多阶段的决策问题用动态规划方法来解决。 4.线性规划、非线性规划等静态的规划问题也可 以通过适当地引入阶段的概念,应用动态规划方法 加以解决。
f k sk min d k sk , uk sk f k 1 uk sk u k Dk s k f 6 s6 0或 写 成 5 s5 d 5 s5 , F f
k 5,4,3,2,1
动态规划的基本方程(二)
D4(D1)={E1,E2},D4(D2)= {E1,E2}
D5(E1)={F}, D5(E2)={F}
4 A 5
2 B1 3 5 B2 8 7 7
⑷状态转移方程 上例中的状态转移方程sk+1=uk(sk)
C1 5 8 C2 45 3 C3 4 84 C4
D1 3 5 E1 4 6 D2 2 3 E2 1 3 D3
什么是动态规划
什么是动态规划动态规划( D ynamic P rogramming ,所以我们简称动态规划为 DP )是的⼀个分⽀,是求解决策过程(decision process) 最优化的数学⽅法。
20 世纪 50 年代初数学家R.E.Bellman 等⼈在研究多阶段决策过程 (multistep decision process) 的优化问题时,提出了著名的最优化原理 (principle of optimality),把多阶段过程转化为⼀系列单阶段问题,利⽤各阶段之间的关系,逐个求解,创⽴了解决这类过程优化问题的新⽅法 —— 动态规划。
1957 年出版了他的名著《 Dynamic Programming 》,这是该领域的第⼀本著作。
动态规划算法通常基于⼀个递推公式及⼀个或多个初始状态。
当前⼦问题的解将由上⼀次⼦问题的解推出。
使⽤动态规划来解题只需要多项式时间复杂度,因此它⽐回溯法、暴⼒法等要快许多。
说了这么多术语,想必⼤家都很头疼,现在让我们通过⼀个例⼦来了解⼀下DP 的基本原理。
⾸先,我们要找到某个状态的最优解,然后在它的帮助下,找到下⼀个状态的最优解。
这句话暂时理解不了没关系,请看下⾯的例⼦ :如果我们有⾯值为1 元、 3 元和 5 元的硬币若⼲枚,如何⽤最少的硬币凑够 11 元?我们凭直观感觉告诉⾃⼰,先选⾯值最⼤,因此最多选 2枚 5 元的硬币,现在是 10 元了,还差⼀元,接下来我们挑选第⼆⼤的 3 元硬币,发现不⾏( 10+3=13 超了),因此我们继续选第三⼤的硬币也就是 1元硬币,选⼀个就可以( 10+1=11 ),所以总共⽤了 3 枚硬币凑够了 11 元。
这就是贪⼼法,每次选最⼤的。
但是我们将⾯值改为 2 元, 3 元和 5 元的硬币,再⽤贪⼼法就不⾏了。
为什么呢?按照贪⼼思路,我们同样先取 2 枚最⼤ 5 元硬币,现在 10 元了,还差⼀元,接下来选第⼆⼤的,发现不⾏,再选第三⼤的,还是不⾏,这时⽤贪⼼⽅法永远凑不出 11 元,但是你仔细看看,其实我们可以凑出 11 元的, 2 枚 3元硬币和 1 枚五元硬币就⾏了,这是⼈经过思考判断出来了的,但是怎么让计算机算出来呢?这就要⽤动态规划的思想:⾸先我们思考⼀个问题,如何⽤最少的硬币凑够i 元 (i<11) ?为什么要这么问呢?两个原因: 1. 当我们遇到⼀个⼤问题时,总是习惯把问题的规模变⼩,这样便于分析讨论。
动态规划
11
分阶段递推求解过程 P[0][0] = 0;
对于阶段1: P[0][1] = P[0][0]+h[0][0] = 0+3 = 3; P[1][0] = P[0][0]+v[0][0] = 0+2 = 3; 对于阶段2
P[1][1] = min{ P[0][1]+v[0][1],P[1][0]+h[1][0]} = min{3+1, 2+2} = 4 P[0][2] = P[0][1]+h[1][0] = 3+2 = 5 P[2][0] = P[1][0]+v[1][0] = 2+4 = 6
23
递归算法
• Function Max(I,J : integer) : longint; {从当前位置开始的可得的最优值} • Var s1,s2 : Longint; {记录从左右斜线向下走的可达的最优值} • Begin • If (I>n) Or (J>I) Then Max:=0 {当前位置不存在,最优值为0} • Else • Begin • S1:=Max(I+1,j)+triangle[I,j]; {沿左斜线向下走} • S2:=Max(I+1,j+1)+triangle[I,j]; {沿右斜线向下走} • If s1>s2 then Max:=s1 Else max:=s2; {选取最优走法} • End; 24 • End;
让我们来换一个思路思考本题,因为本题是要求总和除以 4余数最小的一条路径,我们先撇开最小余数不去管它,而 是将本题改为从点1到点4的所有路径中,求出每条路上权值 和除以4的不同余数的状态。 我们设一个数组can[I,j]表示从点1至点I可不可以求 出一条路径是该路径的权值总和除以4的余数为J,那么又 可以得出一个方程:
运筹学第五章动态规划
和 dk 2 (sk ));
(4) 允许决策集: D k ( s k ) ( x k , y k ) 0 ≤ y k ≤ s k ; 0 ≤ x k ≤ 1 0 0 0 ( s k y k )
状态转移方程: s k 1 s k x k y k ,s 1 5 0 0k4,3,2,1
其中s 5 表示第四阶段末的状态; (5) 阶段指标: v k ( s k ,x k ,y k ) q k y k p k x k ,k4,3,2,1;
5.1 动态规划的基本概念和模型
5.1.1 动态规划的基本概念
下面结合实例来介绍动态规划的基本概念:
【例5.1】 如图5.1所示,在处有一水库,现需从点铺设一条 管道到点,弧上的数字表示与其相连的两个地点之间所需修建 的渠道长度,请找出一条由到的修建线路,使得所需修建的渠 道长度最短。
2
A4
3
B
7
(1) 按月份分段: k4,3,2,1;
(2) 状态变量: s k 表示第 k 个月月初的库存量;
(3) 决策变量: dk1(sk表) 示第 k 个月已有库存 s的k 情况下,要定
购的商品量, dk2表(sk示) 第 个月k 已有库存 的商品量(为方便,后面将分别依次用 ,
的 来x sk 情 代k y况 替k 下,要d销k1(售sk )
(6) 动态规划基本方程:
fk(s k) (x k,y m k) a D x k(s k)v k(s k,x k,y k) fk 1 (s k 1 )
f5 (s 5 ) 0 k 4 ,3 ,2 ,1
求解(要求板书) 辅图1
辅图2
辅图3
5.2.3 动态规划的顺序解法
【 例 5.3】 图 5.3 所 示 为 一 水 利 网 络 , A 为 水 库 , 分B 1 ,别B 2 为,B 3 不;C 同1 ,C 的2 ,供C 3 水;D 目1 ,D 的2地,试找出给各供水目的地供水的 最短路线。
管理运筹学第3章:动态规划
B
fn*(Sn)
=
min [dn(sn,xn)+ fn+1*(Sn+1)
], n=4、3、2、1
xn∈Dn(Sn) f5*(S5) = min [r5(s5,x5)] x5∈D5(S5) 三、求解过程:
用反向嵌套递推法:从最后一个阶段开始,依次对各子过程寻优,直至获得全过程的最优, 形成最优策略,获得最优策略指标值。
4
3.3 DP建模及求解
一、建模条件:
决策过程本身具有时顺序性或可以转化为具有时序性的决策问题, 均可建立动态规划数学模型求解。
二、典型动态决策问题建模及其求解
1、最短路线问题
例1:求下列图中A到F的最短路线及最短路线值。
B1 3 A 4 B3 5 4 B2
9 5
C1 8 C2
1 5
D
1
4 2 E1 1 F 2 E2 5
5
3
4 6
D
2
6 9 7
5
1 7 C3 4 2
4
D
3
B1 3 4
9 5
C1 8
1 5
D
1
4
2
A 4
5
B2
5 1 B3 7
3
C2
4 6
D
2
6 9 7 5
E1
1 F 24 C3 24E2D
3
1、阶段(stage)n: n = 1、2、3、4、5。 2、状态(state)Sn: S1={A},S2={B1,B2,B3},S3={C1,C2,C3},S4={D1,D2,D3},S5={E1,E2}。 3、决策(decision)Xn:决策集Dn(Sn)。 D1(S1)={X1(A)}={B1,B2,B3}= S2, D2(S2)={X2(B1),X2(B2),X2(B3)}={C1,C2;C1,C2,C3 ;C2,C3 }={C1,C2,C3}=S3, D3(S3)={X3(C1),X3(C2),X3(C3)}={D1,D2;D1,D2,D3; D1,D2,D3}={D1,D2,D3}=S4, D4(S4)={X4(D1),X4(D2),X4(D3)}={E1,E2;E1,E2;E1,E2}={E1,E2}=S5, D5(S5)={X5(E1),X5(E2)}={F;F}={F}。 4、状态转移方程:Xn = Sn+1 5、指标函数(距离):dn(sn,xn)。 d2(B3,C2)=1, d3(C2,D3)=6 等。 6、指标递推方程:fn*(Sn) = min [rn(sn,xn)+ fn+1*(Sn+1) ], n=4、3、2、1
动态规划
3 2 A 4 B2 B1 1 2 3 1 3
C1 C2 4 C3 3
1 D
第三阶段( A → B ): A 到B 有二条路线。 有二条路线。 第三阶段( f3(A)1 = d(A, B1 )+ f2 ( B1 ) =2+4=6 + + = f3 (A)2 = d(A, B2 )+ f2 ( B2 ) =4+3=7 + + = + ∴ f3 (A) = min d(A, B1 )+ f2 ( B1 ) = min{6,7}=6 { } d(A, B2 )+ f2 ( B2 ) + (最短路线为 最短路线为A→B1→C1 →D) 最短路线为
3 2 A 4 B2 B1 1 2 3 1 C3 C2 4 3 3 C1
1 D
3 2 A 4 B2 B1 1 2 3 1 3
C1 C2 4 C3 3
1 D
整个计算过程分三个阶段,从最后一个阶段开始。 解:整个计算过程分三个阶段,从最后一个阶段开始。 第一阶段( 第一阶段(C →D): C 有三条路线到终点 。 ): 有三条路线到终点D 显然有 f1 (C1 ) = 1 ; f1(C2 ) = 3 ; f1 (C3 ) = 4
动 态 规 划
(Dynamic programming)
动态规划的基本思想 最短路径问题 投资分配问题 背包问题
动态规划是用来解决多阶段决策过程最优 化的一种数量方法。其特点在于, 化的一种数量方法。其特点在于,它可以把一 维决策问题变换为几个一维最优化问题, 个n 维决策问题变换为几个一维最优化问题,从 而一个一个地去解决。 而一个一个地去解决。 需指出:动态规划是求解某类问题的一种 需指出: 方法,是考察问题的一种途径, 方法,是考察问题的一种途径,而不是一种算 必须对具体问题进行具体分析, 法。必须对具体问题进行具体分析,运用动态 规划的原理和方法,建立相应的模型, 规划的原理和方法,建立相应的模型,然后再 用动态规划方法去求解。 用动态规划方法去求解。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第14页 页
解:将问题按工厂分为三个阶段,甲、乙、丙三个厂分 别编号为1、2、3厂。设 sk= 分配给第k个厂至第3个厂的设备台数(k=1、2、 3)。 xk=分配给第k个设备台数。 已知s1=5, 并有
k
{V
k
k ,n
(s
k
, P
k ,n
)}
第11页 页
∈ D
( s
k
)
对于可加性指标函数,上式可以写为
f k ( sk ) =
x k ∈Dk ( s k )
opt
{vk ( sk , xk ) + f k +1 ( sk +1 )}
k = 1,2, ⋯ , n
上式中“opt”表示“max”或“min”。对于可乘性指标函数,上式 可以 写为
0 - - - - - 4
- - - 6 - - -
- - - 11 -
- - - -
- - - -
0 4 6 11
0 1 2 3 4 5第16页 页
- - - -
12 - 12 12 12
- -
第二阶段: 当把 s2 ( s2 = 0,1,2,3,4,5) 台设备分配给第2工厂和第3工 厂时,则对每个s2 值,有一种最优分配方案,使最大盈利 即最优2子过程最优指标函数值为
第22页 页
表10-10 -
s4
0 1 2 3 4 5 6 7 8 9 10
x4
0
r4 ( s4 , x4 )
1 - - - - - - -
f 4 ( s4 )
0 0 0 0 0 0 0 20 20 20 20
x*4
0 0 0 0 0 0 0 1 1 1 1
第23页 页
0 0 0 0 0 0 0
0 0 0 0
f 2 ( s2 ) = max[r2 ( s2 , x2 ) + f 3 ( s3 )]
x2
第17页 页
表10-7
s2
0 1 2 3 4 5
x2
0 1 - 2
r2 ( s - - - 11+0 11+4 11+6 4 - - - - 11+0 11+4 5 - - - - - 11+0
表10-2 阶段3 本阶段始点 (状态) C1 C2 C3 本阶段各终点(决策) D1 8+10=18 7+10=17 1+10=11 D2 6+6=12 5+6=11 6+6=12 本阶段最优终点 到E的最短距离 (最优决策) 12 11 11 D2 D2 D1
分析得知:如果经过C1,则最短路为C1-D2-E; 如果经过C2,则最短路为C2-D2-E; 如果经过C3,则最短路为C3-D1-E。
1 3 4 7
处理每个 客户所获 利润
2 8 11 20
第21页 页
用动态规划来求解此题。 =分配给第k种咨询项目到第四种咨询项目的所 有客户的总工作日(第k阶段的状态变量)。 xk =在第k种咨询项目中处理客户的数量(第k阶段 的决策变量)。 已知 s1=10 并有
sk
s2 = T1 ( s1 , x1 ) = s1 − x1 ,
第20页 页
例3. 某咨询公司有10个工作日可以去处理四种类型的咨 询项目,每种类型的咨询项目中待处理的客户数量、处理每个 客户所需工作日数以及所获得的利润如表10-9所示。应如何选 择客户使得在这10个工作日中获利最大? 表10-9
咨询项目类 型
1 2 3 4
待处理客户 数
4 3 2 2
处理每个客户 所需工作日数
表10-4 阶段1 本阶段始 点(状态) A 本阶段各终点(决策) B1 B2 B3 3+14=17 B4 2+12=14 到E的最 短距离 12 本阶段最优终 点(最优决策) B4
4+12=16 3+13=16
最后,可以得到:从A到E的最短路径为A→ B4→ C3→ D1→ E
第8页 页
以上计算过程及结果,可用图2表示,可以看到,以上方法不仅 得到了从A到D的最短路径,同时,也得到了从图中任一点到E的最 短路径。
12 B1 6 4 14 A 3 2 B3 3 13 4 B2 2 4 8 3 1 C3 11 1 6 7 11 C2 5 D2 6 6 7 2 1 12 C1 6 8 10 D1 10 0 E
14 7 5
B4
12
以上过程,仅用了22次加法,计算效率远高于穷举法。
第9页 页
一、基本概念: 1、阶段 阶段k:表示决策顺序的离散的量,阶段可以按时间或空间划 阶段 分。 2、状态 k:每个阶段开始时的客观状况。状态可以是数量,也可 状态s 状态 以是字符,数量状态可以是连续的,也可以是离散的。 3、决策 k:从某一状态向下一状态过渡时所做的选择。决策是 决策x 决策 所在状态的函数,记为xk(sk) 4、策略 k,n(sk):从第k阶段开始到最后第n阶段的决策序列,称k 策略P 策略 子策略。P1,n(s1)即为全过程策略。 5、状态转移方程 sk+1=Tk(sk, xk):某一状态以及该状态下的决策, 状态转移方程 与下一状态之间的函数关系。
第2页 页
例1 最短路径问题 下图表示从起点A到终点E之间各点的距离。求A到E的最 短路径。 2
B 1 C 1 8 4 4 A 3 2 4 B3 7 3 5 1 8 C3 1 6 D 2 6 3 B2 7 2 C2 1 6 7 5 E 6 D 1 10
Β4
第3页 页
用穷举法的计算量: 用穷举法的计算量 如果从A到E的站点有k个,除A、E之外每站有3个位置则 总共有3k-1×2条路径; 计算各路径长度总共要进行 (k+1) 3k-1×2次加法以及3k1×2-1次比较。随着
表10-1 阶段4 本阶段始点 (状态) D1 D2 本阶段各终点(决策) E 10* 6 10 6 到E的最短距离 本阶段最优终点 (最优决策) E E
分析得知:从D1和D2到E的最短路径唯一。
第5页 页
第三阶段:有三个始点C1,C2,C3,终点有D1,D2,对始点 和终点进行分析和讨论分别求C1,C2,C3到D1,D2 的最短路 径问题:
运 筹 学 课 件
运 筹 帷 幄 之 中 Dynamic Programming
决 胜
动 态 规 划
千 里 之 外
第1页 页
综
述
动态规划所研究的对象是多阶段决策问题。 动态规划所研究的对象是多阶段决策问题。 所谓多阶段决策问题是指一类活动过程, 所谓多阶段决策问题是指一类活动过程,它 多阶段决策问题是指一类活动过程 可以分为若干个相互联系的阶段, 可以分为若干个相互联系的阶段,在每个阶段都 需要作出决策。这个决策不仅决定这一阶段的效 需要作出决策。 益,而且决定下一阶段的初始状态。 而且决定下一阶段的初始状态。 每个阶段的决策确定以后, 每个阶段的决策确定以后,就得到一个决策 序列,称为策略。多阶段决策问题就是求一个策 序列,称为策略。 略,使各阶段的效益的总和达到最优。 使各阶段的效益的总和达到最优。
k 的值增加时,需要进行的加法和比较的
次数将迅速增加; 例如当 k=20时,加法次数为 4.2550833966227×1015 次, 比较 1.3726075472977×1014 次。若用1亿次/秒的计算机计算 需要约508天。
第4页 页
1、以上求从A到E的最短路径问题,可以转化为四个性质完全相 同,但规模较小的子问题,即分别从Di 、Ci、Bi、A到E的最短路 径问题。 第四阶段:两个始点D1和D2,终点只有一个;
第6页 页
第二阶段:有4个始点B1,B2,B3,B4,终点有C1,C2,C3。对始点和终点进行分 析和讨论分别求B1,B2,B3,B4到C1,C2,C3 的最短路径问题:
表10-3 阶段2 本阶段始点 (状态) B1 B2 B3 B4 本阶段各终点(决策) C1 2+12=14 4+12=16 4+12=16 7+12=19 C2 1+11=12 7+11=18 8+11=19 5+11=16 C3 6+11=17 2+11=13 3+11=14 1+11=12 到E的最 短距离 12 13 14 12 本阶段最优终 点(最优决策) C2 C3 C3 C3
20
20 20 20
第三阶段: 当把 s3 ( s3 = 0,1,2,3,⋯ ,10) 个工作日分配给第四类和第 三类咨询项目时,则对每个 s3 值,都有一种最优分配方 案,使其最大盈利即最优3子过程最优指标函数值为 3
f 2 ( s2 ) = max[r2 ( s2 , x2 ) + f 3 ( s3 )].
第10页 页
6、指标函数 k(sk, xk):衡量全过程策略或k子过程策略优劣的数量 指标函数v 指标函数 指标。从状态sk出发,选择决策xk所产生的第k阶段指标。
二、基本方程: 最优指标函数fk(sk):从状态sk出发,对所有的策略Pk,n,过程指 标Vk,n的最优值,即:
f
k
(s
k
) =
x
opt
s3 = s2 − 3x2
x2
因为 f 3 ( s3 ) = max[r3 ( s3 , x3 ) + f 4 ( s3 − 4 x3 )]. x 因为 s3至多为10,所以 x3的取值可为0,1,2。其数值计算
分析得知:如果经过B1,则走B1-C2-D2-E; 如果经过B2,则走B2-C3-D1-E; 如果经过B3,则走B3-C3-D1-E; 如果经过B4,则走B4-C3-D1-E。