动态规划

合集下载

动态规划

f1(A)=MIN r(A,B1)+ f2(B1) r(A,B2)+ f2(B2)
=MIN（3+12，4+10）=14
最短路线： A—— B2 ——C2——D2——E2——F 最优解： d1*(A)= B2，最短用时14
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
最优解： d2*(B1)= C1
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S2=B2，则下一步能取C2或C3，故
f2(B2)=MIN r(B2,C2)+ f3(C2)
r(B2,C3)+ f3(C3) =MIN（2+8，1+11）=10
最短路线： B2 ——C2——D2——E2——F
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S4=D3，则下一步只能取E2，故

动态规划

多阶段决策问题中，各个阶段采取的决策，一般来说是与时间有关的，决策依赖于当前状态，又随即引起状态的转移，一个决策序列就是在变化的状态中产生出来的，故有“动态”的含义，称这种解决多阶段决策最优化问题的方法为动态规划方法。
任何思想方法都有一定的局限性，超出了特定条件，它就失去了作用。同样，动态规划也并不是万能的。适用动态规划的问题必须满足最优化原理和无后效性。
动态规划
运筹学的分支
01 原理
03 局限性
目录
02 分类
动态规划（Dynamic Programming，DP）是运筹学的一个分支，是求解决策过程最优化的过程。20世纪50年代初，美国数学家贝尔曼（R.Bellman）等人在研究多阶段决策过程的优化问题时，提出了著名的最优化原理，从而创立了动态规划。动态规划的应用极其广泛，包括工程技术、经济、工业生产、军事以及自动化控制等领域，并在背包问题、生产经营问题、资金管理问题、资源分配问题、最短路径问题和复杂系统可靠性问题等中取得了显著的效果。
最优化原理可这样阐述：一个最优化策略具有这样的性质，不论过去状态和决策如何，对前面的决策所形成的状态而言，余下的诸决策必须构成最优策略。简而言之，一个最优化策略的子策略总是最优的。一个问题满足最优化原理又称其具有最优子结构性质。
将各阶段按照一定的次序排列好之后，对于某个给定的阶段状态，它以前各阶段的状态无法直接影响它未来的决策，而只能通过当前的这个状态。换句话说，每个状态都是过去历史的一个完整总结。这就是无后向性，又称为无后效性。
状态：状态表示每个阶段开始面临的自然状况或客观条件，它不以人们的主观意志为转移，也称为不可控因素。在上面的例子中状态就是某阶段的出发位置，它既是该阶段某路的起点，同时又是前一阶段某支路的终点。

第6章动态规划

第6章动态规划动态规划（Dynamic Programming ）是解决多阶段决策过程最优化的一种有用的数学方法。

它是由美国学者Richard .Bellman 在1951年提出的，1957年他的专著《动态规划》一书问世，标志着运筹学的一个重要分支－动态规划的诞生.动态规划也是一种将多变量问题转化为单变量问题的一种方法。

在动态规划中，把困难的多阶段决策问题变换成一系列相互联系的比较容易的单阶段问题一个个地求解。

动态规划是考察解决问题的一种途径 ,而不是一种特殊的算法，不像线性规划那样有统一的数学模型和算法（如单纯形法）.事实上，在运用其解决问题的过程中还需要运用其它的优化算法。

因此，动态规划不像其它方法局限于解决某一类问题,它可以解决各类多阶段决策问题。

动态规划在工程技术、经济管理等社会各个领域都有着广泛的应用，并且获得了显著的效果。

在经济管理方面,动态规划可以用来解决最优路径问题、资源分配问题、生产调度问题、库存管理问题、排序问题、设备更新问题以及生产过程最优控制问题等，是经济管理中一种重要的决策技术。

许多规划问题用动态规划的方法来处理,常比线性规划或非线性规划更有效。

特别是对于离散的问题，由于解析数学无法发挥作用，动态规划便成为了一种非常有用的工具。

动态规划可以按照决策过程的演变是否确定分为确定性动态规划和随机性动态规划；也可以按照决策变量的取值是否连续分为连续性动态规划和离散性动态规划。

本教材主要介绍动态规划的基本概念、理论和方法,并通过典型的案例说明这些理论和方法的应用。

6.1动态规划的基本理论6.1.1多阶段决策过程的数学描述有这样一类活动过程,其整个过程可分为若干相互联系的阶段，每一阶段都要作出相应的决策,以使整个过程达到最佳的活动效果。

任何一个阶段(stage ，即决策点)都是由输入(input ）、决策（decision ）、状态转移律（transformation function )和输出(output )构成的，如图6-1（a ）所示.其中输入和输出也称为状态(state ）,输入称为输入状态，输出称为输出状态。

动态规划

(3)决策（Decision）
(4)策略（Policy）各阶段的决策组成的一个决策序列称为
一个策略，记为： p x1, x2 ,, xn
从阶段i开始的过程，称为i子过程，它包含阶段i，阶段i+1，…，阶段n。i子过程的决策序列称为i子策略，记
为 pi xi , xi1,, xn i 1, 2 ,, n 1
,
3 资源分配问题
设有数量为a的资源，计划分配给n 个项目。设xi (i=1, 2, …, n)为分配给第i 个项目的资源量，gi(xi)为第i个项目得到数量为xi的资源后可提供的收益，问如何分配资源a，可使总收益为最高？
►静态规划模型
n
max f gi (xi )
i 1
n xi a
1.3 动态规划的基本方程
(1) 动态规划的基本方程(逆序递推公式)
si1
g(si , xi )
，f
* n 1
(
x
n 1
)
0
fi* (si )
opt
v(si , xi )
f
i
* 1
(si
1
)
xi
i n, n 1,,1
(2) 动态规划的基本方程(正序递推公式)
si1 g(si , xi ) ，f1*(s1) opt{v(s1, x1)}
1
6
7
X
2
(
B2
,
C3
)
f
3
(C3
)
1 6
最短路线B2C3D。
C1
5
5
4
B1 5
3
A
C2
3
D
4
6

第6章-动态规划

f*n(Sn)为从第n个阶段到终点的最短距离， f*n+1(Sn+1)为从第n+1个阶段到终点的最短距离， dn(Sn,Xn)为第n个阶段的距离，f*5(S5)为递推的起点，通常为已知的。
求解过程
由最后一个阶段的优化开始，按逆向顺序逐步向前一阶段扩展，并将后一阶段的优化结果带到扩展后的阶段中去，以此逐步向前推进，直至得到全过程的优化结果。
f1
(
A)
min
dd11
( (
A, A,
B1) B2 )
ff22((BB12))
min
4 9
9 11
13
d1( A, B3) f2 (B3)
5 13
其最短路线是A→ B1→C2 →D2 →E ，相应的决策变量是u1(A)=B1
因此，最优策略序列是：
u1(A) =B1, u2(B1)=C2, u3(C2)=D2, u4(D2)=E
5 8 C2 4 6 4
4 C3 2
C3
D1 4 2 6
D2 9 7
D3 5
D4
E1 1 F
E2 2
E5
F
动态规划的逆序解法与顺序解法
逆序（递推）解法：即由最后一段到第一段逐步求出各点到终点的最短路线,最后求出A点到E点的最短路线。运用逆序递推方法的好处是可以始终盯住目标,不致脱离最终目标。顺序解法：其寻优方向与过程的行进方向相同，求解时是从第一段开始计算逐段向后推进，计算后一阶段时要用到前一段求优的结果，最后一段的计算结果就是全过程的最优结果。
B1
A
4+9=13
d(u1)+f2
B2
B3
f1(s1) u1*

动态规划(完整)

第七章动态规划
主要内容:
§7.1多阶段决策问题 §7.2 动态规划的基本概念和基本原理
§7.3 动态规划应用举例
例求解最短路问题
A1 2 Q 4 3 A3 A2 6 3 7 4 B1 1 4 2 4 4 1 5 6 B2 3 B3 3 3 C2 C1 3 4 T
Ⅰ
Ⅱ
Ⅲ
Ⅳ
分阶段的最短路径
• • • • • • • Ⅳ ： C1—T Ⅲ --Ⅳ : B1—C1—T Ⅱ--Ⅲ--Ⅳ ：A2—B1—C1—T Ⅰ--Ⅱ--Ⅲ --Ⅳ： Q—A2—B1—C1—T Q--A3—B1—C1—T Q--A3—B2—C2—T 3 4 7
决策为 xk 时的指标，则它就是第 k 段指标函
数，简记为vk 。（2）过程指标函数（也称目标函数）用f(sk , xk)表示第k子过程的指标函数。表
示处于第 k 段 sk 状态且所作决策为xk时，
从 sk 点到终点的距离。由此可见， f(sk , xk)
不仅跟当前状态 sk 有关，
还跟该子过程策略 pk(sk) 有关,严格说来，应
(6) 指标函数
用来衡量策略或子策略或决策的效果的某种数量指标，就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量函数。对不同问题，指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、时间、效用，等等。
（1）阶段指标函数（也称阶段效应）
用vk(sk , xk)表示第 k 段处于状态 sk且所作
资规划, 排序问题和生产过程的最优控制
等问题;
§7.2 动态规划的基本概念和基本思想
一、基本概念
使用动态规划方法求解决策问题首先要将问题改造成符合动态规划求解要求的形式, 要涉及以下概念: (1)阶段 (3)决策与策略 (2)状态 (4)状态转移方程

动态规划-动态规划-美国数学家贝尔曼-动态规划领域

物品
1 2 … j …n
重量（公斤/件） a1 a2 … aj … an
每件使用价值 c1 c2 … cj … cn
类似问题：工厂里的下料问题、运输中的货物装载问题、人造卫星内的物品装载问题等。
生产决策问题：企业在生产过程中，由于需求是随时间变化的，因此企业为了获得全年的最佳生产效益，就要在整个生产过程中逐月或逐季度地根据库存和需求决定生产计划。
描述状态的变量称为状态变量，它可用一个数、一组数或一向量（多维情形）来描述，第k阶段的状态变量常用sk表示，通常一个阶段有若干个状态。
第k阶段的状态就是该阶段所有始点的集合，用Sk表示。在第1阶段状态变量s1是确定的，称初始状态。如引例中:
S1 A，S2 B1, B2, B3，S3 C1,C2,C3，S4 D1, D2
min
4
9
12
决策点为B3
AB3
f2
B3
3 9*
f1(A)=12说明从A到E的最短距离为12，最短路线的确定可按计算顺序反推而得。即
A→B3→C2→D2→E 上述最短路线问题的计算过程，也可借助于图
形直观的表示出来：
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
多阶段决策过程特点：
（1）根据过程的特性可以将过程按空间、时间等标志分为若干个互相联系又互相区别的阶段。
（2）在每一个阶段都需要做出决策，从而使整个过程达到最好的效果。
（3）在处理各阶段决策的选取上，不仅只依赖于当前面临的状态，而且还要注意对以后的发展。即是从全局考虑解决局部（阶段）的问题。

第9章-动态规划

最小费用流问题来求解。通过建立一个网络图来代
表这个问题。首先根据四个季度建立四个产量节点
和四个需求节点。每个产量节点由一个流出弧连接
对应的需求节点。
产量节点
2
弧的流量代表了 600 1季度产量
需求节点 1季度需求 400
该季度所生产的
毛毯数量。相对 300 2季度产量
5
于每个需求节点
本问题是要确定该公司明年每个季度的生产计划，所以设
公司每个季度生产xi（i＝1,2,3,4）双皮鞋；还有，设辅助决策变量：每个季度的期末库存为si（i＝1,2,3,4）双皮鞋。
RUC, Information School, Ye Xiang
9.2.1 生产与存贮问题第9章动态规划
(2) 目标函数
RUC, Information School, Ye Xiang
9.2.1 生产与存贮问题第9章动态规划
例9.3 某皮鞋公司根据对去年的市场需求
分析预测明年的需求：一季度3000双，二季度 4000 双，三季度 8000 双、四季度 7000双。企业现在每个季度最多可以生产 6000双皮鞋。为了满足所有的预测需求，前两个季度必须有一定的库存才能满足后两个季度的需求。已知每双皮鞋的利润为 20元，每个季度的库存成本8元。请确定该公司明年每个季度的生产计划，使公司的年利润最大。
9.2.1 生产与存贮问题
第9章动态规划
例9.5 某厂根据订货合同在今后四个季度对某产品的需求量如表9-4所示。如果该季度生产，需要生产准备费用为3千元，每件产品的生产成本为1千元，由于生产能力的限制，每季度最多不超过6件。又设每一件产品存贮一个季度的费用为0.5千元，并且第一季度开始与第四季度末均没有产品库存。

运筹学——动态规划

优子策略。该原理的具体解释是，若某一全过程
最优策略为：
p1
(s1 )
{u1
(s1 ),
u 2
(s2
),
,
u
k
(sk
),
u
n
(sn
)}
则对上述策略中所隐含的任一状态而言，
第k子过程上对应于该状态的最优策略必然包
含在上述全过程最优策略p1*中，即为
pk
(sk
)
{u
k
(sk
),
u
k 1
(sk
1
),
2．正确地定义状态变量sk，使它既能正确地描述过程的状态，又能满足无后效性．动态规划中的状态与一般控制系统中和通常所说的状态的概念是有所不同的，动态规划中的状态变量必须具备以下三个特征：
20
2021/7/26
(1)要能够正确地描述受控过程的变化特征。 (2)要满足无后效性。即如果在某个阶段状态已经给定，那么在
sk 1 Tk (sk ,uk (sk ))
上式称为多阶段决策过程的状态转移方程。有些问题的状态转移方程不一定存在数学表达式，但是它们的状态转移，还是有一定规律可循的。
12
2021/7/26
(六) 指标函数用来衡量策略或子策略或决策的效果的某种数量
指标，就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量函数。对不同问题，指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、时间、效用，等等。
7
2021/7/26
（二）状态、状态变量和可能状态集 1.状态与状态变量。用以描述事物(或系统)在某特定的时间与空间域中所处位置及运动特征的量，称为状态。反映状态变化的量叫做状态变量。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。按照过程进行的先后，每个阶段的状态可分为初始状态和终止状态，或称输入状态和输出状态，阶段k的初始状态记作sk，终止状态记为sk+1 。但为了清楚起见，通常定义阶段的状态即指其初始状态。

第10章动态规划

②某些情况下，用动态规划处理不仅能定性描述分析，且可利用计算机给出求其数值解的方法。
管理运筹学
7
缺点
①没有统一的处理方法，求解时要根据问题的性质，结合多种数学技巧。因此实践经验及创造性思维将起重要的引导作用；
②“维数障碍”，当变量个数太多时，由于计算机内存和速度的限制导致问题无法解决。有些问题由于涉及的函数没有理想的性质使问题只能用动态规划描述，而不能用动态规划方法求解。
盈利工厂设备台数
0 1 2
3 4 5
甲厂
0 3 7 9 12 13
乙厂
0 5 10 11 11 11
管理运筹学
29
第一阶段：只有1个始点A，终点有B1,B2,B3,B4 。对始点和终点进行分析和讨论分别求A到B1,B2,B3,B4的最短路径问题：
表10-4
本阶段始点(状态)
A
阶段1 本阶段各终点（决策）
B1
B2
B3
B4
4+12=16 3+13=16 3+14=17 2+12=14
到E的最本阶段最优终短距离点(最优决策)
第四阶段：两个始点D1和D2，终点只有一个；
表10-1
阶段4
本阶段始点本阶段各终点（决策）到E的最短距离
（状态）
E
D1
10
10
D2
6
6
分析得知：从D1和D2到E的最短路径唯一。
本阶段最优终点（最优决策)
E E
管理运筹学
27
第三阶段：有三个始点C1，C2，C3，终点有D1，D2，对始点
和终点进行分析和讨论分别求C1，C2，C3到D1，D2 的最短路

动态规划-动态规划

过程指标函数是指过程所包含的各阶段的状态和决策所产生的总效益值，记为
Vkn (sk , Pkn ) Vkn (sk , dk (sk ), sk1, dk1(sk1), , sn , dn (sn ), sn1) k 1, 2, , n
动态规划所要求的过程指标函数应具有可分离性，即可表达为它所包含的各阶段指标函数的函数形式。
能用动态规划方法求解的多阶段决策过程是一类特殊的多阶段决策过程，即状态具有无后效性的多阶段决策过程。
无后效性(马尔可夫性)：是指如果某阶段状态给定后，则在这个阶段以后过程的发展不受这个阶段以前各段状态的影响；构造动态规划模型时，要充分注意是否满足无后效性的要求；状态变量要满足无后效性的要求；如果状态变量不能满足无后效性的要求，应适当改变状态的定义或规定方法。
3、决策（decision）
决策：在某一阶段，当状态给定后，往往可以作出不同的决定，从而确定下一阶段的状态，这种决定称为决策。
决策变量：描述决策的变量。dk(sk) ：第k阶段的决策变量（状态变量sk的函数）。
允许决策集合：决策变量的取值范围。常用 Dk(sk)表示。显然dk(sk)∈Dk(sk)。
3 3*
3
4
6 决策点为D1
第二阶段，由Bj到Ci分别均有三种选择
f2
B1
min
B1C1 B1C2
B1C3
f3 f3 f3
C1 C2
C3
min
7 6 4 7* 6 6
11决策点为C2
f2
B2
min
BB22CC21
f3 f3
C1 C2
min
3 6* 2 7*
min
4

什么是动态规划？

什么是动态规划？⼀、基本思想态规划算法的基本思想与分治法类似，都是将问题⼤问题拆分为⼩问题，通过⼩问题的求解来得到最后的解。

与分治法不同的是，分治法是分⽽治之，分治法将⼤问题拆分为相同性质的⼦问题，最后合并⼦问题的解来构成最终解。

⽽动态规划是，将⼦问题拆解后，按顺序求解⼦问题，前⾯阶段的求解为后⼀阶段提供有⽤信息，通过动态的选择来到达最终解。

⽤图来表⽰就是如下所⽰：⼆、适⽤情况（1）最优化原理：如果问题的最优解所包含的⼦问题的解也是最优的，就称该问题具有最优⼦结构，即满⾜最优化原理。

（2）⽆后效性：即某阶段状态⼀旦确定，就不受这个状态以后决策的影响。

也就是说，某状态以后的过程不会影响以前的状态，只与当前状态有关。

（3）有重叠⼦问题：即⼦问题之间是不独⽴的，⼀个⼦问题在下⼀阶段决策中可能被多次使⽤到。

（该性质并不是动态规划适⽤的必要条件，但是如果没有这条性质，动态规划算法同其他算法相⽐就不具备优势）----摘⾃百度百科三、求解步骤动态规划中有三个⾮常重要的概念：最优⼦结构、边界、状态转移公式。

最优⼦结构：最优⼦结构指的是，问题的最优解包含⼦问题的最优解。

反过来说就是，我们可以通过⼦问题的最优解，推导出问题的最优解。

边界：就是问题的出⼝。

状态转移公式：动态规划问题的这⼀阶段的最优解是可以通过前⾯阶段的解和上⼀阶段的决策推导出来的。

这个推导过程就是⼀个状态转移公式我们通常按照如下4个步骤设计⼀个动态规划算法：1.刻画⼀个最优解的结构特征2.递归地定义最优解的值3.计算最优解的值，通常采⽤⾃底向上的⽅法（采⽤⼀张表格记录之前的状态）4.利⽤计算出的信息构造⼀个最优解我们之前的和也是⼀样的求解步骤。

以硬币找零问题为例：⾸先，⾯对⼀枚新的硬币，我们有两个选择：使⽤和不使⽤。

构成当前阶段的最优解 = min{使⽤这枚硬币的解，不使⽤这枚硬币的解} ----（1.刻画⼀个最优解的结构特征）然后，我们就得到转移⽅程 Value(i) = min {Value(i-1), Value(s-c[i])) + 1} ---- (2.递归地定义最优解的值)之后我们从找零1⾓开始算起，⼀直到达我们想要找零的数⽬。

运筹学动态规划

许多问题用动态规划的方法去处理，常比线性规划或非线性规划方法更有效。特别对于离散性的问题。
特别注意：动态规划是求解某类问题的一种方法，是考察问题的一种途径，而不是一种算法（如线性规划是一种算法）。
因而，动态规划没有标准的数学表达式和明确定义的一组规则，而必须对具体问题进行具体分析处理．
动态规划
8.1 多阶段决策过程及实例 8.2 动态规划的基本概念和
基本方程 8.3 动态规划的最优性定理 8.4 动态规划与静态规划关系
综述
动态规划是运筹学的一个分支，是解决多阶段决策过程最优化问题的一种数学方法。
该方法是由美国数学家贝尔曼(R.Bellman)等人在本世纪50年代初提出的。
他们针对多阶段决策问题的特点，把多阶段决策问题变换为一系列互相联系单阶段问题，然后逐个加以解决。
1
2
3
始点
5
B1
6 3
A
4 B2 4 6
2
5
B3 6
C1
1 2
2
C2 2
3
C3
3
4 终点
D1 2
D2 3
E
4
D3
2、状态
5
B1
6 3
A 4 B246
25
B3 6
C1
1 2
2
C2 2
C3 3 3
D1 2
D2 3 E 4
D3
各个阶段开始时所处的自然状况和客观条件称为
状态,描述了研究问题过程的状况(称不可控因素).
一些与时间没有关系的静态规划（如线性规划，非线性规划）问题，只要人为地引进 “时间”因素，也可把它视为多阶段决策问题，用动态规划方法去处理。

动态规划

5 . 最短路问题：给定一个交通网络图如下，其中两点之间的数字表示距离（或花费），试求从A点到G点的最短距离（总费用最小）。
1 C1 3 6 8 3 D1 1 2 2 2 5 E2 2 D2 E1 3
5
A 3
B1
6
8 B2 7 6
C2
5
3
5
F1
3
4
G
C3 8 C4
3
4 D3
3
3 4 E3
6
6
F2
3.航天飞机飞行控制问题：由于航天飞机的运动的环境是不断变化的，因此就要根据航天飞机飞行在不同环境中的情况，不断地决定航天飞机的飞行方向和速度（状态），使之能最省燃料和实现目的（如软着落问题）。
不包含时间因素的静态决策问题（本质上是一次决策问题）也可以适当地引入阶段的概念，作为多阶段的决策问题用动态规划方法来解决。 4.线性规划、非线性规划等静态的规划问题也可以通过适当地引入阶段的概念，应用动态规划方法加以解决。
f k sk min d k sk , uk sk f k 1 uk sk u k Dk s k f 6 s6 0或写成 5 s5 d 5 s5 , F f
k 5,4,3,2,1
动态规划的基本方程（二）
D4(D1)={E1,E2},D4(D2)= {E1,E2}
D5(E1)={F}, D5(E2)={F}
4 A 5
2 B1 3 5 B2 8 7 7
⑷状态转移方程上例中的状态转移方程sk+1=uk(sk)
C1 5 8 C2 45 3 C3 4 84 C4
D1 3 5 E1 4 6 D2 2 3 E2 1 3 D3

什么是动态规划

什么是动态规划动态规划( D ynamic P rogramming ，所以我们简称动态规划为 DP )是的⼀个分⽀，是求解决策过程(decision process) 最优化的数学⽅法。

20 世纪 50 年代初数学家R.E.Bellman 等⼈在研究多阶段决策过程 (multistep decision process) 的优化问题时，提出了著名的最优化原理 (principle of optimality)，把多阶段过程转化为⼀系列单阶段问题，利⽤各阶段之间的关系，逐个求解，创⽴了解决这类过程优化问题的新⽅法 —— 动态规划。

1957 年出版了他的名著《 Dynamic Programming 》，这是该领域的第⼀本著作。

动态规划算法通常基于⼀个递推公式及⼀个或多个初始状态。

当前⼦问题的解将由上⼀次⼦问题的解推出。

使⽤动态规划来解题只需要多项式时间复杂度，因此它⽐回溯法、暴⼒法等要快许多。

说了这么多术语，想必⼤家都很头疼，现在让我们通过⼀个例⼦来了解⼀下DP 的基本原理。

⾸先，我们要找到某个状态的最优解，然后在它的帮助下，找到下⼀个状态的最优解。

这句话暂时理解不了没关系，请看下⾯的例⼦ :如果我们有⾯值为1 元、 3 元和 5 元的硬币若⼲枚，如何⽤最少的硬币凑够 11 元？我们凭直观感觉告诉⾃⼰，先选⾯值最⼤，因此最多选 2枚 5 元的硬币，现在是 10 元了，还差⼀元，接下来我们挑选第⼆⼤的 3 元硬币，发现不⾏（ 10+3=13 超了），因此我们继续选第三⼤的硬币也就是 1元硬币，选⼀个就可以（ 10+1=11 ），所以总共⽤了 3 枚硬币凑够了 11 元。

这就是贪⼼法，每次选最⼤的。

但是我们将⾯值改为 2 元， 3 元和 5 元的硬币，再⽤贪⼼法就不⾏了。

为什么呢？按照贪⼼思路，我们同样先取 2 枚最⼤ 5 元硬币，现在 10 元了，还差⼀元，接下来选第⼆⼤的，发现不⾏，再选第三⼤的，还是不⾏，这时⽤贪⼼⽅法永远凑不出 11 元，但是你仔细看看，其实我们可以凑出 11 元的， 2 枚 3元硬币和 1 枚五元硬币就⾏了，这是⼈经过思考判断出来了的，但是怎么让计算机算出来呢？这就要⽤动态规划的思想：⾸先我们思考⼀个问题，如何⽤最少的硬币凑够i 元 (i<11) ？为什么要这么问呢？两个原因： 1. 当我们遇到⼀个⼤问题时，总是习惯把问题的规模变⼩，这样便于分析讨论。

动态规划

… P(A)为P[3][3]，
11
分阶段递推求解过程 P[0][0] = 0;
对于阶段1: P[0][1] = P[0][0]+h[0][0] = 0+3 = 3; P[1][0] = P[0][0]+v[0][0] = 0+2 = 3; 对于阶段2
P[1][1] = min{ P[0][1]+v[0][1],P[1][0]+h[1][0]} = min{3+1, 2+2} = 4 P[0][2] = P[0][1]+h[1][0] = 3+2 = 5 P[2][0] = P[1][0]+v[1][0] = 2+4 = 6
23
递归算法
• Function Max(I,J : integer) : longint; {从当前位置开始的可得的最优值} • Var s1,s2 : Longint; {记录从左右斜线向下走的可达的最优值} • Begin • If (I>n) Or (J>I) Then Max:=0 {当前位置不存在，最优值为0} • Else • Begin • S1:=Max(I+1,j)+triangle[I,j]; {沿左斜线向下走} • S2:=Max(I+1,j+1)+triangle[I,j]; {沿右斜线向下走} • If s1>s2 then Max:=s1 Else max:=s2; {选取最优走法} • End; 24 • End;
让我们来换一个思路思考本题，因为本题是要求总和除以４余数最小的一条路径，我们先撇开最小余数不去管它，而是将本题改为从点1到点４的所有路径中，求出每条路上权值和除以４的不同余数的状态。我们设一个数组can[I,j]表示从点1至点Ｉ可不可以求出一条路径是该路径的权值总和除以４的余数为Ｊ，那么又可以得出一个方程：

运筹学第五章动态规划

和 dk 2 (sk ))；
(4) 允许决策集： D k ( s k ) ( x k , y k ) 0 ≤ y k ≤ s k ; 0 ≤ x k ≤ 1 0 0 0 ( s k y k )
状态转移方程： s k 1 s k x k y k ,s 1 5 0 0k4,3,2,1
其中s 5 表示第四阶段末的状态； (5) 阶段指标： v k ( s k ,x k ,y k ) q k y k p k x k ，k4,3,2,1；
5.1 动态规划的基本概念和模型
5.1.1 动态规划的基本概念
下面结合实例来介绍动态规划的基本概念：
【例5.1】如图5.1所示，在处有一水库，现需从点铺设一条管道到点，弧上的数字表示与其相连的两个地点之间所需修建的渠道长度，请找出一条由到的修建线路，使得所需修建的渠道长度最短。
2
A4
3
B
7
(1) 按月份分段： k4,3,2,1；
(2) 状态变量： s k 表示第 k 个月月初的库存量；
(3) 决策变量： dk1(sk表) 示第 k 个月已有库存 s的k 情况下，要定
购的商品量， dk2表(sk示) 第个月k 已有库存的商品量(为方便，后面将分别依次用，
的来x sk 情代k y况替k 下，要d销k1(售sk )
(6) 动态规划基本方程：
fk(s k) (x k,y m k) a D x k(s k)v k(s k,x k,y k) fk 1 (s k 1 )
f5 (s 5 ) 0 k 4 ,3 ,2 ,1
求解（要求板书）辅图1
辅图2
辅图3
5.2.3 动态规划的顺序解法
【例 5.3】图 5.3 所示为一水利网络， A 为水库，分B 1 ,别B 2 为,B 3 不;C 同1 ,C 的2 ,供C 3 水;D 目1 ,D 的2地，试找出给各供水目的地供水的最短路线。

管理运筹学第3章：动态规划

如上例：

B
fn*(Sn)
=
min [dn(sn,xn)+ fn+1*(Sn+1)
]， n=4、3、2、1
xn∈Dn(Sn) f5*(S5) = min [r5(s5,x5)] x5∈D5(S5) 三、求解过程：
用反向嵌套递推法：从最后一个阶段开始，依次对各子过程寻优，直至获得全过程的最优，形成最优策略，获得最优策略指标值。
4
3.3 DP建模及求解
一、建模条件：
决策过程本身具有时顺序性或可以转化为具有时序性的决策问题，均可建立动态规划数学模型求解。
二、典型动态决策问题建模及其求解
1、最短路线问题
例1：求下列图中A到F的最短路线及最短路线值。
B1 3 A 4 B3 5 4 B2
9 5
C1 8 C2
1 5
D
1
4 2 E1 1 F 2 E2 5
5
3
4 6
D
2
6 9 7
5
1 7 C3 4 2
4
D
3
B1 3 4
9 5
C1 8
1 5
D
1
4
2
A 4
5
B2
5 1 B3 7
3
C2
4 6
D
2
6 9 7 5
E1
1 F 24 C3 24E2D
3
1、阶段(stage)n： n = 1、2、3、4、5。 2、状态(state)Sn： S1={A}，S2={B1,B2,B3}，S3={C1,C2,C3}，S4={D1,D2,D3}，S5={E1,E2}。 3、决策(decision)Xn：决策集Dn(Sn)。 D1(S1)={X1(A)}={B1,B2,B3}= S2， D2(S2)={X2(B1),X2(B2),X2(B3)}={C1,C2;C1,C2,C3 ;C2,C3 }={C1,C2,C3}=S3， D3(S3)={X3(C1),X3(C2),X3(C3)}={D1,D2;D1,D2,D3; D1,D2,D3}={D1,D2,D3}=S4， D4(S4)={X4(D1),X4(D2),X4(D3)}={E1,E2;E1,E2;E1,E2}={E1,E2}=S5， D5(S5)={X5(E1),X5(E2)}={F;F}={F}。 4、状态转移方程：Xn = Sn+1 5、指标函数(距离)：dn(sn,xn)。 d2(B3,C2)=1, d3(C2,D3)=6 等。 6、指标递推方程：fn*(Sn) = min [rn(sn,xn)+ fn+1*(Sn+1) ]， n=4、3、2、1

动态规划

3 2 A 4 B2 B1 1 2 3 1 3
C1 C2 4 C3 3
1 D
第三阶段（ A → B ）： A 到B 有二条路线。有二条路线。第三阶段（ f3(A)1 = d(A, B1 )＋ f2 ( B1 ) ＝2＋4＝6 ＋＋＝ f3 (A)2 = d(A, B2 )＋ f2 ( B2 ) ＝4＋3＝7 ＋＋＝＋ ∴ f3 (A) = min d(A, B1 )＋ f2 ( B1 ) = min｛6,7｝=6 ｛｝ d(A, B2 )＋ f2 ( B2 ) ＋ (最短路线为最短路线为A→B1→C1 →D) 最短路线为
3 2 A 4 B2 B1 1 2 3 1 C3 C2 4 3 3 C1
1 D
3 2 A 4 B2 B1 1 2 3 1 3
C1 C2 4 C3 3
1 D
整个计算过程分三个阶段，从最后一个阶段开始。解：整个计算过程分三个阶段，从最后一个阶段开始。第一阶段（第一阶段（C →D）： C 有三条路线到终点。）：有三条路线到终点D 显然有 f1 (C1 ) = 1 ； f1(C2 ) = 3 ； f1 (C3 ) = 4
动态规划
(Dynamic programming)
动态规划的基本思想最短路径问题投资分配问题背包问题
动态规划是用来解决多阶段决策过程最优化的一种数量方法。其特点在于，化的一种数量方法。其特点在于，它可以把一维决策问题变换为几个一维最优化问题，个n 维决策问题变换为几个一维最优化问题，从而一个一个地去解决。而一个一个地去解决。需指出：动态规划是求解某类问题的一种需指出：方法，是考察问题的一种途径，方法，是考察问题的一种途径，而不是一种算必须对具体问题进行具体分析，法。必须对具体问题进行具体分析，运用动态规划的原理和方法，建立相应的模型，规划的原理和方法，建立相应的模型，然后再用动态规划方法去求解。用动态规划方法去求解。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

w3 未放入
w 未放入
最优解有
w2 最优解有 w1
放入 w2 1
1 V (0, 2) 0 V (1, 2 ) m a x m ax v1 V (0, 2 w 1 ) 12 0 12
算法分析与设计
Analysis and Design of Computer Algorithms
第八章动态规划
Dynamic programming
动态规划(Dynamic programming)
思想，就像幽灵一样……在它自己解释自己之前，必须先告诉它些什么。 ——查尔斯· 狄更斯教学内容
Warshall算法实例
Warshall算法
算法 Warshall(A[1..n,1..n]) //实现计算传递闭包的Warshall算法 //输入：包括n个节点有向图的邻接矩阵 //输出：该有向图的传递闭包 R(0)A for(k1;k<=n;k++)
Warshall算法的时间效率是Θ(n3)
计算二项式系数
二项式系数(Binomial Coefficient )
是n元素集合中k个元素组合的数量(0≤k ≤n)，记作 C(n.k)或者Cnk，来源于二项式公式：
(a+b)n=Cn0an+…+Cnian-ibi+…+Cnnbn
Cn0=Cnn=1
递推关系式：
当n>k>0时，Cnk=Cn-1k-1+Cn-1k
V (2, 3) 22 V (3, 3) m ax m ax v3 V (2, 3 w 3 ) 20 0 20
放入 w3 3
2 V (1, 3 ) 12 V (2, 3) m ax m ax v 2 V (1, 3 w 4 ) 10 12 22
算法 Fib(n) F[0] 0, F[1] 1 for i2 to n do F[i] F[i-1] + F[i-2] return F[n]
最优性原理(Principle of Optimality) 最优性原理(Principle of Optimality)
无论过程的初始状态和初始决策是什么，其余的决策都必须相对于初始决策所产生的状态构成一个最优决策序列。原理告诉我们，一个最优问题的任何实例的最优解是由该实例的子实例的最优解组成的。一般来说，如果所求解问题对于最优性原理成立，则说明用动态规划方法有可能解决该问题。而解决问题的关键在于获取各阶段问的递推关系式。
如果使用邻接链表来表示图，用图的 for(i1;i<=n;i++) 遍历的效率要比 for(j1;j<=n;j++) Warshall好 R(k)[i,j]R(k-1)[i,j] or R(k-1)[i,k] and R(k-1)[k,j]
return R(n)
Floyd算法 the All-Pairs Shortest-path Problem 完全最短路径问题要求找出一个有n个节点的加权连通图中每个节点到其他所有节点之间的最短距离。
n个物品，背包容量W
背包问题(The Knapsack Problem)
动态规划分析
设V[i,j]为前i个物品放到背包容量为j的背包中时最优解的物品总价值。则目标是：V[n,W]。对于n个物品，要得到V[n,W]，有两种情况：
a. 第n个物品不在背包中，则最优解物品总价值为V[n1,W] b. 第n个物品在背包中，则最优解物品总价值为前n-1个物品的最优解总价值V[n-1,W-vn]与第n个物品价值的和，或者就是前n-1个物品的最优解总价值，这里取两个中的最大值，即V[n,W]=Max{V[n-1,W-Vn]+vn,V[n-1,W]}
【算例】动态规划法解 01 背包问题已知 01 背包数据如下表，求：放入背包的最有价值物品集合。物品 i 重量价值 vi 承重量 W wi 1 w1 = 2 v1 = 12
2
3 4
w2 = 1
w3 = 3 w4 = 2
v2 = 10
v3 = 20 v4 = 15
W=5
V ( i 1, j ) V (i, j) m ax v i V ( i 1, j w i )
按行或列填表计算的结果
例如：
V
i=0 1 2 3
j=0
0 0 0 0
1
0 0 10 10
2
0 12 12 12
3
0 12 22 22
4
0 12 22 30
4 0 10 15 25 30 接下来，找出最优解的物品集合。
V (3, 5) V (4, 5) m ax 5 v4 V (3, 5 w 4 ) 0 V ( 3, 5 ) m ax 12 v4 V (3, 3) 22 32 m ax 32 1 5 2 2 3 7 37
当k≥1,d(0)=wij时
dij(k)=min{dij(k-1),dik(k-1)+dkj(k-1)}
Floyd算法实例
思考：如果有向图中出现负长度的边，Floyd算法是否能得到正确结果？
背包问题(The Knapsack Problem)
重量价值
w1 v1
w2 v2
... ...
wn vn
回溯最优解，找到最优子集 { w1 , w2 , w4 }
4 V (3, 5) 32 V (4, 5) m ax m ax v4 V (3, 5 w 4 ) 15 22 37
w 未放入
最优解有
w4 最优解无 w3
放入 w4 2
最优解回溯计算
对较小的子问题进行一次求解，并把结果记录下来，然后利用较小问题的解，求解出较大问题的解，直到求解出最大问题的解。
Fibonacci sequence: 0 , 1 , 1 , 2 , 3 , 5 , 8 , 13 , 21 , … Fi = i if i 1 Fi = Fi-1 + Fi-2 if i 2
vi，编号≤k-1的节点集，k，编号≤k-1的节点集， vj 此时节点i到节点j是否有路径，取决于两部分“编号≤k-1
的节点集”，因此有：
rij(k)=rik(k-1) 和 rkj(k-1) , k∈C
Warshall算法思想
递推关系式
rij(k)=
rij(k-1) , k∈C rik(k-1) 和 rkj(k-1) , k∈C
R(0),…, R(k-1), R(k),…, R(n)
vi，每个节点编号都不大于k的中间节点集，vj
Warshall算法思想
确定递推关系式
对于路径： vi，每个节点编号都不大于k的中间节点集C，vj 情况1：k∈C，那么中间节点集合的节点编号定不会大于k-1，因此有： rij(k)=rij(k-1) , k∈C 情况2： k∈C ，则有路径：
动态规划的定义及历史动态规划求解问题的步骤动态规划计算二项式系数每对结点之间的最短路径(Warshall和Floyd算法) 背包问题(Knapsack Problem)和记忆功能
要求
掌握动态规划的思想及文体求解步骤，掌握动态规划求解常见问题如：每对节点间的最短距离、背包问题等中的应用。
动态规划(Dynamic programming)
2 …
k …
1
1
2
1
1
n-1
n
1
1
C(n-1,k-1) C(n-1,k)
C(n,k)
C(n,k)=C(n-1,k-1)+C(n-1,k)，n>k>0 C(n,0)=C(n,n)=1
帕斯卡三角形
二项式系数算法
算法 Binomial(n,k)
//用动态规划算法计算C(n,k) //输入：一对非负整数n≥k ≥0 //输出：C(n,k)的值
其他，
或者写成：C(n,k)=C(n-1,k-1)+C(n-1,k)，n>k>0 C(n,0)=C(n,n)=1 如：C(2,1)=C(1,0)+C(1,1)=1+1=2 C(3,1)=C(2,0)+C(2,1)=1+2=3 …
二项式系数 (Binomial Coefficient )
C(n,k) 0 1 0 1 1 1 1 2 … k-1 k
动态规划算法的基本步骤
划分阶段：
按照问题的时间或空间特征，把问题分为若干个阶段。
选择状态：
将问题发展到各个阶段时所处于的各种客观情况用不同的状态表示出来。
确定决策并写出状态转移方程：
状态转移就是根据上一阶段的状态和决策来导出本阶段的状态。
写出规划方程（包括边界条件）：
动态规划的基本方程是规划方程的通用形式化表达式。
基本思路：
解决若干个（交叠）子问题将子问题的解用表格记录下来，避免子问题的重复计算上述表格的最终状态即为（包含）最终解
与分治法比较
都将问题划分为若干个子问题分治法中各子问题相互独立，而动态规划中各子问题允许相互交叠
动态规划的定义
动态规划(Dynamic programming)是一种算法设计技术，是用来解决一种多段决策过程最优的通用方法。多段决策过程最优
V1 9 7 V2 V3 1 V4 6 5 4 3 V5
2
2
2
6
s 1
3 2
multistage graph problem
3 4
9 10
7 11
4 2 5
7
8
12 t
11
5
8

动态规划

动态规划

动态规划

第6章动态规划

动态规划

第6章-动态规划

动态规划(完整)

动态规划-动态规划-美国数学家贝尔曼-动态规划领域

第9章-动态规划

运筹学——动态规划

第10章 动态规划

动态规划-动态规划

什么是动态规划？

运筹学动态规划

动态规划

什么是动态规划

动态规划

运筹学第五章动态规划

管理运筹学第3章：动态规划

动态规划

第10章动态规划