第10章 动态规划

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

者为全过程上的最优指标函数,后者为k
子过程上的最优指标函数。
6、阶段指标函数rk(sk, xk):我们把第 k阶段的阶段指标记为rk(sk, xk),表示
在第k阶段,从状态sk出发,选择决 策xk所产生的第k阶段指标值。
7、状态转移方程 sk+1=Tk(sk, xk):某一状
态以及该状态下的决策,与下一状态之
在生产和科学实验中,有一类活动的过 程,由于它的特殊性,可以将它分为若干个 相互联系的阶段,在它的每一个阶段都需要
决策,从而使得整个过程达到最好的活动效
果。
状态 决策
1
状态
决策
状态
2

状态
决策
状态
n

因此,各个阶段的决策选择都不
是随意的,它依赖于当前面临的状态,
又会影响以后的发展。当各个阶段决
策都确定以后就组成了一个决策序列,
对于可加性指标函数,上式可以写为 :
f k (sk )
opt
xk Dk ( sk )
{ rk ( s k , x k ) f k 1 ( s k 1 )} k 1, 2 , , n
上 式 中 “ opt” 表 示 “ max” 或 “min”。
对于可乘性指标函数,上式可以写为:
fk (sk )
opt
xk Dk ( sk )
{ rk ( s k , x k ) f k 1 ( s k 1 )} k 1, 2 , , n
以上式子称为动态规划最优指标递 推方程,是动态规划的基本方程。
终端条件:为了使以上的递推 方程有递推的起点,必须要设定最
优指标的终端条件,一般最后一个
间的函数关系。 其中函数关系 T 因问题 的不同而不同。
8、过程指标函数-- Vk,n(sk, xk, xk+1,…, xn):
从状态sk出发,选择决策xk, xk+1, …, xn所 产生的过程指标。
动态规划要求过程指标具有可分离性,即 指标具有可加性: Vk,n(sk, xk, xk+1, …, xn) = rk(sk, xk)+Vk+1,n(sk+1, xk+1, …, xn) 或指标具有可乘性: Vk,n(sk, xk, xk+1, …, xn)
12 B1 14 A 4
2
61
12 C1 6 11 7 C2 5 1 C3 1 6
8
10 D1 6 D2 10 0 E
3
3 2
13 4 7 B2 2 14 4 8 3 B 3 7 5 B4 12
6
11
可以看到,以上方法不仅得到了从A
到E的最短路径,同时,也得到了从图
中任一点到E的最短路径。
以上过程,仅用了22次加法,计算
效率远高于穷举法。
§2 基本概念、基本方程 与最优化原理
一、基本概念:
1、阶段k:表示决策顺序的离散的 量,阶段可以按时间或空间划分,但要便 于把问题的过程转化为多阶段决策过程。
描述阶段的变量称为阶段变量,常用k
表示。
2、状态sk:每个阶段开始所处的自然状况
或客观条件,它是能确定地表示决策过程当前
E E
分析得知:从D1和D2到E的最短路径唯一。
第三阶段:有三个始点C1,C2,C3,终点有D1,D2,
对始点和终点进行分析和讨论分别求C1,C2,C3到D1, D2 的最短路径问题(见表10-2):
表10-2
阶段3 本阶段始点 (状态) C1 C2 C3 本阶段各终点(决策) D1 8+10=18 7+10=17 1+10=11 D2 6+6=12 5+6=11 6+6=12 本阶段最优终点 到E的最短距离 (最优决策) 12 11 11 D2 D2 D1
第十章
动态规划
Dynamic programming
动态规划是运筹学的一个重要分支,它是解决多
阶段决策过程问题的一种数学方法,大约产生于50年
代,1951年,美国数学家贝尔曼等人,根据多阶段决
策问题的特点,把多阶段决策问题转换为一系列互相
联系的单阶段决策问题,然后逐一加以解决。与此同 时,他提出了这类问题的“最优化原理”,研究了许 多实际问题,从而创建了解决最优化问题的一类新方 法--动态规划。他的名著《动态规划》于1957年出 版,该书为动态规划的第一部著作。
讨论:
1、以上求从A到E的最短路径问题, 可以转化为四个性质完全相同,但规模
较小的子问题,即分别从Di 、Ci、Bi、A
到E的最短路径问题。也就是说,我们可
以把它分为四个阶段,转化为多阶段决
策问题用动态规划的方法来处理 。
这样问题即要求: 在各个阶段选取一个恰当的决策,使得由这些决 策组成的决策序列决定一条路线,且为A点到E点的路 程最短。 根据最优化原理在最短路问题上的阐述,我们可
7 1 0

r3 ( C 2 , D 1 ) f 4 ( D 1 ) r3 ( C 2 , D 2 ) f 4 ( D 2 )

11
x 3 ( C 2 ) D 2 , 即从 C 2 到达终点的最短 D 2 E , f 3 (C 2 ) 1 1 .
其相应的决策为
距离为11,最短路为: C 2
12 13 14 12
C2 C3 C3 C3
分析得知:如果经过B1,则走B1-C2-D2-E;
如果经过B2,则走B2-C3-D1-E;
如果经过B3,则走B3-C3-D1-E;
如果经过B4,则走B4-C3-D1-E。
第一阶段:只有1个始点A,终点有B1,B2,B3,B4 。对始点和
终点进行分析和讨论分别求A到B1,B2,B3,B4的最短路径问题:
以从最后一个阶段开始,从终点向始点方向逐点逆推, 找出各点到终点的最短路,当逆推到始点时,也即找 到全过程的最短路。
第四阶段:两个始点D1和D2,终点只有一个;
表10-1
阶段4 本阶段始点 (状态) 本阶段各终点(决策) E 到E的最短距离 本阶段最优终点 (最优决策)
D1 D2
10*源自文库6
10 6
f 3 ( C 1 ) m in r3 ( C 1 , x 3 ) f 4 ( x 4 ) m in m in 6 6
8 1 0

r3 ( C 1 , D 1 ) f 4 ( D 1 ) r3 ( C 1 , D 2 ) f 4 ( D 2 )
特征的量,又称为不可控因素。状态可以是数 量,也可以是字符,数量状态可以是连续的, 也可以是离散的。通常一个阶段有若干个状态, 我们用状态变量sk来描述。
3、决策xk:从某一状态向下一状态过渡时 所做的选择,在最优控制理论中称为控制。描 述决策的变量称为决策变量,它可以是一个数, 一组数或者一个向量。决策是所在状态的函数, 记为xk(sk)。一个阶段的决策将会影响下一个 阶段的状态。在状态sk下,允许采取决策的全 体,称为决策允许集合,记为Dk(sk)。
4、策略Pk,n(sk):由所有阶段的决策组
成的决策函数序列称为全过程策略, 简称策略,记为P1,n(s1) 。从第k阶段开
始到最后第n阶段的决策序列,称k子
策略,记为Pk,n(sk)。
5、指标函数:即衡量全过程策略或k 子策略优劣的数量指标,其最优值称为 最优指标函数,记作 其中前 f 1 ( s1 ) 或 f k ( s k ),
表10-4
阶段1 本阶段始 点(状态) A 本阶段各终点(决策) 到E的最 短距离 14 本阶段最优终 点(最优决策) B4
B1
4+12=16
B2
3+13=16
B3
3+14=17
B4
2+12=14
最后可以得到,从A到E的最短路径为:
A B4 C3 D1 E
以上计算过程及结果,可用下图表示,
= rk(sk, xk)×Vk+1,n(sk+1, xk+1, …, xn)
二、(贝尔曼)基本方程:
最优指标函数fk(sk):从状态sk出发,对所有的策 略Pk,n,过程指标Vk,n的最优值,即
fk (sk )
opt
xk Dk ( sk )
{V k , n ( s k , Pk , n )}
动态规划所解决的问题:多阶段问题 动态规划的核心:
在于将问题公式化,也可以 说,动态规划是将多阶段决 策问题进行公式化的一种技 术。
动态规划的优缺点:
适用范围广,模型算法一体化,方便编程。 由于没有统一的标准模型,使得动态规划的应用
难度增加 。
动态规划根据多阶段决策过程的时间参量类
型可以分为离散型决策过程和连续型决策过程;
f 3 ( C 3 ) m in r3 ( C 3 , x 3 ) f 4 ( x 4 ) m in m in 6 6
11 0

r3 ( C 3 , D 1 ) f 4 ( D 1 ) r3 ( C 3 , D 2 ) f 4 ( D 2 )
状态n+1下最优指标fn+1(sn+1) = 0。
现在我们用贝尔曼递推公式求例1:
当k=4时,由 D 到终点E只有一条路线,即:
1
f 4 ( D 1 ) 1 0, 同 理 可 得 : f 4 ( D 2 ) 6 .
当k=3时,始点有 C 1 , C 2 , C 3 三点,若从 C 1 点出发,则有两 个选择,即 D 1 , D 2 , 故有:
表10-3 阶段2 本阶段始点 (状态) 本阶段各终点(决策) C1 C2 C3 到E的最 本阶段最优终 点(最优决策) 短距离
B1 B2 B3 B4
2+12=14 4+12=16 4+12=16 7+12=19
1+11=12 7+11=18 8+11=19 5+11=16
6+11=17 2+11=13 3+11=14 1+11=12
因而就决定了整个过程的一个活动路 线。
这种把一个问题可以看成是一 个前后关联的具有链状结构的多阶
段过程称为多阶段决策过程,也称
为序惯决策过程。这种问题称为多 阶段决策问题。
在多阶段决策问题中,各个阶段采取 的决策一般来说是与时间有关的,决策
依赖于当前面临的状态,又随即引起状
态的转移。一个决策过程是在变化的状
分析得知:如果经过C1,则最短路为C1-D2-E;
如果经过C2,则最短路为C2-D2-E;
如果经过C3,则最短路为C3-D1-E。
第 二 阶 段 : 有 4 个 始 点 B1,B2,B3,B4 , 终 点 有 C1,C2,C3 。 对 始 点 和 终 点 进 行 分 析 和 讨 论 , 分 别 求 B1,B2,B3,B4到C1,C2,C3 的最短路径问题(见表10-3):
态中产生出来的,故有“动态”的含义,
因此把处理这类问题的方法称为动态规 划方法。
但是一些与时间无关的静态规划问
题(如线性规划、非线性规划等),只
要人为的引入“时间因素”,也可以把 它视为多阶段决策问题,用动态规划的
方法加以处理.多阶段决策问题的例子
很多,现举例如下:
例1. (最短路径问题) 下图表示从起点A到终点E之间各点的距离。 求A到E的最短路径。
B1
4
4
2
1 6
7 2 8 3 1
C1 6
8
D1 10 E D2 6 6
A
3 2
3
7
C2 1 C3 5
B2 4
B3
B4
7 5
用穷举法的计算量: 如果从A到E的站点有k个,除A、E之外每站有3个位
置则总共有3k-1×2条路径; 计算各路径长度总共要进行
(k+1) 3k-1×2次加法以及3k-1×2-1次比较。随着 k 的值增加 时,需要进行的加法和比较的次数将迅速增加; 例如当 k=20时,加法次数为 4.2550833966227×1015 次,比较 1.3726075472977×1014 次。若用1亿次/秒的计算 机计算需要约508天。
根据决策过程的演变性态又可以分为确定型决策
过程和随机型过程。组合起来有下列类型:
离散确定型、离散随机型、连续确定型、连 续随机型。本章主要介绍离散确定型决策过程。
§1
§2 §3
多阶段决策过程最优化问题举例
基本概念、基本方程与最优化原理 动态规划的应用(1)
§4
动态规划的应用(2)
§1 多阶段决策过程最优 化问题举例

12
其相应的决策为
x 3 ( C 1 ) D 2 , 即从 C 到达终点的最短 1 D 2 E , f 3 (C1 ) 1 2 .
距离为12,最短路为: C 1
同理,若从C 2 点出发,也有两个选择,即 D 1 , D 2 , 故有:
f 3 ( C 2 ) m in r3 ( C 2 , x 3 ) f 4 ( x 4 ) m in m in 5 6
相关文档
最新文档