第三讲 动态规划 (高级运筹学课件)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常见的指标函数的形式有:
①
V k , n S k , d k , S k 1 , S n 1 v j S j , d j
j k
n
v k S k , d k V k 1 S k 1 , Pk , n
Vk , n S k , d k , S k 1 , S n 1 v i S j , d j
,决策点为D1
C 2 D1 f 4 D1 63 f 3 C 2 min min 7 3 4 * C 2 D 2 f 4 D 2
C 3 D1 f 4 D1 3 3 * f 3 C 3 min min 6 3 4 C 3 D 2 f 4 D 2
二、多阶段决策问题的典型例子:
企业在生产过程中,由于需求是随着时间变化的因素, 因此企业为了获得全年最佳经济效益,就要在整个生产 过程中逐月或逐季的根据库存和需求决定生产计划。
某种机器,可以在高、低两种负荷下生产。高负荷下生 产的产量多,但每生产一个阶段后机器的完好率低;低 负荷下生产时的情况则相反。现在需要安排该种机器在 多个阶段内的生产,问应该如何决定各阶段中机器的使 用,使整个计划期内的总产量最大。
B 2 C 2 f 3 C1 3 6 * f 2 B 2 min B 2 C 2 f 3 C 2 min 2 7 * 9 B 3 C 3 f 3 C 3 46
决策点为C1 或 C2
13
6、阶段指标、指标函数和最优指标函数
(1)衡量某阶段决策效益优劣的数量指标,称为阶段指标 ,用vk(Sk,dk)表示第k阶段的阶段指标。 在不同的问题中,其含义不同。它可以是距离、利润、成本 等。 在 引 例 中 , 用 dk=vk(Sk,dk) 表 示 在 第 k 阶 段 由 点 Sk 到 点 Sk+1=dk(Sk)距离。如d2(B3,C1)=6。
max或min。
在引例中,指标函数Vk,n表示在第k阶段由点Sk至终点E的
距离。fk(sk)表示第k阶段点Sk到终点E的最短距离。 f2(B1)=11表示从第2阶段中的点B1到点E的最短距离。
16
7、基本方程(递推关系式)
从引例求A到E的最短路的计算过程中可以看出,在求解 的各个阶段,我们利用了k阶段与k+1阶段之间的递推关系
S1 A, S2 B1, B2 , B3 ,S3 C1, C2 , C3 ,S4 D1, D2 11
(2)状态应具有无后效性(即马尔可夫性)。即如果某 阶段状态给考虑,则在这阶段以后过程的发展不受这阶段以 前各阶段状态的影响。 3、决策与决策变量。在某阶段对可供选择状态的决定(或 选择),称为决策。描述的变量称为决策变量。常用dk(Sk) 表示第k阶段处于状态Sk时的决策变量,它是状态变量的函 数。决策变量允许取值的范围,称为允许决策集合,常用 Dk(Sk)表示。显然dk(Sk)∈Dk(Sk)。
,决策点为D2
,决策点为D1
4
第二阶段,由Bj到Cj分别均有三种选择,即:
B1 C1 f 3 C1 7 6 f 2 B1 min B 2 C 2 f 3 C 2 min 4 7 * 11 决策点为C2 B 3 C 3 f 3 C 3 66
一般地,若
Vk , n
f k (s k ) 0P tv k (s k , d k ) f k 1 (s k 1 ), d k D k (s k ) k n , n 1, 1 f n 1 (s n 1 ) 0(边界条件)
若
j k
v j Sj,d j ,
某台设备,例如汽车,刚买来时故障少,耗油低,出车 时间长,处理价值和经济效益高。随着使用时间的增加 则变为故障多,耗油高,维修费用增加,经济效益差。 使用时间愈长,处理价值也愈低。另外,每次更新都要 付出更新费用。因此,应当如何决定设备的使用年限, 9 使总的效益最佳。
三、动态规划方法的特点
AB1 f 2 B 2 2 11 f 1 A min AB2 f 2 B 2 min 4 9 12 决策点为B3 AB5 f 2 B 5 3 9 *
f1(A)=15说明从A到E的最短距离为12,最短路线的确 定可按计算顺序反推而得。即 A→B3→C2→D2→E 上述最短路线问题的计算过程,也可借助于图形直观的 表示出来:
优点:①许多问题用动态规划研究求解比线性规划、 非线性规划更有效,特别是离散性问题,解析数学无用 武之地,而动态规划成为得力工具; ②某些情况下,用动态规划处理不仅能作定性描 述分析,且可利用计算机给出求其数值解的方法。
缺点:①没有统一的处理方法,求解时要根据问题的 性质,结合多种数学技巧。因此,实践经验及创造性思 维将起重要的引导作用。
B 3 C1 f 3 C1 6 6 f 2 B 3 min B 3 C 2 f 3 C 2 min 2 7 * 9 B 3 C 3 f 3 C 3 56
决策点为C2
5
第一阶段,由A到B,有三种选择,即:
6
11
6
6 3 2 7 4
B1
12 A
2 4 3
C1
7 C2 6 C3
3
4 6 3 3 3
9 B2 9 B3
4 6
3 D1 4 D2
3
E
4
2 5
图中各点上方框的数,表示该点到E的最短距离。图中 红箭线表示从A到E的最短路线。 从引例的求解过程可以得到以下启示: ①对一个问题是否用上述方法求解,其关键在于能否将问 题转化为相互联系的决策过程相同的多个阶段决策问题。
第四阶段,由D1到E只有一条路线,其长度f4(D1)=3, 同理f4(D2)=4。 第三阶段,由Cj到Di分别均有两种选择,即
3 3 C1 D1 f 4 D1 f 3 C1 min 6 min 44 C1 D 2 f 4 D 2
n
则有
Vk , n v j (s j , d j ), 则有
如在引例的第二阶段中,若从B1 出发,D2 (B1 )={B1 C1,
B1 C2, B1 C3}如果决定选取B1 C2,则d2(B1)= B1 C2。
12
4、策略与子策略。策略是一个决策序列的集合。当k=1时
,P1n(S1)={d1(s1),d2(s2),…,dn(sn)}就称为全过程的一个策
略,简称策略,简记为P1n(S1). 称Pk,n(Sk)= {dk(sk),dk+1(sk+1),…,dn(sn)}为由第k阶段开始 到最后阶段止的一个子策略,简称后部子策略。简记为 Pk,n(Sk) 称可供选择策略的范围,为允许策略集,用P表示。 动态规划方法就是要从允许策略集P中找出最优策略P1n*。 5、状态转移方程。它是确定过程由某一阶段的一个状态到 下一阶段另一状态的演变过程,用Sk+1=Tk(Sk,dk)表示。该 方程描述了由第k阶段到第k+1阶段的状态转移规律。因此 又称其为状态转移函数。
②“维数障碍”:当变量个数太多时,由于计算 机内存和速度的限制导致问题无法解决。有些问题由于 涉及的函数没有理想的性质使问题只能用动态规划描述, 而不能用动态规划方法求解。
10
§4.2
动态规划的基本概念
一、动态规划的基本要素
1、阶段。阶段的划分,一般根据时序和空间的自然特征 来划分,但要便于把问题的过程能转化为阶段决策的过程。 描述阶段的变量称为阶段变量,常用自然数k表示。如引例 可划分为4个阶段求解,k=1,2,3,4。 2、状态。状态就是阶段的起始位置。它既是该阶段某支 路的起点,又是前一阶段某支路的终点。 (1)状态变量和状态集合。描述过程状态的变量称为状态 变量。它可用一个数、一组数或一向量(多维情形)来描述 ,常用Sk表示第k阶段的状态变量。通常一个阶段有若干个 状态。第k阶段的状态就是该阶段所有始点的集合。如引例 中
7
所谓多阶段决策问题是:把一个问题看作是一个前后关 联具有链状结构的多阶段过程,也称为序贯决策过程。如下 图所示:
决策 状态 1 状态 2 决策 状态 状态 n 决策 状态
②在处理各阶段决策的选取上,不仅只依赖于当前面临 的状态,而且还要注意对以后的发展。即是从全局考虑解决 局部(阶段)的问题。 ③各阶段选取的决策,一般与“时序”有关,决策依赖 于当前的状态,又随即引起状态的转移,整个决策序列就是 在变化的状态中产生出来,故有“动态”含义。因此,把这 种方法称为动态规划方法。 ④决策过程是与阶段发展过程逆向而行。 8
14
(2)用于衡量所选定策略优劣的数量指标,称为指标函数 。它是定义在全过程和所有后部子过程上确定的数量函数 。记为Vk,n(Sk,Pk,n). Vk,n(Sk,Pk,n)=Vk,n(Sk,dk,Sk+1,…Sn+1) k=1,2,…,n。
构成动态规划模型的指标函数,应具有可分离性,并满足 递推关系。
方法有以下四种类型:离散确定型、离散随机型、连续确定 1 型和连续随机型。
§4.1
动态规划的基本概念和最优化原理
B1
7 4
一、引例(最短路问百度文库) C1 C2
3 4 6 3
2
6 3 2
D1
3
A
3
4
B2
4 6
E
4
3
2 5
D2
B3
C3
3
假如上图是一个线路网络,两点之间连线上的数字表示 两点间的距离(或费用),我们的问题是要将货物从A地运 往E地,中间通过B、C、D三个区域,在区域内有多条路径 可走,现求一条由A到E的线路,使总距离最短(或总费用 最小)。 2
将该问题划分为4个阶段的决策问题,即第一阶段为从A 到Bj(j=1,2,3),有三种决策方案可供选择;第二阶段 为从Bj 到Cj (j=1,2,3),也有三种方案可供选择;第三阶 段为从Cj 到Dj(j=1,2),有两种方案可供选择;第四阶段为 从Dj 到E,只有一种方案选择。如果用完全枚举法,则可 供选择的路线有3×3×2×1=18(条),将其一一比较才 可找出最短路线: A→B1→C2→D3→E 其长度为12。 显然,这种方法是不经济的,特别是当阶段数很多,各 阶段可供的选择也很多时,这种解法甚至在计算机上完成 也是不现实的。 由于我们考虑的是从全局上解决求A到E的最短路问题 ,而不是就某一阶段解决最短路线,因此可考虑从最后一 阶段开始计算,由后向前逐步推至A点: 3
第三讲 动态规划 (Dynamic Programming)
动 态 规 划 是 1951 年 由 美 国 数 学 家 贝 尔 曼 ( Richard Bellman)提出,它是解决一类多阶段决策问题的优化方法, 也是考察问题的一种途径,而不是一种算法(如LP单纯形法 )。因此它不象LP那样有一个标准的数学表达式和明确定义 的一组规则,而必须对具体问题进行具体分析处理。 动态规划方法是现代企业管理中的一种重要决策方法。如 果一个问题可将其过程划分为若干个相互联系的阶段问题, 且它的每一阶段都需进行决策,则这类问题均可用动态规划 方法进行求解。 根据多阶段决策过程的时序和决策过程的演变,动态规划
j k n
②
v k S k , d k Vk 1 S k 1 , P k15 ,n
(3)最优指标函数fk(Sk),表示从第k阶段的状态Sk开始采用 最优子策略P*k,n,到第n阶段终止时所得到的指标函数值。 即fk(Sk)=Opt Vk,n(Sk,dk,…Sn+1)
其中Opt是最优化(Optimum)的缩写,可根据题意取
①
V k , n S k , d k , S k 1 , S n 1 v j S j , d j
j k
n
v k S k , d k V k 1 S k 1 , Pk , n
Vk , n S k , d k , S k 1 , S n 1 v i S j , d j
,决策点为D1
C 2 D1 f 4 D1 63 f 3 C 2 min min 7 3 4 * C 2 D 2 f 4 D 2
C 3 D1 f 4 D1 3 3 * f 3 C 3 min min 6 3 4 C 3 D 2 f 4 D 2
二、多阶段决策问题的典型例子:
企业在生产过程中,由于需求是随着时间变化的因素, 因此企业为了获得全年最佳经济效益,就要在整个生产 过程中逐月或逐季的根据库存和需求决定生产计划。
某种机器,可以在高、低两种负荷下生产。高负荷下生 产的产量多,但每生产一个阶段后机器的完好率低;低 负荷下生产时的情况则相反。现在需要安排该种机器在 多个阶段内的生产,问应该如何决定各阶段中机器的使 用,使整个计划期内的总产量最大。
B 2 C 2 f 3 C1 3 6 * f 2 B 2 min B 2 C 2 f 3 C 2 min 2 7 * 9 B 3 C 3 f 3 C 3 46
决策点为C1 或 C2
13
6、阶段指标、指标函数和最优指标函数
(1)衡量某阶段决策效益优劣的数量指标,称为阶段指标 ,用vk(Sk,dk)表示第k阶段的阶段指标。 在不同的问题中,其含义不同。它可以是距离、利润、成本 等。 在 引 例 中 , 用 dk=vk(Sk,dk) 表 示 在 第 k 阶 段 由 点 Sk 到 点 Sk+1=dk(Sk)距离。如d2(B3,C1)=6。
max或min。
在引例中,指标函数Vk,n表示在第k阶段由点Sk至终点E的
距离。fk(sk)表示第k阶段点Sk到终点E的最短距离。 f2(B1)=11表示从第2阶段中的点B1到点E的最短距离。
16
7、基本方程(递推关系式)
从引例求A到E的最短路的计算过程中可以看出,在求解 的各个阶段,我们利用了k阶段与k+1阶段之间的递推关系
S1 A, S2 B1, B2 , B3 ,S3 C1, C2 , C3 ,S4 D1, D2 11
(2)状态应具有无后效性(即马尔可夫性)。即如果某 阶段状态给考虑,则在这阶段以后过程的发展不受这阶段以 前各阶段状态的影响。 3、决策与决策变量。在某阶段对可供选择状态的决定(或 选择),称为决策。描述的变量称为决策变量。常用dk(Sk) 表示第k阶段处于状态Sk时的决策变量,它是状态变量的函 数。决策变量允许取值的范围,称为允许决策集合,常用 Dk(Sk)表示。显然dk(Sk)∈Dk(Sk)。
,决策点为D2
,决策点为D1
4
第二阶段,由Bj到Cj分别均有三种选择,即:
B1 C1 f 3 C1 7 6 f 2 B1 min B 2 C 2 f 3 C 2 min 4 7 * 11 决策点为C2 B 3 C 3 f 3 C 3 66
一般地,若
Vk , n
f k (s k ) 0P tv k (s k , d k ) f k 1 (s k 1 ), d k D k (s k ) k n , n 1, 1 f n 1 (s n 1 ) 0(边界条件)
若
j k
v j Sj,d j ,
某台设备,例如汽车,刚买来时故障少,耗油低,出车 时间长,处理价值和经济效益高。随着使用时间的增加 则变为故障多,耗油高,维修费用增加,经济效益差。 使用时间愈长,处理价值也愈低。另外,每次更新都要 付出更新费用。因此,应当如何决定设备的使用年限, 9 使总的效益最佳。
三、动态规划方法的特点
AB1 f 2 B 2 2 11 f 1 A min AB2 f 2 B 2 min 4 9 12 决策点为B3 AB5 f 2 B 5 3 9 *
f1(A)=15说明从A到E的最短距离为12,最短路线的确 定可按计算顺序反推而得。即 A→B3→C2→D2→E 上述最短路线问题的计算过程,也可借助于图形直观的 表示出来:
优点:①许多问题用动态规划研究求解比线性规划、 非线性规划更有效,特别是离散性问题,解析数学无用 武之地,而动态规划成为得力工具; ②某些情况下,用动态规划处理不仅能作定性描 述分析,且可利用计算机给出求其数值解的方法。
缺点:①没有统一的处理方法,求解时要根据问题的 性质,结合多种数学技巧。因此,实践经验及创造性思 维将起重要的引导作用。
B 3 C1 f 3 C1 6 6 f 2 B 3 min B 3 C 2 f 3 C 2 min 2 7 * 9 B 3 C 3 f 3 C 3 56
决策点为C2
5
第一阶段,由A到B,有三种选择,即:
6
11
6
6 3 2 7 4
B1
12 A
2 4 3
C1
7 C2 6 C3
3
4 6 3 3 3
9 B2 9 B3
4 6
3 D1 4 D2
3
E
4
2 5
图中各点上方框的数,表示该点到E的最短距离。图中 红箭线表示从A到E的最短路线。 从引例的求解过程可以得到以下启示: ①对一个问题是否用上述方法求解,其关键在于能否将问 题转化为相互联系的决策过程相同的多个阶段决策问题。
第四阶段,由D1到E只有一条路线,其长度f4(D1)=3, 同理f4(D2)=4。 第三阶段,由Cj到Di分别均有两种选择,即
3 3 C1 D1 f 4 D1 f 3 C1 min 6 min 44 C1 D 2 f 4 D 2
n
则有
Vk , n v j (s j , d j ), 则有
如在引例的第二阶段中,若从B1 出发,D2 (B1 )={B1 C1,
B1 C2, B1 C3}如果决定选取B1 C2,则d2(B1)= B1 C2。
12
4、策略与子策略。策略是一个决策序列的集合。当k=1时
,P1n(S1)={d1(s1),d2(s2),…,dn(sn)}就称为全过程的一个策
略,简称策略,简记为P1n(S1). 称Pk,n(Sk)= {dk(sk),dk+1(sk+1),…,dn(sn)}为由第k阶段开始 到最后阶段止的一个子策略,简称后部子策略。简记为 Pk,n(Sk) 称可供选择策略的范围,为允许策略集,用P表示。 动态规划方法就是要从允许策略集P中找出最优策略P1n*。 5、状态转移方程。它是确定过程由某一阶段的一个状态到 下一阶段另一状态的演变过程,用Sk+1=Tk(Sk,dk)表示。该 方程描述了由第k阶段到第k+1阶段的状态转移规律。因此 又称其为状态转移函数。
②“维数障碍”:当变量个数太多时,由于计算 机内存和速度的限制导致问题无法解决。有些问题由于 涉及的函数没有理想的性质使问题只能用动态规划描述, 而不能用动态规划方法求解。
10
§4.2
动态规划的基本概念
一、动态规划的基本要素
1、阶段。阶段的划分,一般根据时序和空间的自然特征 来划分,但要便于把问题的过程能转化为阶段决策的过程。 描述阶段的变量称为阶段变量,常用自然数k表示。如引例 可划分为4个阶段求解,k=1,2,3,4。 2、状态。状态就是阶段的起始位置。它既是该阶段某支 路的起点,又是前一阶段某支路的终点。 (1)状态变量和状态集合。描述过程状态的变量称为状态 变量。它可用一个数、一组数或一向量(多维情形)来描述 ,常用Sk表示第k阶段的状态变量。通常一个阶段有若干个 状态。第k阶段的状态就是该阶段所有始点的集合。如引例 中
7
所谓多阶段决策问题是:把一个问题看作是一个前后关 联具有链状结构的多阶段过程,也称为序贯决策过程。如下 图所示:
决策 状态 1 状态 2 决策 状态 状态 n 决策 状态
②在处理各阶段决策的选取上,不仅只依赖于当前面临 的状态,而且还要注意对以后的发展。即是从全局考虑解决 局部(阶段)的问题。 ③各阶段选取的决策,一般与“时序”有关,决策依赖 于当前的状态,又随即引起状态的转移,整个决策序列就是 在变化的状态中产生出来,故有“动态”含义。因此,把这 种方法称为动态规划方法。 ④决策过程是与阶段发展过程逆向而行。 8
14
(2)用于衡量所选定策略优劣的数量指标,称为指标函数 。它是定义在全过程和所有后部子过程上确定的数量函数 。记为Vk,n(Sk,Pk,n). Vk,n(Sk,Pk,n)=Vk,n(Sk,dk,Sk+1,…Sn+1) k=1,2,…,n。
构成动态规划模型的指标函数,应具有可分离性,并满足 递推关系。
方法有以下四种类型:离散确定型、离散随机型、连续确定 1 型和连续随机型。
§4.1
动态规划的基本概念和最优化原理
B1
7 4
一、引例(最短路问百度文库) C1 C2
3 4 6 3
2
6 3 2
D1
3
A
3
4
B2
4 6
E
4
3
2 5
D2
B3
C3
3
假如上图是一个线路网络,两点之间连线上的数字表示 两点间的距离(或费用),我们的问题是要将货物从A地运 往E地,中间通过B、C、D三个区域,在区域内有多条路径 可走,现求一条由A到E的线路,使总距离最短(或总费用 最小)。 2
将该问题划分为4个阶段的决策问题,即第一阶段为从A 到Bj(j=1,2,3),有三种决策方案可供选择;第二阶段 为从Bj 到Cj (j=1,2,3),也有三种方案可供选择;第三阶 段为从Cj 到Dj(j=1,2),有两种方案可供选择;第四阶段为 从Dj 到E,只有一种方案选择。如果用完全枚举法,则可 供选择的路线有3×3×2×1=18(条),将其一一比较才 可找出最短路线: A→B1→C2→D3→E 其长度为12。 显然,这种方法是不经济的,特别是当阶段数很多,各 阶段可供的选择也很多时,这种解法甚至在计算机上完成 也是不现实的。 由于我们考虑的是从全局上解决求A到E的最短路问题 ,而不是就某一阶段解决最短路线,因此可考虑从最后一 阶段开始计算,由后向前逐步推至A点: 3
第三讲 动态规划 (Dynamic Programming)
动 态 规 划 是 1951 年 由 美 国 数 学 家 贝 尔 曼 ( Richard Bellman)提出,它是解决一类多阶段决策问题的优化方法, 也是考察问题的一种途径,而不是一种算法(如LP单纯形法 )。因此它不象LP那样有一个标准的数学表达式和明确定义 的一组规则,而必须对具体问题进行具体分析处理。 动态规划方法是现代企业管理中的一种重要决策方法。如 果一个问题可将其过程划分为若干个相互联系的阶段问题, 且它的每一阶段都需进行决策,则这类问题均可用动态规划 方法进行求解。 根据多阶段决策过程的时序和决策过程的演变,动态规划
j k n
②
v k S k , d k Vk 1 S k 1 , P k15 ,n
(3)最优指标函数fk(Sk),表示从第k阶段的状态Sk开始采用 最优子策略P*k,n,到第n阶段终止时所得到的指标函数值。 即fk(Sk)=Opt Vk,n(Sk,dk,…Sn+1)
其中Opt是最优化(Optimum)的缩写,可根据题意取