数学建模(动态规划)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1
E2
D3
3
f3 (C 2 ) = 10 f3 (C3 ) = 8
u5*(E1) = F ,
u5*(E2 ) = F.
4
F
3
u
* 4
(
D1
)
=
E1.
u
* 4
(
D
2
)
=
E2.
(4)k=2时,状态 S 2 = {B1 , B2 }
f 2 ( B1 ) = min{ d 2 ( B1 , C1 ) + f 3 (C1 ), d 2 ( B1 , C 2 ) + f 3 (C 2 ),
动态规划模型的分类:
以“时间”角度可分成:离散型和连续型。
从信息确定与否可分成:确定型和随机型。
从目标函数的个数可分成:单目标型和多目标型。
动态规划问题及实例
一、多阶段决策过程 多阶段决策过程是指这样一类特殊的活动过程,他们可以
按时间顺序分解成若干相互联系的阶段,在每个阶段都要做 出决策,全部过程的决策是一个决策序列,所以多阶段决策 过程也称为序贯决策过程。这种问题就称为多阶段决策问题。
* 4
(
D3
)
=
E1.
u5*(E1) = F ,
D1
3
5 6
D2 2
1
D3
3
u5*(E2 ) = F.
E1
4
F
3
E2
u
* 4
(
D1
)
=
E1.
u
* 4
(
D
2
)
=
E2.
f3 (C 2 ) = min{ d 3 (C 2 , D1 ) + f 4 ( D1 ), d 3 (C 2 , D2 ) + f 4 ( D2 )}
相应的决策为:u
* 4
(D2
)
=
E2.
4
A
5
2
B1 3
6
8 7
B2
7
C1
5
8
4
C2 5
3
C3 4
8
C4 4
D1
3
5 6
D2 2
1
D3
3
u5*(E1) = F ,
u5* (E2 ) = F.
E1
4
F
3
E2
u
* 4
(
D1
)
=
E1.
u
* 4
(
D
2
)
=
E2.
f 4 ( D3 ) = min{ d 4 ( D3 , E1 ) + f 5 ( E1 ), d 4 ( D3 , E 2 ) + f5 ( E 2 )}
uk (sk ) 表示第k阶段当状态处于sk时的决策变量。
例如:u3(C2) = D1 表示走到C阶段,当处于C2 路口时,下一 步到D1. 决策变量允许的取值范围称为允许决策集合,第k阶段状态为 sk 时的允许决策集合记为 Dk (sk ) ,例如:D2 (B1) = {C1,C2,C3}
策略:一个按顺序排列的决策组成的集合。由每段的决策 按顺序排列组成的决策函数序列 称为k子过程策略。简称子策略,记为 。即
3
C3 4
8
C4 4
u
* 4
(
D3
)
=
E1.
D1
3
5
E1
6
D2 2
1
E2
D3
3
S4 = {C1, C2 , C3, C4}
u5*(E1) = F ,
u5*(E2 ) = F.
4
F
3
u
* 4
(
D1
)
=
E1.
u
* 4
(
D
2
)
=
E2.
f3 (C1 ) = min{ d 3 (C1 , D1 ) + f 4 ( D1 ), d 3 (C1 , D2 ) + f 4 ( D2 )}
表示。
例如,案例1中,S1 = {A}, S2 = {B1, B2}.












2
C1
5
8
B1 3
4
D1
3
4
6
C2 5
5
E1
4
6
A
5
8 7
3
C3 4
B2
7
8
C4 4
D2 2
1
D3
3
3
E2
F
第1阶段 第2阶段 第3阶段
第4阶段 第5阶段
决策:是指从某阶段的某个状态出发,在若干个不同方案中 做出的选择。表示决策的变量,称为决策变量,用 uk (sk ) 表示。
u5*(E1) = F , u5*(E2 ) = F.
4
A
5
2
B1 3
6
8 7
B2
7
C1
5
8
4
C2 5
3
C3 4
8
C4 4
D1
3
5 6
D2 2
1
D3
3
u5*(E1) = F ,
u5* (E2 ) = F.
E1
4
F
3
E2
(2)k=4 时,状态 S 4 = {D1 , D2 , D3} 它们到F 点需经过中途 点E,需一一分析从D 到 F的最短路:先说从D1到F 的最短路 有两种选择:经过 E1, E2, 比较最短。
状态的位置 状态转移方程 uk (sk ) :上一阶段到下一阶段的转移规则
指标函数 离
:从状态出发,采取决策时的路程距
最优指标函数
:第k阶段状态为 sk 时且采用最
佳走线策略,使从k位置及以后的路线最短。
2
C1
5
8
B1 3
4
D1
3
4
6
C2 5
5
E1
4
6
A
5
8 7
3
C3 4
B2
7
8
C4 4
D2 2
1
= min{3 + 4,5 + 3} = 7.
这说明由 D1 到F 的最短距离为7,其路径为 D1 → E1 → F.
相应的决策为:u
* 4
( D1 )
=
E1.
4
A
5
2
B1 3
6
8 7
B2
7
C1
5
8
4
C2 5
3
C3 4
8
C4 4
D1
3
5 6
D2 2
1
D3
3
u5*(E1) = F ,
u5* (E2 ) = F.
= min{1+ 4, 3 + 3} = 5.
即 D3 到F 的最短距离为5,其路径为 D3 → E1 → F.
相应的决策为:
u
* 4
( D3
)
=
E1.
f 4 ( D1 ) = 7
4
A
5
f4 (D2 ) = 5 f4 (D3) = 5
2
B1 3
6
8 7
B2
7
(3)k=3 时,状态
C1
5
8
4
C2 5
Bellman在1957年出版了《Dynamic Programming》一书, 是动态规划领域中的第一本著作。
动态规划问题及实例
动态规划是解决多阶段决策问题的一种方法,是现代企 业管理中的一种重要决策方法,可用于最优路径问题、资源 分配问题、生产计划和库存问题、投资问题、装载问题、排 序问题及生产过程的最优控制等。
二、多阶段决策问题的特点 过程可分为若干个相互联系的阶段;每一阶段都对应
着一组可供选择的决策;每一决策的选定即依赖于当前 面临的状态,又影响以后总体的效果。
动态规划问题及实例
三、具体实例 1、最短路线问题
给定一个线路网络,要从A向F铺设一条输油管道,各点间连 线上的数字表示距离,问应选择什么路线,可使总距离最短?
是指第k阶段从状态 sk 出发,采取决策 u k 时的效益,用
vk (sk ,uk ) 表示。而过程指标函数是从第k阶段的某状态出发,
采取子策略
时所得到的阶段
效益之和:
最优指标函数:表示从第k阶段状态为 sk 时采用最佳策略
到过程终止时的最佳效益。记为
其中 opt 可根据具体情况取max 或min。
即由 C4 到F 的最短距离为9,相应的决策为
u
* 3
(C
4
)
=
D3.
u
* 3
(C1
)
=
D1.
2
u
* 3
(C
2
)
=
D2.
B1
3
4
6
A
5
u
* 3
(C
3
)
=
D2.
8 7
B2
7
u
* 3
(C
4
)
=
D3.
f3 (C1 ) = 12
C1
5
8
4
C2 5
3
C3 4
8
C4 4
u
* 4
(
D3
)
=
E1.
D1
3
5
E1
6
D2 2
)
=
E1.
u
* 4
(
D
2
)
=
E2.
即由 C3 到F 的最短距离为8,相应的决策为
u
* 3
(C
3
)
=
D2.
f3 (C 4 ) = min{ d 3 (C 4 , D2 ) + f 4 ( D2 ), d 3 (C 4 , D3 ) + f 4 ( D3 )}
= min{8 + 5,4 + 5} = 9.
4
A
5
2
B1 3
6
8 7
B2
7
C1
5
8
4
C2 5
3
C3 4
8
C4 4
D1
3
5 6
D2 2
1
D3
3
u5*(E1) = F ,
E1
4
3
E2
u5* (E2 ) = F.
F
f 4 ( D1 ) = min{ d 4 ( D1 , E1 ) + f5 ( E1 ), d 4 ( D1 , E 2 ) + f5 ( E 2 )}
动态规划应用举例
例1 最短路线问题
基本思想:如果起点A经过B1,C1,D1,E1而到终点F,则由C1出 发经D1,E1到F点这条子路线,是从C1到F的最短路线。所以, 寻找最短路线,应该从最后一段开始找,然后往前递推。
状态变量 sk :各路线的位置 决策变量 uk (sk ) :第k阶段当状态处于 sk 时,决定下一个
动态规划
教学内容: 动态规划问题实例 动态规划的基本概念与原理 动态规划应用举例
引言
动态规划是解决多阶段决策过程最优化的一种方法。
该方法是由美国数学家贝尔曼(R. E. Bellman)等人在20世 纪50年代初提出的。他们针对多阶段决策问题的特点,提出 了解决这类问题的“最优化原理”,并成功地解决了生产管 理、工程技术等方面的许多问题,从而建立了运筹学的一个 新的分支,即动态规划。
动态规划问题及实例
2、生产与存储问题:
某工厂每月需供应市场一定数量的产品。供应需求所 剩余产品应存入仓库,一般地说,某月适当增加产量可 降低生产成本,但超产部分存入仓库会增加库存费用, 要确定一个每月的生产计划,在满足需求条件下,使一 年的生产与存储费用之和最小。
动态规划的基本概念与原理
动态规划的基本概念 阶段; 状态; 决策和策略; 状态转移方程; 指标函数。
动态规划的基本概念与原理
一。基本概念
阶段:是指问题需要做出决策的步数。阶段总数常记为n,相 应的是n个阶段的决策问题。阶段的序号常记为k,称为阶段 变量,k=1,2, …,n. k即可以是顺序编号也可以是逆序编号, 常用顺序编号。 状态:各阶段开始时的客观条件,第k阶段的状态常用状态
变量 sk 表示,状态变量取值的集合成为状态集合,用 Sk
= min{4 + 7,5 + 5} = 10.
即由 C2 到F 的最短距离为10,相应的决策为
u
* 3
(C
2
)
=
D2.
f3 (C 3 ) = min{ d 3 (C 3 , D2 ) + f 4 ( D2 ), d 3 (C 3 , D3 ) + f 4 ( D3 )}
= min{3 + 5,4 + 5} = 8.
= min{5 + 7, 8 + 5} = 12.
这说明由 C1 到F 的最短距离为12,相应的决策为
u
* 3
(C1
)
=
D1.
u
* 3
(C1
)
=
D1.
2
f 4 ( D1 ) = 7 4
B1 3
6
A
5
8 7
f4 (D2 ) = 5 f4 (D3) = 5
B2
7
C1
5
8
4
C2 5
3
C3 4
8
C4 4
u
⎧⎪⎪⎨⎪⎪⎪⎩
fk (sk f6 (s6 )
)= =0
uk
min
∈Dk ( sk
{d
)
k
(
sk
,
uk
(
sk
))
+
fk+1(uk (sk ))}
k = 5, 4,3, 2,1
最优性原理:最优策略的子策略必为最优。不管过去的状态
和决策如何,从眼下直到最后的诸决策必构成最优子策略。 动态规划的优点:
•可把一个N维优化问题化成N个一维优化问题求解。 •函数方程中附加某些约束条件,可使求解更加容易。 •求得最优解以后,可得所有子问题的最优解。 动态规划的缺点: •“一个”问题,“一个”模型,“一个”求解方法。且 求解技巧要求比较高,没有统一处理方法。
基本方程:此为逐段递推求和的依据,一般为:
⎧⎪⎪⎪⎨⎪⎪⎪⎩
fk (sk ) = fn+1(sn+1) =
0
opt {vk (sk ,uk (sk )) + fk+1(uk (sk ))}
uk ∈Dk (sk )
k = n,n−1,",2,1
式中opt 可根据题意取 max 或 min.
例如,案Βιβλιοθήκη Baidu1的基本方程为:
E1
4
F
3
E2
u
* 4
(
D1
)
=
E1.
f 4 ( D2 ) = min{ d 4 ( D2 , E1 ) + f 5 ( E1 ), d 4 ( D2 , E 2 ) + f5 ( E 2 )}
= min{6 + 4,2 + 3} = 5.
这说明由 D2 到F 的最短距离为5,其路径为 D2 → E2 → F.
D3
3
3
E2
F
逆序递推方程:
⎧⎪⎪⎨⎪⎪⎪⎩
f
fk (sk 6 (s6 )
)= =0
uk
min
∈Dk ( sk
{d
)
k
(
sk
,
uk
(
sk
))
+
fk+1(uk (sk ))}
k = 5, 4,3, 2,1
(1)k=5 时,状态 S 5 = {E1 , E 2 } 它们到F 点的距离即为
最短路。
f5 ( E1 ) = 4, f5 ( E 2 ) = 3;
u
* 3
(C1
)
=
D1.
2
u
* 3
(C
2
)
=
D2.
B1
3
4
6
A
5
8 7
f 4 ( D3 ) = 5 B2 7
C1
5
8
4
C2 5
3
C3 4
8
C4 4
u
* 4
(
D3
)
=
E1.
u5*(E1) = F ,
D1
3
5
E1
6
D2 2
1
E2
D3
3
f4 (D2 ) = 5
u5*(E2 ) = F.
4
F
3
u
* 4
(
D1
当k=1时,此决策函数序列成为全过程的一个策略,简称 策略,记为: 在实际问题中,可供选择的策略有一定的范围,此范围称 为允许策略集合,用P表示。 状态转移方程:是从上一阶段的某一状态值转变为下一阶段 某一状态值的转移规律,用
sk+1 = Tk (sk , uk ) 表示。
指标函数:分阶段指标函数和过程指标函数。阶段指标函数
相关文档
最新文档