动态规划(工程)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

12 11
C3
10
f4 (D ) = d(D →E) +f5(E) = 5+0 = 5 1 1
B1
2 10 6
12 14
C1
9 6
3
f4(D1)=5
D1
5
f5(E)=0
A
5
B2
4 13
10
C2
5 8
E D2
f4(D2)=2
2
1
B3
12 11
C3
10
f4 (D2 ) = d(D2 →E) +f5(E) = 2 +0 = 2
状态应满足无后效性
决策: ( desicion )
从某阶段的某个状态出发, 从某阶段的某个状态出发,在若干个不同 方案中作出的选择,这种选择称为决策。 方案中作出的选择,这种选择称为决策。 阶段状态为S 在 k 阶段状态为 k时的决策用决策变量 Xk ( Sk ) 表示, 决策变量的允许取值范围 表示, 表示, 用 Dk ( Sk ) ——允许决策集合 表示,且 Xk ( Sk ) ∈ Dk ( Sk ) 。
f2(B1)=21
f3(C1)=8
12 14
B1
f1(A)=19
2 5 10 f2(B2)=14 6
C1
f3(C2)=7
9 6
3
f4(D1)=5
D1
5
f5(E)=0
A
B2
4 13
10
C2
5 8
E D2
f4(D2)=2
2
1
B3
f2(B3)=19
12 11
C3
f3(C3)=12
10
状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态 A ( A,B2) B2 (B2,C1) C1 (C1,D1) D1 ,
P1, n ( xk )={ X1 ( S1 ) , X2 ( S2 ) …… Xn ( Sn ) }
子过程策略——第k阶段到最后阶段的决策序列 子过程策略 第 阶段到最后阶段的决策序列
Pk , n ( xk )={ Xk ( Sk ) , Xk+1 ( Sk+1) …… Xn ( Sn ) }
状态转移方程
指标函数和最优指标函数值
阶段指标函数——从状态 k 出发,采取策略 从状态S 出发, 阶段指标函数 从状态 时所得到的k阶段的效益 阶段的效益。 { Xk }时所得到的 阶段的效益。用 g k ( sk , xk ) 表示
最优指标函数值—— f k( Sk )= )=opt Vk,n ( Sk , Pk,n ( Sk )) 最优指标函数值
f2(B1)=21
f3(C1)=8
12 14 6 10
B1
f1(A)=19
2 5 10
C1
f3(C2)=7
9 6
3
f4(D1)=5
f2(B2)=14
D1
5
f5(E)=0
A
B2
4 13
C2
5 8
E D2
f4(D2)=2
2
1
B3
f2(B3)=19
12 11
C3
f3(C3)=12
10
状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态 A ( A,B2) B2 (B2,C1) C1
f2(B1)=21
f3(C1)=8
12 14 6 10
B1
f1(A)=19
2 5 10
C1
f3(C2)=7
9 6
3
f4(D1)=5
f2(B2)=14
D1
5
f5(E)=0
A
B2
4 13
C2
5 8
E D2
f4(D2)=2
2
1
B3
f2(B3)=19
12 11
C3
f3(C3)=12
10
状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态 A ( A,B2) B2
f2(B1)=21
f3(C1)=8
12 14 6 10
B1
2 10
C1
f3(C2)=7
9 6
3
f4(D1)=5
f2(B2)=14
D1
5
f5(E)=0
A
5
B2
4 13
C2
5 8
E D2
f4(D2)=2
2
1
B3
f2(B3)=19
12 11
C3
f3(C3)=12
10
(B3,C ) +f3(C ) 13+8 21 1 1 f2 (B3) = m (B3,C2 ) +f3(C2 ) = m 12+7 = m =19 in in in 19 (B ,C ) +f (C ) +12 23 11 3 3 3 3 最 决 B3 →C2 优 策
动态规划
本章基本要求: 本章基本要求:
1. 理解多阶段决策问题 2. 掌握动态规划的基本概念 3. 掌握最优化原理的内容 4. 掌握动态规划的逆序解法
动态规划问题求解: 动态规划问题求解:
1. 以丰富的想象力去建立模型 2. 以创造性技巧求解
§1. 动态规划的基本概念
一. 多阶段决策问题
例1 . 4 A 5 3 8 B3 k=1 2 4 C3 3 B2 B1 6 4 3 1 C2 5 7 10 9 D3 4 6 D2 8 F C1 4 2 D1 7
f3(C1)=8
B1
2 10 6
12 14
C1
f3(C2)=7
9 6
Hale Waihona Puke Baidu
3
f4(D1)=5
D1
5
f5(E)=0
A
5
B2
4 13
10
C2
5 8
E D2
f4(D2)=2
2
1
B3
12 11
C3
f3(C3)=12
10
(C3, D ) +f4 (D ) 1 1 f3(C3 ) = m in (C3, D2 ) +f4 (D2 ) 13 8 +5 in in =m 优 策 = m =12 最 决 C3 →D2 10 12 + 2
(Dynamic Programming)
动态规划(DP)一般用于解决多阶段决策问 一般用于解决多阶段决策问 动态规划 题,应用广泛,可用于解决最优路径问题、资 应用广泛,可用于解决最优路径问题、 源分配问题、生产调度问题、库存问题、 源分配问题、生产调度问题、库存问题、生产 过程最优控制问题等, 过程最优控制问题等,是现代企业管理中一种 重要的决策方法。 重要的决策方法。
f2(B1)=21
f3(C1)=8
12 14 6 10
B1
f1(A)=19
2 5 10
C1
f3(C2)=7
9 6
3
f4(D1)=5
f2(B2)=14
D1
5
f5(E)=0
A
B2
4 13
C2
5 8
E D2
f4(D2)=2
2
1
B3
f2(B3)=19
12 11
C3
f3(C3)=12
10
, 1 (A B ) +f2 (B ) 2 +21 23 1 f1(A = m (A B2 ) +f2 (B2 ) = m 5+14 = m =19 ) in , in in 19 (A B ) +f (B ) 1+19 20 , 3 2 3 最 决 A→B2 优 策
f2(B1)=21
f3(C1)=8
12 14 6
B1
2 10
C1
f3(C2)=7
9 6
3
f4(D1)=5
f2(B2)=14
D1
5
f5(E)=0
A
5
B2
4 13
10
C2
5 8
E D2
f4(D2)=2
2
1
B3
12 11
C3
f3(C3)=12
10
14 (B2 ,C ) +f3(C ) 6+8 1 1 f2 (B2 ) = m (B2 ,C2 ) +f3(C2 ) = m +7 = m =14 in in 10 in 17 (B ,C ) +f (C ) 4 +12 16 3 3 2 3 最 决 B2 →C 优 策 1
f2(B1)=20
f3(C1)=8
12 14
B1
2 10 6
C1
f3(C2)=7
9 6
3
f4(D1)=5
D1
5
f5(E)=0
A
5
B2
4 13
10
C2
5 8
E D2
f4(D2)=2
2
1
B3
12 11
C3
f3(C3)=12
10
(B ,C ) +f3(C ) 12+8 20 1 1 1 f2 (B ) = m (B ,C2 ) +f3(C2 ) = m 14 +7 = m 21 = 20 in in in 1 1 (B ,C ) +f (C ) +12 22 10 3 3 1 3 最 决 B →C 优 策1 1
策略: ( policy )
全过程——从第一阶段到最后阶段的整个过程 全过程 从第一阶段到最后阶段的整个过程 全过程策略——从第一阶段到最后阶段,由每 全过程策略 从第一阶段到最后阶段, 从第一阶段到最后阶段 个阶段的决策 Xk ( Sk ) (k=1,2…n)组成的决 ) 策函数序列称为全过程策略, 策函数序列称为全过程策略 如下
三. 动态规划的基本方程
(1 ) 当
V
k , n
= ∑ g ( S
j= k j
n
j
, x )
f3(C1)=8 B1 2 A 5 1 B3 10 6 B2 4 13 12 11 C3 10 C2 5 8 10 D2 f4(D2)=2 2 6 12 14 C1 9 3 f4(D1)=5 D1 5 f5(E)=0 E
(C1, D ) +f4 (D ) 1 1 f3(C ) = m in 1 (C1, D2 ) +f4 (D2 ) 3+5 8 =m in in 优 策 = m = 8 最 决 C1 →D 1 9 + 2 11
例1 .
16 B1 6 4 3 1 8 4 4 5 3
10 C1 13 C2 5 7 15 10 C3 3 4 2
7 D1 8 D2 6 9 D3 4 8 6 F 7
18 A
13 B2 19 B3
k=1
2
最短路径问题
B1
2 5 10 6 6 10 4 13 12 14 9
C1
3
D1
5
A
B2
C2
5 8
§2. 动态规划的最优化原理
一.基本思想 “ 即分又合 ” 二. 最优化原理 整个过程的最优策略具有这样的性质: 整个过程的最优策略具有这样的性质:无论 过去的状态和决策如何, 过去的状态和决策如何,对先前决策所形成的 状态而言,余下的诸决策必构成最优策略。 状态而言,余下的诸决策必构成最优策略。
Sk+1 =T ( Sk , Xk ) —— k+1阶段的状态是 的状态和决策的函数。 k 阶段 的状态和决策的函数。
指标函数和最优指标函数值
指标函数——从状态 k 出发,采取策略 从状态S 出发, 指标函数 从状态 时所得到的效益。 { Xk , Xk+1 ,…… ,Xn }时所得到的效益。
Vk , n ( sk , xk , xk+1 , …, xn ) = Vk , n [sk , pk , n ( sk )] ]
f3(C1)=8
B1
2 10 6
12 14
C1
f3(C2)=7
9 6
3
f4(D1)=5
D1
5
f5(E)=0
A
5
B2
4 13
10
C2
5 8
E D2
f4(D2)=2
2
1
B3
12 11
C3
10
(C2 , D ) +f4 (D ) 1 1 f3(C2 ) = m in (C2 , D2 ) +f4 (D2 ) 11 6+5 =m in in 优 策 = m = 7 最 决 C2 →D2 5+ 2 7
二.基本概念
阶段: 阶段: ( stage ) 表示阶段变量, 中 用k表示阶段变量,例1中k=1、2、3、4 表示阶段变量 、 、 、 状态: 状态: ( state ) 表示每一阶段开始所处的自然状况或客观条件 表示k阶段状态 为该阶段所有状态集合。 阶段状态, 用 Sk 表示 阶段状态,为该阶段所有状态集合。 如例1中第 阶段 如例 中第3阶段: S3 ={ C1 , C2 , C3 , C4 } 中第 阶段:
f2(B1)=21
f3(C1)=8
12 14
B1
f1(A)=19
2 5 10 f2(B2)=14 6
C1
f3(C2)=7
9 6
3
f4(D1)=5
D1
5
f5(E)=0
A
B2
4 13
10
C2
5 8
E D2
f4(D2)=2
2
1
B3
f2(B3)=19
12 11
C3
f3(C3)=12
10
状态 最优决策 状态 最优决策 状态 最优决策 状态 最优决策 状态 A ( A,B2) B2 (B2,C1) C1 (C1,D1) D1 (D1,E) 从A到E的最短路径为19,路线为A→B 2→C1 →D1 →E E
E D2
2
1
B3
12 11
C3
10
求从A到E的最短路径
B1
2 10 6
12 14
C1
9 6
3
D1
5
f5(E)=0
A
5
B2
4 13
10
C2
5 8
E D2
2
1
B3
12 11
C3
10
B1
2 10 6
12 14
C1
9 6
3
f4(D1)=5
D1
5
f5(E)=0
A
5
B2
4 13
10
C2
5 8
E D2
2
1
B3
相关文档
最新文档