运筹学资料:10动态规划

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

min
2
7*
9
r2 (B3,C3) f3C3
5 6
12 2 A4
3
11
B1
6
7 4
93
B2 2
9
4 6
B3
2 5
6
C1 3
3
4
7
D1 3
C2
6 3
E 44
63
D2
C3 3
f1(s1) min{ r1(s1, x1) f2 (s2 )}
r1( A, B1) f2 B1
2 11
f1A
6、状态转移方程
由某一阶段的一个状态到下一阶段另一状态的演变过程,用
Sn+1=Tn(Sn,Xn)表示。该方程描述了由第n阶段到第n+1阶段的状态
转移规律。Tn因问题不同而不同.
11
6
12 2 A4
3
B1
7 4
6
93
B2 2
4
96
B3
2 5
C1 3
4
7
6
C2 3
63 C3 3
3
D1 3 E
44
D2
S3=T2(S2,X2)= T2(B1,C2)=C2 S3=T2(S2,X2)= T2(B1,C3)=C3
11
6
12 2 A4
3
B1
7 4
6
93
B2 2
4
96
B3
2 5
C1 3
4
7
6
C2 3
63 C3 3
3
D1 3 E
44
D2
P1,4(S1)={B3,C2,D2,E} P2,4(S2)={C2,D2,E}
一、动态规划的基本要素
5、阶段指标、最优指标函数
(1)阶段指标:衡量某阶段决策效益优劣的数量指标。
寻优方向
第三节 动态规划的实际应用
广泛的应用:工程技术、企业管理、工农业生产及军事等部门 企业管理方面:动态规划可以用来解决最短路问题、资源分配 问题、设备更新问题、背包问题、生产存储问题等等。 是现代企业管理中的一种重要决策方法。许多问题用动态规划 的方法去处理.特别对于离散性的问题,由于解析数学无法施 展其术,而动态规划的方法就成为非常有用的工具。
动态规划
第一节 多阶段决策过程最优化举例
一 引例:最短路径问题
【特点】存在一个始点,一个终点,始点与终点间存在着若 干个中间点。
4 3 A3
2
B1
2
61
4 B2 7
2
48 B3 3
75 1
B4
C1 8
6
C2
7 5
1 C3 6
D1 10 E
6 D2
将货物从A地运往E地,中间通过B、C、D三个区域,在区域 内有多条路径可走,求一条由A到E的线路,使总距离最短 (或总费用最小)。
一、动态规划的基本要素
3、决策与决策变量
决策:在某阶段内的选择
决策变量:常用Xk(Sk)表示第k阶段处于状态Sk时的决策变量
11
6
12 2 A4
3
B1
7 4
6
93
B2 2
4
96
B3
2 5
C1 3
4
7
6
C2 3
63 C3 3
3
D1 3 E
44
D2
如第二阶段中,若从B1出发,X2(B1)={C1, C2, C3} 如果决定选取B1 C2,则X2(B1)= C2。
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
4
7
6
C2 3
63 C3 3
f3 (s3 ) min{ r3 (s3, x3 ) f4 (s4 )}
f3C1
min
r3(C1, D1 r3(C1, D2
) )
f4 D1 f4 D2
3 3
min
4
4
6
f3C2
一、资源分配问题: 将数量一定的资源分配给若干个使用者,从而达到一个最 理想的目标(利润最大或成本最小)。
• 当各个阶段决策确定后,就组成了一个决策序列,这个决 策序列是在不断变化的状态产生的,即“动态”中产生的, 把处理“动态”中产生的决策序列的方法称为动态规划。 (Dynamic Programming).
动态规划
把一个问题可看作是一个前后关联具有链状结构的 多阶段过程如下图所示就称为多阶段决策过程,也称序 贯决策过程。
【具体作法】先研究最后一个阶段,找到每个阶段起点到
最后一个终点的最短距离,将其标在该点上方,同时划去多 余路线,最后在保留的路线中确定最短路径。
12 B1
2
14 A
4 3 3
61
13
4
B2 7
2
2 14 4 8 B3 3
75
12
1
I B4
II
12
C1 8
11 6
C2
7 5
11 1 C3 6
10 D1 10 66 E D2
两点之间连线上的数字表示两点间的距离(或费用), 问题是
4 3 A3 2
I
B1
2
61
4 B2 7
2
48 B3 3
75 1
B4
II
C1 8
6
C2
7 5
1 C3 6

D1 10 E
6 D2

逆序解法:从最后一个阶段开始,从后向前决策确定每个阶段各始 点到终点E的最短距离 得到从起点A到终点 E的最短路径。
它是逆序法和基本方程成立的理论依据。
Sk Xk(Sk) P1,n(S1),Pk,n(Sk) f1(S1),fk(Sk)
rj(Sj,Xj)
fk(Sk)=opt{rk(Sk,Xk)+ fk+1(Sk+1)} (k=n,n-1,n-2,n-3….1) 终点条件:fk+1(Sk+1)=0
五、求解动态规划模型的方法
寻优方向
fk(sk)=opt rk(sk,xk) + fk+1(sk+1))
按上图示意的求解方法称为逆序法。例如引例的求解, 就是把A看作始端,E为终端,规定从A到E为过程的行进 方向,而寻优则是从E到A逆过程进行,所以是采用了逆 序法。
2、在已知终止状态Sn下,采用顺序解法(正向递归) 如果我们把引例中E看作始端,A为终端,规定从E到A
(2)指标函数:是衡量全过程策略或K子过程策略优劣的数 量指标。记为f1 (s1)或 fk (sk).
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
4
7
6
Cห้องสมุดไป่ตู้ 3
63 C3 3
3
D1 3 E
44
D2
f1(s1)= f1(A)= 12 f3(C1)= 6 f3(C2)=7
一、动态规划的基本要素
状态:就是阶段的起始位置
状态变量:可用一个数、一组数或一向量(多维情形)来描述。
Sk表示第k阶段的状态变量。
通常一个阶段有若干个状态。第k阶段的状态就是该阶段所有始点的集合。
11
6
12 2 A4
3
B1
7 4
6
93
B2 2
4
96
B3
2 5
C1 3
4
7
6
C2 3
63 C3 3
3
D1 3 E
44
D2
S1 A, S2 B1, B2, B3,S3 C1,C2,C3 ,S4 D1,D2
决策
状态
状态
1
决策 状态
2
决策
状态
状态
n
动态规划
• 1951年,美国数学家贝尔曼(Richard Bellman)提 出,它是解决多阶段决策问题的优化方法,也是考察 问题的一种途径。
• 不是一种算法(如LP单纯形法)。因此它不象LP那样 有一个标准的数学表达式和明确定义的一组规则,而 必须对具体问题进行具体分析处理。
44
D2
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
4
7
6
C2 3
63 C3 3
3
D1 3 E
44
D2
f4 (s4 ) min{r4 (s4 , x4 ) f5 (s5 )} f4 (D1) min{r4 (D1, E) 0} 3 f4 (D2 ) min{r4 (D2, E) 0} 4
二、基本方程 对于n阶段的动态规划问题,在求子过程上的最优指标函数时, K子过程与k+1子过程有如下递推关系:
fk sk minrk sk , xk fk1 sk1 k n, n 1,...,2,1
终点条件fn1sn1 0
一般情况下目标函数求最大或最小,用opt代替
fk (sk ) 0Ptrk (sk , xk ) fk1(sk1) ,


第二节动态规划的基本概念 一、动态规划的基本要素
1、阶段与阶段变量 阶段:一般根据时间或空间的自然特征来划分 阶段变量:常用自然数k表示。
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
4
7
6
C2 3
63 C3 3
3
D1 3 E
44
D2
一、动态规划的基本要素
2、状态与状态变量。
动态规划
动态规划是一种解决多阶段决策过程最优化问题的原 理和方法。其主要思路是将较复杂的问题,划分成若 干个阶段,逐段求最优解,最终达到全局最优。
➢ 根据时间参量是离散型变量还是连续型变量将DP模 型分为离散决策过程和连续决策过程; ➢根据决策过程的演变是确定性的还是随机性的,DP模 型又可分确定性决策过程和随机性决策过程。 ➢本章主要是离散确定性决策过程。
k n, n 1,1
fn1(sn1) 0(边界条件)
fk sk minrk sk , xk fk1 sk1 k n, n 1,...,2,1
终点条件fn1sn1 0
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
4
7
6
C2 3
63 C3 3
3
D1 3 E
1、将问题的过程划分成恰当的阶段; 2、正确选择状态变量Sk 3、确定决策变量Xk ; 4、正确写出状态转移方程; 5、确定最优函数的递推关系式:
四、最优化原理:
对于最优策略上的某个阶段,不管该阶段以前的状态和 决策如何,该阶段以后的所有决策必定是最优子策略, 也就是说最优策略中的任一子策略也必定是最优的。
6 6
r2 (B2 , C2 ) f3 C1
3 6 *
f2 B2 min r2 (B2 , C2 )
f3 C2
min
2
7*
9
r2 (B2 , C3 ) f3 C3
4 6
r2 (B3, C1) f3C1
6 6
f2 B3
minr2 (B3, C2 )
f3C2
过程为行进方向,而寻优则是从A到E过程进行求解的方 法称为顺序法。其示意图如下:
x1(s1)
x2(s2)
s0 阶段1 s1 阶段2
xk(sk) xk+1(sk+1)
xn(sn)
sk+1 阶段k sk 阶段k+1 … 阶段n
sn
r1(s1,x1) r2(s2,x2)
rk(sk,xk) rk+1(sk+1,xk+1) rn(sn,xn)
6
C1 3
3
4
7
D1 3
C2
6 3
E 44
63
D2
C3 3
f2 (s2 ) min{ r2 (s2 , x2 ) f3 (s3 )}
r2 (B1, C1 ) f3 C1
7 6
f2 B1 min r2 (B1, C2 )
f3 C2
min 4
7*
11
r2 (B1, C3 ) f3 C3
用rj(Sj,Xj)表示第j阶段的Sj状态做出Xj决策的数量指标。在不同的具体问 题中,其含义不同。它可以是距离、利润、成本等。
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
4
7
6
C2 3
63 C3 3
3
D1 3 E
44
D2
如r2(B1,C3)=6表示在第2阶段由点B1到点C3距离为6。
1、在已知初始状态S1下,采用逆序解法:(反向递归)
x1(s1)
x2(s2)
xk(sk) xk+1(sk+1)
xn(sn)
s1 阶段1 s2 阶段2 … sk 阶段k sk+1 阶段k+1 … sn 阶段n
r1(s1,x1) r2(s2,x2)
rk(sk,xk) rk+1(sk+1,xk+1)
rn(sn,xn)
第十章 动态规划
Dynamic programming
多阶段决策过程
• 在生产和科学实验中,有一类活动的过程,由于它的特殊 性,可将过程分为若干个互相联系的阶段,在它的每一个 阶段都需要作出决策,从而使整个过程达到最好的活动效 果。
• 各个阶段决策的选取不是任意确定的,它依赖于当前面临 的状态,又影响以后的发展。
一、动态规划的基本要素 4、策略与子策略
策略:是一个决策序列的集合。
当k=1时,P1,n(S1)={X1(s1),X2(s2),…,Xn(sn)}就称为全过程的一个策 略,简称策略,简记P1,n(S1).
子策略:第k阶段开始到最后阶段的决策组成的决策序列称为K子策略
Pk,n(Sk)= {Xk(sk),Xk+1(sk+1),…,Xn(sn)}为由。简记PK,n(Sk)
min
r3 (C2 , D1 r3(C2 , D2
) )
f4 D1 f4 D2
min 3643*
7
f3C3
min
r3(C3, D1 r3(C3, D2
) )
f4 D1 f4 D2
min 3334*
6
3
D1 3 E
44
D2
12 2 A4
3
11
B1
6
7 4
93
B2 2
9
4 6
B3
2 5
minr1( A, B2 ) r1( A, B3 )
f2 B2 f2 B3
min
4
9
3 9*
12
f1(A)=12说明从A到E的最短距离为12,最短路 线的确定可按计算顺序反推而得。即
相关文档
最新文档