管理运筹学-动态规划

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、典型动态决策问题建模及其求解
1、最短路线问题
例1：求下列图中A到F的最短路线及最短路线值。
B1
9 5
C1
1 5
D
1
4
3
2
A5
4
B2
3
5
8
C2
4
6
D6 29
E1 ቤተ መጻሕፍቲ ባይዱ F
4
2
1 B3 7
44
7
E2
C3 2
D
3
5
5
B1
9 5
C1
1 5
D
1
4
3
2
A5
4
B2
3
5
8
C2
4
6
D6 29
E1 1 F
4
2
1 B3 7
1951年,(美)数学家R.Bellman等提出最优化原理，从而建立动态规划，名著《动态规划》于1957年出版。
四、动态决策问题分类
1、按数据给出的形式分为：离散型动态决策问题。连续型动态决策问题。
2、按决策过程演变的性质分为：确定型动态决策问题。
随机型动态决策问题。
1
五、动态决策问题的基本要素
第三章：动态规划
3.1 基本概念
一、动态决策问题
决策过程具有阶段性和时序性(与时间有关)的决策问题。即决策过程可划分为明显的阶段。
二、什么叫动态规划(D.P.– Dynamic Program)
多阶段决策问题最优化的一种方法。广泛应用于工业技术、生产管理、企业管理、经济、军事等领域。
三、动态规划(D.P.)的起源
3、决策(decision)Xn：从一个阶段某状态演变到下一个阶段某状态的选择。
构成决策集，记为Dn(Sn)。
阶段的终点。
D1(S1)={X1(A)}={B1,B2,B3}= S2，
D2(S2)={X2(B1),X2(B2),X2(B3)}={C1,C2;C1,C2,C3 ;C2,C3 }={C1,C2,C3}=S3，
2
B1
9 5
C1
1 5
D
1
4
3
2
A5
4
B2
3
5
8
C2
4
6
D6 29
E1 1 F
4
2
1 B3 7
44
7
E2
C3 2
D
3
5
4、策略(policy)：全过程中各个阶段的决策Xn组成的有序总体{Xn}。如 A B2 C1 D1 E2 F 上例从 A F 共有38种走法，即有38条路线，38个策略。
44
7
E2
C3 2
D
3
5
1、阶段(stage)n： n = 1、2、3、4、5。
2、状态(state)Sn： S1={A}，S2={B1,B2,B3}，S3={C1,C2,C3}，S4={D1,D2,D3}，S5={E1,E2}。
3、决策(decision)Xn：决策集Dn(Sn)。 D1(S1)={X1(A)}={B1,B2,B3}= S2， D2(S2)={X2(B1),X2(B2),X2(B3)}={C1,C2;C1,C2,C3 ;C2,C3 }={C1,C2,C3}=S3， D3(S3)={X3(C1),X3(C2),X3(C3)}={D1,D2;D1,D2,D3; D1,D2,D3}={D1,D2,D3}=S4， D4(S4)={X4(D1),X4(D2),X4(D3)}={E1,E2;E1,E2;E1,E2}={E1,E2}=S5， D5(S5)={X5(E1),X5(E2)}={F;F}={F}。
Z=opt[r1(s1,x1)* * rn(sn,xn)]。其中：opt为max或min，*为运算符号。如上例中， Z=min[d1(s1,x1)+ +dn(sn,xn)]=min[d1+d2+…+ dn]
3
3.2 最优化原理
一、R.Bellman最优化原理：
作为整个过程的最优策略，无任过去的状态和决策如何，对前面的决策形成状态而言，余下的诸决策必构成最优策略。
即：若M是从A到B最优路线上的任一点，则从M到B的路线也是最优路线。
M A
B
二、指标递推方程：
fn*(Sn) = opt [rn(sn,xn) * fn+1 *(sn+1)]
xn∈Dn(Sn)
如上例：
fn*(Sn) = min [dn(sn,xn)+ fn+1*(Sn+1) ]， n=4、3、2、1
6
x5∈D5(S5)
B1
9 5
C1
1 5
D
1
4
3
2
A5
4
B2
3
5
8
C2
4
6
D6 29
E1 1 F
4
2
1 B3 7
44
7
E2
C3 2
D
3
5
1
1
F
2
2
F
4+1=5
D3(S3)={X3(C1),X3(C2),X3(C3)}={D1,D2;D1,D2,D3; D1,D2,D3}={D1,D2,D3}=S4，
D4(S4)={X4(D1),X4(D2),X4(D3)}={E1,E2;E1,E2;E1,E2}={E1,E2}=S5，
D5(S5)={X5(E1),X5(E2)}={F;F}={F}。
B1
9 5
C1
1 5
D
1
4
3
2
A5
4
B2
3
5
8
C2
4
6
D6 29
E1 1 F
4
2
1 B3 7
44
7
E2
C3 2
D
3
5
1、阶段(stage)n：作出决策的若干轮次。n = 1、2、3、4、5。
2、状态(state)Sn：每一阶段的出发位置。构成状态集，记为Sn
S1={A}，S2={B1,B2,B3}，S3={C1,C2,C3}，S4={D1,D2,D3}，S5={E1,E2}。阶段的起点。
5、子策略(sub-policy) ：剩下的n个阶段构成n子过程，相应的决策系列叫n子策略。
如
C1 D1 E2 F
6、状态转移方程：前一阶段的终点(决策)是后前一阶段的起点(状态)。
Xn = Sn+1 7、指标函数：各个阶段的数量指标，记为rn(sn,xn)。
如上例中，用dn(sn,xn)表示距离。 d2(B3,C2)=1, d3(C2,D3)=6 等。 8、目标函数：策略的数量指标值，记为
4、状态转移方程：Xn = Sn+1
5、指标函数(距离)：dn(sn,xn)。 d2(B3,C2)=1, d3(C2,D3)=6 等。
6、指标递推方程：fn*(Sn) = min [rn(sn,xn)+ fn+1*(Sn+1) ]， n=4、3、2、1
xn∈Dn(Sn)
f5*(S5) = min [r5(s5,x5)]
xn∈Dn(Sn)
f5*(S5) = min [r5(s5,x5)]
x5∈D5(S5) 三、求解过程：
用反向嵌套递推法：从最后一个阶段开始，依次对各子过程寻优，直至获得全过程的最优，形成最优策略，获得最优策略指标值。
4
3.3 DP建模及求解
一、建模条件：
决策过程本身具有时顺序性或可以转化为具有时序性的决策问题，均可建立动态规划数学模型求解。