3-1随机决策过程的几个模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P(2,-2)=U或D
x=1,
y=1,-1 时,
s(1,1) min(3 / 4)(0 0) (1/ 4)(0 300)(1/ 4)(0 0)(3 / 4)(0 300) 75,
P(1,1)=U
s(1,1) min(3 / 4)(0 300) (1/ 4)(0 12)(1/ 4)(0 300)(3 / 4)(0 12) 84,
y
0
0
10 0 0 0 0 1200
0
A
0
x
图35
12
12
B
现在出现的问题是,这个问题采取什么形式的解?因为这是随机 问题,策略和决策序列是完全不同的事情,决策序列规定一个决策和 它前面的决策结果是无关的,而策略则与前面的结果有关。 最忧策略序列比较容易叙述,并不要求旅行者在每一个阶段注意 他到底在什么地方,即状态如何。而最优策略总是产生至少和最优决 策序列一样的小(通常是小些)的期望费用。这是因为策略利用了在 每一个状态的所有信息,具有更大的适应性。当然也可以将最优决策 序列想像成受下面规定约束的最优策略:在每个阶段的所有决策必须 相同而不管状态如何。 考虑到控制理论中的术语,称由决策序列确定的解是开环控制,由
6 6 G(2,2,5) min 12, p(2,2,5) U , 8 5
3 5 G(2,0,5) min 8, p(2,0,5) U , D 1 7
5 7 G(2,2,5) min 9, p(2,2,5) D, 4 5
(3.1.12)求出最优期望的费用.
时,
解:x2=3, x3=5, x1=1.
x x2
3 0 H (4,4) min 1, p(4,4) D, 1 0
7 0 H (4,2) min 3, p(4,2) D, 3 0
4 0 H (4,0) min 2, p(4,0) D, 2 0
4
二、随机停止时间问题 在很多实际问题中,例如生命的历程,一场排球比赛的历程,不 仅决策的转移是随机的,而且整个过程的历程也是随机的,为了对这 这种问题有比较清楚的认识,这里解一个不定时间的最小期望道路问
题。属于这类问题的其他模型将在本章§4 讨论。 图37
在图37的网络中,旅行者从A(点(0,0))出发对角向右 下移动,向上的费用是au(x,y)向下的费用是ad(x,y)。这 个问题的困难是过程开始时旅行者并不知道是到达直线B(x=x2) 还是直线C(x=x3)时停止前进。又设已知到达B时停止的概率是pB, 而到底C时停止的概率是pc=1-pB,当旅行者到达直线D(x=x1) 且在此做出决策前,得到通知过程在哪一条线结束。 设我们处在过程中的某一阶段,已知所处结点的坐标。如果 阶段在x1和 x2之间(包括x1和 x2 ),在x1阶段就应该知道在什么 地方停止;如果x<x1,当然还不知道这个信息;如果x>x2,显然x3是 期望函数,他们是: 在 x x1 1 时, F(x,y)=从(x,y)出发的其余过程的最小期望费用; (3.1.4) 在 x1 x x2 时, G(x,y,z)=从(x,y)出发且在z停止(z=x2或z=x3)的其余过程的 最小费用; (3.1.5)
第三编 随机动态规划
第一章 随机决策过程的几个模型
§1 随机道路问题
一、简单模型的三种类型的解
图35是一个简单的网络,弧上的数字是通过该弧的费用。现要求以最小 的费用从结点A行进到直线B。在每个结点都有两个决策,对角向上或向下一 个旅行者在某个结点被通知向上走(决策U),由于种种原因他只能以等于 3/4 的概率记住这个通知向上走,而以1/4的概率忘掉这个通知对角向下走。 反之,如果在这个结点通知对角向下走(决策D),它将以3/4 的概率向下 走而以1/4的概率向上走。这个旅行者在每个结点都遵守这样的规则,而不 管在前面的结点是遵守通知还是忘记通知。结果,不管通知如何,都不确定 这个旅行者行走的路线,而只能求出他走各种可能道路的概率。我们的目标 是使这个旅行者的期望费用最小。
U : (3 / 4)au ( x, y) s( x 1, y 1) (1/ 4)ad ( x, y) S ( x 1, y 1) s( x, y) min D : ( 1 / 4 ) a ( x , y ) s ( x 1 , y 1 ) ( 3 / 4 ) a ( x , y ) s ( x 1 , y 1 ) u d
在 x x2 时, H(x,y)=从(x,y)出发且在x=x3停止的其余过程的最小费用. (3.1.6) 这里只有(3.1.4)才是期望费用.因为一旦第二,三两个最优值函数的 自变函数的自变量给定以后,过程的历程就知道了. (3.1.4), (3.1.5), (3.1.6)式的递推关系和x有关. 在 x x1 2 时, 递推关系:
8个决策序列的期望费用列在表17中。决策序列U-D-U具有最小的期 望费用120 3 。
16
其次,利用DP方法求最优反馈控制,定义最优期望值函数: s(x,y)=从顶点(x,y)出发且利用最优反控制策略时其余过 程的费用。 (3.1.1) 如果在(x,y)选择决策U,就以3/4转到(x+1,y+1);第一 步费用是au(x,y)其余期望费用是s(x+1,y+1);以概率1/4转 到(x+1,y-1),第一步费用是ad(x,y),其余期望费用是s(x +1,y-1)。如果在(x,y) 选择决策D,则情况颠倒。利用最优 化原理的随机形式(下面将严格证明其正确性) 得递推关系:
(3.1.8)
在图37中是x1=1时的特殊情形,当然不会用到(3.1.7); 在 x1 x x2 1 时, 递推关系有:
au ( x, y) G( x 1, y 1, z ) G( x, y) min . ad ( x, y) G( x 1, y 1, z )
P(2,2)=U或D
s(2,0) min(3 / 4)(1200 0) (1/ 4)(0 0)(1/ 4)(1200 0)(3 / 4)(0 0) 300
P(2,0)=D
s(2,2) min(3 / 4)(12 0) (1/ 4)(12 0)(1/ 4)(12 0)(3 / 4)(12 0) 12
策略确定的解是反馈控制。
首先求图35的最优开环控制(决策序列)。这只要研究全部共8 个由3个决策构成的决策序列。选出具有期望费用最小的决策序列来 即可。例如在确定型中这个问题的最优决策序列D-U-D以27/64的概 率时间产生由在“向下、向上、向下”构成的道路,费用为0;以9/6 的概率时间产生由“向上、向上、向下”构成的道路,费用是10;以 9/64的概率时间产生由“向下、向上、向上”构成的道路,费用是 1200 等等。将8个费用与它们相应的概率相乘再相加,得到这个决策序列 的期望费用: 27 9 3 1 1 EDUD 0 (10 12 1200 ) (12 10 10) 1210 192 64 64 64 64 4
4 6 G(1,1,3) min 3, p(1,1,3) D, 2 1
7 1 G(1,1,5) min 8, p(1,1,3) U , 6 4
4 12 G(1,1,5) min 10, p(1,1,5) D, 28
192
120
U-U-U
3 16 7 345 16
7 8
例3.1.1用公式(3.1.2)(3.1.3)解图35 的随机道路问题。 解:x=2,y=2,0,-2 时,
s(2,2) min(3 / 4)(0 0) (1/ 4)(0 0)(1/ 4)(0 0)(3 / 4)(0 0) 0
x1 x x2 1,
G(3,3,3) G(3,1,3) G(3,1,3) G(3,3,3) 0,
G(3,3,5) 6, P(3,3,5) U , D; G(3,1,5) 5, P(3,1,5) U , G(3,1,5) 7, P(3,1,5) D; G(3,3,5) 5, P(3,3,5) D.
5 0 H (4,2) min 4, p(4,2) D, 4 0
3 0 H (4,4) min 3, p(4,4) U , 5 0
5 1 H (3,3) min 6, p(3,3) U , D 3 3
( 3.1.2)
边界条件是 S(3,3)=0, s(3,1)=0, s(3,-1)=0, s(3,-3)=0 (3.1.3) 表17
决策序列 D-U-D
期望费用
192 1 4 3 229 4 21 346 32 3 121 4
219 7 16
D-U-U
D-D-U D-D-U
U-D-U
U-Dபைடு நூலகம்D U-U-D
P(1,-1)=D
x=0, y=0 时
1 s(0,0) min(3 / 4)(10 75) (1 / 4)( 0 84)(1 / 4)(10 75)( 3 / 4)( 0 84) 84 , 4
P(0,0)=D
图36中最优期望函数的值用圆圈标出,最优决策用方框标出,利用 最优反馈控制策略时,期望费用是 84 1 。
2 3 H (3,1) min 5, p(3,1) U , 5 2
7 2 H (3,1) min 7, p(3,1) D, 3 4
9 4 H (3,3) min 5, p(3,3) D; 2 3
边界条件: 对于所有y 在
(3.1.9)
G( x2 , y, x2 ) 0;
G( x2 , y, x3 ) H ( x2, y);
时, (3.1.11) (3.1.10)
x x2
au ( x, y) H ( x 1, y 1) . 递推关系: H ( x, y ) min ad ( x, y ) H ( x 1, y 1)
au ( x, y ) F ( x 1, y 1) F ( x, y ) min , ad ( x, y ) F ( x 1, y 1)
(3.1.7)
边界条件:
au ( x1 1, y) pBG( x1, y 1, x2 ) pC G( x1, y 1, x3 ) F ( x1 1, y) min . ad ( x1 1, y ) pBG( x1, y 1, x2 ) pC G( x1, y 1, x3 )
边界条件: 对所有的y, H(x,y)=0. (3.1.12) 计算次序应是从x3逆序解出.首先计算H,其次是G.对于两种停止情形 的每一种,都会给出在每个结点的不同费用和肯能的不同的决策.最后 计算F.
例3.1.2 在图38的网络中,
1 2 pB , pC 用公式(3.1.7) 3 3,
6 0 G(2,2,3) min 6, p(2,2,3) U , 8 0
3 0 G(2,0,3) min 1, p(2,0,3) D, 1 0
5 0 G(2,2,3) min 4, p(2,2,3) D, 4 0