马氏决策规划简介上课讲义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

i1,2,......N
称 Qq(1),q(2).....q(N)T
为一次转移的期望报酬向量。
记 V n ( i ) 为系统由状态i经过n次转移之后的 总期望报酬,则有
N
N
v n (i) j 1p ij r ij v n 1 (j) q (i) j 1p ijv n 1 (j)
i 1,2.....N
马氏决策规划简介



★★
马尔可夫过程
马尔可夫过程是一类特殊的随机过程, 它因伟大的俄国数学家马尔可夫而得名。 这种过程的特点是存在着确定的转移概 率,与系统先前的历史无关,有一个很 形象的比喻来形容这个过程:池塘里的 青蛙在荷叶上跳来跳去,如果将它在某 一时刻所在的荷叶称为状态,则青蛙未 来处于什么状态只有它现在所在的状态 有关,与它以前所处的状态无关。这种
状态1:顾客到A购物,0.9
状态2:顾客到B购物,0.1
2.状态转移概率矩阵
假定市场调查数据显示,在随后的一周 内,上周去A购物的顾客有90%仍然在A 购物,有10%的顾客则流向了B,去B购 物的顾客有80%继续在B购物,而20% 则流向了A,这些状态转移概率可用如下
矩阵表示
3.一步平稳转移概率
qd(i) N
pidj
fn1(j)
d1,2
j1
f1(i)maxqd(i) d1,2
n 2,...
❖ 由于
Q 1 q q 1 1 ( (1 2 ) ) (P 1 ) (R 1 ) 0 0 ..4 50 0 ..6 5 9 3 3 7 6 3
Q 2 q q 2 2 ( (1 2 ) ) (P 2 ) (R 2 ) 0 0 ..7 80 0 ..2 3 1 4 4 1 9 4 5
仍以上述工厂为例,设该工厂在每个状态可选的
决策是不登广告(记作方式1)或登广告(记作
方式2)。若不登广告,自然无广告费;若登广
告,要花额外的广告费,但下月初为销路好的概
率可增加。
决策方式1的状态转移矩阵及报酬矩阵为:
P1
0.5 0.4
0.5 0.6
R1
9
3
3
7
选决策方式2的状态转移矩阵及报酬矩阵为:
性质就是所谓的“一阶Markov性”或 “无后效性”
一:基本概念
❖ 1.状态转移概率
假定系统有n个可能的状态,处于这些 状态的概率分别为 p1,p2…pi ,…pn, 例如,有1000名顾客在每周只到A和B 购物,设定时间阶段为一周,在某一 周,有900名顾客到A购物,我们称为 状态1,有100名顾客到B,成为状态2, 因此,系统的两个状态和概率分别为
ppp1211
pp122200..45
0.5 0.6
若在上面所述的马氏过程中,当它在任意时刻
从状态i 转移到状态j时可以获得相应的收益记
为 r ij ,
这种马氏过程随着状态转移可得到一系列的报
酬(效益),我们称其为赋值马氏过程,称
R= rij N * N 为报酬矩阵。
上述工厂若某月初销路好,下月初仍销路好可
其中 p i j 表示有状态i转移到状态j的
概率,r i j 表示由状态i转移到状态j的
相应报酬。称 V nvn(1 ),vn(2),....vn(N )T
为n次转移的总期望报酬向量。
对 PpijNN,RrijNN
定义ቤተ መጻሕፍቲ ባይዱ法
PRjN1
pijrij
N×1
则有 QPR jN 1pijrij,..... jN 1pijrijT
..... pn2
..... .....
p3n pnn
二 马尔可夫过程的预测
三:赋值马氏过程
有一个工厂为市场生产某种产品,每月月初对产 品产品的销售情况进行了一次检查,其结果有 二:销路好(记为状态1),也可能销路差 (状态2)。若处于状态1,由于各种随机因素 的干扰,下月初仍处于销路好的概率为0.5, 转为销路差的概率也为0.5;若处于状态2,则 下月初转为销路好的概率为0.4,仍处于销路 差的概率为0.6。则他的状态转移过程为
因而f 1 ( 1 ) m a x q 1 ( 1 ) ,q 2 ( 1 ) m a x 6 ,4 6
d1(1) 1
f 1 ( 2 ) m a x q 1 ( 2 ) ,q 2 ( 2 ) m a x 3 , 5 3
获利9千元,下月初转为销路差可获利3千元,
若某月初销路差,下月初转为销路好课获利3
千元,下月初仍为销路差要亏本7千元。
则报酬矩阵为 Rrr1211
r12 r22
9 3
3 7
下面考虑系统经过一定阶段的运行后的总
期望报酬。记q(i)为状态i 做出一次转移的
期望报酬,则有
N
q(i)
j 1
pij rij
P2
0.8 0.7
0.2 0.3
R2
4 1
4 19
问题是在若干月内采取什么决策才能使其总期望
报酬最大。
用n表示系统的阶段数。p
d ij
表示系统当前处于状
态i,下一步以d种决策方式转移到状态j的概率。
f n ( i )表示系统初始状态为i,采取最优策略时的
期望报酬最大值。则有如下方程:
max fn(i)
如果对于每个i和j,p
1 ij
pij
均成立的话
则称一步转移概率是平稳的,也就是说,
从状态i转移到状态j的概率与现在的步数
无关,这说明在研究的时间范围内,一
步平稳转移概率保持为常数。系统的转
移概率矩阵表示为
p11 p12 ..... p1n
P(k
)
p21
p22
.....
p2
n
.....
pn1
3
60 .50 .5 6 7 .5
V 2 Q P V 1 3 0 .40 .6 3 2 .4
在利用上面的公式,可以得出该工厂在不同的
三、马氏决策规划 在赋值马氏过程中,如果在某状态选用不同 的决策能够改变相应的状态转移矩阵及报酬 矩阵,就产生了动态随机系统求值最优策略 的问题。马氏决策规划就是研究这类问题的。 下面我们通过实例来介绍马氏决策规划中有 限阶段的一种求解方法——值迭代法。设系 统目标为总期望报酬最大化。
V nQ P V n 1,n2,3,...
V1 Q
仍以上述工厂为例,p
0.5 0.4
0.5
0.6
9 3
R
3
7
根据以上公式得 Q P R 0 0..4 50 0..6 5 9 3 3 7 6 3
即如果当前销路好,则下月获利6000元, 否则下月亏损3000元
6
V1
Q
相关文档
最新文档