第八章 马尔可夫决策
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0 . 60 0 P 0 0 0 0 . 40 0 . 60 0 0 0 0 0 . 25 0 . 55 0 0 0 0 0 . 21 0 . 80 0 0 0 . 15 0 . 24 0 . 20 1
试分析三年后的教师结构及三年内为保持编制不变应进多少研究生充实教师队伍。 解;一年后的人员分布为:
(1)
则称 { n , n 1, 2 , } 为一个马尔可夫链(简称马氏链)。 定义8.2 设 { n , n 1, 2 , } 是一个马氏链,如果等式(13)的右边的条件概率 与n无关,即
P n m j n i p ij m
(2)
则称 { n , n 1, 2 , } 为齐次的马氏链。称 pij m 为系统由状态i经过m个时间间隔 (或步)转移到状态j的转移概率。(14)式称为齐次性。它的含义是:系统由 状态i到状态j的转移概率只依赖于时间间隔的长短,与起始的时刻无关。以后无 特殊的说明,马氏链都是齐次的。 8.2 转移概率矩阵及柯尔莫哥洛夫定理
试求本月和下月三种方便面的市场占有率。 解: 由已知条件构造转移矩阵:
本 月 购 买
A 上 A 月 B 购 买 C
B
C
由公式(5),本月市场占有率:
S 1 PAA S 0 PBA PCA PAB PBB PCB
PAA PAB PAC 0.6 0.2 0.2 P P 0 . 1 0 . 7 0 . 2 P BA BB BC P P P 0.1 0.1 0.8 CA CB CC
0 0 0 .6 S A 0 .1S B 0 0 0 .2 S A 0 .7 S B 0 0 0 .2 S A 0 .2 S B 0 0 0 S A SB SC 0 0 0 .1S C SA 0 0 0 .1S C SB 0 0 0 .8 S C SC 1
7
S 1
由于要保持135+240+115+60+0=550人的总编制,流失走76人,因而第一年 需进76位研究生充实教师队伍。此时人员分布为:S1=(81+76,198,123,72, 0)=(157,198,123,72,0) 第二年人员分布:
0 .60 0 S 0 P (157 ,198 ,123 ,72 ,0 ) 0 0 0 0 .40 0 .60 0 0 0 0 0 .25 0 .55 0 0 0 0 0 .21 0 .80 0 0 0 .15 0 .24 94 ,182 ,117 ,83 ,74 0 .20 1
0 .60 0 S 0 P (135 , 240 ,115 ,60 ,0 ) 0 0 0 0 .40 0 .60 0 0 0 0 0 .25 0 .55 0 0 0 0 0 .21 0 .80 0 0 0 .15 0 .24 81,198 ,123 ,72 ,76 0 .20 1
根据转移矩阵可以画出状态转移图,方框代表状态,箭头指向转移方向, 箭头上数字表示转移概率,见图1。
1/3
1 1/2 2 2/3
1/4
1/4 3 1/4
1 4
1/4
1/2
图1 状态转移图
9
● 连通性:对于马尔可夫链的状态空间S=(S1,S2,…,Sn),若从Si 状态可以转移 到S j状态而且也可以从S j状态转移到Si状态,则称Si 状态与S j状态是连通的。例 状态1、2。 ● 封闭类:若连通状态空间内的任何一状态都不可能到达状态空间外的任何一状态, 称为封闭类,例状态1、2。 ● 过渡类:若一个连通空间之内的状态可以到达连通空间之外的状态,但外面的状态 不可转入其内,称之为过渡类。例状态3。 ● 吸收态:若封闭类仅由一个状态构成且只有转进没有转出称为吸收态,例状态4。 含有吸收态的马尔可夫链,称为吸收态马尔可夫链 马尔可夫链的标准形:
0 0 0 0 0 0 0 0 0 左式= (S A PAA S B PBA SC PCA , S A PAB S B PBB SC PCB , S A PAC S B PBC SC PCC )
令左式=右式,有
5
将转移概率代入上式:
0 0 0 0 SA P AA S B P BA S C PCA S A 0 0 0 0 S A P AB S B P BB S C PCB S B 0 0 0 S 0 P A AC S B P BC S C PCC S C
m
(3)
式中 i, j E ,
0 pij m 1
;i E ,
p m 1
j E ij
例 已知一次转移矩阵
0 .1 P 1 0 .3 0 .4 0 .4 0 .5 0 .4 0 .5 0 .2 0 .2
试求二次转移矩阵。 解 由公式(15)得:
0 .60 0 .3, 0 .4, 0 .3 0 .10 0 .10 0 .20 0 .70 0 .10 0 .20 0 .20 0 .225 , 0 .347 , 0 .428 0 .80
2
(2)占有率平衡态决策 当处于平衡态时,上月各牌的市场占有率等于本月市场占有率。其平衡态模 型为:
第8章 马尔可夫决策 8.1马尔可夫链的定义 定义8.1 设 { n , n 1,2,} 是一个随机序列,状态空间E为有限集,对于任意的 正整数m,n若 i, j, ik E k 1,2,, n 1,有
P n m j n i, n 1 in 1 , , 1 i1 P n m j n i
2
(2)柯尔莫哥洛夫-开普曼方程 由递推关系:
S
m 1
S
m
P
(4)
S1 S 0P
S 2 S1P S 0 P2 …
所以
S m1 S 0 P m1
p11 p12 p p22 m1 0 m1 0 21 S S P S pn1 pn2 p1n p2n pnn
S 1 PAA S 0 PBA PCA PAB PBB PCB PAC 0 PBC S PCC PAB PBB PCB PAC PBC PCC 0 0 0 S A , S B , SC
PAA 0 0 0 (S A ,SB , SC ) PBA P CA
m1
(5)
8.3 应用问题 (1)市场占有率的计算
3
例 假设市场上有A、B、C三种品牌的方便面,经市场调查:上月购买A品牌的 顾客,有60%在本月仍购买A品牌,有20%转移购买C 品牌,有20%转移购买B品 牌;上月购买B品牌的顾客,有70%在本月仍购买B品牌,有20%转移购买C 品牌, 有10%转移购买A品牌;上月购买C品牌的顾客,有80%在本月仍购买C品牌,有10% 转移购买B 品牌,有10%转移购买A品牌。上月市场占有率为:=(0.3,0.4,0.3)。
经整理,得
0 0 0 0 .4 S A 0 . 1S B 0 . 1S C 0 0 0 0 0 . 2 S A 0 . 3 S B 0 . 1S C 0 0 0 0 0 . 2 S 0 . 2 S 0 . 2 S 0 A B C 0 0 0 S A S B S C 1
1
(1)转移概率矩阵 对于一个马尔可夫链,称 P(m) pij (m) 为由状态i经过m步转移到状态j的概 率。其概率为:
p11 p12 p p Pm pij (m) 21 22 p n1 pn2 p1n p2n pnn
去掉第三个多余方程,则
2 3 1 0 1 / 5 2 / 5 1 / 5 0 0.2 0 1 / 5 1 / 10 3 / 10 0 0.3 1 1 1 1/ 2 1/ 2 1 1 1 1 0 1 0.5
8
S 3
第三年流失72人,因而补充72位研究生。各类人员的结构为S3=(173, 176,110,91,0) (4)吸收态马尔可夫链及应用 n 基本概念: 设有一四个状态马尔可夫链,其转移概率矩阵P为
1 3 1 2 P 1 4 0
2 3 1 2 1 4
0 0
1 4
0
0
0 0 1 4 1
S 2
第二年流失74人,因而补充74位研究生。各类人员的结构为S2=(168, 182,117,83,0) 第三年人员分布:
0 . 60 0 S 2 P 168 ,182 ,117 ,83 , 0 0 0 0 0 . 40 0 . 60 0 0 0 0 0 . 25 0 . 55 0 0 0 0 0 . 21 0 . 80 0 0 0 . 15 0 . 24 101 . 176 ,111 ,91, 72 0 . 20 1
I 0 P R Q
Q P 0 R I
或Biblioteka Baidu
其中,I为单位阵;0为零矩阵;R为过渡态到吸收态转移概率矩阵,Q为过渡态之间的 转移概率矩阵。
10
例在转移矩阵 :
1 0 3 5 0 0
0 1 0 0
1 3
0 0 0
3 5
0 0
2 5
0
2 3
0
0 0 0 2 5 0
PAC 0 .6 0 .2 0 .2 PBC 0 . 3 , 0 . 4 , 0 . 3 0 . 1 0 . 7 0 . 2 0 .37, 0 .38 0 .25, 0 .1 0 .1 0 .8 PCC
4
同理,可算出下月的市场占有率:
0.1 0.4 0.5 0.1 0.4 0.5 0.33 0.44 0.23 P 2 0.3 0.5 0.2 0.3 0.5 0.2 0.26 0.45 0.29 0.4 0.4 0.2 0.4 0.4 0.2 0.24 0.44 0.32
6
1
S 0
即得
1 0 SA SA 0.20
1 0 SB SB 0.30
1 0 SC SC 0.50
(3)人力资源决策 例 某高校对教师进行分类,可分为5种状态:助教、讲师、副教授、教授、 流失(退休)。目前状态向量:S0=(135,240,115,60,0)。根据历史资料,各 类职称的转移概率矩阵为:
中
0 3 Q 5 0
2 5
0
2 3
0 2 5 0
3 0 5 R 0 0 1 0 3
试分析三年后的教师结构及三年内为保持编制不变应进多少研究生充实教师队伍。 解;一年后的人员分布为:
(1)
则称 { n , n 1, 2 , } 为一个马尔可夫链(简称马氏链)。 定义8.2 设 { n , n 1, 2 , } 是一个马氏链,如果等式(13)的右边的条件概率 与n无关,即
P n m j n i p ij m
(2)
则称 { n , n 1, 2 , } 为齐次的马氏链。称 pij m 为系统由状态i经过m个时间间隔 (或步)转移到状态j的转移概率。(14)式称为齐次性。它的含义是:系统由 状态i到状态j的转移概率只依赖于时间间隔的长短,与起始的时刻无关。以后无 特殊的说明,马氏链都是齐次的。 8.2 转移概率矩阵及柯尔莫哥洛夫定理
试求本月和下月三种方便面的市场占有率。 解: 由已知条件构造转移矩阵:
本 月 购 买
A 上 A 月 B 购 买 C
B
C
由公式(5),本月市场占有率:
S 1 PAA S 0 PBA PCA PAB PBB PCB
PAA PAB PAC 0.6 0.2 0.2 P P 0 . 1 0 . 7 0 . 2 P BA BB BC P P P 0.1 0.1 0.8 CA CB CC
0 0 0 .6 S A 0 .1S B 0 0 0 .2 S A 0 .7 S B 0 0 0 .2 S A 0 .2 S B 0 0 0 S A SB SC 0 0 0 .1S C SA 0 0 0 .1S C SB 0 0 0 .8 S C SC 1
7
S 1
由于要保持135+240+115+60+0=550人的总编制,流失走76人,因而第一年 需进76位研究生充实教师队伍。此时人员分布为:S1=(81+76,198,123,72, 0)=(157,198,123,72,0) 第二年人员分布:
0 .60 0 S 0 P (157 ,198 ,123 ,72 ,0 ) 0 0 0 0 .40 0 .60 0 0 0 0 0 .25 0 .55 0 0 0 0 0 .21 0 .80 0 0 0 .15 0 .24 94 ,182 ,117 ,83 ,74 0 .20 1
0 .60 0 S 0 P (135 , 240 ,115 ,60 ,0 ) 0 0 0 0 .40 0 .60 0 0 0 0 0 .25 0 .55 0 0 0 0 0 .21 0 .80 0 0 0 .15 0 .24 81,198 ,123 ,72 ,76 0 .20 1
根据转移矩阵可以画出状态转移图,方框代表状态,箭头指向转移方向, 箭头上数字表示转移概率,见图1。
1/3
1 1/2 2 2/3
1/4
1/4 3 1/4
1 4
1/4
1/2
图1 状态转移图
9
● 连通性:对于马尔可夫链的状态空间S=(S1,S2,…,Sn),若从Si 状态可以转移 到S j状态而且也可以从S j状态转移到Si状态,则称Si 状态与S j状态是连通的。例 状态1、2。 ● 封闭类:若连通状态空间内的任何一状态都不可能到达状态空间外的任何一状态, 称为封闭类,例状态1、2。 ● 过渡类:若一个连通空间之内的状态可以到达连通空间之外的状态,但外面的状态 不可转入其内,称之为过渡类。例状态3。 ● 吸收态:若封闭类仅由一个状态构成且只有转进没有转出称为吸收态,例状态4。 含有吸收态的马尔可夫链,称为吸收态马尔可夫链 马尔可夫链的标准形:
0 0 0 0 0 0 0 0 0 左式= (S A PAA S B PBA SC PCA , S A PAB S B PBB SC PCB , S A PAC S B PBC SC PCC )
令左式=右式,有
5
将转移概率代入上式:
0 0 0 0 SA P AA S B P BA S C PCA S A 0 0 0 0 S A P AB S B P BB S C PCB S B 0 0 0 S 0 P A AC S B P BC S C PCC S C
m
(3)
式中 i, j E ,
0 pij m 1
;i E ,
p m 1
j E ij
例 已知一次转移矩阵
0 .1 P 1 0 .3 0 .4 0 .4 0 .5 0 .4 0 .5 0 .2 0 .2
试求二次转移矩阵。 解 由公式(15)得:
0 .60 0 .3, 0 .4, 0 .3 0 .10 0 .10 0 .20 0 .70 0 .10 0 .20 0 .20 0 .225 , 0 .347 , 0 .428 0 .80
2
(2)占有率平衡态决策 当处于平衡态时,上月各牌的市场占有率等于本月市场占有率。其平衡态模 型为:
第8章 马尔可夫决策 8.1马尔可夫链的定义 定义8.1 设 { n , n 1,2,} 是一个随机序列,状态空间E为有限集,对于任意的 正整数m,n若 i, j, ik E k 1,2,, n 1,有
P n m j n i, n 1 in 1 , , 1 i1 P n m j n i
2
(2)柯尔莫哥洛夫-开普曼方程 由递推关系:
S
m 1
S
m
P
(4)
S1 S 0P
S 2 S1P S 0 P2 …
所以
S m1 S 0 P m1
p11 p12 p p22 m1 0 m1 0 21 S S P S pn1 pn2 p1n p2n pnn
S 1 PAA S 0 PBA PCA PAB PBB PCB PAC 0 PBC S PCC PAB PBB PCB PAC PBC PCC 0 0 0 S A , S B , SC
PAA 0 0 0 (S A ,SB , SC ) PBA P CA
m1
(5)
8.3 应用问题 (1)市场占有率的计算
3
例 假设市场上有A、B、C三种品牌的方便面,经市场调查:上月购买A品牌的 顾客,有60%在本月仍购买A品牌,有20%转移购买C 品牌,有20%转移购买B品 牌;上月购买B品牌的顾客,有70%在本月仍购买B品牌,有20%转移购买C 品牌, 有10%转移购买A品牌;上月购买C品牌的顾客,有80%在本月仍购买C品牌,有10% 转移购买B 品牌,有10%转移购买A品牌。上月市场占有率为:=(0.3,0.4,0.3)。
经整理,得
0 0 0 0 .4 S A 0 . 1S B 0 . 1S C 0 0 0 0 0 . 2 S A 0 . 3 S B 0 . 1S C 0 0 0 0 0 . 2 S 0 . 2 S 0 . 2 S 0 A B C 0 0 0 S A S B S C 1
1
(1)转移概率矩阵 对于一个马尔可夫链,称 P(m) pij (m) 为由状态i经过m步转移到状态j的概 率。其概率为:
p11 p12 p p Pm pij (m) 21 22 p n1 pn2 p1n p2n pnn
去掉第三个多余方程,则
2 3 1 0 1 / 5 2 / 5 1 / 5 0 0.2 0 1 / 5 1 / 10 3 / 10 0 0.3 1 1 1 1/ 2 1/ 2 1 1 1 1 0 1 0.5
8
S 3
第三年流失72人,因而补充72位研究生。各类人员的结构为S3=(173, 176,110,91,0) (4)吸收态马尔可夫链及应用 n 基本概念: 设有一四个状态马尔可夫链,其转移概率矩阵P为
1 3 1 2 P 1 4 0
2 3 1 2 1 4
0 0
1 4
0
0
0 0 1 4 1
S 2
第二年流失74人,因而补充74位研究生。各类人员的结构为S2=(168, 182,117,83,0) 第三年人员分布:
0 . 60 0 S 2 P 168 ,182 ,117 ,83 , 0 0 0 0 0 . 40 0 . 60 0 0 0 0 0 . 25 0 . 55 0 0 0 0 0 . 21 0 . 80 0 0 0 . 15 0 . 24 101 . 176 ,111 ,91, 72 0 . 20 1
I 0 P R Q
Q P 0 R I
或Biblioteka Baidu
其中,I为单位阵;0为零矩阵;R为过渡态到吸收态转移概率矩阵,Q为过渡态之间的 转移概率矩阵。
10
例在转移矩阵 :
1 0 3 5 0 0
0 1 0 0
1 3
0 0 0
3 5
0 0
2 5
0
2 3
0
0 0 0 2 5 0
PAC 0 .6 0 .2 0 .2 PBC 0 . 3 , 0 . 4 , 0 . 3 0 . 1 0 . 7 0 . 2 0 .37, 0 .38 0 .25, 0 .1 0 .1 0 .8 PCC
4
同理,可算出下月的市场占有率:
0.1 0.4 0.5 0.1 0.4 0.5 0.33 0.44 0.23 P 2 0.3 0.5 0.2 0.3 0.5 0.2 0.26 0.45 0.29 0.4 0.4 0.2 0.4 0.4 0.2 0.24 0.44 0.32
6
1
S 0
即得
1 0 SA SA 0.20
1 0 SB SB 0.30
1 0 SC SC 0.50
(3)人力资源决策 例 某高校对教师进行分类,可分为5种状态:助教、讲师、副教授、教授、 流失(退休)。目前状态向量:S0=(135,240,115,60,0)。根据历史资料,各 类职称的转移概率矩阵为:
中
0 3 Q 5 0
2 5
0
2 3
0 2 5 0
3 0 5 R 0 0 1 0 3