马尔代夫决策
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
初始概率(状态) S 0 = ( 0.2 0.5 0.3) 初始概率(状态)向量
0.6 0.3 0.1 P = 0.2 0.6 0.2 0.1 0.3 0.6
一步转移概率矩阵
一步转移概率(非负 一步转移概率 非负) 非负 每行元素之和为1 每行元素之和为
p11 p12 p P = 21 p22 p 31 p32
第九节 马尔科夫链决策模型
1
2
3
初始状态表
位置 概率 1 0.2 2 0.5 3 0.3
下次位置 当前位置
状态转移表
1 0.6 0.2 0.1 2 0.3 0.6 0.3 3 0.1 0.2 0.6
1 2 3
一次转移后状态表
位置 概率 1
0.2*0.6+0.5*0.2+0.3*0.1
2
3
0.2*0.3+0.5*0.6+0.3*0.3 0.2*0.1+0.5*0.2+0.3*0.6
ˆ 的估计值,则有: 以 pij表示Pij的估计值,则有:
ˆ p11 =
14 = 0.7 14 + 6 6 ˆ p12 = = 0. 3 14 + 6 6 ˆ p21 = = 0.4 6+9 9 ˆ p22 = = 0.6 6+9
S k = S 0 pk
p12 p22 p32
p13 p23 p33
0.1 = S0 p 0.2 0.6
马尔柯夫链预测模型是利用目前的初始状态概率向量与转移概 率矩阵,预测事物未来的状态。 率矩阵,预测事物未来的状态。 马尔柯夫预测法就是根据目前的变数来预测这些变数 目前的变数来预测这些变数在将来如 马尔柯夫预测法就是根据目前的变数来预测这些变数在将来如 何变动,不需要连续不断的历史资料(即时间数列), ),只需要最 何变动,不需要连续不断的历史资料(即时间数列),只需要最 近或现在的状态资料便可预测将来。 近或现在的状态资料便可预测将来。
P 11 P 12 P 13 P21 P22 P23 P31 u1 u1 P32 u2 = u2 P33 u3 u3
某企业一机器设备在生产过程中,总是处于“有故障” 例1.某企业一机器设备在生产过程中,总是处于“有故障”或 无故障”两种不同的状态之一。如果该设备能正常无故障, “无故障”两种不同的状态之一。如果该设备能正常无故障, 说它处于状态“ 。如果不能正常使用有故障, 说它处于状态“1”。如果不能正常使用有故障,说它处于状态 “2”。该设备的生产过程就构成一个马尔柯夫链。 。该设备的生产过程就构成一个马尔柯夫链。 若该设备无故障,一天后仍为无故障的概率为0.7 0.7, 若该设备无故障,一天后仍为无故障的概率为0.7,一天 后有故障的概率为0.3; 后有故障的概率为0.3; 0.3 若设备有故障,一天后无故障的概率为0.6 0.6, 若设备有故障,一天后无故障的概率为0.6,一天后有故 障的概率为0.4 0.4, 障的概率为0.4,如下表所示 :
月份 销售状态
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 畅 畅 滞 畅 滞 畅 畅 畅 滞 1 1 2 1 2 1 1 1 2 滞 滞 滞 畅 畅 滞 畅 畅 畅 2 2 2 1 1 2 1 1 1
月份 销售状态
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 畅 畅 滞 滞 滞 滞 滞 滞 畅 畅 畅 滞 滞 畅 畅 畅 畅 畅 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 1 1 1
月份 销售状态
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 畅 畅 滞 畅 滞 畅 畅 畅 滞 1 1 2 1 2 1 1 1 2 滞 滞 滞 畅 畅 滞 畅 畅 畅 2 2 2 1 1 2 1 1 1
月份 销售状态
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 畅 畅 滞 滞 滞 滞 滞 滞 畅 畅 畅 滞 滞 畅 畅 畅 畅 畅 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 1 1 1
36个月销售状态,21个月畅销,15个月滞销。根据表的资料计算有: 36个月销售状态,21个月畅销,15个月滞销。根据表的资料计算有: 个月销售状态 个月畅销 个月滞销 表的资料计算有
6 P21 = = 0.4 15 9 P22 = = 0.6 15
根据上述的转移概率,得到状态转移概率矩阵为: 根据上述的转移概率,得到状态转移概率矩阵为:
36个月销售状态,21个月畅销,15个月滞销。根据表的资料计算有: 36个月销售状态,21个月畅销,15个月滞销。根据表的资料计算有: 个月销售状态 个月畅销 个月滞销 表的资料计算有
6 P = = 0.3 12 21 − 1
分子6是畅销转为滞销的次数,分母是全部畅销次数减1 分子6是畅销转为滞销的次数,分母是全部畅销次数减1。计算 由畅销转移到滞销的概率,即从状态1转移到状态2的概率是0.3 0.3。 由畅销转移到滞销的概率,即从状态1转移到状态2的概率是0.3。
以上结论说明,无论初始状态如何, 以上结论说明,无论初始状态如何,在进行足够多次的转移 之后,系统状态总会趋近于一个稳定状态, 之后,系统状态总会趋近于一个稳定状态,这个稳定状态的状态 向量就是概率矩阵P属于特征值 的左特征向量。 属于特征值1的左特征向量 向量就是概率矩阵 属于特征值 的左特征向量。 在具体计算时,我们可以建立方程组求解,也可以对 进行转 在具体计算时,我们可以建立方程组求解,也可以对P进行转 求其属于特征值1的特征向量 的特征向量。 置,求其属于特征值 的特征向量。
至 无故障(状态1 无故障(状态1) 从 无故障(状态1 无故障(状态1) 有故障(状态2 有故障(状态2) 0.7 0.6 0.3 0.4 有故障(状态2 有故障(状态2)
若车间里有100台这样的机器同时工作,第一天有13台 若车间里有100台这样的机器同时工作,第一天有13台 100台这样的机器同时工作 13 出现故障,那么第二天可能有几台出现故障,第十天呢? 出现故障,那么第二天可能有几台出现故障,第十天呢?
表中共有36个月的销售状态,21个月是畅销,15个月是滞销。 表中共有36个月的销售状态,21个月是畅销,15个月是滞销。 36个月的销售状态 个月是畅销 个月是滞销 表示连续畅销的概率, 表示由畅销转为滞销的概率, 以P11表示连续畅销的概率,以P12表示由畅销转为滞销的概率, 表示由滞销转为畅销的概率, 表示连续滞销的概率。 以P21表示由滞销转为畅销的概率,以P22表示连续滞销的概率。
有没有一种可能:经过了多次状态转移后, 有没有一种可能:经过了多次状态转移后,系统状态向量逐渐 (n) 稳定。 足够大时, 如果存在这种性质, 稳定。即,当n足够大时, 成为常量 S 。如果存在这种性质,我 足够大时 S 进而直接判断系统在n期之后的稳定状态 期之后的稳定状态。 们就可以通过求出 S ,进而直接判断系统在 期之后的稳定状态。 定理1 对于概率矩阵P,必定存在固定概率向量u,使得uP=u. 定理 对于概率矩阵 ,必定存在固定概率向量 ,使得
36个月销售状态,21个月畅销,15个月滞销。根据表的资料计算有: 36个月销售状态,21个月畅销,15个月滞销。根据表的资料计算有: 个月销售状态 个月畅销 个月滞销 表的资料计算有
P = 11 14 = 0.7 21 − 1
分子14是 连续出现畅销的次数 分母21是出现畅销的全部 出现畅销的次数, 21是出现畅销的全部次 分子 14是连续 出现畅销的次数 , 分母 21 是出现畅销的 全部 次 14 因为第36个月是畅销,无后继状态,所以不参加计算, 36个月是畅销 数。因为第36个月是畅销,无后继状态,所以不参加计算,应减去 1。计算连续畅销的概率,即从状态1转移到状态1的概率为0.7。 计算连续畅销的概率,即从状态1转移到状态1的概率为0
10 1 9 9
故,第是十天较有可能有33台出现故障。 第是十天较有可能有33台出现故障。 33台出现故障
wenku.baidu.com
例2: 某种牌号的化妆品在市场上销售,如果在市场上畅销, 某种牌号的化妆品在市场上销售,如果在市场上畅销,设它处 于状态1 如果滞销,设它处于状态2 于状态1,如果滞销,设它处于状态2,并且该化妆品的销售过程 具有无后效性,其销售情况纪录如表。 具有无后效性,其销售情况纪录如表。试求化妆品销售状态的转 移概率矩阵。 移概率矩阵。
P P = 11 p 21 p12 0.7 0.3 = 0.4 0.6 p22
上述方法可以归纳如下:首先列出设计表,然后作出统计。 上述方法可以归纳如下:首先列出设计表,然后作出统计。
化妆品下月所处的销售状态 销售状态及次数 (畅销) 畅销) 化妆品本月 份所处的销 售状态 畅销1 畅销1 滞销2 滞销2 14 6 (滞销) 滞销) 6 9
( u1
u2
P 11 u3 ) P21 P 31 P21 P22 P23
P 12 P22 P32
P 13 P23 = ( u1 u2 P33
u3 )
P 11 即 P 12 P 13
P31 u1 u1 P32 u2 = u2 P33 u3 u3
p13 下标顺序对应了转移的方向, Pij下标顺序对应了转移的方向, p23 即从i状态向j状态转移。 即从i状态向j状态转移。 p33
p11 S 0 = ( 0.2 0.5 0.3) , P = p21 p 31 0.6 0.3 0.2 0.6 1 S = ( 0.2 0.5 0.3) 0.1 0.3 S 2 = S1 p = S 0 p2
等价命题:概率矩阵 及其转置矩阵具有特征值 及其转置矩阵具有特征值1 等价命题:概率矩阵P及其转置矩阵具有特征值
k 定理2 对任意概率向量S,恒有 k →∞ 定理 对任意概率向量 恒有 lim SP = ( u1 u2 L un )
( u1
u2 … un ) 为其左特征向量。(证明略) 为其左特征向量。(证明略) 。(证明略
月份 销售状态
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 畅 畅 滞 畅 滞 畅 畅 畅 滞 1 1 2 1 2 1 1 1 2 滞 滞 滞 畅 畅 滞 畅 畅 畅 2 2 2 1 1 2 1 1 1
月份 销售状态
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 畅 畅 滞 滞 滞 滞 滞 滞 畅 畅 畅 滞 滞 畅 畅 畅 畅 畅 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 1 1 1
月份 销售状态 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 畅 畅 滞 畅 滞 畅 畅 畅 滞 1 1 2 1 2 1 1 1 2 月份 销售状态 滞 滞 滞 畅 畅 滞 畅 畅 畅 2 2 2 1 1 2 1 1 1
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 畅 畅 滞 滞 滞 滞 滞 滞 畅 畅 畅 滞 滞 畅 畅 畅 畅 畅 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 1 1 1
S 1 = ( 0.87 0.13)
0.7 0.3 S = ( 0.87 0.13) = ( 0.69 0.31) 0.6 0.4
2
故,第二天较有可能有31台出现故障。 第二天较有可能有31台出现故障。 31台出现故障
0.7 0.3 S = S p = ( 0.87 0.13) = ( 0.67 0.33) 0.6 0.4