马氏决策ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2(1) q 0.8 0.2 4 4 4 2 2 2 Q 2(2) ( P )( R ) 0.7 0.3 1 19 5 q
因而f (1) max q1(1) , q 2(1) max 6, 4 6 1
PR pij rij j 1 N×1
N
N
pij
则有
Q PR pij rij ,..... pij rij j 1 j 1
N
T
Vn Q PVn1, n 2,3,...
V1 Q
0.5 0.5 仍以上述工厂为例, p 0.4 0.6
下面考虑系统经过一定阶段的运行后的总 期望报酬。记q(i)为状态i 做出一次转移的 N 期望报酬,则有 q (i ) pij rij i 1, 2,......N j 1 称 Q q (1), q (2).....q ( N ) 为一次转移的期望报酬向量。
T
记 Vn (i) 为系统由状态i经过n次转移之后的 总期望报酬,则有
0 p 1(i, j 1,2,......n)
3.一步平稳转移概率
如果对于每个i和j,p pij 均成立的话 则称一步转移概率是平稳的,也就是说, 从状态i转移到状态j的概率与现在的步数 无关,这说明在研究的时间范围内,一 步平稳转移概率保持为常数。系统的转 移概率矩阵表示为
1 ij
9 3 R 3 7
0.5 0.5 9 3 6 根据以上公式得 Q PR 0.4 0.6 3 7 3 即如果当前销路好,则下月获利6000元, 否则下月亏损3000元
6 0.5 0.5 6 7.5 V2 Q PV1 3 0.4 0.6 3 2.4
max 6 0.5 6 0.5 (3),4 0.8 6 0.2 (3)
2 1(1) 2 1 2(1) 2 f 2 (1) max q p1 j f1 ( j ), q p1 j f1 ( j ) j 1 j 1
max 2.4, 1.7 1.7
d2 (2) 2
这表明,如果继续生产两个月,第1个月不登广 告,第2个月等广告。
同样可以计算出经3步,4步,……转移时的结 果, 将结果列入表中,利用上述的值迭代法, 可以算出系统当前处于状态i,经任意n步转移 应采取怎样的最优策略以及所获得的总报酬期 望值。
仍以上述工厂为例,设该工厂在每个状态可选的 决策是不登广告(记作方式1)或登广告(记作 方式2)。若不登广告,自然无广告费;若登广 告,要花额外的广告费,但下月初为销路好的概 率可增加。 决策方式1的状态转移矩阵及报酬矩阵为: 9 3 0.5 0.5 1 1 R P 0.4 0.6 3 7 选决策方式2的状态转移矩阵及报酬矩阵为:
p11 p P (k ) 21 ..... pn1
p12 p22
..... .....
..... ..... pn 2 .....
p1n p2 n p3n pnn
二
马尔可夫过程的预测
三:赋值马氏过程
有一个工厂为市场生产某种产品,每月月初对产 品产品的销售情况进行了一次检查,其结果有 二:销路好(记为状态1),也可能销路差 (状态2)。若处于状态1,由于各种随机因素 的干扰,下月初仍处于销路好的概率为0.5, 转为销路差的概率也为0.5;若处于状态2,则 下月初转为销路好的概率为0.4,仍处于销路 差的概率为0.6。则他的状态转移过程为
n(经营时间/月) (目前销路好,n月 后停业的最大总期望 报酬) (目前销路好,若n 月后停业应采取的最 优决策) (目前销路差,n月 后停业的最大总期望 报酬) (目前销路差,若n 月后停业应采取的最 优决策)
1 6
2 8.2
3 4 … 10. 12. … 22 222
2 2 …
1
2
-3
-1.7
0.8 0.2 P 0.7 0.3
2
问题是在若干月内采取什么决策才能使其总期望 报酬最大。
4 4 R 1 19
2
用n表示系统的阶段数。p 表示系统当前处于状 态i,下一步以d种决策方式转移到状态j的概率。 f n (i)表示系统初始状态为i,采取最优策略时的 期望报酬最大值。则有如下方程:
ij N *N
上述工厂若某月初销路好,下月初仍销路好可 获利9千元,下月初转为销路差可获利3千元, 若某月初销路差,下月初转为销路好课获利3 千元,下月初仍为销路差要亏本7千元。 则报酬矩阵为 r r 9 3
R r r 3 7 21 22
11 12
0.2 2.2 … 3 23 2 2 …
1
2
马氏决策规划简介
★ ★ ★ ★
★
马尔可夫过程 马尔可夫过程是一类特殊的随机过程, 它因伟大的俄国数学家马尔可夫而得名。 这种过程的特点是存在着确定的转移概 率,与系统先前的历史无关,有一个很 形象的比喻来形容这个过程:池塘里的 青蛙在荷叶上跳来跳去,如果将它在某 一时刻所在的荷叶称为状态,则青蛙未 来处于什么状态只有它现在所在的状态 有关,与它以前所处的状态无关。这种 性质就是所谓的“一阶Markov性”或 “无后效性”
一:基本概念
1.状态转移概率 假定系统有n个可能的状态,处于这些 状态的概率分别为 p1,p2…pi ,…pn, 例如,有1000名顾客在每周只到A和B 购物,设定时间阶段为一周,在某一 周,有900名顾客到A购物,我们称为 状态1,有100名顾客到B,成为状态2, 因此,系统的两个状态和概率分别为 状态1:顾客到A购物,0.9 状态2:顾客到B购物,0.1
2.状态转移概率矩阵 假定市场调查数据显示,在随后的一周 内,上周去A购物的顾客有90%仍然在A 购物,有10%的顾客则流向了B,去B购 物的顾客有80%继续在B购物,而20% 则流向了A,这些状态转移概率可用如下 矩阵表示
0.9 0.1 p 0.2 0.8
该矩阵成为超市的一步转移矩阵。 k 表示在给定 对于k步(周期)的, p
d1 (1) 1
d1 (2) 1
f1 (2) max q
1(2)
,q
2(2)
Baidu Nhomakorabea
max 3, 5 3
d n (i)为第n阶段处于i状态时的决策。
这表明,该厂不论处于状态1还是2,如 果再继续生产1个月,都应采取决策1, 即不论销路好还是销路差都不登广告。 如果继续生产两个月:
max 7.5,8.2 8.2
d2 (1) 2
2 1(2) 2 1 2(2) 2 f 2 (2) max q p2 j f1 ( j ), q p2 j f1 ( j ) j 1 j 1
max 3 0.4 6 0.6 (3), 5 0.7 6 0.3 (3)
N d d f n (i) max q (i) pij f n1 ( j ) d1,2 j 1
d ij
n 2,...
f1 (i ) max q d (i )
d 1,2
由于
1(1) q 0.5 0.5 9 3 6 1 1 1 Q 1(2) ( P )( R ) 0.4 0.6 3 7 3 q
ij
周期内处于状态i 的系统在经过k步后转移到状 态j的概率,p(k) 表示系统的k步转移 概率矩阵,则有 p k11 p k12 ..... p k1n k k k p 21 p 22 ..... p 2 n P(k ) ..... ..... ..... p3n k k k p n1 p n 2 ..... p nn 状态转移概率矩阵描述了研究对象的变化过程, 它有如下特征: n k k pij 1 ij j 1
p11 p p21
p12 0.5 p22 0.4
0.5 0.6
若在上面所述的马氏过程中,当它在任意时刻 从状态i 转移到状态j时可以获得相应的收益记 为 rij , 这种马氏过程随着状态转移可得到一系列的报 酬(效益),我们称其为赋值马氏过程,称 R= r 为报酬矩阵。
在利用上面的公式,可以得出该工厂在不同的
6 V1 Q 3
三、马氏决策规划 在赋值马氏过程中,如果在某状态选用不同 的决策能够改变相应的状态转移矩阵及报酬 矩阵,就产生了动态随机系统求值最优策略 的问题。马氏决策规划就是研究这类问题的。 下面我们通过实例来介绍马氏决策规划中有 限阶段的一种求解方法——值迭代法。设系 统目标为总期望报酬最大化。
vn (i ) pij rij vn 1 ( j ) q (i ) pij vn 1 ( j ) j 1 j 1
N N
i 1 , 2..... N
其中 表示有状态i转移到状态j的 概率,rij 表示由状态i转移到状态j的 相应报酬。称 Vn vn (1), vn (2),....vn ( N ) T 为n次转移的总期望报酬向量。 对 P pij N N , R rij N N 定义乘法
因而f (1) max q1(1) , q 2(1) max 6, 4 6 1
PR pij rij j 1 N×1
N
N
pij
则有
Q PR pij rij ,..... pij rij j 1 j 1
N
T
Vn Q PVn1, n 2,3,...
V1 Q
0.5 0.5 仍以上述工厂为例, p 0.4 0.6
下面考虑系统经过一定阶段的运行后的总 期望报酬。记q(i)为状态i 做出一次转移的 N 期望报酬,则有 q (i ) pij rij i 1, 2,......N j 1 称 Q q (1), q (2).....q ( N ) 为一次转移的期望报酬向量。
T
记 Vn (i) 为系统由状态i经过n次转移之后的 总期望报酬,则有
0 p 1(i, j 1,2,......n)
3.一步平稳转移概率
如果对于每个i和j,p pij 均成立的话 则称一步转移概率是平稳的,也就是说, 从状态i转移到状态j的概率与现在的步数 无关,这说明在研究的时间范围内,一 步平稳转移概率保持为常数。系统的转 移概率矩阵表示为
1 ij
9 3 R 3 7
0.5 0.5 9 3 6 根据以上公式得 Q PR 0.4 0.6 3 7 3 即如果当前销路好,则下月获利6000元, 否则下月亏损3000元
6 0.5 0.5 6 7.5 V2 Q PV1 3 0.4 0.6 3 2.4
max 6 0.5 6 0.5 (3),4 0.8 6 0.2 (3)
2 1(1) 2 1 2(1) 2 f 2 (1) max q p1 j f1 ( j ), q p1 j f1 ( j ) j 1 j 1
max 2.4, 1.7 1.7
d2 (2) 2
这表明,如果继续生产两个月,第1个月不登广 告,第2个月等广告。
同样可以计算出经3步,4步,……转移时的结 果, 将结果列入表中,利用上述的值迭代法, 可以算出系统当前处于状态i,经任意n步转移 应采取怎样的最优策略以及所获得的总报酬期 望值。
仍以上述工厂为例,设该工厂在每个状态可选的 决策是不登广告(记作方式1)或登广告(记作 方式2)。若不登广告,自然无广告费;若登广 告,要花额外的广告费,但下月初为销路好的概 率可增加。 决策方式1的状态转移矩阵及报酬矩阵为: 9 3 0.5 0.5 1 1 R P 0.4 0.6 3 7 选决策方式2的状态转移矩阵及报酬矩阵为:
p11 p P (k ) 21 ..... pn1
p12 p22
..... .....
..... ..... pn 2 .....
p1n p2 n p3n pnn
二
马尔可夫过程的预测
三:赋值马氏过程
有一个工厂为市场生产某种产品,每月月初对产 品产品的销售情况进行了一次检查,其结果有 二:销路好(记为状态1),也可能销路差 (状态2)。若处于状态1,由于各种随机因素 的干扰,下月初仍处于销路好的概率为0.5, 转为销路差的概率也为0.5;若处于状态2,则 下月初转为销路好的概率为0.4,仍处于销路 差的概率为0.6。则他的状态转移过程为
n(经营时间/月) (目前销路好,n月 后停业的最大总期望 报酬) (目前销路好,若n 月后停业应采取的最 优决策) (目前销路差,n月 后停业的最大总期望 报酬) (目前销路差,若n 月后停业应采取的最 优决策)
1 6
2 8.2
3 4 … 10. 12. … 22 222
2 2 …
1
2
-3
-1.7
0.8 0.2 P 0.7 0.3
2
问题是在若干月内采取什么决策才能使其总期望 报酬最大。
4 4 R 1 19
2
用n表示系统的阶段数。p 表示系统当前处于状 态i,下一步以d种决策方式转移到状态j的概率。 f n (i)表示系统初始状态为i,采取最优策略时的 期望报酬最大值。则有如下方程:
ij N *N
上述工厂若某月初销路好,下月初仍销路好可 获利9千元,下月初转为销路差可获利3千元, 若某月初销路差,下月初转为销路好课获利3 千元,下月初仍为销路差要亏本7千元。 则报酬矩阵为 r r 9 3
R r r 3 7 21 22
11 12
0.2 2.2 … 3 23 2 2 …
1
2
马氏决策规划简介
★ ★ ★ ★
★
马尔可夫过程 马尔可夫过程是一类特殊的随机过程, 它因伟大的俄国数学家马尔可夫而得名。 这种过程的特点是存在着确定的转移概 率,与系统先前的历史无关,有一个很 形象的比喻来形容这个过程:池塘里的 青蛙在荷叶上跳来跳去,如果将它在某 一时刻所在的荷叶称为状态,则青蛙未 来处于什么状态只有它现在所在的状态 有关,与它以前所处的状态无关。这种 性质就是所谓的“一阶Markov性”或 “无后效性”
一:基本概念
1.状态转移概率 假定系统有n个可能的状态,处于这些 状态的概率分别为 p1,p2…pi ,…pn, 例如,有1000名顾客在每周只到A和B 购物,设定时间阶段为一周,在某一 周,有900名顾客到A购物,我们称为 状态1,有100名顾客到B,成为状态2, 因此,系统的两个状态和概率分别为 状态1:顾客到A购物,0.9 状态2:顾客到B购物,0.1
2.状态转移概率矩阵 假定市场调查数据显示,在随后的一周 内,上周去A购物的顾客有90%仍然在A 购物,有10%的顾客则流向了B,去B购 物的顾客有80%继续在B购物,而20% 则流向了A,这些状态转移概率可用如下 矩阵表示
0.9 0.1 p 0.2 0.8
该矩阵成为超市的一步转移矩阵。 k 表示在给定 对于k步(周期)的, p
d1 (1) 1
d1 (2) 1
f1 (2) max q
1(2)
,q
2(2)
Baidu Nhomakorabea
max 3, 5 3
d n (i)为第n阶段处于i状态时的决策。
这表明,该厂不论处于状态1还是2,如 果再继续生产1个月,都应采取决策1, 即不论销路好还是销路差都不登广告。 如果继续生产两个月:
max 7.5,8.2 8.2
d2 (1) 2
2 1(2) 2 1 2(2) 2 f 2 (2) max q p2 j f1 ( j ), q p2 j f1 ( j ) j 1 j 1
max 3 0.4 6 0.6 (3), 5 0.7 6 0.3 (3)
N d d f n (i) max q (i) pij f n1 ( j ) d1,2 j 1
d ij
n 2,...
f1 (i ) max q d (i )
d 1,2
由于
1(1) q 0.5 0.5 9 3 6 1 1 1 Q 1(2) ( P )( R ) 0.4 0.6 3 7 3 q
ij
周期内处于状态i 的系统在经过k步后转移到状 态j的概率,p(k) 表示系统的k步转移 概率矩阵,则有 p k11 p k12 ..... p k1n k k k p 21 p 22 ..... p 2 n P(k ) ..... ..... ..... p3n k k k p n1 p n 2 ..... p nn 状态转移概率矩阵描述了研究对象的变化过程, 它有如下特征: n k k pij 1 ij j 1
p11 p p21
p12 0.5 p22 0.4
0.5 0.6
若在上面所述的马氏过程中,当它在任意时刻 从状态i 转移到状态j时可以获得相应的收益记 为 rij , 这种马氏过程随着状态转移可得到一系列的报 酬(效益),我们称其为赋值马氏过程,称 R= r 为报酬矩阵。
在利用上面的公式,可以得出该工厂在不同的
6 V1 Q 3
三、马氏决策规划 在赋值马氏过程中,如果在某状态选用不同 的决策能够改变相应的状态转移矩阵及报酬 矩阵,就产生了动态随机系统求值最优策略 的问题。马氏决策规划就是研究这类问题的。 下面我们通过实例来介绍马氏决策规划中有 限阶段的一种求解方法——值迭代法。设系 统目标为总期望报酬最大化。
vn (i ) pij rij vn 1 ( j ) q (i ) pij vn 1 ( j ) j 1 j 1
N N
i 1 , 2..... N
其中 表示有状态i转移到状态j的 概率,rij 表示由状态i转移到状态j的 相应报酬。称 Vn vn (1), vn (2),....vn ( N ) T 为n次转移的总期望报酬向量。 对 P pij N N , R rij N N 定义乘法