第五章 马尔可夫决策
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表1 不采取广告措施
表2 采取广告措施
畅销 滞销
畅销
滞销
畅销 滞销
0.8
0.2
0.4
0.6
畅销 滞销
0.9
0.1
0.7
0.3
练习2
• 我国出口某种设备,在国际市场上的销售状况有两种:畅销
和滞销。畅销每年可以获利100万元,滞销时每年仅获利30 万元。以一年为一个时期,如果不采用广告推广产品或采取 广告措施,状态的转移矩阵分别为如表1、表2所示。假定上 一年处于畅销状态,每年的广告费为15万元。为了保证今后3 年的利润最大化,是否应该采用广告措施?
2 B公司的500名顾客中有450名继续订货,有35名 转向A公司订货,15名转向C公司订货。
3 C公司的300名顾客中有255名继续订货,有25名 转向A公司订货,20名转向B公司订货。
如果三个公司在这个地区的初 始占有率为A=22%,B=49%, C=29% , 且它们都不改变营业 状态和规模,问:
表1 不采取广告措施
畅销
滞销
表2 采取广告措施
畅销
滞销
畅销 滞销
0.8
0.2
0.4
0.6
畅销 滞销
0.9
来自百度文库
0.1
0.7
0.3
练习3
• 在上例中,如果每年是否采取广告措施可根据上一年的经营
情况确定。那么,应该如何决策?
定理2:若A为n阶概率矩阵,K为 任意正整数,则AK也是n阶概率矩 阵。 定义3:若A为n阶概率矩阵,而 且存在一个正整数K,使矩阵AK 没有零元素,则称A为正规概率 矩阵。
例如:
A= 0 1 1/2 1/2
B= 1 0 1/2 1/2
A2= 1/2 1/2 1/4 3/4
由于存在整数2,使得A2没有零元素, A为正规概率矩阵
ABC A 0.8 0.1 0.1 P2 = B 0.1 0.8 0.1 C 0.2 0.1 0.7
试问:
1 A公司如果不作广告,在平衡 条件下,它在两个地区的市场占 有率是否达到国际市场占有率平 均水平?
2 如果这两个广告方案费用相同, 预测平衡状态下,哪个方案最优?
解:1 如果A公司不做广告,稳定 状态下,三个公司在这两个区域 的市场占有率将为:
显然,应选择A车站附设一个汽车维修站为好。
练习1
• 某厂家生产产品A,为了与另外两个生产同类产品B和C
的厂家竞争,有三种可供选择的措施:(1)发放有奖债 券;(2)开展广告宣传;(3) 优质售后服务。三种方 案分别实施以后,经统计调查可知,该类商品的市场占有 率的转移矩阵分别是
0.95 P1 0.10
(x1,x2,x3)P = (x1,x2,x3) 得到: x1= 0.2778
x2= 0.3889 x3= 0.3333
如果A公司不做广告,稳定状 态下,它的市场占有率为 0.2778(27.78% )接近它在国 际市场的平均占有率。
2 A公司作广告试验,稳定状 态下,两个广告方案的效果是:
方案1: (x1,x2,x3)P1 = (x1,x2,x3) 得到: x1= 0.3333
0.10
0.025 0.80 0.15
0.025
0.10
0.75
0.90 0.05 0.05 P2 0.15 0.75 0.10
0.10 0.15 0.75
0.90 0.05 0.05 P3 0.10 0.80 0.10
0.15 0.15 0.70
已知产品A的销售总量为1000万件,每件可获利1元。另
S1 S2 ….. Sn S1 P11 P12 ….. P1n P= S2 P21 P22 ….. P2n
…..
Sn Pn1 Pn2 ….. Pnn
定义6 (r步状态转移概率)设系统由状 态Si出发,经过r步状态转移到达状态Sj, 称其概率Pij(r)为r步状态转移概率。
定义7(r步状态转移矩阵)由r步状态转 移概率Pij(r)构成的矩阵
某城市出租汽车公司有A、B、C三个汽车站, 顾客可以在这三个汽车站任意租车,汽车用完就 近开回汽车站,根据一段时间营业后发现,汽车 从这三个车站开出和开回的概率如表:
概率
A 开 出B
C
开回 ABC 0.8 0.1 0.1 0.4 0.5 0.1 0.2 0.1 0.7
为了扩大营业能力,出租公司打算在这三个汽车站 选择一处附设汽车维修站,试问选择何处为好?
定理4 设u为任意一个概率向量,则向 量序列up, up2 , up3….趋近于不变概 率向量t。
考虑一个具有n个结果(状
态)S1,S2,….Sn的系统,如 果系统由状态Si变化到Sj,就称 为系统的状态转移,其概率Pij 就称为状态转移概率,简称转
移概率。
定义5(状态转移矩阵)由状态转移概 率Pij(i=1,2,…n)(j=1,2,…n)构 成的矩阵P=( Pij)叫状态转移矩阵。
而Bm中第一行总有零元素存在,所以B不是正规概 率矩阵。
定义4:设u为n维非零行向量, A是n阶方阵,如果u A = u, 则称u为是n阶方阵A的不变向 量。
例: u=(2,-1)是
A= 2 1 的不变向量。
23
设P是正规的概率矩阵,则
定理3 P有且仅有一个不变概率向量t, 而且t的所有元素都为正数。
这两个区域用户的初始转移矩阵为P:
ABC
A 0.6 0.3 0.1
P = B 0.2 0.7 0.1
C 0.1 0.1 0.8
假定区域1采用广告方案1,经过一段时间后发现区域1 用户的转移矩阵为P1 ;区域2采用广告方案2,经过一段时 间后发现区域2用户的转移矩阵为P2 :
ABC A 0.7 0.2 0.1 P1 = B 0.2 0.7 0.1 C 0.1 0.1 0.8
x1 + x2 + x3 = 1 得:x1 = 0.273 x2= 0.454 x3 = 0.273
实例2:(广告方案的选择)
国际市场生产同一个产品的有A、B、 C三个公司,国际市场平均占有率为: A=28%,B=39%,C=33%。A公司 为了扩大市场,计划开展一个广告活动, 现在要从两个广告方案中选择一个,A 公司先在两个区域内进行了试验,已知 这两个区域初始市场占有率均为: A=30%,B=40%,C=30%。
后年的市场占有率 up2=(up)(P) =(0.245,0.477,0.278)
稳定状态下,市场占有率将是: (x1,x2,x3)(P)= (x1,x2,x3) x1+x2+x3=1
即
0.800x1+0.070x2+0.083x3 = x1 0.100x1+0.900x2+0.067x3 = x2 0.100x1+0.030x2+0.850x3 = x3
外,三种措施的成本费分别为150万,40万,30万。为
长远利益考虑,生产产品A的厂家应该采取何种措施?
练习2
• 我国出口某种设备,在国际市场上的销售状况有两种:畅销
和滞销。畅销每年可以获利100万元,滞销时每年仅获利30 万元。以一年为一个时期,如果不采用广告推广产品或采取 广告措施,状态的转移矩阵分别为如表1、表2所示。假定上 一年处于畅销状态,每年的广告费为15万元。为了保证今后3 年的利润最大化,是否应该采用广告措施?
x2= 0.3333 x3= 0.3333 A公司为: 0.3333=33.33%
方案2:
(x1,x2,x3)P2 = (x1,x2,x3) 得到: x1= 0.4163
x2= 0.3333 x3= 0.2500 A公司为: 0.4163=41.63%
如果两种广告方案费用相同,则方案2
效果较好。
实例3 (营业点的选择)
P (r) =( Pij(r))
叫 r 步状态转移矩阵。
定义8 (马尔可夫过程)
如果一个系统在状态转移过程 中下一步处于什么状态与且仅与 现在的状态有关,而与过去的状 态无关,这种过程称为马尔可夫 过程。
性质: 1 P(r)=P(r-1)P 2 P(r)=Pr
如果一个马尔可夫过程是正规的,即它 的状态转移矩阵P是正规概率矩阵,那么系 统一定能通过状态转移达到某一个稳定状 态。设在稳定状态下,系统处于状态Si的概 率为xi(i=1,2,…n),记
第五章 马尔可夫决策
马尔可夫决策
一、基本概念
定义1:任意一个行向量P= (p1,p2,…pn),如果满足:pi≥0 (1<i<n)及 pi=1,则向量P称 为概率向量。
定义2:一个n阶方阵A=(aij)如 果满足:
(1) aij ≥0
(2)
j
aij
=1
则称方阵为概率矩阵。
定理1:若A、B都为n阶概率矩阵, 则A*B也是n阶概率矩阵。
(1)明年和后年,三个公司在这 个地区市场占有率为如何?
(2)稳定状态下,三个公司的 市场占有率?
解:根据题意,状态转移矩阵为:
A
B
C
A P= B
C
160/200 35/500 25/300
20/200 20/200 450/500 15/500 20/300 255/300
即
ABC
A 0.80 0.10 0.10
解:假定营业状态稳定发展,A、B、C三个汽车站将 拥有全公司汽车概率向量为(x1,x2,x3)是一个不变向 量,由
(x1,x2,x3)P = (x1,x2,x3) 得到:x1=0.583, x2=0.167, x3=0.25
说明:经过长时间营业后,每辆车回到A、B、C三 个汽车站概率分别为:x1=0.583, x2=0.167, x3=0.25。或认为出租公司的全部车经常有58.3% 在A公司,16.7%在B公司,25% 在C公司。
P= B 0.07 0.90 0.03
C 0.083 0.067 0.85
今年的市场占有率 u=(0.22,0.49,0.29) 明年的市场占有率up=
0.80 0.10 0.10 (0.22,0.49,0.29) 0.07 0.90 0.03
0.083 0.067 0.85 =(0.234,0.483,0.283)
X=(x1,x2….xn) 通过求解联立方程组
XP=X
xi=1
可求出系统处于稳定状态的不变向量X。
应用实例 实例1:(市场占有率的预测)
已知在某地区销售同类型产品的有A,B,C三个 公司,经过一年营业后进行调查,发现: 1 A公司的200名顾客中有160名继续订货,有20名 转向B公司订货,20名转向C公司订货。