运筹学课件——第4讲马尔可夫决策(精)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:人力资源预测
• 某高校1990年为编制师资发展规划,需要预测 为了教师队伍的结构。现在对教师状况进行如 下四个分类:青年,中年,老年和流退(流失 或退休)。根据历史资料以及调查分析,各类 教师按照一年一期的状态转移概率矩阵如下, 目前青年教师400人,中年教师360人,老年教 师300人。试分析3年后教师的结构以及为保持 编制不变,3年内应当多少硕士和博士毕业生 充实教师队伍?
0 . 4 0 .3 0 .3 0.3 0.5 0.2 P1 0.3 0.7 0 0.6 0.1 0.3 P 2 0.6 0.3 0.1 0.4 0.5 0.1 u= ( 0.5 ,0.25 , 0.25 )
u 1= ( 0.39 , 0.44 ,0.17 ) u2= ( 0.44 , 0.42 ,0.14 )
例:三品牌洗衣粉下月 购买意愿调查
A A B C 40 60 60 B 30 30 30 C 30 60 30 调查总数 100 150 120
• 求( 1 )一步状态转移概率矩阵 P ( 1 )=? • ( 2 )购买 C 品牌的顾客在未来第 2 个月购买 各品牌的概率? • ( 3 )二步状态转移概率矩阵 P ( 2 )=? • 您发现P(K)的一般规律了吗?
320 240 240 N 360 180 60 360 60 180
2
3
状态转移概率矩阵 P
• 从转移频数矩阵到状态转移概率矩阵 P : • 用各行总数分别去除转移频数矩阵 N 的每行 各元素,得到状态转移概率矩阵 P 如下:
320 240 240 /800 N 360 180 60 /600 360 60 180 /600
p11 p 21 P ( pij) nXn ... pn1
p12 p 22 ... pn 2
... p1n ... p 2 n ... ... ... pnn
多步状态转移概率 pij
• 一步状态转移概率:用 pij(1) 表示, pij(1) 即 pij ,表 示从状态 Si 经过一个时刻转移到状态 Sj 的概率,记为: • pij=pij(1)=P ( Xt+1= Sj/Xt= Si ), 相应的一步状态转移概率矩阵记为 P ( 1 )= P 。 • k 步状态转移概率:用 pij(k) 表示,表示从状态 Si 经 过 k 个时刻转移到状态 Sj 的概率,记为: • pij(k)=P ( Xt+ k=Sj/Xt= Si ), 相应的 k 步状态转移概率矩阵记为 P ( k )。 P(k) 与 P ( 1 )之间的关系如何?
0. 4 0 . 3 0 . 3 P 0. 6 0 . 3 0. 1 0. 6 0. 1 0 . 3
均衡状态的市场占有率
• 在目前状态转移概率矩阵 P 下,达到均衡状态时的市 场占有率记为 u ;估计如果实施方案一或二以后状态 转移概率矩阵分别为 P1 和 P2 ,他们各自对应的均衡 状态时市场占有率分别为 u1 和 u2 ;具体数据如下:
引例:牛奶厂决策
• 最佳经营策略选择: • 北京地区鲜牛奶由三个厂家提供,该地 区客户总数为 100 万户,假定厂家每年从每个 客户那里平均获利 50 元,客户资源每月都在三 个厂家之间相互流动,厂家 2 考虑从以下两套 候选方案之中选择一个实施: • 方案一:吸引老客户,须花费 450 万元; • 方案二:吸引厂家 1 和厂家 3 的客户,须花 费 400 万元。 • 您有什么好的建议来帮助厂家 2 决策?
马尔可夫( Markov )链
• 随机过程:不确定变化的随机变量序列 • 时间序列:{X1 , X2 ,…, Xt, …} ,指与时间相关 的离散随机变量序列 • 状态集合: S={S1 , S2 ,…, Sn} ,一般表示为 Xt= Si • 无后效性(马尔可夫性):时间序列在 t+1 时刻(将来) 的状态只与 t 时刻(现在)的状态有关而与 t 时刻之前 (过去)的状态无关,即 P{ Xk+1= Sik+1/ X1=Sik1 , X2=Sik2 ,… ,Xk=Sik} =P{ Xk+1= Sik+1/Xk=Sik} • 马尔可夫( Markov )链:具备无后效性的时间序列。
Hale Waihona Puke . 4 0 . 3 0 . 3 P 0. 6 0 . 3 0. 1 0. 6 0. 1 0 . 3
厂家 2 的方案选择
• 有了均衡状态时的市场占有率 u , u1 和 u2 ,厂家 2 就能够方便地进行分别方案选择,根据前面的数据, 我们知道: • u=0.25 , u1=0.44 , u2=0.42 , • 因此,如果采用方案一可获利: • 100 Х (0.44- 0.25) Х 50 – 450=500 (万元) • 如果采用方案二可获利: • 100 Х (0.42- 0.25) Х 50 – 400=450 (万元) 结论:选择方案一,即吸引老客户的方案为佳。
状态转移概率矩阵 P
• 状态转移概率: pij 表示从状态 Si 转移到状态 Sj 的概 率,记: pij= P ( Sj/ Si ) =P ( Xk+1=Sj/Xk= Si ), 简称为从状态 i 到状态 j 的转移概率。 • 状态转移概率矩阵:由状态转移概率 pij ( i , j=1,2 ,…,n )构成的 n 阶方阵 P
市场调查数据
• 今年一月份厂家 2 对 2000 名消费者进行了调 查,购买厂家 1 , 2 , 3 产品的消费者人数分别为 800 , 600 和 600 ,得到市场占有率向量(概率向 量)为( 0.4 , 0.3 , 0.3 ); • 同时通过询问这 2000 名消费者下月的购买 倾向,得到如下转移频数矩阵: 1 2 3 • 1