管理决策分析第6章-马尔可夫决策和群决策
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P{ x t +1 = j | x t = i} 称为状态转移概率 (一步转 一步转
移概率) 移概率
管理决策分析 4
有限状态的马尔可夫链
齐次性特征: 齐次性特征: Pij = P{xt +1 = j | xt = i}=P{x1 = j | x0 = i} 有限状态的马尔可夫链{x 有限状态的马尔可夫链 t}
随机过程是含有一个时间参数的随机变量族: 随机过程是含有一个时间参数的随机变量族: {xt},t∈T ,∈ 随机变量的取值称为状态, 随机变量的取值称为状态,可以连续或离散 比如设备状态、产品库存、 比如设备状态、产品库存、产品每日需求量等
离散型随机过程( 离散型随机过程(Discrete Stochastic Process) )
0.80 P = 0.20 1 0.30 0.15 0.45 0.40 0.05 0.35 0.30 0.90 P2 = 0.10 0.10 0.05 0.80 0.15 0.05 0.10 0.75 0.90 P3 = 0.10 0.10 0.05 0.80 0.15 0.05 0.10 0.75
《管理决策分析》 管理决策分析》
第六章 马尔可夫决策和群决策
朱海平
华中科技大学机械学院装备工程中心/ 华中科技大学机械学院装备工程中心/工业工程系
2011-3-13
目录
1 马尔可夫链的基本概念 2 马尔可夫决策方法 3 群决策方法
管理决策分析
1
系统运行过程中的“无后效性” 系统运行过程中的“无后效性”
马尔可夫链( 马尔可夫链( Markov Chain) )
具有以下特征的随机过程{xt }称为马尔可夫链: P{xt +1 = j | x0 = k0 , x1 = k1 ,..., xt −1 = kt −1 , xt = i} = P{xt +1 = j | xt = i}
任何一个未来事件的条件概率只和现在状态有 而与过去的状态无关——“马尔可夫性” 关,而与过去的状态无关 “马尔可夫性” 无后效性” 或“无后效性” 离散型随机过程:时间离散, 离散型随机过程:时间离散,状态离散
n +1 n ij
p11 = 0.5
p12 = 0.5
p21 = 0.6
p22 = 0.4
则状态转移矩阵: 则状态转移矩阵:
0.5 0.5 P= 0.6 0.4
7
管理决策分析
例3
考察一台机床的运行状态
机床的运行存在正常和故障两种状态。 机床的运行存在正常和故障两种状态。S={1, 2}。机床 正常 两种状态 。 在运行中出现故障: 在运行中出现故障:1 2;处于故障中的机床经维修 ; 恢复到正常状态: ,恢复到正常状态:2 1 以一个月为单位,经观察统计, 以一个月为单位,经观察统计,知其从某个月份到下 月份,机床出现故障的概率为0.3。在这一段时间内, 月份,机床出现故障的概率为 。在这一段时间内, 故障机床经维修恢复到正常状态的概率为0.9 故障机床经维修恢复到正常状态的概率为 0.7 0.3
措施1为发放有奖债券,措施2为开展广告宣传,措施3为优 措施 为发放有奖债券,措施 为开展广告宣传,措施 为优 为发放有奖债券 为开展广告宣传 质售后服务
三种方案实施后,经调查可知,该类产品的“ 三种方案实施后,经调查可知,该类产品的“用户转移矩 如下。已知三种商标的商品的月总销量为1000万件, 万件, 阵”如下。已知三种商标的商品的月总销量为 万件 每件可获利1元 另外,三种措施的成本费分别为150万元 每件可获利 元,另外,三种措施的成本费分别为 万元 万元和30万元 ,40万元和 万元 万元和 从长远利益考虑, 生产厂商应该采取何种措施 生产厂商应该采取何种措施? 从长远利益考虑,α生产厂商应该采取何种措施?
管理决策分析
稳态概率(2) 稳态概率
初始状态对n步转移后所处状态的影响随 的增大而减 初始状态对 步转移后所处状态的影响随n的增大而减 步转移后所处状态的影响随 少——稳态概率和初始状态无关 ——稳态概率和初始状态无关
lim P{xn = j | x0 = i} = lim P{xn = j} = π j
对于例4: 对于例 :
0.5 0.5 0 0.5 0.5 (π 1 , π 2 , π 3 ) = (π 1 , π 2 , π 3 ) × 0 0.75 0.25 0 π 1 + π 2 + π 3 = 1
11
1 π1 = 3 4 求得 π 2 = 9 2 π3 = 9
9
对于二步转移矩阵: 对于二步转移矩阵:
P (2) = P × P = P 2
P(2)
(2) p11 (2) = p21 p(2) 31
(2) p12 (2) p22 (2) p32
(2) p13 , 可证明: 可证明: (2) p23 (2) p33
递推: 递推: P ( n ) = P ( n −1) × P = P n n步后技术人员在第 i 个部门工作的概率: 步后技术人员在第 个部门工作的概率:
该公司可采用的维修策略有以下几种: 该公司可采用的维修策略有以下几种:
单状态策略:泵处于状态 时才进行修理 修理费用500元 时才进行修理, 单状态策略:泵处于状态5时才进行修理,修理费用 元 两状态策略:泵处于状态4和 时进行修理 处于状态4时的 时进行修理, 两状态策略:泵处于状态 和5时进行修理,处于状态 时的 修理费用为250元,处于状态 时的修理费用为 时的修理费用为500元 修理费用为 元 处于状态5时的修理费用为 元 三状态策略:泵处于状态3, 时进行修理, 三状态策略:泵处于状态 4, 5时进行修理,处于状态 时的 时进行修理 处于状态3时的 修理费用为200元,处于状态 和5时的修理费用同前 修理费用为 元 处于状态4和 时的修理费用同前
正常1 正常
0.9
故障2 故障
0.1
0.7 0.3 P= 0.9 0.1
管理决策分析
8
例4
某企业为使技术人员具有多方面的经验, 某企业为使技术人员具有多方面的经验,实行技术人员在技术部 生产部门和销售部门的轮换工作制度。轮换采用随机形式, 门、生产部门和销售部门的轮换工作制度。轮换采用随机形式, (0) 每半年一次。初始状态, 每半年一次。初始状态,技术人员在某部门工作的概率用 Pj 表 表示处在第i个部门的技术人员在半年后转移到第 个部门的技术人员在半年后转移到第j个部门 示,Pij表示处在第 个部门的技术人员在半年后转移到第 个部门 的概率,已知一步状态转移矩阵如下, 步后它在第i个部门工 的概率,已知一步状态转移矩阵如下,求n步后它在第 个部门工 步后它在第 (n) 作的概率 Pj
某些系统运行过程中存在或近似存在“无后效性” 某些系统运行过程中存在或近似存在“无后效性”的特征 池塘荷叶与青蛙
系统在每一时刻的状态仅仅取决于前一时刻的状态, 系统在每一时刻的状态仅仅取决于前一时刻的状态,而与其过去的 历史状态无关
可以近似认为无后效性的例子
商店库存 市场占有率 车间的设备状态 ……
n →∞ n →∞
不是所有的马尔可夫链都存在稳态概率——具有遍历 不是所有的马尔可夫链都存在稳态概率——具有遍历 —— 性的马尔可夫链才有稳态概率
管理决策分析
12
目录
1 马尔可夫链的基本概念 2 马尔可夫决策方法 3 群决策方法
管理决策分析
13
例1——市场竞争策略决策 市场竞争策略决策
某生产商标为α的产品的厂商为了与另外两个生产同类产 某生产商标为 的产品的厂商为了与另外两个生产同类产 的厂家竞争, 品β和γ的厂家竞争,有三种可供选择的措施: 和 的厂家竞争 有三种可供选择的措施:
具有有限种 (k种) 状态 种 具有马尔可夫性 转移概率满足齐次性特征
一步状态转移矩阵
p11 ... p1k ,其中 p = 1且p ≥ 0 P = ................. ∑ ij ij j pk 1 ... pkk
管理决策分析 5
例1
晴天 阴天 下雨
管理决策分析
14
管理决策分析
15
例2——最佳维修策略的选择 最佳维修策略的选择
某化工企业对循环泵进行季度维修,每次检查中, 某化工企业对循环泵进行季度维修,每次检查中,把泵按 其外壳及叶轮的腐蚀程度定为五种状态之一。分别为: 其外壳及叶轮的腐蚀程度定为五种状态之一。分别为:
状态1:优秀状态, 状态 :优秀状态,无任何故障或缺陷 状态2:良好状态, 状态 :良好状态,稍有腐蚀 状态3:及格状态, 状态 :及格状态,轻度腐蚀 状态4:可用状态, 状态 :可用状态,大面积腐蚀 状态5:不可运行状态, 状态 :不可运行状态,腐蚀严重
1
2
3
马尔可夫预测和决策法是应用随机过程中的马尔可夫链的 理论和方法来研究分析有关系统状态变化规律并籍此对未 来进行预测和决策的一种方法——基于“无后效性” ——基于 来进行预测和决策的一种方法——基于“无后效性”假设
管理决策分析 2
随机过程
随机过程( 随机过程(Stochastic Process) )
晴天 晴天 0.50
阴天 0.25 0.25 0.125
6
下雨 0.25 0.375 0.625
P=
管理决策分析
阴天 0.375 下雨 0.25
例2
企业Байду номын сангаас售状况变化
某产品销售情况分为畅销和滞销两种, 代表畅销 某产品销售情况分为畅销和滞销两种,1代表畅销 代表滞销。 表示第t个季度的味精销售状态 ,2代表滞销。以xt表示第 个季度的味精销售状态 代表滞销 可取1或 的值 的值。 ,则xt可取 或2的值。若未来的味精市场状态只与 现在的市场状态有关,与以前的市场状态无关, 现在的市场状态有关,与以前的市场状态无关,则 市场状态{x 构成一个马尔可夫链。 市场状态 t} 构成一个马尔可夫链 若: P ( X = j X = i ) = p
如若T 为离散集( 如若 为离散集(设
T = {t0 , t1 , t2 ,..., tn ,...}
)
的取值(状态 也是离散的, 状态)也是离散的 同时 xt 的取值 状态 也是离散的,则称为离散型 随机过程, 随机过程,用{1, 2, 3, …, k}表示状态集 表示状态集
管理决策分析 3
马尔可夫链
p11 P = p21 p31 P (0)
管理决策分析
p13 0.5 0.5 0 p22 p23 = 0 0.5 0.5 p32 p33 0.75 0.25 0 1 1 1 (0) (0) (0) = ( P , P2 , P3 ) = , , 1 3 3 3 p12
( P n , P2n , P3n ) = P (0) P ( n ) = ( P (0) , P2(0) , P3(0) ) × P n 1 1
比如1年后在某部门的工作概率 比如 年后在某部门的工作概率
0.5 0.5 0 0.5 0.5 0 1 1 1 ( P12 , P22 , P32 ) = P (0) P (2) = ( , , ) × 0 0.5 0.5 × 0 0.5 0.5 3 3 3 0.75 0.25 0 0.75 0.25 0 8 11 5 =( , , ) 24 24 24
管理决策分析 10
稳态概率(1) 稳态概率
由转移概率和初始状态的概率分布可以确定任意步上 的转移概率和绝对概率分布
π j = lim Pj( n ) = lim P{xn = j} 稳态概率: 稳态概率
n →∞ n →∞
稳态概率的计算: 稳态概率的计算:
设π = (π 1 ... π j ... π k ),有下列方程组: π = π × P ∑π = 1
池塘里有三张荷叶1,2,3,一只青蛙在荷叶上随机地跳来跳去,初始 ,一只青蛙在荷叶上随机地跳来跳去, 池塘里有三张荷叶 时刻t0,它位于荷叶2上 时刻t1,它可能仍在荷叶2上 时刻 ,它位于荷叶 上,时刻 ,它可能仍在荷叶 上,也可能跳 无关, 到1或3上,时刻 ,它位于哪张荷叶上与 无关,只和 有关 或 上 时刻t2,它位于哪张荷叶上与t0无关 只和t1有关
移概率) 移概率
管理决策分析 4
有限状态的马尔可夫链
齐次性特征: 齐次性特征: Pij = P{xt +1 = j | xt = i}=P{x1 = j | x0 = i} 有限状态的马尔可夫链{x 有限状态的马尔可夫链 t}
随机过程是含有一个时间参数的随机变量族: 随机过程是含有一个时间参数的随机变量族: {xt},t∈T ,∈ 随机变量的取值称为状态, 随机变量的取值称为状态,可以连续或离散 比如设备状态、产品库存、 比如设备状态、产品库存、产品每日需求量等
离散型随机过程( 离散型随机过程(Discrete Stochastic Process) )
0.80 P = 0.20 1 0.30 0.15 0.45 0.40 0.05 0.35 0.30 0.90 P2 = 0.10 0.10 0.05 0.80 0.15 0.05 0.10 0.75 0.90 P3 = 0.10 0.10 0.05 0.80 0.15 0.05 0.10 0.75
《管理决策分析》 管理决策分析》
第六章 马尔可夫决策和群决策
朱海平
华中科技大学机械学院装备工程中心/ 华中科技大学机械学院装备工程中心/工业工程系
2011-3-13
目录
1 马尔可夫链的基本概念 2 马尔可夫决策方法 3 群决策方法
管理决策分析
1
系统运行过程中的“无后效性” 系统运行过程中的“无后效性”
马尔可夫链( 马尔可夫链( Markov Chain) )
具有以下特征的随机过程{xt }称为马尔可夫链: P{xt +1 = j | x0 = k0 , x1 = k1 ,..., xt −1 = kt −1 , xt = i} = P{xt +1 = j | xt = i}
任何一个未来事件的条件概率只和现在状态有 而与过去的状态无关——“马尔可夫性” 关,而与过去的状态无关 “马尔可夫性” 无后效性” 或“无后效性” 离散型随机过程:时间离散, 离散型随机过程:时间离散,状态离散
n +1 n ij
p11 = 0.5
p12 = 0.5
p21 = 0.6
p22 = 0.4
则状态转移矩阵: 则状态转移矩阵:
0.5 0.5 P= 0.6 0.4
7
管理决策分析
例3
考察一台机床的运行状态
机床的运行存在正常和故障两种状态。 机床的运行存在正常和故障两种状态。S={1, 2}。机床 正常 两种状态 。 在运行中出现故障: 在运行中出现故障:1 2;处于故障中的机床经维修 ; 恢复到正常状态: ,恢复到正常状态:2 1 以一个月为单位,经观察统计, 以一个月为单位,经观察统计,知其从某个月份到下 月份,机床出现故障的概率为0.3。在这一段时间内, 月份,机床出现故障的概率为 。在这一段时间内, 故障机床经维修恢复到正常状态的概率为0.9 故障机床经维修恢复到正常状态的概率为 0.7 0.3
措施1为发放有奖债券,措施2为开展广告宣传,措施3为优 措施 为发放有奖债券,措施 为开展广告宣传,措施 为优 为发放有奖债券 为开展广告宣传 质售后服务
三种方案实施后,经调查可知,该类产品的“ 三种方案实施后,经调查可知,该类产品的“用户转移矩 如下。已知三种商标的商品的月总销量为1000万件, 万件, 阵”如下。已知三种商标的商品的月总销量为 万件 每件可获利1元 另外,三种措施的成本费分别为150万元 每件可获利 元,另外,三种措施的成本费分别为 万元 万元和30万元 ,40万元和 万元 万元和 从长远利益考虑, 生产厂商应该采取何种措施 生产厂商应该采取何种措施? 从长远利益考虑,α生产厂商应该采取何种措施?
管理决策分析
稳态概率(2) 稳态概率
初始状态对n步转移后所处状态的影响随 的增大而减 初始状态对 步转移后所处状态的影响随n的增大而减 步转移后所处状态的影响随 少——稳态概率和初始状态无关 ——稳态概率和初始状态无关
lim P{xn = j | x0 = i} = lim P{xn = j} = π j
对于例4: 对于例 :
0.5 0.5 0 0.5 0.5 (π 1 , π 2 , π 3 ) = (π 1 , π 2 , π 3 ) × 0 0.75 0.25 0 π 1 + π 2 + π 3 = 1
11
1 π1 = 3 4 求得 π 2 = 9 2 π3 = 9
9
对于二步转移矩阵: 对于二步转移矩阵:
P (2) = P × P = P 2
P(2)
(2) p11 (2) = p21 p(2) 31
(2) p12 (2) p22 (2) p32
(2) p13 , 可证明: 可证明: (2) p23 (2) p33
递推: 递推: P ( n ) = P ( n −1) × P = P n n步后技术人员在第 i 个部门工作的概率: 步后技术人员在第 个部门工作的概率:
该公司可采用的维修策略有以下几种: 该公司可采用的维修策略有以下几种:
单状态策略:泵处于状态 时才进行修理 修理费用500元 时才进行修理, 单状态策略:泵处于状态5时才进行修理,修理费用 元 两状态策略:泵处于状态4和 时进行修理 处于状态4时的 时进行修理, 两状态策略:泵处于状态 和5时进行修理,处于状态 时的 修理费用为250元,处于状态 时的修理费用为 时的修理费用为500元 修理费用为 元 处于状态5时的修理费用为 元 三状态策略:泵处于状态3, 时进行修理, 三状态策略:泵处于状态 4, 5时进行修理,处于状态 时的 时进行修理 处于状态3时的 修理费用为200元,处于状态 和5时的修理费用同前 修理费用为 元 处于状态4和 时的修理费用同前
正常1 正常
0.9
故障2 故障
0.1
0.7 0.3 P= 0.9 0.1
管理决策分析
8
例4
某企业为使技术人员具有多方面的经验, 某企业为使技术人员具有多方面的经验,实行技术人员在技术部 生产部门和销售部门的轮换工作制度。轮换采用随机形式, 门、生产部门和销售部门的轮换工作制度。轮换采用随机形式, (0) 每半年一次。初始状态, 每半年一次。初始状态,技术人员在某部门工作的概率用 Pj 表 表示处在第i个部门的技术人员在半年后转移到第 个部门的技术人员在半年后转移到第j个部门 示,Pij表示处在第 个部门的技术人员在半年后转移到第 个部门 的概率,已知一步状态转移矩阵如下, 步后它在第i个部门工 的概率,已知一步状态转移矩阵如下,求n步后它在第 个部门工 步后它在第 (n) 作的概率 Pj
某些系统运行过程中存在或近似存在“无后效性” 某些系统运行过程中存在或近似存在“无后效性”的特征 池塘荷叶与青蛙
系统在每一时刻的状态仅仅取决于前一时刻的状态, 系统在每一时刻的状态仅仅取决于前一时刻的状态,而与其过去的 历史状态无关
可以近似认为无后效性的例子
商店库存 市场占有率 车间的设备状态 ……
n →∞ n →∞
不是所有的马尔可夫链都存在稳态概率——具有遍历 不是所有的马尔可夫链都存在稳态概率——具有遍历 —— 性的马尔可夫链才有稳态概率
管理决策分析
12
目录
1 马尔可夫链的基本概念 2 马尔可夫决策方法 3 群决策方法
管理决策分析
13
例1——市场竞争策略决策 市场竞争策略决策
某生产商标为α的产品的厂商为了与另外两个生产同类产 某生产商标为 的产品的厂商为了与另外两个生产同类产 的厂家竞争, 品β和γ的厂家竞争,有三种可供选择的措施: 和 的厂家竞争 有三种可供选择的措施:
具有有限种 (k种) 状态 种 具有马尔可夫性 转移概率满足齐次性特征
一步状态转移矩阵
p11 ... p1k ,其中 p = 1且p ≥ 0 P = ................. ∑ ij ij j pk 1 ... pkk
管理决策分析 5
例1
晴天 阴天 下雨
管理决策分析
14
管理决策分析
15
例2——最佳维修策略的选择 最佳维修策略的选择
某化工企业对循环泵进行季度维修,每次检查中, 某化工企业对循环泵进行季度维修,每次检查中,把泵按 其外壳及叶轮的腐蚀程度定为五种状态之一。分别为: 其外壳及叶轮的腐蚀程度定为五种状态之一。分别为:
状态1:优秀状态, 状态 :优秀状态,无任何故障或缺陷 状态2:良好状态, 状态 :良好状态,稍有腐蚀 状态3:及格状态, 状态 :及格状态,轻度腐蚀 状态4:可用状态, 状态 :可用状态,大面积腐蚀 状态5:不可运行状态, 状态 :不可运行状态,腐蚀严重
1
2
3
马尔可夫预测和决策法是应用随机过程中的马尔可夫链的 理论和方法来研究分析有关系统状态变化规律并籍此对未 来进行预测和决策的一种方法——基于“无后效性” ——基于 来进行预测和决策的一种方法——基于“无后效性”假设
管理决策分析 2
随机过程
随机过程( 随机过程(Stochastic Process) )
晴天 晴天 0.50
阴天 0.25 0.25 0.125
6
下雨 0.25 0.375 0.625
P=
管理决策分析
阴天 0.375 下雨 0.25
例2
企业Байду номын сангаас售状况变化
某产品销售情况分为畅销和滞销两种, 代表畅销 某产品销售情况分为畅销和滞销两种,1代表畅销 代表滞销。 表示第t个季度的味精销售状态 ,2代表滞销。以xt表示第 个季度的味精销售状态 代表滞销 可取1或 的值 的值。 ,则xt可取 或2的值。若未来的味精市场状态只与 现在的市场状态有关,与以前的市场状态无关, 现在的市场状态有关,与以前的市场状态无关,则 市场状态{x 构成一个马尔可夫链。 市场状态 t} 构成一个马尔可夫链 若: P ( X = j X = i ) = p
如若T 为离散集( 如若 为离散集(设
T = {t0 , t1 , t2 ,..., tn ,...}
)
的取值(状态 也是离散的, 状态)也是离散的 同时 xt 的取值 状态 也是离散的,则称为离散型 随机过程, 随机过程,用{1, 2, 3, …, k}表示状态集 表示状态集
管理决策分析 3
马尔可夫链
p11 P = p21 p31 P (0)
管理决策分析
p13 0.5 0.5 0 p22 p23 = 0 0.5 0.5 p32 p33 0.75 0.25 0 1 1 1 (0) (0) (0) = ( P , P2 , P3 ) = , , 1 3 3 3 p12
( P n , P2n , P3n ) = P (0) P ( n ) = ( P (0) , P2(0) , P3(0) ) × P n 1 1
比如1年后在某部门的工作概率 比如 年后在某部门的工作概率
0.5 0.5 0 0.5 0.5 0 1 1 1 ( P12 , P22 , P32 ) = P (0) P (2) = ( , , ) × 0 0.5 0.5 × 0 0.5 0.5 3 3 3 0.75 0.25 0 0.75 0.25 0 8 11 5 =( , , ) 24 24 24
管理决策分析 10
稳态概率(1) 稳态概率
由转移概率和初始状态的概率分布可以确定任意步上 的转移概率和绝对概率分布
π j = lim Pj( n ) = lim P{xn = j} 稳态概率: 稳态概率
n →∞ n →∞
稳态概率的计算: 稳态概率的计算:
设π = (π 1 ... π j ... π k ),有下列方程组: π = π × P ∑π = 1
池塘里有三张荷叶1,2,3,一只青蛙在荷叶上随机地跳来跳去,初始 ,一只青蛙在荷叶上随机地跳来跳去, 池塘里有三张荷叶 时刻t0,它位于荷叶2上 时刻t1,它可能仍在荷叶2上 时刻 ,它位于荷叶 上,时刻 ,它可能仍在荷叶 上,也可能跳 无关, 到1或3上,时刻 ,它位于哪张荷叶上与 无关,只和 有关 或 上 时刻t2,它位于哪张荷叶上与t0无关 只和t1有关