7序贯决策解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三节 马尔可夫决策
三、稳态概率
n (n) 称 j lim Pj lim Px n j为稳态概率。
Px n j | x0 i lim Px n j j 且 lim n n
n
因此我们可以从n步转移矩阵的n 极限取得稳态概率分布
k
此方程组为稳态方程
第三节 马尔可夫决策
四、马尔可夫应用实例
例6-6 某生产商标 为的产品的厂商为了与另外两个生产同类产品 和 的厂家竞争,有三种可供 选择的措施:(1)发放有奖债券;(2)开展广告宣传;(3) 优质售后服务。三种方案分别实施以后, 经统计调查可知,该类商品的市场占有率的转移矩阵分别是 0.90 0.05 0.05 0.80 0.15 0.05 0.90 0.05 0.05 0.10 0.80 0.10 P3 0 . 10 0 . 80 0 . 10 P1 0 . 20 0 . 45 0 . 35 P 2 0 . 10 0 . 15 0 . 75 0.30 0.40 0.30 0.10 0.15 0.75 已知三种商标的商品的月总销售量为一千万件,每件可获利1元。另外,三种措施的成本费分别为 150万,40万,30万。为长远利益考虑,生产商标为 的产品的厂商应该采取何种措施? 例6-7 我国出口某种设备,在国际市场上的销售状况有两种:畅销和滞销。畅销每年可以获利100万元, 滞销时每年仅获利30万元。以一年为一个时期,如果不采用广告推广产品或采取广告措施,状态的转移矩阵 分别为如表6-5、表6-6所示。 表6-4采取广告措施 表6-3 不采取广告措施
则称 X (t ), t T 具有马尔可夫性。 条件概率 Pxn j | xn1 i 称为转移概率,也称一步转移概率。 各状态之间的转移概率可记为 p11 p1k 其中 pij 1 ,对所有i;且 pij 0 ,对所有i,j , j P 称P为一步转移概率矩阵。 p k1 p kk 定义:如果随机过程X t , t 0,1,, 满足下述性质,则称 X t 是一个有限状态的马尔可夫链(Markov)。 (1)具有有限种状态; (2)具有马尔可夫性; (3)转移概率具有平稳性。
在这四年中应该如何分配资金?
第二节 序贯决策
有些决策问题,在进行决策后又产生一些新情况,需要进行新的决策,接着又有一些新的情况,又需 要进行新的决策。这样决策、情况、决策…,就构成一个序列,这就是序列决策。解决序列问题的有利办 法仍然是决策树。 例6-3 设有某石油勘探队,在一片估计能出油的荒田钻探,可以先做地震试验,然后决定钻井与否。 或者不做地震试验,只凭经验决定钻井与否。做地震试验的费用每次30000元,钻井费用为10000元。若钻 井后出油,这井队可收入40000元;若不出油就没有任何收入。各种情况下出油的概率已估计出,并标在图 6-2上。问钻井队的决策者如何做出决策使收入的期望值为最大。
表6-2 试销结果的准确度
如不买此项技术,把这笔费用用在其他方面,在同样的时期可获利8000元。那么,该公司应 该如何决策?
(1)是否买技wk.baidu.com?
(2)如果买技术,是否采取试销办法? (3)如果不试销,应大批生产,中批生产还是小批生产?如果试销,又应该如何根据试销结 果决定其行动?
例6-2 连续情形的决策分析。某工厂现有10万元资金可供生产某种产品使用,生产过程有两个方
(3)由后到前用逆序归纳法进行决策分析。
第一节 多阶段决策
三、应用举例
例6-1 离散情况决策分析。某企业考虑是否花费4000元钱从某科研机关购买某项技术然后产销新 产品。如果买技术,可以进行大批生产(a1),中批生产(a2),或小批生产(a3),可能出现的市 场销售情况也分为畅销( )和滞销( 1)一般( 2 3)三种。其收益(利润,元)矩阵如表6-1 表6-1 某公司产销新产品的收益矩
为了更正确地了解市场情况,正式投产前可先生产少量产品试销。由于要增添少量生产设备等原因, 试销费需要600元。由于试销前未作广告,顾客对产品不太了解,加之试销量较小,试销结果不很准 确。假设试销结果分为产品受欢迎(H1),一般(H2)和不受欢迎(H3)三种,其准确度(似然分
布矩阵)见表6-2所示。
第一节 多阶段决策
P n P n 1 P
n
lim P ( n ) lim P n 1 P
n
得
记
1 2 k ,则 P ,且 i 1
i 1
1 k k 1 1 k
1 k P k 1 1 k
案可供选择。方案1:每万元资金,每年可产生0.5万元的利润,年产量为2000吨。方案2:每万元资金, 每年可产生0.2万元的利润,年产量为3000吨。每年可用一部分资金采取一种方案生产,另外一部分资 金采取另一种方案进行生产,但一年内不变。假设前一年的利润可作为下一年的资金在两个方案间再行 分配,但一个方案前一年的资金不得在下一年向另一方案转移。那么,为使四年内的总产量最高,该厂
二、马尔可夫链与转移概率矩阵
随机过程X (t ),t T , 如果对任意 t1 t 2 t n , t i T , 都存在
Px(t n ) y | x(t n1 ) xn1 x(t1 ) x1 Px(t n ) y | x(t n1 ) xn1
二、多阶段决策方法
解决多阶段决策问题的主要方法是决策树方法和动态规划方法,决策树由节点和分支组成,每一条
由树根通往树梢的路线都表示一种决策方案及可能遇到的一种情况。
进行决策分析时,要由树梢往树根依次计算。这种从后到前进行决策分析的方法叫做逆序归纳法。 多阶段决策分析的步骤: (1)根据具体问题适当划分阶段; (2)确定各阶段的状态变量,寻找各阶段之间的联系;
第六章 序贯决策分析
第一节 多阶段决策
一、多阶段决策问题
在经济活动中,常常遇到这样的决策问题,由于它的特殊性,需要将过程分为若干个相互联系的阶段, 在它的每一个阶段都需要做出决策,从而使整个过程达到最好的活动效果。当各个阶段决策确定后,就组 成了一个决策序列,因而也就决定了整个过程的一条活动路线,这种把一个问题可看作是一个前后关联的 具有链状结构的多阶段过程就称为多阶段决策过程。
图6-2 原决策树
第三节 马尔可夫决策
一、马尔可夫决策问题
决策问题采取的行动已经确定,但将这个行动付诸实践的过程又分为几个时期。在不同的时期,系 统可以处在不同的状态,而这些状态发生的概率又可受前面时期实际所处状态的影响。。其中一种最简 单、最基本的情形,是每一时期状态参数的概率分布只与这一时期的前一时期实际所处的状态有关,而 与更早的状态无关,这就是所谓的马尔可夫链。 利用马氏过程分析系统当前状态并预测未来状态的决策方法,称为马尔可夫决策。