序贯决策

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21
3.马尔可夫决策 马尔可夫决策
3.马尔可夫决策 马尔可夫决策 3.1 马尔可夫决策问题 把青蛙某个时刻所在的荷叶成为青蛙所处的状态, 把青蛙某个时刻所在的荷叶成为青蛙所处的状态, 这样,青蛙在未来处于什么状态, 这样,青蛙在未来处于什么状态,只与它现在所处的 状态无关,与它以前所处的状态无关。 状态无关,与它以前所处的状态无关。这种性质就是 所谓的“无后效性” 即马尔可夫( 所谓的“无后效性”,即马尔可夫(Markov)性。 ) 对于某些情况,知道预测对象的当前状态, 对于某些情况,知道预测对象的当前状态,希望由 此推知预测对象的今后状态, 此推知预测对象的今后状态,如果这样的对象在状态 转移过程中满足马尔可夫性,则可以利用随机过程( 转移过程中满足马尔可夫性,则可以利用随机过程( stochastic process)的有关理论进行预测。这种预测技 )的有关理论进行预测。 术不需要太多的历史数据和资料, 术不需要太多的历史数据和资料,只需要预测对象最 近和当前的资料。 近和当前的资料。
20
3. 马尔可夫决策
3.1 马尔可夫决策问题 预测在本质上就是利用预测对象的历史数据去推 知预测对象的未来。 知预测对象的未来。 在经济管理现象中存在一种“无后效性” 在经济管理现象中存在一种“无后效性”,即“ 系统在每一时刻的状态仅仅取决于前一时刻的状态 而与其过去的历史无关。 ,而与其过去的历史无关。” 例如:池塘里有三张荷叶,编号为 , , , 例如:池塘里有三张荷叶,编号为1,2,3,假 设有一只青蛙随机地在荷叶上跳来跳去, 设有一只青蛙随机地在荷叶上跳来跳去,在初始时 它在2号荷叶上 在时刻,它有可能跳到1号或 号荷叶上。 刻,它在 号荷叶上。在时刻,它有可能跳到 号或 号荷叶上, 者3号荷叶上,也有可能原地不动。 号荷叶上 也有可能原地不动。
11
1.多阶段决策 多阶段决策
1.3 应用举例 为了更准确地了解市场, 为了更准确地了解市场 , 在正式投产前可先生产少量 产品试销。由于要增添少量生产设备等原因,试销费 产品试销。 由于要增添少量生产设备等原因, 需要600元。由于试销前未做广告,顾客对产品不太了 需要 元 由于试销前未做广告, 加之试销销量较小,试销结果很不准确。 解 , 加之试销销量较小 , 试销结果很不准确。 假设试 销结果分为产品受欢迎(H 一般(H 和不受欢迎 销结果分为产品受欢迎 1 ) 、 一般 2)和不受欢迎 (H3)三种,其准确度如表 三种, 三种 其准确度如表2
4
有关活动方案的决策方法 决策树法
构成(三点两枝): 决策点: 代表最后的方案选择 状态点: 代表方案将会遇到的不同状态 结果点: 代表每一种状态所得到的结果 方案枝:由决策点引出的线段,连接决策点和状 态点,每一线段代表一个方案。 概率枝:由状态点引出的线段,连接状态点和结 果点。每一线段代表一种状态。
2
1.多阶段决策 多阶段决策
1.1 多阶段决策问题 多阶段决策的特点: 多阶段决策的特点: 决策者需要做出时间上有先后之别的多次决策; 决策者需要做出时间上有先后之别的多次决策; 前一次决策的选择将直接影响到后一次决策,后 前一次决策的选择将直接影响到后一次决策, 一次决策的状态取决于前一次决策的结果; 一次决策的状态取决于前一次决策的结果; 决策者关系的是多次决策的总结果, 决策者关系的是多次决策的总结果,而不是各次 决策的即时后果(全程最优)。 决策的即时后果(全程最优)。
第三步,进行决策。 第三步,进行决策。 比较点2和点3 的期望收益, 比较点 2 和点 3 的期望收益 , 点 3 期望收益值 较大, 可见,最优方案是先建小厂, 较大 , 可见 , 最优方案是先建小厂 , 如果销路 年以后再进行扩建。 好,3年以后再进行扩建。
1.多阶段决策 多阶段决策
1.3 应用举例 某公司考虑是否花费4000元钱从某科研机构购买某 元钱从某科研机构购买某 某公司考虑是否花费 项技术,然后产销新产品,如果买技术, 项技术,然后产销新产品,如果买技术,可以进行 大批( 中批( 或小批生产( 大批 ( a1 ) 、 中批 ( a2 ) 或小批生产 ( a3 ) , 可能 出现的市场情况也分为畅销、 出现的市场情况也分为畅销、一般和滞销三种情况 其收益矩阵如表1所示 所示。 。其收益矩阵如表 所示。
-280
销路差0.3 销路差0.3
5
895
销路好0.9 销路好0.9
1
建小厂
895
销路好0.7 销路好0.7
扩建
8 9
-40 210 -40 90 60 60
销路差0.1 销路差0.1 销路好0.9 销路好0.9 销路差0.1 销路差0.1
1247. 1247.5
6
3
不扩建609
420 销路差0.3 销路差0.3
这是一个多阶段的决策问题, 这是一个多阶段的决策问题,考虑采用期望收益最大为 标准选择最优方案。 标准选择最优方案。 第一步,画出决策树图。 第一步,画出决策树图。
1295 1227. 1227.5
销路好0.7 销路好0.7 销路好0.9 销路好0.9
4
210 -40
销路差0.1 销路差0.1
2
建大厂
17
例 设有某石油勘探队,在一片估计能出油的 荒田钻探,可以先做地震试验,然后决定钻井与 否。或者不做地震试验,只凭经验决定钻井与否 。做地震试验的费用每次30000元,钻井费用为 10000元。若钻井后出油,这井队可收入40000元 ;若不出油就没有任何收入。各种情况下出油的 概率已估计出,并标在图上。问钻井队的决策者 如何做出决策使收入的期望值为最大。
图 原决策树
3. 马尔可夫决策
3.1 马尔可夫决策问题 决策问题采取的行动已经确定,但将这个行动 付诸实践的过程又分为几个时期。在不同的时期 ,系统可以处在不同的状态,而这些状态发生的 概率又可受前面时期实际所处状态的影响。其中 一种最简单、最基本的情形,是每一时期状态参 数的概率分布只与这一时期的前一时期实际所处 的状态有关,而与更早的状态无关,这就是所谓 的马尔可夫链。 利用马氏过程分析系统当前状态并预测未来状 态的决策方法,称为马尔可夫决策。
3
1.多阶段决策 多阶段决策
1.2 多阶段决策方法 解决多阶段问题的主要方法: 解决多阶段问题的主要方法: 决策树方法; 决策树方法; 动态规划方法 多阶段决策分析的步骤: 多阶段决策分析的步骤: 根据具体问题适当划分阶段; 根据具体问题适当划分阶段; 确定各阶段的状态变量,寻找多阶段之间的联系; 确定各阶段的状态变量,寻找多阶段之间的联系; 由后到前用逆序法进行决策分析
序贯决策分析 序贯决策分析
1.多阶段决策 多阶段决策 2.序贯决策 序贯决策 3.马尔可夫决策 马尔可夫决策
1
1 . 多阶段决策
1.1 多阶段决策问题 在经济管理活动中,由于某些问题的特殊性, 在经济管理活动中,由于某些问题的特殊性, 需要将活动过程分为若干个相互联系的阶段, 需要将活动过程分为若干个相互联系的阶段,在 它的每一个阶段都需要做出决策, 它的每一个阶段都需要做出决策,从而使整个过 程达到最好的活动效果。 程达到最好的活动效果。 当各个阶段决策确定后, 当各个阶段决策确定后,就组成了一个决策系 决定了整个过程的一条活动路线。 列,决定了整个过程的一条活动路线。 把一个问题看作是一个前后关联的具有链状结 构的多阶段过程就成为多阶段决策过程。 构的多阶段过程就成为多阶段决策过程。
13
1.多阶段决策 多阶段决策
1.3 应用举例
P ( H1 ) = ∑ P ( H1 θ j ) P(θ j )
j =1 3
= 0.4 × 0.4 + 0.3 × 0.2 + 0.32 × 0.4 = 0.34
P (θ1 H1 ) = P ( H1 θ1 ) P (θ1 ) P( H1 ) = 0.4 × 0.4 = 0.471 0.34
12百度文库
1.3 应用举例
如不买此项技术,把这笔费用用在其他方面, 如不买此项技术,把这笔费用用在其他方面,在同 样的时期可获利8000 8000元 那么, 样的时期可获利8000元。那么,该公司应该如 何决策? 何决策? 是否买技术? (1)是否买技术? 如果买技术,是否采取试销办法? (2)如果买技术,是否采取试销办法? 如果不试销,应大批生产, (3)如果不试销,应大批生产,中批生产还是小批 生产?如果试销, 生产?如果试销,又应该如何根据试销结果决 定其行动? 定其行动?
16
2. 序列决策
有些决策问题, 有些决策问题,在进行决策后又产生一些新情况 需要进行新的决策,接着又有一些新的情况, ,需要进行新的决策,接着又有一些新的情况,有 需要进行新的决策。这样决策、新情况、决策…, 需要进行新的决策。这样决策、新情况、决策 , 就构成一个系列,成为系贯决策。 就构成一个系列,成为系贯决策。 多阶段决策的阶段数是确定的, 多阶段决策的阶段数是确定的,序贯决策的阶段 数是不确定的, 数是不确定的,它依赖于执行决策过程中所出现的 状况。 状况。 决策方法: 决策方法:决策树
15
连续情形的决策分析应用举例 连续情形的决策分析应用举例 某工厂现有10万元资金可供生产某种产品使用,生 产过程有两个方案可供选择。方案1:每万元资金,每年 可产生0.5万元的利润,年产量为2000吨。方案2:每万 元资金,每年可产生0.2万元的利润,年产量为3000吨。 每年可用一部分资金采取一种方案生产,另外一部分资 金采取另一种方案进行生产,但一年内不变。假设前一 年的利润可作为下一年的资金在两个方案间再行分配, 但一个方案前一年的资金不得在下一年向另一方案转移 。那么,为使四年内的总产量最高,该厂在这四年中应 该如何分配资金?
7
3年内
7年内
第二步,从右向左计算各点的期望收益值。 第二步,从右向左计算各点的期望收益值。
点4:210×0.9×7-40×0.1×7=1295(万元) 210×0.9× 40×0.1×7=1295(万元) 点5:-40×7=-280(万元) 40×7=-280(万元) 点2:1295×0.7+210×0.7×3-280×0.3-40×0.3×3=1227.5(万元 1295×0.7+210×0.7× 280×0.3-40×0.3×3=1227.5( ) 点8:210×0.9×7-40×0.1×7-400=895(万元) 210×0.9× 40×0.1× 400=895(万元) 点9:90×0.9×7+60×0.1×7=609(万元) 90×0.9×7+60×0.1×7=609(万元) 点6是个决策点,比较点8和点9的期望收益,选择扩建。 是个决策点,比较点8和点9的期望收益,选择扩建。 点6:895(万元) 895(万元) 点7:60×7=420(万元) 60×7=420(万元) 点3:895×0.7+210×0.7×3+420×0.3+60×0.3×3=1247.5(万元) 895×0.7+210×0.7×3+420×0.3+60×0.3×3=1247.5(万元)
0.2 × 0.3 = = 0.177 0.34 = 0.4 × 0.3 = 0.352 0.34
P (θ2 H1 ) =
P ( H1 θ2 ) P (θ2 ) P( H1 ) P ( H1 θ3 ) P(θ3 ) P( H1 )
P (θ3 H1 ) =
14
1.多阶段决策 多阶段决策
1.3 应用举例 试销结果下的后验概率
1 3 Ⅰ 2 Ⅱ 4
例题分析
•某厂为适应市场的需要,准备扩大生产能力,有两 某厂为适应市场的需要,准备扩大生产能力,
种方案可供选择:第一方案是建大厂; 种方案可供选择:第一方案是建大厂;第二方案是先建 小厂,后考虑扩建。如建大厂,需投资700万元, 700万元 小厂,后考虑扩建。如建大厂,需投资700万元,在市场 销路好时,每年收益210万元,销路差时,每年亏损40 210万元 40万 销路好时,每年收益210万元,销路差时,每年亏损40万 元。在第二方案中,先建小厂,如销路好,3年后进行扩 在第二方案中,先建小厂,如销路好, 建小厂的投资为300万元,在市场销路好时, 300万元 建。建小厂的投资为300万元,在市场销路好时,每年收 90万元 销路差时,每年收益60万元,如果3 万元, 60万元 益90万元,销路差时,每年收益60万元,如果3年后扩建 扩建投资为400万元,收益情况同第一方案一致。 400万元 ,扩建投资为400万元,收益情况同第一方案一致。未来 市场销路好的概率为0.7 销路差的概率为0.3 如果前3 0.7, 0.3; 市场销路好的概率为0.7,销路差的概率为0.3;如果前3 年销路好,则后7年销路好的概率为0.9,销路差的概率 年销路好,则后7年销路好的概率为0.9, 0.9 0.1。无论选用何种方案,使用期均为10 10年 为0.1。无论选用何种方案,使用期均为10年,试做决策 分析。 分析。
相关文档
最新文档