序贯决策

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

13
1.多阶段决策 多阶段决策
1.3 应用举例
P ( H1 ) = ∑ P ( H1 θ j ) P(θ j )
j =1 3
= 0.4 × 0.4 + 0.3 × 0.2 + 0.32 × 0.4 = 0.34
P (θ1 H1 ) = P ( H1 θ1 ) P (θ1 ) P( H1 ) = 0.4 × 0.4 = 0.471 0.34
0.2 × 0.3 = = 0.177 0.34 = 0.4 × 0.3 = 0.352 0.34
P (θ2 H1 ) =
P ( H1 θ2 ) P (θ2 ) P( H1 ) P ( H1 θ3 ) P(θ3 ) P( H1 )
P (θ3 H1 ) =
14
1.多阶段决策 多阶段决策
1.3 应用举例 试销结果下的后验概率
16
2. 序列决策
有些决策问题, 有些决策问题,在进行决策后又产生一些新情况 需要进行新的决策,接着又有一些新的情况, ,需要进行新的决策,接着又有一些新的情况,有 需要进行新的决策。这样决策、新情况、决策…, 需要进行新的决策。这样决策、新情况、决策 , 就构成一个系列,成为系贯决策。 就构成一个系列,成为系贯决策。 多阶段决策的阶段数是确定的, 多阶段决策的阶段数是确定的,序贯决策的阶段 数是不确定的, 数是不确定的,它依赖于执行决策过程中所出现的 状况。 状况。 决策方法: 决策方法:决策树
20
3. 马尔可夫决策
3.1 马尔可夫决策问题 预测在本质上就是利用预测对象的历史数据去推 知预测对象的未来。 知预测对象的未来。 在经济管理现象中存在一种“无后效性” 在经济管理现象中存在一种“无后效性”,即“ 系统在每一时刻的状态仅仅取决于前一时刻的状态 而与其过去的历史无关。 ,而与其过去的历史无关。” 例如:池塘里有三张荷叶,编号为 , , , 例如:池塘里有三张荷叶,编号为1,2,3,假 设有一只青蛙随机地在荷叶上跳来跳去, 设有一只青蛙随机地在荷叶上跳来跳去,在初始时 它在2号荷叶上 在时刻,它有可能跳到1号或 号荷叶上。 刻,它在 号荷叶上。在时刻,它有可能跳到 号或 号荷叶上, 者3号荷叶上,也有可能原地不动。 号荷叶上 也有可能原地不动。
7
3年内
7年内
第二步,从右向左计算各点的期望收益值。 第二步,从右向左计算各点的期望收益值。
点4:210×0.9×7-40×0.1×7=1295(万元) 210×0.9× 40×0.1×7=1295(万元) 点5:-40×7=-280(万元) 40×7=-280(万元) 点2:1295×0.7+210×0.7×3-280×0.3-40×0.3×3=1227.5(万元 1295×0.7+210×0.7× 280×0.3-40×0.3×3=1227.5( ) 点8:210×0.9×7-40×0.1×7-400=895(万元) 210×0.9× 40×0.1× 400=895(万元) 点9:90×0.9×7+60×0.1×7=609(万元) 90×0.9×7+60×0.1×7=609(万元) 点6是个决策点,比较点8和点9的期望收益,选择扩建。 是个决策点,比较点8和点9的期望收益,选择扩建。 点6:895(万元) 895(万元) 点7:60×7=420(万元) 60×7=420(万元) 点3:895×0.7+210×0.7×3+420×0.3+60×0.3×3=1247.5(万元) 895×0.7+210×0.7×3+420×0.3+60×0.3×3=1247.5(万元)
图 原决策树
3. 马尔可夫决策
3.1 马尔可夫决策问题 决策问题采取的行动已经确定,但将这个行动 付诸实践的过程又分为几个时期。在不同的时期 ,系统可以处在不同的状态,而这些状态发生的 概率又可受前面时期实际所处状态的影响。其中 一种最简单、最基本的情形,是每一时期状态参 数的概率分布只与这一时期的前一时期实际所处 的状态有关,而与更早的状态无关,这就是所谓 的马尔可夫链。 利用马氏过程分析系统当前状态并预测未来状 态的决策方法,称为马尔可夫决策。
17
例 设有某石油勘探队,在一片估计能出油的 荒田钻探,可以先做地震试验,然后决定钻井与 否。或者不做地震试验,只凭经验决定钻井与否 。做地震试验的费用每次30000元,钻井费用为 10000元。若钻井后出油,这井队可收入40000元 ;若不出油就没有任何收入。各种情况下出油的 概率ห้องสมุดไป่ตู้估计出,并标在图上。问钻井队的决策者 如何做出决策使收入的期望值为最大。
序贯决策分析 序贯决策分析
1.多阶段决策 多阶段决策 2.序贯决策 序贯决策 3.马尔可夫决策 马尔可夫决策
1
1 . 多阶段决策
1.1 多阶段决策问题 在经济管理活动中,由于某些问题的特殊性, 在经济管理活动中,由于某些问题的特殊性, 需要将活动过程分为若干个相互联系的阶段, 需要将活动过程分为若干个相互联系的阶段,在 它的每一个阶段都需要做出决策, 它的每一个阶段都需要做出决策,从而使整个过 程达到最好的活动效果。 程达到最好的活动效果。 当各个阶段决策确定后, 当各个阶段决策确定后,就组成了一个决策系 决定了整个过程的一条活动路线。 列,决定了整个过程的一条活动路线。 把一个问题看作是一个前后关联的具有链状结 构的多阶段过程就成为多阶段决策过程。 构的多阶段过程就成为多阶段决策过程。
2
1.多阶段决策 多阶段决策
1.1 多阶段决策问题 多阶段决策的特点: 多阶段决策的特点: 决策者需要做出时间上有先后之别的多次决策; 决策者需要做出时间上有先后之别的多次决策; 前一次决策的选择将直接影响到后一次决策,后 前一次决策的选择将直接影响到后一次决策, 一次决策的状态取决于前一次决策的结果; 一次决策的状态取决于前一次决策的结果; 决策者关系的是多次决策的总结果, 决策者关系的是多次决策的总结果,而不是各次 决策的即时后果(全程最优)。 决策的即时后果(全程最优)。
第三步,进行决策。 第三步,进行决策。 比较点2和点3 的期望收益, 比较点 2 和点 3 的期望收益 , 点 3 期望收益值 较大, 可见,最优方案是先建小厂, 较大 , 可见 , 最优方案是先建小厂 , 如果销路 年以后再进行扩建。 好,3年以后再进行扩建。
1.多阶段决策 多阶段决策
1.3 应用举例 某公司考虑是否花费4000元钱从某科研机构购买某 元钱从某科研机构购买某 某公司考虑是否花费 项技术,然后产销新产品,如果买技术, 项技术,然后产销新产品,如果买技术,可以进行 大批( 中批( 或小批生产( 大批 ( a1 ) 、 中批 ( a2 ) 或小批生产 ( a3 ) , 可能 出现的市场情况也分为畅销、 出现的市场情况也分为畅销、一般和滞销三种情况 其收益矩阵如表1所示 所示。 。其收益矩阵如表 所示。
21
3.马尔可夫决策 马尔可夫决策
3.马尔可夫决策 马尔可夫决策 3.1 马尔可夫决策问题 把青蛙某个时刻所在的荷叶成为青蛙所处的状态, 把青蛙某个时刻所在的荷叶成为青蛙所处的状态, 这样,青蛙在未来处于什么状态, 这样,青蛙在未来处于什么状态,只与它现在所处的 状态无关,与它以前所处的状态无关。 状态无关,与它以前所处的状态无关。这种性质就是 所谓的“无后效性” 即马尔可夫( 所谓的“无后效性”,即马尔可夫(Markov)性。 ) 对于某些情况,知道预测对象的当前状态, 对于某些情况,知道预测对象的当前状态,希望由 此推知预测对象的今后状态, 此推知预测对象的今后状态,如果这样的对象在状态 转移过程中满足马尔可夫性,则可以利用随机过程( 转移过程中满足马尔可夫性,则可以利用随机过程( stochastic process)的有关理论进行预测。这种预测技 )的有关理论进行预测。 术不需要太多的历史数据和资料, 术不需要太多的历史数据和资料,只需要预测对象最 近和当前的资料。 近和当前的资料。
4
有关活动方案的决策方法 决策树法
构成(三点两枝): 决策点: 代表最后的方案选择 状态点: 代表方案将会遇到的不同状态 结果点: 代表每一种状态所得到的结果 方案枝:由决策点引出的线段,连接决策点和状 态点,每一线段代表一个方案。 概率枝:由状态点引出的线段,连接状态点和结 果点。每一线段代表一种状态。
15
连续情形的决策分析应用举例 连续情形的决策分析应用举例 某工厂现有10万元资金可供生产某种产品使用,生 产过程有两个方案可供选择。方案1:每万元资金,每年 可产生0.5万元的利润,年产量为2000吨。方案2:每万 元资金,每年可产生0.2万元的利润,年产量为3000吨。 每年可用一部分资金采取一种方案生产,另外一部分资 金采取另一种方案进行生产,但一年内不变。假设前一 年的利润可作为下一年的资金在两个方案间再行分配, 但一个方案前一年的资金不得在下一年向另一方案转移 。那么,为使四年内的总产量最高,该厂在这四年中应 该如何分配资金?
1 3 Ⅰ 2 Ⅱ 4
例题分析
•某厂为适应市场的需要,准备扩大生产能力,有两 某厂为适应市场的需要,准备扩大生产能力,
种方案可供选择:第一方案是建大厂; 种方案可供选择:第一方案是建大厂;第二方案是先建 小厂,后考虑扩建。如建大厂,需投资700万元, 700万元 小厂,后考虑扩建。如建大厂,需投资700万元,在市场 销路好时,每年收益210万元,销路差时,每年亏损40 210万元 40万 销路好时,每年收益210万元,销路差时,每年亏损40万 元。在第二方案中,先建小厂,如销路好,3年后进行扩 在第二方案中,先建小厂,如销路好, 建小厂的投资为300万元,在市场销路好时, 300万元 建。建小厂的投资为300万元,在市场销路好时,每年收 90万元 销路差时,每年收益60万元,如果3 万元, 60万元 益90万元,销路差时,每年收益60万元,如果3年后扩建 扩建投资为400万元,收益情况同第一方案一致。 400万元 ,扩建投资为400万元,收益情况同第一方案一致。未来 市场销路好的概率为0.7 销路差的概率为0.3 如果前3 0.7, 0.3; 市场销路好的概率为0.7,销路差的概率为0.3;如果前3 年销路好,则后7年销路好的概率为0.9,销路差的概率 年销路好,则后7年销路好的概率为0.9, 0.9 0.1。无论选用何种方案,使用期均为10 10年 为0.1。无论选用何种方案,使用期均为10年,试做决策 分析。 分析。
这是一个多阶段的决策问题, 这是一个多阶段的决策问题,考虑采用期望收益最大为 标准选择最优方案。 标准选择最优方案。 第一步,画出决策树图。 第一步,画出决策树图。
1295 1227. 1227.5
销路好0.7 销路好0.7 销路好0.9 销路好0.9
4
210 -40
销路差0.1 销路差0.1
2
建大厂
11
1.多阶段决策 多阶段决策
1.3 应用举例 为了更准确地了解市场, 为了更准确地了解市场 , 在正式投产前可先生产少量 产品试销。由于要增添少量生产设备等原因,试销费 产品试销。 由于要增添少量生产设备等原因, 需要600元。由于试销前未做广告,顾客对产品不太了 需要 元 由于试销前未做广告, 加之试销销量较小,试销结果很不准确。 解 , 加之试销销量较小 , 试销结果很不准确。 假设试 销结果分为产品受欢迎(H 一般(H 和不受欢迎 销结果分为产品受欢迎 1 ) 、 一般 2)和不受欢迎 (H3)三种,其准确度如表 三种, 三种 其准确度如表2
3
1.多阶段决策 多阶段决策
1.2 多阶段决策方法 解决多阶段问题的主要方法: 解决多阶段问题的主要方法: 决策树方法; 决策树方法; 动态规划方法 多阶段决策分析的步骤: 多阶段决策分析的步骤: 根据具体问题适当划分阶段; 根据具体问题适当划分阶段; 确定各阶段的状态变量,寻找多阶段之间的联系; 确定各阶段的状态变量,寻找多阶段之间的联系; 由后到前用逆序法进行决策分析
12
1.3 应用举例
如不买此项技术,把这笔费用用在其他方面, 如不买此项技术,把这笔费用用在其他方面,在同 样的时期可获利8000 8000元 那么, 样的时期可获利8000元。那么,该公司应该如 何决策? 何决策? 是否买技术? (1)是否买技术? 如果买技术,是否采取试销办法? (2)如果买技术,是否采取试销办法? 如果不试销,应大批生产, (3)如果不试销,应大批生产,中批生产还是小批 生产?如果试销, 生产?如果试销,又应该如何根据试销结果决 定其行动? 定其行动?
-280
销路差0.3 销路差0.3
5
895
销路好0.9 销路好0.9
1
建小厂
895
销路好0.7 销路好0.7
扩建
8 9
-40 210 -40 90 60 60
销路差0.1 销路差0.1 销路好0.9 销路好0.9 销路差0.1 销路差0.1
1247. 1247.5
6
3
不扩建609
420 销路差0.3 销路差0.3
相关文档
最新文档