序贯决策

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

13
1.多阶段决策多阶段决策
1.3 应用举例
P ( H1 ) = ∑ P ( H1 θ j ) P(θ j )
j =1 3
= 0.4 × 0.4 + 0.3 × 0.2 + 0.32 × 0.4 = 0.34
P (θ1 H1 ) = P ( H1 θ1 ) P (θ1 ) P( H1 ) = 0.4 × 0.4 = 0.471 0.34
0.2 × 0.3 = = 0.177 0.34 = 0.4 × 0.3 = 0.352 0.34
P (θ2 H1 ) =
P ( H1 θ2 ) P (θ2 ) P( H1 ) P ( H1 θ3 ) P(θ3 ) P( H1 )
P (θ3 H1 ) =
14
1.多阶段决策多阶段决策
1.3 应用举例试销结果下的后验概率
16
2. 序列决策
有些决策问题，有些决策问题，在进行决策后又产生一些新情况需要进行新的决策，接着又有一些新的情况，，需要进行新的决策，接着又有一些新的情况，有需要进行新的决策。这样决策、新情况、决策…，需要进行新的决策。这样决策、新情况、决策，就构成一个系列，成为系贯决策。就构成一个系列，成为系贯决策。多阶段决策的阶段数是确定的，多阶段决策的阶段数是确定的，序贯决策的阶段数是不确定的，数是不确定的，它依赖于执行决策过程中所出现的状况。状况。决策方法：决策方法：决策树
20
3. 马尔可夫决策
3.1 马尔可夫决策问题预测在本质上就是利用预测对象的历史数据去推知预测对象的未来。知预测对象的未来。在经济管理现象中存在一种“无后效性” 在经济管理现象中存在一种“无后效性”，即“ 系统在每一时刻的状态仅仅取决于前一时刻的状态而与其过去的历史无关。，而与其过去的历史无关。” 例如：池塘里有三张荷叶，编号为，，，例如：池塘里有三张荷叶，编号为1，2，3，假设有一只青蛙随机地在荷叶上跳来跳去，设有一只青蛙随机地在荷叶上跳来跳去，在初始时它在2号荷叶上在时刻，它有可能跳到1号或号荷叶上。刻，它在号荷叶上。在时刻，它有可能跳到号或号荷叶上，者3号荷叶上，也有可能原地不动。号荷叶上也有可能原地不动。
7
3年内
7年内
第二步，从右向左计算各点的期望收益值。第二步，从右向左计算各点的期望收益值。
点4：210×0.9×7-40×0.1×7=1295（万元） 210×0.9× 40×0.1×7=1295（万元）点5：-40×7=-280（万元） 40×7=-280（万元）点2：1295×0.7+210×0.7×3-280×0.3-40×0.3×3=1227.5（万元 1295×0.7+210×0.7× 280×0.3-40×0.3×3=1227.5（）点8：210×0.9×7-40×0.1×7-400=895（万元） 210×0.9× 40×0.1× 400=895（万元）点9：90×0.9×7+60×0.1×7=609（万元） 90×0.9×7+60×0.1×7=609（万元）点6是个决策点，比较点8和点9的期望收益，选择扩建。是个决策点，比较点8和点9的期望收益，选择扩建。点6：895（万元） 895（万元）点7：60×7=420（万元） 60×7=420（万元）点3：895×0.7+210×0.7×3+420×0.3+60×0.3×3=1247.5（万元） 895×0.7+210×0.7×3+420×0.3+60×0.3×3=1247.5（万元）
图原决策树
3. 马尔可夫决策
3.1 马尔可夫决策问题决策问题采取的行动已经确定，但将这个行动付诸实践的过程又分为几个时期。在不同的时期，系统可以处在不同的状态，而这些状态发生的概率又可受前面时期实际所处状态的影响。其中一种最简单、最基本的情形，是每一时期状态参数的概率分布只与这一时期的前一时期实际所处的状态有关，而与更早的状态无关，这就是所谓的马尔可夫链。利用马氏过程分析系统当前状态并预测未来状态的决策方法，称为马尔可夫决策。
17
例设有某石油勘探队，在一片估计能出油的荒田钻探，可以先做地震试验，然后决定钻井与否。或者不做地震试验，只凭经验决定钻井与否。做地震试验的费用每次30000元，钻井费用为 10000元。若钻井后出油，这井队可收入40000元；若不出油就没有任何收入。各种情况下出油的概率ห้องสมุดไป่ตู้估计出，并标在图上。问钻井队的决策者如何做出决策使收入的期望值为最大。
序贯决策分析序贯决策分析
1.多阶段决策多阶段决策 2.序贯决策序贯决策 3.马尔可夫决策马尔可夫决策
1
1 . 多阶段决策
1.1 多阶段决策问题在经济管理活动中，由于某些问题的特殊性，在经济管理活动中，由于某些问题的特殊性，需要将活动过程分为若干个相互联系的阶段，需要将活动过程分为若干个相互联系的阶段，在它的每一个阶段都需要做出决策，它的每一个阶段都需要做出决策，从而使整个过程达到最好的活动效果。程达到最好的活动效果。当各个阶段决策确定后，当各个阶段决策确定后，就组成了一个决策系决定了整个过程的一条活动路线。列，决定了整个过程的一条活动路线。把一个问题看作是一个前后关联的具有链状结构的多阶段过程就成为多阶段决策过程。构的多阶段过程就成为多阶段决策过程。
2
1.多阶段决策多阶段决策
1.1 多阶段决策问题多阶段决策的特点：多阶段决策的特点：决策者需要做出时间上有先后之别的多次决策；决策者需要做出时间上有先后之别的多次决策；前一次决策的选择将直接影响到后一次决策，后前一次决策的选择将直接影响到后一次决策，一次决策的状态取决于前一次决策的结果；一次决策的状态取决于前一次决策的结果；决策者关系的是多次决策的总结果，决策者关系的是多次决策的总结果，而不是各次决策的即时后果（全程最优）。决策的即时后果（全程最优）。
第三步，进行决策。第三步，进行决策。比较点2和点3 的期望收益，比较点 2 和点 3 的期望收益，点 3 期望收益值较大，可见，最优方案是先建小厂，较大，可见，最优方案是先建小厂，如果销路年以后再进行扩建。好，3年以后再进行扩建。
1.多阶段决策多阶段决策
1.3 应用举例某公司考虑是否花费4000元钱从某科研机构购买某元钱从某科研机构购买某某公司考虑是否花费项技术，然后产销新产品，如果买技术，项技术，然后产销新产品，如果买技术，可以进行大批（中批（或小批生产（大批（ a1 ）、中批（ a2 ）或小批生产（ a3 ），可能出现的市场情况也分为畅销、出现的市场情况也分为畅销、一般和滞销三种情况其收益矩阵如表1所示所示。。其收益矩阵如表所示。
21
3.马尔可夫决策马尔可夫决策
3.马尔可夫决策马尔可夫决策 3.1 马尔可夫决策问题把青蛙某个时刻所在的荷叶成为青蛙所处的状态，把青蛙某个时刻所在的荷叶成为青蛙所处的状态，这样，青蛙在未来处于什么状态，这样，青蛙在未来处于什么状态，只与它现在所处的状态无关，与它以前所处的状态无关。状态无关，与它以前所处的状态无关。这种性质就是所谓的“无后效性” 即马尔可夫（所谓的“无后效性”，即马尔可夫（Markov）性。）对于某些情况，知道预测对象的当前状态，对于某些情况，知道预测对象的当前状态，希望由此推知预测对象的今后状态，此推知预测对象的今后状态，如果这样的对象在状态转移过程中满足马尔可夫性，则可以利用随机过程（转移过程中满足马尔可夫性，则可以利用随机过程（ stochastic process）的有关理论进行预测。这种预测技）的有关理论进行预测。术不需要太多的历史数据和资料，术不需要太多的历史数据和资料，只需要预测对象最近和当前的资料。近和当前的资料。
4
有关活动方案的决策方法决策树法
构成（三点两枝）：决策点：代表最后的方案选择状态点：代表方案将会遇到的不同状态结果点：代表每一种状态所得到的结果方案枝：由决策点引出的线段，连接决策点和状态点，每一线段代表一个方案。概率枝：由状态点引出的线段，连接状态点和结果点。每一线段代表一种状态。
15
连续情形的决策分析应用举例连续情形的决策分析应用举例某工厂现有10万元资金可供生产某种产品使用，生产过程有两个方案可供选择。方案1：每万元资金，每年可产生0.5万元的利润，年产量为2000吨。方案2：每万元资金，每年可产生0.2万元的利润，年产量为3000吨。每年可用一部分资金采取一种方案生产，另外一部分资金采取另一种方案进行生产，但一年内不变。假设前一年的利润可作为下一年的资金在两个方案间再行分配，但一个方案前一年的资金不得在下一年向另一方案转移。那么，为使四年内的总产量最高，该厂在这四年中应该如何分配资金？
1 3 Ⅰ 2 Ⅱ 4
例题分析
•某厂为适应市场的需要，准备扩大生产能力，有两某厂为适应市场的需要，准备扩大生产能力，
种方案可供选择：第一方案是建大厂；种方案可供选择：第一方案是建大厂；第二方案是先建小厂，后考虑扩建。如建大厂，需投资700万元， 700万元小厂，后考虑扩建。如建大厂，需投资700万元，在市场销路好时，每年收益210万元，销路差时，每年亏损40 210万元 40万销路好时，每年收益210万元，销路差时，每年亏损40万元。在第二方案中，先建小厂，如销路好，3年后进行扩在第二方案中，先建小厂，如销路好，建小厂的投资为300万元，在市场销路好时， 300万元建。建小厂的投资为300万元，在市场销路好时，每年收 90万元销路差时，每年收益60万元，如果3 万元， 60万元益90万元，销路差时，每年收益60万元，如果3年后扩建扩建投资为400万元，收益情况同第一方案一致。 400万元，扩建投资为400万元，收益情况同第一方案一致。未来市场销路好的概率为0.7 销路差的概率为0.3 如果前3 0.7， 0.3；市场销路好的概率为0.7，销路差的概率为0.3；如果前3 年销路好，则后7年销路好的概率为0.9，销路差的概率年销路好，则后7年销路好的概率为0.9， 0.9 0.1。无论选用何种方案，使用期均为10 10年为0.1。无论选用何种方案，使用期均为10年，试做决策分析。分析。
这是一个多阶段的决策问题，这是一个多阶段的决策问题，考虑采用期望收益最大为标准选择最优方案。标准选择最优方案。第一步，画出决策树图。第一步，画出决策树图。
1295 1227. 1227.5
销路好0.7 销路好0.7 销路好0.9 销路好0.9
4
210 -40
销路差0.1 销路差0.1
2
建大厂
11
1.多阶段决策多阶段决策
1.3 应用举例为了更准确地了解市场，为了更准确地了解市场，在正式投产前可先生产少量产品试销。由于要增添少量生产设备等原因，试销费产品试销。由于要增添少量生产设备等原因，需要600元。由于试销前未做广告，顾客对产品不太了需要元由于试销前未做广告，加之试销销量较小，试销结果很不准确。解，加之试销销量较小，试销结果很不准确。假设试销结果分为产品受欢迎(H 一般(H 和不受欢迎销结果分为产品受欢迎 1 ）、一般 2)和不受欢迎 (H3)三种，其准确度如表三种，三种其准确度如表2
3
1.多阶段决策多阶段决策
1.2 多阶段决策方法解决多阶段问题的主要方法：解决多阶段问题的主要方法：决策树方法；决策树方法；动态规划方法多阶段决策分析的步骤：多阶段决策分析的步骤：根据具体问题适当划分阶段；根据具体问题适当划分阶段；确定各阶段的状态变量，寻找多阶段之间的联系；确定各阶段的状态变量，寻找多阶段之间的联系；由后到前用逆序法进行决策分析
12
1.3 应用举例
如不买此项技术，把这笔费用用在其他方面，如不买此项技术，把这笔费用用在其他方面，在同样的时期可获利8000 8000元那么，样的时期可获利8000元。那么，该公司应该如何决策？何决策？是否买技术？（1）是否买技术？如果买技术，是否采取试销办法？（2）如果买技术，是否采取试销办法？如果不试销，应大批生产，（3）如果不试销，应大批生产，中批生产还是小批生产？如果试销，生产？如果试销，又应该如何根据试销结果决定其行动？定其行动？
-280
销路差0.3 销路差0.3
5
895
销路好0.9 销路好0.9
1
建小厂
895
销路好0.7 销路好0.7
扩建
8 9
-40 210 -40 90 60 60
销路差0.1 销路差0.1 销路好0.9 销路好0.9 销路差0.1 销路差0.1
1247. 1247.5
6
3
不扩建609
420 销路差0.3 销路差0.3