决策理论与方法教学作者罗党第四章(2)-教材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《决策理论与方法》
第 22页页
学习目的
《决策理论与方法》
▪ 了解多阶段决策、序贯决策的概念及特点;
▪ 掌握动态规划与决策树方法及其在多阶段决策、 序贯决策中的应用。
第 33页页
本讲内容
4.3序贯决策
4.3.1序贯决策的基本概念 4.3.2序贯决策的决策方法
《决策理论与方法》
第 44页页
4.3 序贯决策
《决策理论与方法》
4.3.1 序贯决策的基本概念
上面的多阶段决策,阶段数是确定的。除这种决 策外,还有一些决策的阶段数不是事先确定的,它依 赖于执行决策过程中出现的情况。这种决策问题称为 序贯决策(sequential decision problem)。
序列决策在进行决策后又产生一些新的情况,需 要进行新的决策,接着又有一些新的情况,又需要进 行新的决策。这样决策、情况、决策……,这就构成 一个序列。
2)系统下一步可能出现的状态的概率分布不知 道,只能用主观概率的条件分布来描述。用于这类系 统的序贯决策属于决策分析的内容。
第 77页页
ra,E 2fE 2
4.3 序贯决策
《决策理论与方法》
4.3.2 序贯决策的决策方法
序贯决策的过程是:从初始状态开始,每个时 刻做出最优决策后,接着观察下一步实际出现的状态 ,即收集新的信息,然后再做出新的最优决策,反复 进行直至最后。
3
P (X 1 1 ) P (X 1 1 | j)P (j)
j 1
0 . 0 0 . 2 1 0 . 4 0 . 6 0 0 . 9 0 . 2 0 0.422
第 1144页页
【例8.2】
《决策理论与方法》
P (1 |X 1 1 ) P (X P 1 (X 1 1 | 1 1 )P )(1 ) 0 .0 0 .4 0 1 .2 2 0 .0 204 P (2 |X 1 1 ) P (X 1 P (X 1 1 | 2 1 )P )(2 ) 0 .4 0 .4 0 0 .6 2 0 .5 268 P (3 |X 1 1 ) P (X 1 P (X 1 1 | 3 1 )P )(3 ) 0 .9 0 .4 0 0 .2 2 0 .4 226
第 99页页
ቤተ መጻሕፍቲ ባይዱ
4.3 序贯决策
《决策理论与方法》
▪ 为了更好地做出决定可以先从一箱中随机抽取1件作 为样本检验它,然后根据这件产品是都次品再决定 该箱是否要检验,抽样成本为4.2元。进行第一次抽 样后,除选择检验还是不检验外,还可以根据前面 抽样的结果,考虑再进行一次抽样检验如此形成一 个决策序列。
解决序贯决策问题的有效办法仍然是决策树,解 决序贯决策的关键是确定一个决策序列终止的原则。 在下例中,这个原则就是:不管到决策的哪个阶段, 只要有一个非经抽样的后悔期望值小于进行一次抽样 的费用,决策序列便可终止。
第 88页页
4.3 序贯决策
《决策理论与方法》
4.3.2 序贯决策的决策方法
例4-3-1 某工厂的产品每1000件装成一箱出售。 每箱中产品的次品率有0.01,0.40,0.90三种可能, 其概率分别为0.2,0.6,0.2。现在的问题是:出厂前 是否要对产品进行严格检验,将次品挑出。可以选择 的行动有两个:① 整箱检验(a1) ,检验费 为每箱100 元;②整箱不检验(a2) ,但如果顾客在使用中发现 次品,每件次品除条换为合格品外还要赔偿0.25元损 失费。
序列决策树图不能够一次绘制成功,而是随着决策过 程序列的延伸和终止依次进行。为了简化图形,行动 方案al和a2可能出现的状态及其对应的损失值均在图 中略去,仅在方案枝末端标注上期望损失值。
第 111页页
1
A1
X1=0
4
2
X1=1
5
… 《决X策2=理0 论与方法》
8
… X2=1
9
a1
a2
(略)
a1
3 a2
▪ 试进行序列决策:
(1)是否需要抽样?(若需要,抽样几次?)
(2)在抽样或不抽样的前提下,采用何种方案进行 检验?
第 1100页页
【例8.2】
《决策理论与方法》
解: θ1,θ2,θ3分别表示产品次品率为 0.01 ,0.4, 0.9三种状态。对于抽样检验一件产品,X=1和X=0分 别表示样品为次品和合格品两个结果。结果值均用期 望损失值表示。
A2
A3
6
7
… A4
第 1122页页
《决策理论与方法》
该问题的费 用矩阵为:
101 000 10 Q(qij)232.5100 22
相应的损失矩阵为 R(rij)2390.75001025
先进行第一次抽样的后验概率计算
3
P (X 10 ) p (x 10| j)p (j) j 1 0 . 9 0 . 2 9 0 . 6 0 . 6 0 0 . 1 0 . 2 0 0.578 第 1133页页
《决策理论与方法》
P (1 |X 1 0 ) p (X 1 P (X 0 1 | 1 0 )P )(1 ) 0 .9 0 .5 0 9 .2 7 0 .3 84 P (2 |X 1 0 ) P (X 1 P (X 0 1 | 2 0 )P )(2 ) 0 .6 0 .5 0 0 .6 7 0 .6 82 P (3 |X 1 0 ) P (X 1 P (X 0 1 | 3 0 ) P )(3 ) 0 .1 0 .5 0 0 .2 7 0 .0 83
第 55页页
4.3 序贯决策
《决策理论与方法》
4.3.1 序贯决策的基本概念
序贯决策是用于随机性或不确态定性动态系统最 优化的决策方法。它的特点是:
1)所研究的系统是动态的,即系统所处的状态 与时间有关,可周期(或连续)地对它观察;
2)决策是序贯地进行的,即每个时刻根据所观 察到的状态和以前状态的记录,从一组可行方案中选 用一个最优方案(即作最优决策),使取决于状态的 某个目标函数取最优值(极大或极小值);
3)系统下一步(或未来)可能出现的状态是随机的 或不确定的。
第 66页页
ra,E 2fE 2
4.3 序贯决策
《决策理论与方法》
4.3.1 序贯决策的基本概念
系统在每次作出决策后下一步可能出现的状态 是不能确切预知的,存在两种情况:
1)系统下一步可能出现的状态的概率分布是已 知的,可用客观概率的条件分布来描述。对于这类系 统的序贯决策研究得较完满的是状态转移律具有无后 效性的系统,相应的序贯决策称为马尔可夫决策过程 ,它是将马尔可夫过程理论与决定性动态规划相结合 的产物。
第 22页页
学习目的
《决策理论与方法》
▪ 了解多阶段决策、序贯决策的概念及特点;
▪ 掌握动态规划与决策树方法及其在多阶段决策、 序贯决策中的应用。
第 33页页
本讲内容
4.3序贯决策
4.3.1序贯决策的基本概念 4.3.2序贯决策的决策方法
《决策理论与方法》
第 44页页
4.3 序贯决策
《决策理论与方法》
4.3.1 序贯决策的基本概念
上面的多阶段决策,阶段数是确定的。除这种决 策外,还有一些决策的阶段数不是事先确定的,它依 赖于执行决策过程中出现的情况。这种决策问题称为 序贯决策(sequential decision problem)。
序列决策在进行决策后又产生一些新的情况,需 要进行新的决策,接着又有一些新的情况,又需要进 行新的决策。这样决策、情况、决策……,这就构成 一个序列。
2)系统下一步可能出现的状态的概率分布不知 道,只能用主观概率的条件分布来描述。用于这类系 统的序贯决策属于决策分析的内容。
第 77页页
ra,E 2fE 2
4.3 序贯决策
《决策理论与方法》
4.3.2 序贯决策的决策方法
序贯决策的过程是:从初始状态开始,每个时 刻做出最优决策后,接着观察下一步实际出现的状态 ,即收集新的信息,然后再做出新的最优决策,反复 进行直至最后。
3
P (X 1 1 ) P (X 1 1 | j)P (j)
j 1
0 . 0 0 . 2 1 0 . 4 0 . 6 0 0 . 9 0 . 2 0 0.422
第 1144页页
【例8.2】
《决策理论与方法》
P (1 |X 1 1 ) P (X P 1 (X 1 1 | 1 1 )P )(1 ) 0 .0 0 .4 0 1 .2 2 0 .0 204 P (2 |X 1 1 ) P (X 1 P (X 1 1 | 2 1 )P )(2 ) 0 .4 0 .4 0 0 .6 2 0 .5 268 P (3 |X 1 1 ) P (X 1 P (X 1 1 | 3 1 )P )(3 ) 0 .9 0 .4 0 0 .2 2 0 .4 226
第 99页页
ቤተ መጻሕፍቲ ባይዱ
4.3 序贯决策
《决策理论与方法》
▪ 为了更好地做出决定可以先从一箱中随机抽取1件作 为样本检验它,然后根据这件产品是都次品再决定 该箱是否要检验,抽样成本为4.2元。进行第一次抽 样后,除选择检验还是不检验外,还可以根据前面 抽样的结果,考虑再进行一次抽样检验如此形成一 个决策序列。
解决序贯决策问题的有效办法仍然是决策树,解 决序贯决策的关键是确定一个决策序列终止的原则。 在下例中,这个原则就是:不管到决策的哪个阶段, 只要有一个非经抽样的后悔期望值小于进行一次抽样 的费用,决策序列便可终止。
第 88页页
4.3 序贯决策
《决策理论与方法》
4.3.2 序贯决策的决策方法
例4-3-1 某工厂的产品每1000件装成一箱出售。 每箱中产品的次品率有0.01,0.40,0.90三种可能, 其概率分别为0.2,0.6,0.2。现在的问题是:出厂前 是否要对产品进行严格检验,将次品挑出。可以选择 的行动有两个:① 整箱检验(a1) ,检验费 为每箱100 元;②整箱不检验(a2) ,但如果顾客在使用中发现 次品,每件次品除条换为合格品外还要赔偿0.25元损 失费。
序列决策树图不能够一次绘制成功,而是随着决策过 程序列的延伸和终止依次进行。为了简化图形,行动 方案al和a2可能出现的状态及其对应的损失值均在图 中略去,仅在方案枝末端标注上期望损失值。
第 111页页
1
A1
X1=0
4
2
X1=1
5
… 《决X策2=理0 论与方法》
8
… X2=1
9
a1
a2
(略)
a1
3 a2
▪ 试进行序列决策:
(1)是否需要抽样?(若需要,抽样几次?)
(2)在抽样或不抽样的前提下,采用何种方案进行 检验?
第 1100页页
【例8.2】
《决策理论与方法》
解: θ1,θ2,θ3分别表示产品次品率为 0.01 ,0.4, 0.9三种状态。对于抽样检验一件产品,X=1和X=0分 别表示样品为次品和合格品两个结果。结果值均用期 望损失值表示。
A2
A3
6
7
… A4
第 1122页页
《决策理论与方法》
该问题的费 用矩阵为:
101 000 10 Q(qij)232.5100 22
相应的损失矩阵为 R(rij)2390.75001025
先进行第一次抽样的后验概率计算
3
P (X 10 ) p (x 10| j)p (j) j 1 0 . 9 0 . 2 9 0 . 6 0 . 6 0 0 . 1 0 . 2 0 0.578 第 1133页页
《决策理论与方法》
P (1 |X 1 0 ) p (X 1 P (X 0 1 | 1 0 )P )(1 ) 0 .9 0 .5 0 9 .2 7 0 .3 84 P (2 |X 1 0 ) P (X 1 P (X 0 1 | 2 0 )P )(2 ) 0 .6 0 .5 0 0 .6 7 0 .6 82 P (3 |X 1 0 ) P (X 1 P (X 0 1 | 3 0 ) P )(3 ) 0 .1 0 .5 0 0 .2 7 0 .0 83
第 55页页
4.3 序贯决策
《决策理论与方法》
4.3.1 序贯决策的基本概念
序贯决策是用于随机性或不确态定性动态系统最 优化的决策方法。它的特点是:
1)所研究的系统是动态的,即系统所处的状态 与时间有关,可周期(或连续)地对它观察;
2)决策是序贯地进行的,即每个时刻根据所观 察到的状态和以前状态的记录,从一组可行方案中选 用一个最优方案(即作最优决策),使取决于状态的 某个目标函数取最优值(极大或极小值);
3)系统下一步(或未来)可能出现的状态是随机的 或不确定的。
第 66页页
ra,E 2fE 2
4.3 序贯决策
《决策理论与方法》
4.3.1 序贯决策的基本概念
系统在每次作出决策后下一步可能出现的状态 是不能确切预知的,存在两种情况:
1)系统下一步可能出现的状态的概率分布是已 知的,可用客观概率的条件分布来描述。对于这类系 统的序贯决策研究得较完满的是状态转移律具有无后 效性的系统,相应的序贯决策称为马尔可夫决策过程 ,它是将马尔可夫过程理论与决定性动态规划相结合 的产物。