第四章 序贯决策

合集下载

王则柯博弈论4序贯决策博弈

王则柯博弈论4序贯决策博弈

• 试验表明,在分别判断的情况下(也就是人们不能把这两杯冰 淇淋放在一起比较),人们反而愿意为冰淇淋A多付钱。结果 显示,人们愿意花2.26美元买冰淇淋A,却只愿意用1.66美元 买冰淇淋B。 • 说明:人们在作决策的时候,不是象传统经济学那样判断一个 物品的真正价值,而是根据一些比较容易评价的线索来判断。 • 引申:在送礼物的时候,礼物在它所属的类别里面是不是昂贵 很重要。
n人序贯博弈的博弈树的主要特征
• 对于表达有n个局中人P1,P2,…,Pn参与 的一个序贯博弈的博弈树:
1. 在树的每一个非末端节点上,都只有一个局中人 进行决策; 2. 在树的每一个末端节点上,都指派了一个n维的 “支付”向量p(v)=(p1(v),p2(v),…,p3(v)),这 里v是这个末端节点的相应的策略表达.而1, 2,…n是博弈参与人首次决策的自然顺序。
• 博弈树必须说明在每一个决策节点上相应的局中人能够 采取的所有可能的选择。 • 一些博弈树可能包含“不做任何决策”的决策节点。每一个 决策节点都有至少一条棱从它那里出发往后延伸,但是 没有最大延伸数量的限制。 • 对于不是根的每个节点,只能有来自别的节点的唯一的 棱指向它这个节点。
• 博弈树并不要求每个局中人必须在至少一个非末 端节点上进行决策。即,可能会出现某些局中人 并不在任何一个非末端节点上进行决策的情形。
• 策略组合
• 策略组合星号简示法 : ( U ,{ U’ , * } )2 • 策略组合的节点表示法: ( { U / D }, { U’ / D’ , U’’ / D’’ })8
4-4 倒推法(逆向推导法)
• 在序贯博弈中,由于均衡与结果是两个不同的概 念,所以求解纳什均衡的虚线排除确定法,并不适 用于求解序贯博弈的结果。一般使用倒推法(逆向 推导法)求序贯博弈的结果。

序贯决策 扩散模型

序贯决策 扩散模型

序贯决策扩散模型序贯决策扩散模型是一种用于分析和预测信息传播过程的模型。

它基于人们在接收到信息后做出的决策行为,并通过模拟这一过程来研究信息传播的规律和特点。

在序贯决策扩散模型中,假设信息的传播是一个连续的过程,每个个体在接收到信息后都需要做出决策,决定是否将信息传播给其他人。

这个决策过程是一个序贯的过程,每个个体会根据自己的判断和目标,选择是否传播信息。

我们需要确定信息传播的初始状态。

在现实生活中,信息传播可以从一个人或一组人开始,也可以通过媒体等渠道传播。

在模型中,我们可以假设初始状态为少数人已经接收到信息,并做出了传播的决策。

接下来,我们需要确定每个个体的决策规则。

这个规则可以是基于个体的认知能力、兴趣爱好、社交网络等因素。

个体可能会根据自己的判断和目标,选择将信息传播给自己的朋友、家人或同事。

这个决策过程可以基于个体对信息的看法、信息来源的可信度、传播成本等因素。

在模型中,我们可以通过设定参数来描述个体的决策规则。

例如,我们可以设定一个阈值,当个体认为信息的传播效果超过这个阈值时,才选择将信息传播出去。

我们还可以设定一个传播概率,表示个体传播信息的可能性。

这些参数可以根据实际情况进行调整,以更好地模拟信息传播的过程。

随着时间的推移,信息会逐渐传播到更多的人群中。

每个个体在接收到信息后都会根据自己的决策规则,选择是否将信息传播给其他人。

当所有个体都做出了决策后,下一个时间步骤开始,新的信息传播过程开始。

通过模拟多次信息传播过程,我们可以观察到信息传播的规律和特点。

例如,我们可以研究信息传播的速度、范围和影响力等指标。

我们还可以通过改变个体的决策规则和参数设置,探索不同情况下的信息传播效果。

序贯决策扩散模型在实际应用中具有广泛的意义。

例如,在疫情防控中,我们可以通过这个模型来研究病毒传播的规律,评估各种防控措施的效果。

在营销推广中,我们可以利用这个模型来研究产品信息的传播过程,优化营销策略。

决策理论与方法多属性决策多目标及序贯决策

决策理论与方法多属性决策多目标及序贯决策

决策理论与方法多属性决策多目标及序贯决策多属性决策是指在决策过程中考虑多个属性或指标,通过对这些属性进行量化和比较,找出最优选择的决策方法。

在实际决策中,我们常常需要考虑多个属性因素,而这些因素往往是相互矛盾甚至相互制约的。

多属性决策的关键是建立合理的评价指标体系,将不同属性进行量化,再通过合适的决策模型或方法进行计算和比较。

常用的多属性决策模型包括加权法、层次分析法和灰色关联法等。

多目标决策是指在决策过程中存在多个决策目标,且这些目标往往是相互冲突或无法同时达到的。

多目标决策的目标是找到一个最佳的折衷方案,使得各个决策目标能够得到尽可能满足。

多目标决策的关键是建立合理的决策模型,将各个决策目标进行量化和比较,再通过适当的优化方法或规划方法寻找最优解。

常用的多目标决策方法包括线性规划、整数规划、动态规划和遗传算法等。

序贯决策是指在决策过程中需要根据不完全的信息和不确定的环境进行连续的决策,即通过一系列的决策步骤逐渐完善和调整决策方案。

序贯决策的关键是建立适当的决策模型,将决策过程分解为多个连续的阶段,每个阶段根据已有的信息和条件做出决策,并根据反馈信息不断调整和优化决策方案。

常用的序贯决策方法包括马尔可夫决策过程、博弈论和贝叶斯决策等。

在实际应用中,多属性决策、多目标决策和序贯决策往往会相互结合使用。

例如,在制定企业的发展战略时,需要考虑多个因素,如市场需求、竞争环境和资源能力等,这涉及到多属性决策的内容。

同时,为了实现企业的长远目标,需要考虑多个决策目标,如利润最大化、成本最小化和风险最小化等,这也涉及到多目标决策的内容。

而在制定战略的实施方案时,可能需要根据不断变化的市场和竞争环境进行序贯的决策,这涉及到序贯决策的内容。

综上所述,多属性决策、多目标决策和序贯决策是决策理论与方法中常用的三个重要方法。

它们分别从不同的角度和需求出发,帮助人们在复杂和不确定的决策环境中做出最佳决策。

这些方法在实际应用中相互结合,能够提供更全面和准确的决策支持。

决策理论及方法多属性决策多目标及序贯决策

决策理论及方法多属性决策多目标及序贯决策
❖ 准则(Criterion):判断的标准或度量事物价值的原 则及检验事物合意性的规则,兼指属性和目标。
决策理论与方法-随机决策理论与方法
2020年2月7日3时34分
3/61
多属性决策分析—求解过程
引发
一、启动 二、构造问题
调查研究和改变系统 必要性分析
明确问题、标明目标、辨识属性
价值 判断
三、系统建模
❖ 替代属性:某些目标无法用属性值直接度量时,需要使用替 代属性对目标进行度量。如师资队伍的质量可以用学历结构、 职称结构、专业结构、科研能力等替代属性来衡量。(寻找 “替代属性/替代变量”在科学研究中是非常重要的)
决策理论与方法-随机决策理论与方法
2020年2月7日3时34分
5/61
多属性决策分析—目标与属性
决策人对目标的重视程度; 各目标属性值的差异程度; 各目标属性值的可靠程度。 ❖ 权重确定方法:两两比较法。对不同目标的重要性进行两两 比较,形成一个判断矩阵。但判断矩阵存在两方面的一致性 问题:(1)a1/a2=3, a2/a3=2 a1/a3=6? (2)不同专家间的一致 性问题a2(1)/a3(1)=2 a2(2)/a3(2)=2?
船运量 COD
景点数
属性 空间
作物产量
水流失 土流失
动物品种
减灾面积 植物品种
决策理论与方法-随机决策理论与方法
2020年2月7日3时34分
7/61
多属性决策分析—问题的符号表示
❖ MA=<X, A, Θ, V, , f>
X表示方案集,X={x1, x2, …, xm} A表示属性集,A={a1,a2,…,an} Θ表示状态集,Θ={1, 2, …, k} V表示值集,所有可能取值的集合 :Θ→V,分布函数,确定各状态发生的可能性 f:X×A→V,目标函数,确定各方案对应的属性值

04 序贯模块法

04 序贯模块法

106.9 C
S 0.2451; 0.4729; 0.2820 5
气相产品
闪蒸器2 S7
0.2925; 0.4179; 0.2896
[0.3; 0.4; 0.3]
98.9 C S30.4174; 0.4174; 0.1652
S1 混合器 S2
闪蒸器1
0.2; 0.6; 0.2
S 0.2995; 0.4658; 0.2347
y
y x
yx
x(3) x(2) x x(1)
x(0)
x
Wegstein法几何示意图
Wegstein法注记
1. Wegstein法即自适应确定松弛因子的部分迭代法;
2. 几何上,Wegstein法的新点是迭代函数的割线与直
线 y = x 的交点;
3. 显然割线斜率sk不能接近1;k

,up
ik
down
sik
i
xk xik
i x k 1
xik 1
i 1,2,...,n
对第i个方程,设第xi以外的其 他所有变量为常数,随后用 Wegstein法求解该单变量方程

x1 x2

0.7sinx1 0.2cosx2 0.7cosx1 0.2sinx2
Dsys=∑Di -∑Kj
减去已计算变量
Di为系统对应模块i的自由度
Kj为系统中单元之间第j个联接的限制数,即独立的连 接方程数
例4.1 下图所示为三级等温闪蒸过程,用于分离丁烷、 己烷和戊烷混合物,当只计算物料平衡时,确定自由 度。
系统自由度=36-5×5=11
20-5=15 5 S1 混合器
S5
收敛信息

第四章__序贯决策

第四章__序贯决策

这种局中人先动得益大于后行得益的情况,叫做先
动优势。
请比较:
女 足球
◆ (2,1)
足球 男●

芭蕾 × ◆ (0,0)
芭蕾 × 女 足球 × ◆ (-1,-1) ●
芭蕾
◆(1,2)
先动优势
当男方先动时,男方得2,女方得1,但当 女方先动时,男方得1,女方得2。
“先下手为强”


足球×
女●
足球
假设垄断企业的老板交给你这样的策略: {对抗,容忍},你明白应该如何行动吗?
策略就是一个完整的行动计划,使得你可 以把它交给另外一个人,让他知道如何代 表你去执行这个策略。
什么是计划:“如果对手选A,我将采取行 动X,如果…,我将采取行动…。”
行动与策略
在同时决策博弈中,行动就是策略。 但在序贯决策博弈中,行动是指每一个决
天生我材必有用,千金散尽还复来。0 1:12:43 01:12:4 301:12 1/13/2 021 1:12:43 AM
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。21. 1.1301: 12:4301 :12Jan- 2113-Jan-21
得道多助失道寡助,掌控人心方位上 。01:12: 4301:1 2:4301: 12Wedn esday, January 13, 2021
安全在于心细,事故出在麻痹。21.1.1 321.1.1 301:12: 4301:1 2:43Jan uary 13, 2021
加强自身建设,增强个人的休养。202 1年1月 13日上 午1时1 2分21. 1.1321. 1.13
第四章 序贯决策博弈
序贯决策博弈:局中人做出策略选 择时知道对手的策略选择。

序贯决策

序贯决策

13
1.多阶段决策 多阶段决策
1.3 应用举例
P ( H1 ) = ∑ P ( H1 θ j ) P(θ j )
j =1 3
= 0.4 × 0.4 + 0.3 × 0.2 + 0.32 × 0.4 = 0.34
P (θ1 H1 ) = P ( H1 θ1 ) P (θ1 ) P( H1 ) = 0.4 × 0.4 = 0.471 0.34
0.2 × 0.3 = = 0.177 0.34 = 0.4 × 0.3 = 0.352 0.34
P (θ2 H1 ) =
P ( H1 θ2 ) P (θ2 ) P( H1 ) P ( H1 θ3 ) P(θ3 ) P( H1 )
P (θ3 H1 ) =
14
1.多阶段决策 多阶段决策
1.3 应用举例 试销结果下的后验概率
16
2. 序列决策
有些决策问题, 有些决策问题,在进行决策后又产生一些新情况 需要进行新的决策,接着又有一些新的情况, ,需要进行新的决策,接着又有一些新的情况,有 需要进行新的决策。这样决策、新情况、决策…, 需要进行新的决策。这样决策、新情况、决策 , 就构成一个系列,成为系贯决策。 就构成一个系列,成为系贯决策。 多阶段决策的阶段数是确定的, 多阶段决策的阶段数是确定的,序贯决策的阶段 数是不确定的, 数是不确定的,它依赖于执行决策过程中所出现的 状况。 状况。 决策方法: 决策方法:决策树
20
3. 马尔可夫决策
3.1 马尔可夫决策问题 预测在本质上就是利用预测对象的历史数据去推 知预测对象的未来。 知预测对象的未来。 在经济管理现象中存在一种“无后效性” 在经济管理现象中存在一种“无后效性”,即“ 系统在每一时刻的状态仅仅取决于前一时刻的状态 而与其过去的历史无关。 ,而与其过去的历史无关。” 例如:池塘里有三张荷叶,编号为 , , , 例如:池塘里有三张荷叶,编号为1,2,3,假 设有一只青蛙随机地在荷叶上跳来跳去, 设有一只青蛙随机地在荷叶上跳来跳去,在初始时 它在2号荷叶上 在时刻,它有可能跳到1号或 号荷叶上。 刻,它在 号荷叶上。在时刻,它有可能跳到 号或 号荷叶上, 者3号荷叶上,也有可能原地不动。 号荷叶上 也有可能原地不动。

王则柯博弈论5同时博弈与序贯博弈

王则柯博弈论5同时博弈与序贯博弈

• 用 q1( q1 ≥ 0 )表示企业1的产量选择; • 用 q( q2 ≥ 0)表示 企业2在观测到 q1 后所选择 2 的产量; • 用 p(q) = A − q 表示当市场总产量为 q 时的市场 出清价格,其中 q = q1 + q2 • 企业 i 的利润是 π i (q1 , q2 ) = qi [ p (q ) − ci )], i = 1,2 • 每个企业的利润可写为:
π i (q1 , q2 ) = qi ( A − q1 − q2 − ci )
q2 = q2 (q1 )
max q2 ≥0 π 2 (q1 , q2 ) max q2 ≥0 q2 ( A − q1 − q2 − c2 )
π 2 (q1 , q2 ) = −(q2 ) + ( A − q1 − c2 )q2
• 策略组合?纳什均衡?子博弈精炼纳什均衡?
5-5 完美博弈的库恩定理
• 是否每个树型表示的动态博弈都有纳什均 衡呢? • 库恩定理 完美信息的有限序贯博弈 (sequential game of perfect information)都 有纳什均衡。
课堂练习
• 用策略组合的粗线表示法和纳什均衡的虚线排除法画出并 讨论全部可能的对局或者策略组合,以虚线标示不是纳什 均衡的那些对局。 • 用虚线圈住的子博弈和相应的标示具有偏离激励策略的箭 头,排除那些不是子博弈精炼均衡的纳什均衡,得到子博 弈精炼的纳什均衡。
– 每一个决策位置都是一个信息集。
• 同集同注
• 当博弈走到一个单点集的信息集时,面临决策的 局中人对于博弈迄今的历史是清楚的,他清楚博 弈具体走到了他的这个决策节点而不是别的决策 节点。 • 当博弈走到一个非单点集的信息集时,面临决策 的局中人对于博弈迄今的历史是不清楚的,他不 清楚博弃具体走到了他的这个信息集里面的哪个 决策节点。

序贯决策博弈概述

序贯决策博弈概述
第四章 序贯决策博弈
序贯决策博弈:局中人做出策略选 择时知道对手的策略选择。
实验 : 枪手博弈1
三个快枪手相互之间的仇恨到了不可 调和的地步。这天他们三在街上不期而遇, 每个人的手都握住了枪把,一场生死决斗 马上就要开始……
已知这三个人中甲枪法精准,十发八 中;乙的枪法也不错,十发六中,丙的枪 法拙劣,十发四中。假如三个人同时开枪, 决一死战,一枪后谁最后活下来的机会大 一些?
八种策略组合,纳什均衡在哪
该博弈有八种可能的策略组合: ( {足球},{(上)足球,(下)足球} ) ( {足球},{(上)足球,(下)芭蕾} ) ( {足球},{(上)芭蕾,(下)足球} ) ( {足球},{(上)芭蕾,(下)芭蕾} ) ( {芭蕾},{(上)足球,(下)足球} ) ( {芭蕾},{(上)足球,(下)芭蕾} ) ( {芭蕾},{(上)芭蕾,(下)足球} ) ( {芭蕾},{(上)芭蕾,(下)芭蕾} )
实 验 : 枪手博弈2
假设现在三个枪手决定轮流开枪,谁活下 来的机会大一些?
实验:海盗分宝
五个海盗抢到100颗宝石,他们决定按如下方 法来分配:先抽签决定顺序(1,2,3,4,5); 然后先由1号提出分配方案,其余的人进行 表决,当且仅当半数和超过半数的人同意 时,则按1号所提方案分配,否则将1号扔进 大海喂鲨鱼,当1号方案被否决,则由2号提 出分配方案,其余的人进行表决,以此类 推,假定这些海盗都是理性人,问第一个 海盗应提出怎样的分配方案才能获得通过 并使自己的收益最大?
用箭头排除确定法寻找纳什均衡
将以上策略在博弈书中用粗线表示。
将存在单独改变激励的策略用箭头标示。方法如下:
(1)找到第二阶段两根粗线所对应的支付。
(2)比较这两个支付前面的数字,如果大的数字所 对应的那条“树枝”是细的,则男方存在单独偏离 的动机,则男方的策略选择用箭头标示。

马尔可夫决策过程AI技术中的序贯决策模型

马尔可夫决策过程AI技术中的序贯决策模型

马尔可夫决策过程AI技术中的序贯决策模型马尔可夫决策过程(Markov Decision Process, MDP)是一种基于序贯决策的数学模型,常用于人工智能(AI)技术中。

该模型能够利用概率和奖励的信息,来制定有针对性的决策策略。

在AI领域中,序贯决策模型在各个领域中有着广泛的应用,如自动驾驶、智能推荐系统、游戏智能等。

本文将介绍马尔可夫决策过程AI技术中的序贯决策模型的基本原理和应用案例。

一、马尔可夫决策过程的基本原理马尔可夫决策过程是一种基于状态的决策模型,其中包含了状态、动作、奖励、概率转移等关键概念。

下面将对这些概念进行简要的介绍。

1. 状态(State):状态是指系统处于的某个情况或者状态,可以是离散的或者连续的。

在马尔可夫决策过程中,状态是根据过去的状态和采取的动作随机转移到新的状态。

2. 动作(Action):动作是指系统在某个状态下可以采取的行为或者决策。

动作的选择将会引起状态的转移。

3. 奖励(Reward):奖励是指系统为了达到某个目标而获得的反馈信号。

奖励可以是正数、负数或者零。

优化策略的目标就是最大化奖励。

4. 概率转移(Transition Probability):概率转移描述了系统在某个状态下,采取某个动作之后转移到下一个状态的概率分布。

概率转移可以用转移矩阵或者概率函数来表示。

基于以上的概念,马尔可夫决策过程可以被形式化表示为一个五元组(S, A, P, R, γ)。

其中,S是状态集合,A是动作集合,P是状态转移概率函数,R是奖励函数,γ是衰减因子。

二、序贯决策模型的建模过程1. 确定状态空间和动作空间:在构建马尔可夫决策过程模型之前,首先需要定义状态空间和动作空间。

状态空间是系统可能处于的所有状态的集合,动作空间是系统可以采取的所有动作的集合。

2. 定义状态转移概率和奖励函数:状态转移概率描述了系统在某个状态下采取某个动作之后,转移到下一个状态的概率分布。

奖励函数定义了系统在某个状态下采取某个动作所获得的奖励值。

多阶段决策和序贯决策教材

多阶段决策和序贯决策教材

多阶段决策和序贯决策教材引言多阶段决策和序贯决策是决策理论中重要的概念和方法。

在很多实际应用中,决策问题往往不仅仅是一次性的选择,而是需要在不同阶段进行多次决策,每次决策都受之前决策的影响。

本教材将介绍多阶段决策和序贯决策的基本概念和方法,并提供案例来帮助读者理解和应用这些概念和方法。

多阶段决策多阶段决策是指决策问题中包含多个决策节点的情况。

在每个决策节点,决策者需要面临不同的选择,并根据选择的结果进行下一阶段的决策。

多阶段决策常见于实际生活中的许多问题,比如投资决策、项目管理等。

多阶段决策可以通过决策树来表示。

决策树是一种树状结构,其中每个节点表示一个决策点,每个边表示一个选择。

通过自顶向下的递归过程,从根节点到叶子节点,决策树可以表示整个多阶段决策的过程。

在每个决策节点,决策者根据一定的决策准则选择一个最优的方案。

常用的决策准则包括最大化效益、最小化风险等。

序贯决策序贯决策是多阶段决策的一种特殊形式,它是指在每个决策节点上,决策者只能看到当前状态的信息,并且只做当前状态下最优的决策,无法事先知道所有后续状态的信息。

序贯决策常见于动态环境下的问题,比如控制系统、机器人等。

序贯决策可以通过动态规划来求解。

动态规划是一种递推的算法,通过将问题划分为一系列子问题,并利用子问题的最优解来推导出整个问题的最优解。

在序贯决策中,我们可以定义一个价值函数来表示当前状态的价值,然后利用动态规划算法不断更新和求解价值函数,最终得到最优的决策序列。

案例分析为了帮助读者理解和应用多阶段决策和序贯决策的概念和方法,下面将给出一个案例分析。

假设你是一家餐厅的经理,现在面临一个供应商选择的问题。

你可以选择三个不同的供应商,每个供应商的价格和质量都不同。

此外,每个供应商的产品质量在未来可能会有变化。

你需要决策在当前时间选取哪个供应商,并在之后的时间里根据每个供应商的质量变化重新评估和选择供应商。

这个问题可以通过多阶段决策和序贯决策的方法来解决。

决策理论序贯决策分析课件

决策理论序贯决策分析课件

02
CHAPTER
序贯决策分析基础
序贯决策是在一系列决策过程中,决策者根据每个阶段的环境信息和历史信息,按照一定的顺序和规则进行决策的过程。
序贯决策的定义Байду номын сангаас
序贯决策中的每个决策都有时间顺序,后续决策依赖于先前的决策结果。
时序性
序贯决策中,环境状态和决策后果会随着时间变化而变化。
动态性
在给定条件下,序贯决策的目标是在一系列决策中寻求最优解。
详细描述
VS
优化资源配置和生产流程
详细描述
生产计划决策需要考虑生产资源的配置和生产流程的优化。通过序贯决策分析,企业可以根据市场需求和生产能力制定合理的生产计划,优化资源配置,提高生产效率,降低生产成本。
总结词
协调各个环节实现整体最优
供应链管理决策需要协调各个环节,包括采购、生产、物流等,以实现整体最优。通过序贯决策分析,企业可以综合考虑各个环节的需求和约束,制定合理的供应链管理策略,提高供应链的效率和稳定性。
步骤六
实施与评估:实施决策方案,并根据实施结果进行评估和调整。
动态规划
将多阶段决策问题分解为一系列单阶段问题,通过求解单阶段的最优解,达到求解多阶段问题的最优解。
03
CHAPTER
决策分析方法
不确定型决策分析方法是指在无法预测未来不确定因素的情况下,根据经验、直觉和判断进行决策的方法。
不确定型决策分析方法包括乐观法、悲观法、折中法等,这些方法可以帮助决策者在无法准确预测未来时做出相对合理的决策。
多目标决策分析方法是指在进行决策时,需要考虑多个目标,并权衡这些目标之间的关系,以实现最优的决策结果。
多目标决策分析方法包括层次分析法、多属性效用函数法、优序法等,这些方法可以帮助决策者更好地权衡多个目标之间的关系,从而做出更加全面和科学的决策。

序贯决策分析培训课件

序贯决策分析培训课件

第四节 群决策简介
• 以上各种决策规则都反映了人们对于一种通 用的公平的群体决策规则的追求。这种需要是 显而易见的,有集体就有如何公平合理地反映 集体意见的问题。50年代,阿罗等人证明了社 会选择并不能在完全符合理性的条件下将个人 选择顺序集结为群体的选择顺序,少数服从多 数的规则并不能提供一个令人满意的社会选择 顺序。
种把一个问题可看作是一个前后关联的具有链
状结构的多阶段过程就称为多阶段决策过程。
第一节 多阶段决策
• 二、多阶段决策方法 • 解决多阶段决策问题的主要方法是决策树方
法和动态规划方法,决策树由节点和分支组成, 每一条由树根通往树梢的路线都表示一种决策 方案及可能遇到的一种情况。 • 进行决策分析时,要由树梢往树根依次计算。 这种从后到前进行决策分析的方法叫做逆序归 纳法。 • 多阶段决策分析的步骤: • (1)根据具体问题适当划分阶段; • (2)确定各阶段的状态变量,寻找各阶段之 间的联系; • (3)由后到前用逆序归纳法进行决策分析。
• 则称X (t),t 具T有马尔可夫性 • 条件概率 Pxn j | x 称 n1 为i 转移概率,也称一步
转移概率。
第三节 马尔可夫决策
• 各状态之间的转移概率可记为
p11
P
p k1
p1k
p kk
• 其中 pij ,1 对所有i;且 , pij 对0 所有i,j ,称P j 为一步转移概率矩阵。
已知三种商标的商品的月总销售量为一千万件, 每件可获利1元。另外,三种措施的成本费分 别为150万,40万,30万。为长远利益考虑, 生产商标为 的产品的厂商应该采取何种措施?
第三节 马尔可夫决策
• 例6-7 我国出口某种设备,在国际市场上 的销售状况有两种:畅销和滞销。畅销每年可 以获利100万元,滞销时每年仅获利30万元。 以一年为一个时期,如果不采用广告推广产品 或采取广告措施,状态的转移矩阵分别为如表 6-5、表6-6所示。假定上一年处于畅销状态, 每年的广告费为15万元。为了保证今后3年的 利润最大化,是否应该采用广告措施?

决策理论与方法教学作者罗党第四章(2)

决策理论与方法教学作者罗党第四章(2)
3)系统下一步(或未来)可能出现的状态是随 机的或不确定的。
r a, E2 f E2
4.3 序贯决策
4.3.1 序贯决策的基本概念
系统在每次作出决策后下一步可能出现的 状态是不能确切预知的,存在两种情况:
1)系统下一步可能出现的状态的概率分布 是已知的,可用客观概率的条件分布来描述。对 于这类系统的序贯决策研究得较完满的是状态转 移律具有无后效性的系统,相应的序贯决策称为 马尔可夫决策过程,它是将马尔可夫过程理论与 决定性动态规划相结合的产物。
在A2上 X1=0的决策点处,最满意行动方案为a2 ,截去 a1和 s2;
在 X1=1的决策点处,最满意行动方案为 a1,截去 a2 和 s2。

s1状态点处,期望损失值为:
4.325 0.578 0.4582 0.422
2.6(9 元)
在A1决策点处,最满意方案的期望损失值为:
2.69 4.2 6.89(元) 所以截去a1和a2。
综上所述,决策是:应该进行一次抽样检验。
▪若为正品,则采取行动方案a2,即整箱产品不予检验;
▪若为次品,则采取行动方案a1,即整箱产品予以检验, 序列决策过程也可以用简化决策树图表示。
6.89
s1 2.69
4.20
0.578
a1
4.325
4.325
0.422
a2
0.4582
0.4621
§4.4 马尔可夫决策
0.99 0.3426 0.6 0.6228 0.10 0.0346 0.7163
P(1
|
X2
0)
0.99 0.3426 0.7163
0.4735
P ( 2
|
X2
0)

第四讲 序贯决策博弈

第四讲 序贯决策博弈

序贯情侣博弈
◆一共八种可能的策略组合:
(足球,{足球,芭蕾}) (足球,{芭蕾,足球}) (足球,{芭蕾,芭蕾}) (足球,{足球,足球}) (芭蕾,{足球,芭蕾}) (芭蕾,{芭蕾,足球}) (芭蕾,{芭蕾,芭蕾}) (芭蕾,{足球,足球})
序贯情侣博弈

(2,1) (0,0)
(-1,-1) (1,2) (足球,{足球,足球}) (2,1) (0,0) (-1,-1) (1,2) (足球,{芭蕾,足球}) (2,1)
不开发

B
开发 (-3,-3)
x
不开发
B
开发
y’
不开发

对抗策略:A开发我不开发,A不开发我 开发——{不开发,开发} ;
不开发策略:不论A开发不开发我不开发 )——{不开发,不开发};


(1,0) (0,1)
(0,0)
策略空间为:{开发,开发}、{开发, 不开发} 、{不开发,开发} (不开发, 不开发}。
(0,0)
(-1,-1) (1,2) (足球,{足球,芭蕾}) (2,1) (0,0) (-1,-1) (1,2) (足球,{芭蕾,芭蕾})
纳什均衡的箭头排除确定法

(2,1) (0,0)
(-1,-1) (1,2) (芭蕾,{足球,足球}) (2,1) (0,0) (-1,-1) (1,2) (芭蕾,{芭蕾,足球}) (2,1)
或行动的具体选择。 ◆纯策略为一个决策规则,它能告诉这个参与人 在每一个可能遇到的决策节点上应当采取的行 动。 ◆在序贯博弈中,一个策略就是一个完整的行动 计划。
策略
◆在进入博弈中,进入者的策略:进入和不进入
。 ◆垄断者的策略:一、不管你怎样,我总是“容 忍”;二、不管你怎样,我总是“对抗”;三 、你进入我“对抗”,你不进入我“容忍”; 四、你进入我“容忍”,你不进入我“对抗” ;即垄断者的四个纯策略:{容忍,容忍}、 { 对抗,对抗}、 {对抗,容忍}、 {容忍,对抗} 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

练习2:有法律保障的开金矿博弈
乙 借 甲 分 (2,2) 打 (1,0)
×不借 ×
(1,0) 不分 乙
×
不打
(0,4)
倒推法的评价




倒推法只能分析明确设定的博弈问题,要求博弈 的结构,包括次序、规则和得益情况等都非常清 楚,并且各个博弈方了解博弈结构,相互知道对 方了解博弈结构。这些可能有脱实际的可能。 逆推归纳法也不能分析比较复杂的动态博弈。 在遇到两条路径利益相同的情况时倒推法也会发 生选择困难。 对博弈方的理性要求太高,不仅要求所有博弈方 都有高度的理性,不允许犯任何错误,而且要求 所有博弈方相互了解和信任对方的理性,对理性 有相同的理解,或进一步有理性的“共同知识”。
第四章 序贯决策博弈
序贯决策博弈:局中人做出策略选 择时知道对手的策略选择。
实验 : 枪手博弈1
三个快枪手相互之间的仇恨到了不可 调和的地步。这天他们三在街上不期而遇, 每个人的手都握住了枪把,一场生死决斗 马上就要开始…… 已知这三个人中甲枪法精准,十发八 中;乙的枪法也不错,十发六中,丙的枪 法拙劣,十发四中。假如三个人同时开枪, 决一死战,一枪后谁最后活下来的机会大 一些?
实 验 : 枪手博弈2
假设现在三个枪手决定轮流开枪,谁活下 来的机会大一些?
实验:海盗分宝
五个海盗抢到100颗宝石,他们决定按如下方 法来分配:先抽签决定顺序(1,2,3,4,5); 然后先由1号提出分配方案,其余的人进行 表决,当且仅当半数和超过半数的人同意 时,则按1号所提方案分配,否则将1号扔进 大海喂鲨鱼,当1号方案被否决,则由2号提 出分配方案,其余的人进行表决,以此类 推,假定这些海盗都是理性人,问第一个 海盗应提出怎样的分配方案才能获得通过 并使自己的收益最大?
二、寻找序贯博弈的纳什均衡

例如:如图所示的情侣博弈,分析该博弈 的纳什均衡?
女 足球

足球
芭蕾 足球

(2,1) (0,0) (-1,-1)



芭蕾


芭蕾
◆(1,2)
男方和女方的纯策略

男方有两个纯策略:足球和芭蕾

女方有四个纯策略: 不管你怎样,我总是芭蕾——{芭蕾,芭蕾} 不管你怎样,我总是足球——{足球,足球} 你选择什么,我就选择什么——{足球,芭蕾} 你选择什么,我就不选择什么——{芭蕾,足球}
四、先动优势与后动优势


在序贯情侣博弈中,任何一方率先采取行动可能得 到的好处,都比他或她后行动可能得到的好处大。 这种局中人先动得益大于后行得益的情况,叫做先 动优势。 ◆ 足球 请比较: (2,1) 女
足球 男
● ●
芭蕾
× ×

(0,0) (-1,-1)
芭蕾 ×


足球 芭蕾

◆(1,2)
先动优势
博弈树

用博弈树来表示序贯博弈。
它描述了博弈参与人的一个序贯决策过程, 从博弈数的根开始,到末端点结束。

拥有初始决策节点的局中人先做出决策, 他的决策引出博弈树的棱,而棱的末端将 是下一个局中人做出决策,依此类推。
进入障碍博弈
垄断者 进入 进入者
● a ● b
容忍 抵抗

(1,5) (-2,2) (0,10) (0,4)
用箭头排除确定法寻找纳什均衡



将以上策略在博弈书中用粗线表示。 将存在单独改变激励的策略用箭头标示。方法如下: (1)找到第二阶段两根粗线所对应的支付。 (2)比较这两个支付前面的数字,如果大的数字所 对应的那条“树枝”是细的,则男方存在单独偏离 的动机,则男方的策略选择用箭头标示。 (3)比较这两个支付后面的数字,其中对应第一阶 段“树枝”是细的那个数字可以不再考虑,因为男 方没选这个方向。它是“虚”的。 (4)因此只在男方选的那个“树丫”上进行比较女 方的支付,如果大的数字对应的“树枝”是细的, 则女方的策略选择“树枝”用箭头标示。(P142)
倒推法:(1)在上面一个枝桠上,由于最后一阶段是女方做 决策,因此比较女方的支付1和0,将0所对应的芭蕾策略砍掉, 没砍掉的打上箭头。(2)在下面一个枝桠上,由于最后一阶 段是女方做决策,因此比较女方的支付-1和2,将-1所对应的 足球策略砍掉,没砍掉的打上箭头。(3)回到第一个阶段, 比较带箭头的两个策略男方的支付(因为此时男方做决策), 将支付将较小的策略砍掉。
虚线排除确定法的缺陷

该方法可以找到纳什均衡,但找不到博弈的 最终结果。
均衡是策略的组合,而结果则是行动的组合。 (P143) 因此,我们一般用倒推法(Backwards Induction)来寻找序贯博弈的结果。


三、寻找序贯博弈的结果——倒推法



从动态博弈的最后一个阶段博弈方的行为开始分析, 逐步倒推回前一个阶段相应博弈方的行为选择,一 直到第一个阶段的分析方法,称为“倒推法” 或 者“逆推归纳法”。 倒推法是动态博弈分析最重要、基本的方法。 步骤: 从博弈的最后一个阶段开始分析,通过比较最 后一个参与决策的局中人的支付,推断他或她的选 择,从而将他不会选的策略——“枝桠”砍掉,从 而回到上一个阶段,比较该阶段参与决策的局中人 的支付,将他或她不会选的策略砍掉,依此类推…

上 甲 下

10,0
5,4
10,100
5,0
八种策略组合,纳什均衡在哪



该博弈有八种可能的策略组合: ( {足球},{(上)足球,(下)足球} ) ( {足球},{(上)足球,(下)芭蕾} ) ( {足球},{(上)芭蕾,(下)足球} ) ( {足球},{(上)芭蕾,(下)芭蕾} ) ( {芭蕾},{(上)足球,(下)足球} ) ( {芭蕾},{(上)足球,(下)芭蕾} ) ( {芭蕾},{(上)芭蕾,(下)足球} ) ( {芭蕾},{(上)芭蕾,(下)芭蕾} )

借 甲 分 (2,2) 不分 乙
不借 (1,0)

(-1,0)
不打 (0,4)
3.2.3 逆推归纳法


甲 分 不分
不借 (1,0)
(2,2)
(0,4)
3.2.3 逆推归纳法


(0,4)
不借 (1,0)
练习2:有法律保障的开金矿博弈
乙 借 甲 分 (2,2) 打 (1,0) 不分 乙 不打 (0,4) 不借 (1,0)
注:花括号第一项表示垄断者在上决策节点b,即进入者 选择进入时他要选择的行动,第二项表示垄断者在下决策 节点c,即进入者选择不进入时他要选择的行动。

假设垄断企业的老板交给你这样的策略: {对抗,容忍},你明白应该如何行动吗?
策略就是一个完整的行动计划,使得你可 以把它交给另外一个人,让他知道如何代 表你去执行这个策略。 什么是计划:“如果对手选A,我将采取行 动X,如果…,我将采取行动…。”


行动与策略

在同时决策博弈中,行动就是策略。
但在序贯决策博弈中,行动是指每一个决 策点上局中人的决策变量或行动的具体抉 择。策略就是一个完整的行动计划。
策略组合




该博弈有八种可能的策略组合: ( {进入},{(上)容忍,(下)容忍} ) ( {进入},{(上)对抗,(下)对抗} ) ( {进入},{(上)对抗,(下)容忍} ) ( {进入},{(上)容忍,(下)对抗} ) ( {不进},{(上)容忍,(下)容忍} ) ( {不进},{(上)对抗,(下)对抗} ) ( {不进},{(上)对抗,(下)容忍} ) ( {不进},{(上)容忍,(下)对抗} )
本章讨论动态博弈,所有博弈方都对博弈 过程和得益完全了解的完全且完美信息动 态博弈。这类博弈也是现实中常见的基本 博弈类型。由于动态博弈中博弈方的选择、 行为有先后次序,因此在表示方法、利益 关系、分析方法和均衡概念等方面,都与 静态博弈有很大区别。本章对动态博弈分 析的概念和方法,特别是子博弈完美均衡 和逆推归纳法作系统介绍,并介绍各种经 典的动态博弈模型。


当男方先动时,男方得2,女方得1,但当 女方先动时,男方得1,女方得2。 “先下手为强”
男 足球× 女
● ●
足球 芭蕾 × ×

(1,2) (-1,-1) (0,0)

芭蕾


足球 芭蕾

◆(2,1)
序贯博弈中的性别战

举例:情侣博弈中往往是先动一方具有优 势,因此男女双方往往要抢先一步,获得 主动权,比如女方已经买好了电影票,再 比如男方曾经多次告诉女方,世界杯就算 不上班也要看!
支付

进入者纯策略与垄断者的“计划型”策略 形成策略组合,构成一条路径。
支付对应每条路径,而不是对应每步选择、 行为。 支付向量中,数字的排列按局中人的出场 顺序出现。(进入者,垄断者)


八种策略组合对应的支付
( {进入},{(上)容忍,(下)容忍} )——(1,5) ( {进入},{(上)对抗,(下)对抗} )——(-2,2) ( {进入},{(上)对抗,(下)容忍} )——(-2,2) ( {进入},{(上)容忍,(下)对抗} )——(1,5) ( {不进},{(上)容忍,(下)容忍} )——(0,10) ( {不进},{(上)对抗,(下)对抗} )——(0,4) ( {不进},{(上)对抗,(下)容忍} )——(0,10) ( {不进},{(上)容忍,(下)对抗} )——(0,4)
女 足球 男
● ●
足球 芭蕾 × ×

(2,1) (0,0) (-1,-1)

芭蕾 ×
相关文档
最新文档