完全信息动态博弈_海盗分金博弈问题分析

合集下载

(完整word版)经典的博弈论分析案例——“海盗分金”问题

(完整word版)经典的博弈论分析案例——“海盗分金”问题

经典的博弈论分析案例一一“海盗分金”问题5个海盗抢得100枚金币,他们按抽签的顺序依次提方案:首先由1号提出分配方案,然后5人表决,超过半数同意方案才被通过,否则他将被扔入大海喂鲨鱼,依此类推。

“海盗分金”其实是一个高度简化和抽象的模型,体现了博弈的思想。

在“海盗分金”模型中,任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么,并用最小的代价获取最大收益,拉拢“挑战者”分配方案中最不得意的人们。

假设前提假定“每个海盗都是绝顶聪明且很理智”,那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化?” 推理过程从后向前推,如果1至3号强盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部金币。

所以,4号惟有支持3号才能保命。

3号知道这一点,就会提出(100,0,0)的分配方案,对4号、5号一毛不拔而将全部金币归为已有,因为他知道4号一无所获但还是会投赞成票,再加上自己一票,他的方案即可通过。

不过,2号推知3号的方案,就会提出(98,0,1,1)的方案,即放弃3 号,而给予4号和5号各一枚金币。

由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分配。

这样,2号将拿走98枚金币。

同样,2号的方案也会被1号所洞悉,1号并将提出(97, 0,1, 2, 0)或(97, 0,1, 0,2)的方案,即放弃2号,而给3号一枚金币,同时给4号(或5号)2枚金币。

由于1号的这一方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案可获通过,97枚金币可轻松落入囊中。

这无疑是1号能够获取最大收益的方案了!答案是:1号强盗分给3号1枚金币,分给4号或5号强盗2枚,自己独得97枚。

分配方案可写成(97, 0, 1, 2, 0)或(97, 0, 1, 0, 2)。

分析1号看起来最有可能喂鲨鱼,但他牢牢地把握住先发优势,结果不但消除了死亡威胁,还收益最大。

经济博弈论3——完全且完美信息动态博弈

经济博弈论3——完全且完美信息动态博弈
第三章 完全且完美信息动态博弈
本章讨论动态博弈(Dynamic Games),所 有博弈方都对博弈过程和得益完全了解的完全 且完美信息动态博弈。这类博弈也是现实中常 见的基本博弈类型。由于动态博弈中博弈方的 选择、行为有先后次序,因此在表示方法、利 益关系、分析方法和均衡概念等方面,都与静 态博弈有很大区别。本章对动态博弈的概念和 分析方法,特别是子博弈完美均衡和逆推归纳 法作系统介绍,并介绍各种经典的动态博弈模 型。


逆推归纳法事实上就是把多阶段动态博弈化为一系列的 单人博弈,通过对一系列单人博弈的分析,确定各博弈 方在各自选择阶段的选择,最终对动态博弈结果,包括 博弈的路径和各博弈方的得益作出判断,归纳各个博弈 方各阶段的选择则可得到各个博弈方在整个动态博弈中 的策略。 由于逆推归纳法确定的各个博弈方在各阶段的选择,都 是建立在后续阶段各个博弈方理性选择基础上的,因此 自然排除了包含不可信的威胁或承诺的可能性,因此它 得出的结论是比较可靠的,确定的各个博弈方的策略组 合是有稳定性的。




最上方的圆圈表示乙的选择信息集 或称选择节点(node)。 如果乙选择“不借”则博弈结束, 他能保住1万元本钱而甲得不到开矿 的利润;如乙选择“借”则到达甲 的选择信息集,轮到甲进行选择。 三个终端黑点处的数组,表示由各 博弈方各阶段行为依次构成的,到 达这些终端的“路径”所实现的各 博弈方得益。 乙决策的关键是要判断甲的许诺是 否可信。


结论:在一个由都有私心、都更重视自身利益的成员 组成的社会中,完善公正的法律制度不但能保障社会 的公平,而且还能提高社会经济活动的效率,是实现 最有效率的社会分工合作的重要保障。

但是要充分保障社会公平和经济活动的效率,法律制 度必须要满足两方面的要求:一是对人们正当权益的 保护力度足够大;二是对侵害他人利益者有足够的威 慑作用。否则,法律制度的作用就是很有限的甚至完 全无效。

完全信息动态博弈

完全信息动态博弈

-3 1
-3, 0,
-3 0
1, 0,
0 1
1, 0,
0 0
这里有3个纯战略Nash均衡,分别是 {开发,{不开发,开发}} (均衡结果:A
14
开发,B不开发) {开发,{不开发,不开发}} {不开发,{开发,开发}} 在每一个均衡,给定对方的战略,自己 的战略是最优的(效用最大) 均衡结果是(开,不开) , (开,不开) , (不开,开) 。注意均衡与均衡结果不同。 一般定义:扩展式博弈的战略 令 H i 为第 i 个参与人的信息集的集合,
1
选择什么行动, 而不是简单的, 与环境无关的 行动选择。 为了说明,我们考虑房地产开发博弈的 例子。有两个开发商A和B,互为竞争对手,决 定是否进行房地产开发。但他们不是同时行 动,且后行动者可以观察到先行动者的行动。 假定博弈的行动顺序如下: (1)开发商A先行 动,选择开发或不开发; (2)在A决策后,自 然选择市场需求大小; (3) 开发商B在观察到A 的决策和市场需求(自然的行动)后,决定开 发或不开发。 如图是房地产开发博弈的博弈树。
4
路径: (path)从初始结到终点结,由结 和枝所组成的系列。 扩展式 (extensive form) 是对博弈的一种描述,满足以下条件: (1)由结和枝组成的整体结构,由单个 起始结开始到终点结, 中间无闭合的圈。 即没 有以下结构

11
1
(所有前列结全排序) (2)必须说明每个结点属于某个参与人。 (3)在自然选择的结上,有自然选择不同 枝的概率。 (4)有划分每个参与人的结的信息集。 (每个信息集是决策结集合的一个子集, 满足 (a)每个决策结都是同一个参与人的决
11
1
U 2 L R L R 1 D

博弈论——完全信息动态博弈

博弈论——完全信息动态博弈

博弈论——完全信息动态博弈2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game):参与⼈在不同的时间选择⾏动。

完全信息动态博弈指的是各博弈⽅先后⾏动,后⾏动者知道先⾏动者的具体⾏动是什么且各博弈⽅对博弈中各种策略组合下所有参与⼈相应的得益都完全了解的博弈静态博弈习惯⽤战略式(Strategic form representation)表述,动态博弈习惯⽤扩展式(Extensive form representation)表述。

战略式表述的三要素:参与⼈集合、每个参与⼈的战略集合、由战略组合决定的每个参与⼈的⽀付。

扩展式表述的要素包括:参与⼈集合、参与⼈的⾏动顺序、参与⼈的⾏动空间、参与⼈的信息集、参与⼈的⽀付函数、外⽣事件(⾃然的选择)的概率分布。

n⼈有限战略博弈的扩展式表述⽤博弈树来表⽰1(1,2) (0,3)①结:包括决策结和终点结。

决策结是参与⼈采取⾏动的时点,终点结是博弈⾏动路径的终点。

第⼀个⾏动选择对应的决策结为“初始结”,⽤空⼼圆表⽰,其它决策结⽤实⼼圆表⽰。

X表⽰结的集合,x X表⽰某个特定的结。

z表⽰终点结,Z表⽰终点结集合。

表⽰结之间的顺序关系,x x′表⽰x在x′之前。

x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。

以下两种情况不允许:前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。

在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。

②枝:博弈树上,枝是从⼀个决策结到其直接后续结的连线,每⼀个枝代表参与⼈的⼀个⾏动选择。

在每⼀个枝旁标注该具体⾏动的代号。

⼀般地,每个决策结下有多个枝,给出每次⾏动时参与⼈的⾏动空间,即此时有哪些⾏动可供选择。

③信息集(information sets):博弈树中某⼀决策者在某⼀⾏动阶段具有相同信息的所有决策结集合称为⼀个信息集。

博弈树上的所有决策结分割成不同的信息集。

每⼀个信息集是决策结集合的⼀个⼦集(信息集是由决策结构成的集合),该⼦集包括所有满⾜下列条件的决策结:(1)每⼀个决策结都是同⼀个参与⼈的决策结。

海盗分金

海盗分金

海盗分金——博弈论的故事1(一)海盗分金5名海盗分100枚金币。

规则是大家抽签分出1—5号,并按顺序提方案。

1号首先提方案,5人表决,当超半数同意时有效;否则1号将被抛入大海。

然后,2号提方案,4人表决,评判方式同上。

以此类推。

假定每个人都很聪明,1号提出什么方案,能使自己收益最大?答案是:(97、0、1、0、2 )或(97、0、1、2、0)。

推理:假定1—3号都抛入大海,那末4号也活不了,所以,4号必须保住3号。

据此,3号可提方案(100、0、0)。

2号推知3号方案,可提出(98、0、1、1)方案,来拉拢4号和5号。

1号推知2号方案,可推出上述方案,拉拢住3号,以及4号或5号中的1人。

(二)博弈论与博弈类型博弈(Game),本是游戏、竞赛的意思。

所要解决的核心问题是:参与博弈的其他人员会怎么做?我应采取怎样的对策来取得最佳效果?博弈的例子到处可见:讨价还价、划拳、小孩猜拳、下棋、打牌,以及“三十六计”、“田忌赛马”等。

博弈论作为一种理论,最先是由美国经济学家冯·诺伊曼在1937年提出来的,他与经济学家奥斯卡·摩根斯坦于1944年合著的《博弈论与经济行为》公认为博弈论诞生的标志。

今天,博弈论已为数学的一个较为完善的分支,并在许多领域被运用。

在经济学领域的影响被称为“现代经济学的一次大的革命”。

博弈类型:1.静态博弈与动态博弈。

前者指参与者同时行动、同时出牌或亮招,如招标、考试等;后者指参与者的行动有先后次序,如下棋、战争、商业竞争等。

2.完全信息博弈与不完全信息博弈。

前者指参与者互相都“知己知彼”,否则就是后者。

3.零和博弈与非零和博弈。

前者指“你赢的就是我输的”,如打麻将、下棋等;后者指大家的得失总和不为零,如势均力敌的战争会使两败俱伤,而商业合作会使“双赢”。

4.合作博弈与非合作博弈。

在非零和博弈中,分为这两种。

前者指博弈双方可都获利,如价格联盟;后者指博弈结果会对双方都不利。

博弈论——完全信息动态博弈

博弈论——完全信息动态博弈

2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game):参与人在不同的时间选择行动。

完全信息动态博弈指的是各博弈方先后行动,后行动者知道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合下所有参与人相应的得益都完全了解的博弈静态博弈习惯用战略式(Strategic form representation)表述,动态博弈习惯用扩展式(Extensive form representation)表述。

战略式表述的三要素:参与人集合、每个参与人的战略集合、由战略组合决定的每个参与人的支付。

扩展式表述的要素包括:参与人集合、参与人的行动顺序、参与人的行动空间、参与人的信息集、参与人的支付函数、外生事件(自然的选择)的概率分布。

n人有限战略博弈的扩展式表述用博弈树来表示1(1,2) (0,3)①结:包括决策结和终点结。

决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。

第一个行动选择对应的决策结为“初始结”,用空心圆表示,其它决策结用实心圆表示。

X表示结的集合,x X表示某个特定的结。

z表示终点结,Z表示终点结集合。

表示结之间的顺序关系,x x´表示x在x´之前。

x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。

以下两种情况不允许:前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。

在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。

②枝:博弈树上,枝是从一个决策结到其直接后续结的连线,每一个枝代表参与人的一个行动选择。

在每一个枝旁标注该具体行动的代号。

一般地,每个决策结下有多个枝,给出每次行动时参与人的行动空间,即此时有哪些行动可供选择。

③信息集(information sets):博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结集合称为一个信息集。

博弈树上的所有决策结分割成不同的信息集。

每一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合),该子集包括所有满足下列条件的决策结:(1)每一个决策结都是同一个参与人的决策结。

博弈论-完全且完美信息动态博弈

博弈论-完全且完美信息动态博弈

完全信息动态博弈
动态博弈:参与人的行动有先后顺序,且后行动 者能够观察到先行动者的行动。 先行动者的选择影响后行动者的选择空间, 后行动者可以观察到先行动者做了什么选择,因 此,为了做出最优的行动选择,每个参与人都必 须这样思考问题:如果我如此选择,对方将如何 应对?给定他的应对,什么是我的最优选择?
房地产开发博弈
例2:两个房地产商A、B进行房地产开发博弈。市场需 求大、小的概率各占50%。投入:1亿。 假定市场上有两栋楼出售: 需求大时,每栋售价1.4亿, 需求小时,售价7千万; 如果市场上只有一栋楼 需求大时,可卖1.8亿 需求小时,可卖1.1亿 行动顺序:(1)开发商A首先行动,选择开发或不开发; (2)在A决策后,自然选择市场需求的大小; (3)开发商B在观测到A的决策和市场需求后,决定是否开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4 )
(8,0 )
(-3,-3)
(1,0 )
(0,8 )
(0,0 )
(0,1 )
(0,0 )
房地产开发博弈
三、策略式转化为扩展式
案例-囚徒困境
囚徒 B 坦白 抵赖
囚徒A 坦白 抵赖
-8,-8 0,-10 -10,0 -1,-1
博弈论 (Game Theory)
ห้องสมุดไป่ตู้
第三章
完全且完美信息动态博弈

扩展型博弈表述


扩展型博弈的策略及纳什均衡
子博弈精炼纳什均衡
“海盗分金”模型

话说5个海盗抢得100枚金币,他们 按抽签的顺序依次提方案:首先由1 号提出分配方案,然后5人表决,半 数同意方案才被通过,否则他将被 扔入大海喂鲨鱼,依此类推。求第 一个海盗的最优策略。

第3章_完全信息动态博弈

第3章_完全信息动态博弈
(1)博弈参与者:囚徒A和B; (2)行动顺序:如果囚徒A先行动,那么囚徒B会根据观察到的
A的行动来决定自己的策略; (3)策略空间:囚徒A和B的策略空间是相同的,所采取的策略
有两种情况:坦白和抵赖。 (4)信息集:完全信息意味着双方对博弈的整个过程都能正确
了解,对博弈另一方的策略以及双方采取不同策略时各个参 与者的收益等信息完全掌握。 (5)支付函数:如果囚徒A先行动,当A选择“坦白”时,若囚 徒B选择“坦白”,则A判刑8年,B也判刑8年;若囚徒B选择 “抵赖”,则A无罪释放,B被判刑10年;等等。
(2)博弈树与博弈顺序
博弈树各节点之间存在顺序关系,博弈树由上至下的节点顺序表示各 博弈参与者进行决策的顺序。
下图中博弈参与者进行决策的顺序是:首先是参与者1,然后是参与
者2,最后是参与者3.
参与者 1
S1
S2
(a1, b1, c1) T1
参与者 2 T2
(a2, b2, c2) U1
员工1先行动,但员工2观察不到员工1所采取的策略。在博弈树中如何表示?
1
H
O
2 H
3
H
O
O
3
H
O
H
3
H
O
2 O
3
H
O
(6, 6, 6)
(3, 3, 8) (3, 8, 3) (0, 2, 2) (8, 3, 3) (2, 0, 2) (2, 2, 0)
员工 2 只有一个信息集的博弈树
被虚线连接起来的两个博弈节点构成一个博弈信息集。
如果三人都罢工,那么公司无法运转,老板会被迫给每个人涨工资,三人均 得到收益6;
如果两人罢工,一个人不罢工,那么老板会认为唯一不罢工的员工是企业的 忠实员工,因此不罢工的员工得到收益8,两名罢工的员工各得收益3;

博弈论 第 三 章 完全信息动态博弈讲解

博弈论 第 三 章  完全信息动态博弈讲解

不坦白
坦白
不坦白
(-5,-5)
(0,-8) (-8,0)
(-1,-1)
注 意: 得 益 向 量 的 次 序 与 参 与 人 决 策 的 顺 序 一 致。
同样地,展开型博弈也可以用策略式来表示, 如
展开型博弈:
1
T
B
2
L
R
2
L
R
(2,2)
(4,0) ((1,0)
可以表示为:
T
参 与 人1
B
参 与 人2
注意:行为策略是在A(hi)上随机化,而混合策 略则是在Si( 即A(hi) 的乘积 空 间)上的随机化
定 理 (Kuhn,1953) 在完美回忆博弈中,混合 策略与行为策略是等价的。
完美回忆指没有参与人会忘记以前知道的信息。
例 下列展开型博弈不具备完美回忆:
A 2
1
B
2
L
R
L
R
1
C
D
1
CD
1
C
D
如果博弈树的所有信息集都是单结的, 则称该 博弈为完美(perfect)息 博弈。(无虚线连接), 而完全(complete)信息博弈是指得益函数和纯 策略空间均为博弈各方的共同知识。完全信息 可以是完美的也可以是不完美的。
3.2 展开型博弈的策略与均衡
一、 行 为 策 略 在策略型博弈中, 参与人的策略是进行博
定 义 一 个 展 开 式 博 弈 的 子 博 弈G 由 一 个 决 策 结x 和 所 有 该 决 策 结 的 后继结T(x)( 包 括终点结0 组 成, 它 满 足 下 列 条 件:⑴x 是 一 个 单 点 信 息 结即h(x)={x}; ⑵对于所有的 x′ ∈T(x), 如果x″ ∈h(x′), 则x″ ∈T(x) 。

第二章 完全信息动态博弈(博弈论与信息经济学-山西财经大学 景普秋)

第二章 完全信息动态博弈(博弈论与信息经济学-山西财经大学 景普秋)

x1
L S L 2 S
( 2, 2 )
2
(-1,-1) (-1,-1)
( 2, 2)
x2
( 1, 1)
(-1,-1)
(-1,-1)
(2)子博弈保留了原博弈的所 有结构:子博弈的信息集和支付 向量都直接继承自原博弈
x1
L 1 S
L
3
S
L
2
3 3 3
x2
2
S
在市场进入博弈中,包含3个子博弈(包括原博 弈)。而在囚徒博弈中,只有一个子博弈(?)
市场进入博弈的纳什均衡
B
(进入,进入) (进入,不进入)(不进入,进入)(不进入,不进入)
A
进入 不进入
-3 ,-3 0 ,1
-3 ,-3 0 ,0
1 ,0 0 ,1
1 ,0 0 ,0 收益: A B -3 ,-3
该博弈中有三个纳什均衡: 不进入,(进入,进入) 进入,(不进入,进入) 进入,(不进入,不进入)
必须在多个纳什均衡中剔除不合理的均衡解,即所谓“不可置 信威胁”。子博弈精炼纳什均衡是对纳什均衡概念的最重要的 改进。它的目的是把动态博弈中的“合理纳什均衡”与“不合 理纳什均衡”分开。正如纳什均衡是完全信息静态博弈解的基 本慨念一样,子博弈精炼纳什均衡是完全信息动态博弈解的基 本概念。 收益:
①{不进入,(进入,进入)} ② {进入,(不进入,进入)} ③{进入,(不进入,不进入)} 进入 B 进入 不进入

{左,左} {左,右} {右,左} {右,右} 2,2 2 ,1 2,1 上 2 ,2 甲 3,1 1,0 3,1 下 1 ,0

上 乙 右 左 下 乙
(2,2)
(2,1) (1,0)

完全信息动态博弈

完全信息动态博弈

第七章完全信息动态博弈博弈中的得益,是各参与人追求的根本目标,关于得益的信息是博弈中最重要的信息之一。

在一些博弈中参与人对自己的得益情况完全清楚,对其他参与人的得益也都很清楚,如前面介绍过的囚徒困境,猜硬币等;还有一些博弈中,参与人对其他参与人的得益情况并不了解,例如投标、拍卖活动中,各参与人对其他参与人的标的的估价很难了解,即使最后的成交价是明确的,但各参与人仍然无法知道其他参与人中标、拍得标的的真正得益是多少。

一般地,参与人完全了解所有参与人的得益情况的博弈称为“完全信息博弈”,不完全了解其他参与人的得益情况的博弈称为“不完全信息博弈”。

博弈中的过程,是博弈结构的重要部分,根据博弈过程的不同,可以将博弈分为:“静态博弈”、“动态博弈”和“重复博弈”。

如果参与人选择战略时是同时或可以看作同时的博弈称为“静态博弈”;若各参与人战略的选择和行动不仅有先后顺序,后选择、后行动的参与人在自己选择行动之前,可以看到前面的过程,这种博弈称为“动态博弈”(也称为“多阶段博弈”)。

动态博弈中在轮到行为时对博弈的进程完全了解的参与人,称为具有“完美信息”的参与人,如果动态博弈的所有参与人都有完美信息,称为“完美信息的动态博弈”。

相应的轮到行为时对博弈的进程不完全了解的参与人,称为具有“不完美信息”,这样的动态博弈称为“不完美信息的动态博弈”。

7.1 完全且完美信息动态博弈动态博弈中一个参与人的一次行为称为一个“阶段”。

由于每个参与人在动态博弈中可能不止一次行为,因此,每个参与人在一个动态博弈中就可能有数个甚至许多个博弈阶段。

动态博弈一般用扩展形表示,括弧中前一个数字代表乙的得益,后一个数字代表甲的得益。

动态博弈的一个中心问题是“可信性”问题。

所谓可信性是指动态博弈中先行为的参与人是否该相信后行为的参与人会采取对自己有利的或不利的行为。

因为后行为方将来会采取对先行为方有利的行为相当于一种“许诺”,而将来会采取对先行为方不利的行为相当于一种“威胁”,因此我们可将可信性分为“许诺的可信性”和“威胁的可信性”。

完全信息动态博弈_海盗分金博弈问题

完全信息动态博弈_海盗分金博弈问题

海盗分金博弈问题
显然,“海盗分金”问题可以看成有限的完全信息 动态博弈,所以可以采用逆向归纳法进行求解。不妨 将i(i=1,2,...,5)个提出分配方案的海盗成为海盗 i,
1 2 3 4 5 s (x 用 i i 提出的分配方案,其中 i ,xi ,xi ,xi ,x表示海盗 i )
xi (j=1,2,...,5表示海盗i愿意付给海盗j的金币数。
s2
s1
* 1
* 2
* s3 (0,0,99,0,1)
s (0,99,0,1,0)
s (99,0,1,0,1)
海盗分金博弈问题
值得注意的是 , 本来海盗 1 看似最不容 易被丢进海里喂鱼,但是他牢牢把握住了 先发制人的优势,结果不但没有丢掉性命 ,还获得了最多的金币;而海盗5貌似最安 全,没有死亡威胁,甚至还能通过向海盗1 发出死亡威胁,坐收渔人之利,但却由于 其威胁“不可置信”( not credible ), 而不得不看人脸色行事。
s ( x , x , x , x , x ) (0,99,0,1,0)
* 2 1 2 2 2 3 2 4 2 5 2
海盗分金博弈问题
最后,考察分赃之初海盗1是如何决定的。 当轮到海盗1提出分配方案的时候,所有的 海盗都在船上。他知道一旦他的方案被反 对,海盗2将提出方案 s* 2 , 那么海盗3和海 3 5 ( x 0 , x 盗5将什么也得不到 2 2 0 ), 于是只要他提出方案满足 x13 x23 , x15 x25 , 海盗3和海盗5就会赞成该方案,那么集体 投票的赞成票数就会超过半数,因此海盗1 就会选择分配方案
完全信息动态博弈 -----海盗分金博弈问题
组员:
海盗分金博弈问题

《博弈论:原理、模型与教程》第章子博弈精炼Nash均衡第节子博弈精炼Nash均衡的求解

《博弈论:原理、模型与教程》第章子博弈精炼Nash均衡第节子博弈精炼Nash均衡的求解

《博弈论:原理、模型与教程》第二部分完全信息动态博弈第7章子博弈精炼Nash均衡7.2 子博弈精炼Nash均衡的求解(重点!)(已精细订正!)定义7-1虽然给出了子博弈精炼Nash的定义,但没有说明如何求解子博弈精炼均Nash衡。

下面以图6-8 中扩展式博弈为例,介绍一种最常用的求解子博弈精炼Nash均衡的方法—逆向归纳法。

(讲!)考察图6-8中的博弈。

参与人1在博弈开始时(即在信息集}{)(11x I 上面临两种选择—行动A 和行动B 。

参与人1此时选择哪种行动呢?对于理性的参与人1来讲,只会选择使自己支付最大化的行动。

从图6-8很容易知道参与人1选择行动B 时所得到的支付为2;但是,如果参与人1选择行动A ,则所得支付就要取决于参与人2在信息集}{)(22x I 上的选择,以及博弈达到决策结3x 时参与人1在信息集}{)(31x I 上的选择。

也就是说,参与人1选择行动A 所得支付,取决于子博弈)(2x Γ的结果。

因此,为了确定参与人1在博弈开始时的选择,就必须确定参与人1选择行动A 的所得支付,而为了确定参与人1选择行动A 的所得支付,就必须先求解子博弈)(2x Γ。

如何求解博弈)(2x Γ呢?可以采用同样的方法来求解子博弈)(2x Γ,即在求解子博弈)(3x Γ的基础上,确定参与人2在信息集}{)(22x I 上的选择,从而求解子博弈)(2x Γ。

由以上分析可以得到图6-8中博弈的求解过程:首先求解博弈树中最底层的子博弈)(3x Γ得到子博弈)(3x Γ的结果为(3,0)(即参与人1选择E ); 再求解博弈)(2x Γ,容易得到博弈的结果(1,1)(即参与人2选择D ); 最后求解原博弈,即子博弈)(1x Γ,得到博弈的结果为(2,1)(即参与人1选择B )。

(讲!)考察更一般的情形。

对于图7-6中的博弈树,参与人i 在信息集})({i i x I 选择行动L 还是行动R ,取决于选择行动L 和行动R 所带来的后果。

03市场进入-讨价还价-海盗分金-狂怒博弈

03市场进入-讨价还价-海盗分金-狂怒博弈

不完全信息下的市场进入博弈:海萨尼转换Ⅰ
博弈结构:进入者不知道在位者的具体类型,但是知道有哪两种类型
进入 不进入
高成本情况
默许
斗争
40, 50 -10, 0
0, 300 0, 300
低成本情况
默许
斗争
30, 80 -10, 100
0, 400 0, 400
如果在位者有T种可能的成本,则参与人似乎是在与T个在 位者进行博弈,参与人甚至不知道自己在与谁进行博弈。
4、以此类推
条件: 每个海盗都是很聪明的人,都能很理智的判断 得失,从而做出选择。 问题:第一个海盗提出怎 样的分配方案才能够使自己免于下海以及自己获得最 多的金币呢?
逆向递归求解
如果只剩5号海盗,那么毫无疑问他将得 到所有的金币而且不用牺牲,5号海盗没有任 何风险。

接下来看4号,他的生存机会完全取决于
(四)市场进入阻挠:不完全信息动态 参考M-R垄断限价模型
罗宾斯泰林讨价还价模型
讨价还价模型简述:
甲、乙两人协商分配上级下拨的1000元钱。 在给定的3天协商时间内,第一天甲提出一个 分配方案,乙若同意的话就按此分配,乙若不 同意他可在第二天提出自己的方案,甲可选择 接受或在第三天再提出一个方案,乙对此可以 接受或拒绝;如果3天内两人不能达成协议, 上级将收回这1000元钱;甲和乙分别按天贴现 率和贴现自己的未来收益, 0 、1。 简化条件:如果自己不能从拒绝对方提案中获 取更多的收益,局中人都会接受对方提案。
进入者
进入 不进入
在位者
高成本
低成本
默许 斗争 默许
斗争
40,50 -10,0 30,80 -10,100 0,300 0,300 0,400 0,400

5. 完全信息动态博弈

5. 完全信息动态博弈

2 1
4 1
图4-5
3.用粗线连接具有相同赋值的节点,得到子博弈精炼纳什 用粗线连接具有相同赋值的节点, 用粗线连接具有相同赋值的节点 均衡 (R , (L' , L' )) , (R , (L' , R ' )) , (R R ' )) , 见图4-6。 见图 。 I
11


对 I 22 对应的节点赋值 1

3

4 1
I21
R’
② I22
; 。
L’
L’
3 1
R’
2.对 I11 对应的节点赋值 对
3 1
4 1 ,
1 1
开发

I11
不开发
I 21 ②
开发
不开发
I22

开发 不开发
− 3 − 3
1 0
0 1 图4-1
0 0
开发或不开发}, 局中人甲的策略集合 S 1 = { x x = 开发或不开发 , 开发或不开发}。 局中人乙的策略集合 S 2 = {( x, y) x, y = 开发或不开发 。 支付矩阵为: 支付矩阵为: , (开发 不开发) , (不开发开发) , (不开发不开发) , (开发 开发)
, 即对于固定的 最大化利润函数 π 2 (q1 , q 2 ) ,即对于固定的 q1 求解最大化 问题: 问题: maxπ 2 (q1 , q2 ) = P(q1 + q2 )q2 − C2 (q2 )
q2
企业2观察到企业 观察到企业1的产量 选择产量 t = 2 . 企业 观察到企业 的产量q1 ,选择产量 q 2

11-完全信息动态博弈(子博弈完美的纳什均衡)

11-完全信息动态博弈(子博弈完美的纳什均衡)

结点 node
枝 branch 信息集 information set
博弈树
game tree
L
( 2, 9 ) ( 2, 1 ) ( 1, 0 ) ( 3, 1 )
U
B1
R
A
D
B2
L R
如何寻找均衡?
L B1 U R B2 L R
9) (2 2, 9
( 2, 1 ) ( 1, 0 )
A
D
( 3, 1 )
Reinhard Selten ,1930-
子博弈
Sub-game
给定“历史”,每一个行动选择开始至博弈结
束构成了一个博弈,称为“子博弈”。
扩展式博弈的子博弈G是由一个单结信息集x开
始的与所有该决策结的后续结(包括终点结)组 成的,能自成一个博弈。
子博弈

Sub-game
L U
原博弈中的一部分(次级博弈)
行动有先后 后行者在行动前已经观测到先行者的行动

描述方法:扩展式 extensive form
博弈树 game tree
例:静态游戏 - 支付矩阵
假设:A B 两人同时行动
B
left up 2, 9
right 2, 1
A
down
1, 0
3, 1
例:动态游戏 - 支付矩阵
假设:A 先行动,B 后行动
Subgame Perfect Nash Equilibrium
泽尔腾1965年发表《需求减少条件下寡 头垄断模型的对策论描述》一文,提出了 “子博弈精炼纳什均衡”的概念,又称“子 对策完美纳什均衡”。
• 莱茵哈德· 泽尔腾 Reinhard Selten ,子博弈精 炼纳什均均衡的创立者。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

海盗分金博弈问题
向前递推一次,当轮到海盗4 提出方案时 ,前3个海盗肯定已经被丢到大海喂鱼了, 这个时候只有海盗4和海盗5留在船上。无 论海盗5赞成与否,集体投票赞成的票数都 会达到半数,海盗4提出的分配方案最终将 被实施,因此海盗4会提出分配方案
* 2 3 4 5 s4 ( x1 , x , x , x , x ,0). 4 4 4 4 4 ) (0,0,0,100
s ( x , x , x , x , x ) ( 0,0,99,0,1 ).
* 3 1 3 2 3 3 3 4 3 5 3
海盗分金博弈问题
继续向前递推,轮到海盗2做决定的时候, 海盗1已经被丢进大海,留在船上的还有海盗2、 海盗3、海盗4和海盗5。海盗2知道如果自己的方 * s 案被反对,海盗3会提出方案 3 , 这时海盗4什么 4 ( x 也得不到 3 0 ).于是只有他提出的方案满足 4 4 x x • 2 3 , 海盗4就赞成该方案,这样一来,集体 投票的赞成票数将会就会达到半数,因此海盗 2 就会选择分配方案
完全信息动态博弈 -----海盗分金博弈问题
组员:
海盗分金博弈问题
引入问题:
有5个亡命之徒在海上抢到100枚金币,他们决定通 过一种民主的方式来分配这笔财富。投票规则如 下:5个海盗通过抽签决定每个人提出分配方案的 顺序,由排序最靠前的海盗提出一个分配方案, 如果有半数或半数以上的人赞成,那么就按照这 个海盗提出的分配方案分配金币,否则提出这个 分配方案的海盗就要被扔到海里;再由下一个海 盗提出分配方案,如果有半数或半数以上的人赞 成,那么就按照他提出的分配方案分配金币,否 则他也要被扔到海里;以此类推。
海盗分金博弈问题
每个海盗都非常聪明并且知道其他人的凶 残。对于海盗而言,他们希望自己获得尽可能 多的金币,但是丢到海里就意味着喂鱼,因此 他们都不愿意丢掉性命。 意思是每一个海盗都想在保全自己生命安 全的前提下获取自己的最大利益,试问在这种 规则下最后的分配结果是什么?
盗所处的 位置最不利,因为其他的海盗可能通过将其扔进 海里减少分配金币的人数,从而使自己获得更多 的金币。但是,如果将“海盗分金”问题当成一 个完全信息动态博弈来分析,所得的结论将会与 我们的直觉完全不同。
海盗分金博弈问题
利用“海盗分金”的例子可以解释很多 社会现象。例如,为什么企业中的一把手 ,在搞内部人控制时,经常是抛开二号人 物,而会计和出纳们打得火热?这正是因 为公司里的小人物好收买,而二号人物却 总是野心勃勃地想取而代之。
s2
s1
* 1
* 2
* s3 (0,0,99,0,1)
s (0,99,0,1,0)
s (99,0,1,0,1)
海盗分金博弈问题
值得注意的是 , 本来海盗 1 看似最不容 易被丢进海里喂鱼,但是他牢牢把握住了 先发制人的优势,结果不但没有丢掉性命 ,还获得了最多的金币;而海盗5貌似最安 全,没有死亡威胁,甚至还能通过向海盗1 发出死亡威胁,坐收渔人之利,但却由于 其威胁“不可置信”( not credible ), 而不得不看人脸色行事。
海盗分金博弈问题
显然,“海盗分金”问题可以看成有限的完全信息 动态博弈,所以可以采用逆向归纳法进行求解。不妨 将i(i=1,2,...,5)个提出分配方案的海盗成为海盗 i,
1 2 3 4 5 s (x 用 i i 提出的分配方案,其中 i ,xi ,xi ,xi ,x表示海盗 i )
xi (j=1,2,...,5表示海盗i愿意付给海盗j的金币数。
s ( x , x , x , x , x ) (0,99,0,1,0)
* 2 1 2 2 2 3 2 4 2 5 2
海盗分金博弈问题
最后,考察分赃之初海盗1是如何决定的。 当轮到海盗1提出分配方案的时候,所有的 海盗都在船上。他知道一旦他的方案被反 对,海盗2将提出方案 s* 2 , 那么海盗3和海 3 5 ( x 0 , x 盗5将什么也得不到 2 2 0 ), 于是只要他提出方案满足 x13 x23 , x15 x25 , 海盗3和海盗5就会赞成该方案,那么集体 投票的赞成票数就会超过半数,因此海盗1 就会选择分配方案
s ( x , x , x , x , x , ) ( 98,0,1,0,1 ).
* 1 1 1 2 1 3 1 4 1 5 1
海盗分金博弈问题
综合以上分析,可以看出: 海盗1提出的分配方案
s ( x , x , x , x , x , ) (98,0,1,0,1).
* 1 1 1 2 1 3 1 4 1 5 1
j x 5 ). 下图是海盗分金问 显然, i 100( i 1,2 ,..., j 1 s
j
题的示意图。
海盗分金博弈问题
海盗分金博弈问题
根据逆向归纳法,首先考察到海盗5提出分配 方案时的情况。
轮到海盗5提出方案时,前4个海盗 肯定已经被丢到大海喂鱼了,这个时 候只有他自己留在船上,无论他提出 怎样的分配方案,最后都会被实施。 为了尽可能多获得金币,海盗5会选 择 * 1 2 3 4 5 s5 ( x5 , x5 , x5 , x5 , x5 ) ( 0,0,0,0,100).
该方案即被多数人接受,博弈结束 。 在“海盗分金”中,任何“ 分配者”想让自己的方案获得通 过的关键是:事先考虑清楚“挑 战者”的分配方案是什么,并用 最小的代价获取最大的收益,拉 拢“挑战者”分配方案中最不得 意的人。
博弈树
s4
s3
s5
s (0,0,0,0,100)
* 5 * s4 (0,0,0,100,0)
海盗分金博弈问题
顺次向前推一步,如果轮到海盗3做决定,他 会提出怎样的分配方案?当轮到海盗3提出方 案时,前2个海盗肯定已经被丢到大海喂鱼了 ,这个时候只有海盗3、海盗4和海盗5留在船 上。海盗3知道如果他的方案被否决,海盗4 * 将会提出分配方案 s 4 ,那么海盗5将什么也得 5 0. 现在只要他给海盗5一个单位的 不到 x4 金币 x35 1 x45 0, 海盗5将赞成这个方案。这样 一来,集体投票的赞成票数将会就会大于半数 ,因此海盗3就会选择分配方案
相关文档
最新文档