完全信息动态博弈_海盗分金博弈问题
完全信息动态博弈
❑❑2The key features of a dynamic game ofcomplete and perfect information are that (ⅰprevious moves are observed before thenext move is chosen, and (payoffs from each feasible combination ofmoves are common knowledge.34❑❑5❑❑67 不制止仿冒和反仿冒博弈扩展型表述(10,4)8❑9❑1011Definitiona collection of decision nodes satisfying:(ⅰthe information set,and(ⅱin the information set, the player with the move does not know which node in the informationset has (or has not) been reached.息集只包含一个决策结,对不完美信息动态博弈,则一个信息集包含多个决策结。
121314completethe players’knowledge).We analyze dynamic games that have not only complete but also informationmove in the game the player with the move knows the full history of the play of the game thus far.1617181920一般假定博弈满足❑2122图2-6 不具有完美回忆的例子LAA RA 不能区分(D,L )和(D,R)是正常的,因为参与人1可能没有观察到B 是选择了L 还是选择了R 。
但A 不能区分(U,R )和(D,L)则说明A 忘记了在开始博弈时选择了U 行动还是D 行动,因而不具有完美回忆。
经济博弈论_谢识予_2_完全信息动态博弈0.1
单结信息集:只包含一个决策结的信息集 完美(Perfect)信息:博弈树的所有信息都是单结的。 ——博弈中没有任何参与人同时行动,且后行动者能观察到先 行动者的行动,且所有参与人观察到N的行动)
1 动态博弈的扩展式表述
静态博弈用扩展式表述 A
坦白 抵赖 坦白
Q:何为完 全信息? B
抵赖
囚 徒 困 境 博 弈
-3,-3 -4,-3
-3,-3 0,0
1,-2 -4,-3 割耳
1,-2 0,0 (-3,-3) (1,-2) 默认 割耳 (-4,-3) (0,0)
三个NE: (不画,{割耳,默认}) (画,{默认,割耳}) (画,{默认,默认})
画 小孩 不画
父亲
父亲
默认
4 NE的缺陷——不可置信的威胁
换句话说,与抽烟有关决策不是单人在中性环境中 的决定,而是一种博弈。“今日卡门”和不同偏好的卡 门自己,即“未来卡门”间的博弈。
5 逆向归纳法
继续抽 未来的 卡门 不抽 今天的卡门
-1,1
1,-1
0,0 两个“卡门”如何行事? 未来卡门如何行事? 考虑到未来卡门的未来行动,今日卡门今日如何行事?
2 动态博弈中的策略
博弈树中参与人在结点上所选择的单个行动—— 一步/招 (move)
美中军事博弈
但是,参与人可以制定一个行动计划,将每个决策结上 的选择都事先规定好,即使这个决策点实际上不会出 美国 现。——策略
中国 中国
策略: 人不犯我、我不犯人; 人若犯我、我必犯人
不犯人
(-2,-2) (2,-4) (3,-5) (0,0)
4 NE的缺陷——不可置信的威胁
第三章完全且完美信息动态博弈
第三章完全且完美信息动态博弈在动态博弈中,参与者需要根据对手的行为和策略来调整自己的行动,以便达到最佳的结果。
动态博弈可以分为完全信息动态博弈和不完全信息动态博弈。
完全信息动态博弈是指所有参与者都知道其他参与者的策略和收益函数,而不完全信息动态博弈则是指参与者不知道其他参与者的策略和收益函数。
在完全信息动态博弈中,参与者可以通过观察对手的行为来推断出对手的策略和收益函数。
这种博弈可以通过逆向归纳法来求解,即从博弈的阶段开始,逐步向前推导出每个阶段的最佳策略。
逆向归纳法是一种有效的求解完全信息动态博弈的方法,它可以帮助参与者找到最佳策略,从而实现最佳的结果。
然而,在现实世界中,完全信息动态博弈并不常见。
大多数博弈都是不完全信息动态博弈,参与者无法知道其他参与者的策略和收益函数。
在这种情况下,参与者需要通过观察对手的行为和策略来推断出对手的类型和收益函数。
这种博弈可以通过贝叶斯纳什均衡来求解,即参与者根据对手的类型和收益函数来选择自己的策略,以达到最佳的结果。
完全且完美信息动态博弈是指所有参与者都知道其他参与者的策略和收益函数,并且参与者能够观察到其他参与者的行为和策略。
这种博弈可以通过逆向归纳法和贝叶斯纳什均衡来求解,从而帮助参与者找到最佳策略,实现最佳的结果。
在完全且完美信息动态博弈中,参与者可以通过观察对手的行为和策略来推断出对手的类型和收益函数,从而调整自己的策略,以实现最佳的结果。
在完全且完美信息动态博弈中,参与者之间的互动是基于透明和预知性的。
每个参与者不仅清楚自己的策略选择和可能的收益,同时也了解其他参与者将如何根据这些信息做出反应。
这种透明度使得参与者能够做出更加精确的决策,因为他们能够预测对手的行动并据此调整自己的策略。
这种博弈的一个关键特点是,参与者之间的信息是对称的。
这意味着没有参与者拥有其他参与者所不知道的信息优势。
这种信息对称性使得博弈变得更加公平,因为它消除了信息不对称带来的不确定性。
博弈论——完全信息动态博弈
博弈论——完全信息动态博弈2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game):参与⼈在不同的时间选择⾏动。
完全信息动态博弈指的是各博弈⽅先后⾏动,后⾏动者知道先⾏动者的具体⾏动是什么且各博弈⽅对博弈中各种策略组合下所有参与⼈相应的得益都完全了解的博弈静态博弈习惯⽤战略式(Strategic form representation)表述,动态博弈习惯⽤扩展式(Extensive form representation)表述。
战略式表述的三要素:参与⼈集合、每个参与⼈的战略集合、由战略组合决定的每个参与⼈的⽀付。
扩展式表述的要素包括:参与⼈集合、参与⼈的⾏动顺序、参与⼈的⾏动空间、参与⼈的信息集、参与⼈的⽀付函数、外⽣事件(⾃然的选择)的概率分布。
n⼈有限战略博弈的扩展式表述⽤博弈树来表⽰1(1,2) (0,3)①结:包括决策结和终点结。
决策结是参与⼈采取⾏动的时点,终点结是博弈⾏动路径的终点。
第⼀个⾏动选择对应的决策结为“初始结”,⽤空⼼圆表⽰,其它决策结⽤实⼼圆表⽰。
X表⽰结的集合,x X表⽰某个特定的结。
z表⽰终点结,Z表⽰终点结集合。
表⽰结之间的顺序关系,x x′表⽰x在x′之前。
x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。
以下两种情况不允许:前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。
在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。
②枝:博弈树上,枝是从⼀个决策结到其直接后续结的连线,每⼀个枝代表参与⼈的⼀个⾏动选择。
在每⼀个枝旁标注该具体⾏动的代号。
⼀般地,每个决策结下有多个枝,给出每次⾏动时参与⼈的⾏动空间,即此时有哪些⾏动可供选择。
③信息集(information sets):博弈树中某⼀决策者在某⼀⾏动阶段具有相同信息的所有决策结集合称为⼀个信息集。
博弈树上的所有决策结分割成不同的信息集。
每⼀个信息集是决策结集合的⼀个⼦集(信息集是由决策结构成的集合),该⼦集包括所有满⾜下列条件的决策结:(1)每⼀个决策结都是同⼀个参与⼈的决策结。
博弈论-完全且完美信息动态博弈
完全信息动态博弈
动态博弈:参与人的行动有先后顺序,且后行动 者能够观察到先行动者的行动。 先行动者的选择影响后行动者的选择空间, 后行动者可以观察到先行动者做了什么选择,因 此,为了做出最优的行动选择,每个参与人都必 须这样思考问题:如果我如此选择,对方将如何 应对?给定他的应对,什么是我的最优选择?
房地产开发博弈
例2:两个房地产商A、B进行房地产开发博弈。市场需 求大、小的概率各占50%。投入:1亿。 假定市场上有两栋楼出售: 需求大时,每栋售价1.4亿, 需求小时,售价7千万; 如果市场上只有一栋楼 需求大时,可卖1.8亿 需求小时,可卖1.1亿 行动顺序:(1)开发商A首先行动,选择开发或不开发; (2)在A决策后,自然选择市场需求的大小; (3)开发商B在观测到A的决策和市场需求后,决定是否开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4 )
(8,0 )
(-3,-3)
(1,0 )
(0,8 )
(0,0 )
(0,1 )
(0,0 )
房地产开发博弈
三、策略式转化为扩展式
案例-囚徒困境
囚徒 B 坦白 抵赖
囚徒A 坦白 抵赖
-8,-8 0,-10 -10,0 -1,-1
博弈论 (Game Theory)
ห้องสมุดไป่ตู้
第三章
完全且完美信息动态博弈
扩展型博弈表述
扩展型博弈的策略及纳什均衡
子博弈精炼纳什均衡
“海盗分金”模型
话说5个海盗抢得100枚金币,他们 按抽签的顺序依次提方案:首先由1 号提出分配方案,然后5人表决,半 数同意方案才被通过,否则他将被 扔入大海喂鲨鱼,依此类推。求第 一个海盗的最优策略。
第6讲完全信息动态博弈
展开型博弈的策略型表示
h1 左 h12 A 2 1 右 2 h22 D (2,7) (B,D)
B
C
(3,1) (A,C) 左 右
(5,6) (4,2) (A,D) (B,C)
3,1 4,2
3,1 2,7
5,6
5,6
yuech 4,2 zhang 2010-08-29 2,7
Coca h11 N (0, 5) h21 T (-2, -1) A (-3, 1) E Pepsi T Coca T (0,-3) h2 A h21 A (1, 2)
子博弈(subgame)
由原博弈中某个决策点(信息集)开始的部分 构成一个子博弈。
2 1 3 子博弈II
yuech zhang 2010-08-29
2
3
原博弈
子博弈I
子博弈完美均衡
(Subgame perfect equilibrium)
泽尔腾于1965年发表了他最著名的博弈论论文 《一个具有需求惯性的寡头博弈模型》。泽尔 腾当时没有想到他的这篇文章后来会被广泛引 用 , 并 成 为 了 子 博 弈 精 炼 均 衡 ( subgameperfeetNashequilibrinm ) 的 正 式 定 义,同时为后来获得诺贝尔经济学奖奠定了基 础。
yuech zhang 2010-08-29
h1 1 左 h12 A 2 右 2 h22 D (2,7)
B
C
(3,1)
(5,6) (4,2)
(A,C) 左 右
(A,D)
(B,C)
(B,D)
3,1 4,2
3,1 2,7
5,6 4,2 zhang yuech
5,6
2010-08-29
5、完全且完美信息动态博弈新建
马林
一、完全且完美信息动态博弈 完全信息—各个博弈方是否相互了解得益情况。 完全信息—各个博弈方是否相互了解得益情况。 完美信息—所有的博弈方对自己选择前的博弈 完美信息—所有的博弈方对自己选择前的博弈 过程是否完全了解。 过程是否完全了解。 静态博弈— 静态博弈—支付矩阵来表示 动态博弈— 动态博弈—阶段和扩展形来表示
条件:每个海盗都是很聪明的人, 都能很理智的判断得失,而且每个 海盗都是非常贪婪的人,每个人都 想使自己的收益最大化。 问题:第一个海盗能不能活下来, 如果能活下来他应该提出怎样的分 配方案。
1)同意人数≥1/2(98,0,1,0,1) )同意人数≥1/2(98, 2)同意人数>1/2 )同意人数>1/2 不考虑生死,单纯理性(97, 不考虑生死,单纯理性(97,0,1,0,2) 考虑生死(97, 考虑生死(97,0,1,0,2) 或者(97,0,1,2,0) 或者(97,
你满怀兴致买了一张电影票
开场不久你发现影片极度枯燥无聊,你会? A:忍受着看完。 B:退场去做别的事情。 大多数经济学家们认为,如果你是理性的, 那就不该在做决策时考虑沉没成本。
“协和谬误” 协和谬误” 一、20世纪60年代,英国法国政府联合投资 一、20世纪60年代,英国法国政府联合投资 开发大型超音速客机(协和飞机)。 二、优点:机身大、豪华、速度快。 缺点:研究费用巨大、不确定性。 结果:由于政治法律问题,两国政府无 法停止,继续为协和式飞机提供基金。
用过瓢柔、沙宜洗发水吗? 小时候吃过大白免奶糖吗? 金康、全庸的小说你看过吗? 古尢的小说看过没? 古尢的小说看过没? 用过1BM的筆記本 用过1BM的筆記本 有一次在车站买到唐师傅的方便面......... 有一次在车站买到唐师傅的方便面......... 碧雪 雲碧 芳达 都喝过没? 都喝过没? 小说看过有本金庸新著,后来才知道作者叫金庸新! 司口司乐喝过没? 喝過娃娃哈的水沒? 据说贵州的茅合酒也挺出名 都知道洽洽瓜子吧,上次买了包吃完才发现是治治牌瓜子 踢足球,去买了双双星球鞋,回来一看,商标是双星球!
exfd经济博弈论3—完全且完美信息动态博弈
动态博弈中博弈方的策略是他们自己预先设定
的,在各个博弈阶段针对各种情况的相应行为 选择的计划。
这些策略实际上并没有强制力,而且实施起来 有一个过程,因此只要符合博弈方自己的利益, 他们完全可以在博弈过程中改变计划。我们称 这种问题为动态博弈中的“相机选择 (Contingent Play)”。
(-1,0) (0,4)
法律保障不足的开金矿博弈 ——分钱打官司都不可信
稳定。为什么会出现这种情
况呢?
其实,该博弈中 (不借-不打,不分)和(借-打,分)都是纳什
均衡。但后者不可信,不可能实现或稳定。
上述纳什均衡不稳定的原因,主要在于如果甲在第二阶段选择了 “不分”而不是“分”,乙策略中设定的第三阶段“打”是不可 信的,不可能真正实施,理由是该行为对乙自身也是不利的,追 求自身利益最大化的乙的理性不允许他这么做。甲只要稍作分析 就可以掌握乙的这个弱点,因此不可能理睬乙策略中的“打”官 司威胁,在第二阶段不会选择“分”。反过来,乙也不会愚蠢到 想靠一个明显不可信的威胁撑腰,冒险将资金借给甲,因此他在 第一阶段也不可能“借”。
第三章 完全且完美信息动态博弈
本章讨论动态博弈(Dynamic Games),所
有博弈方都对博弈过程和得益完全了解的完全 且完美信息动态博弈。这类博弈也是现实中常
见的基本博弈类型。由于动态博弈中博弈方的 选择、行为有先后次序,因此在表示方法、利 益关系、分析方法和均衡概念等方面,都与静 态博弈有很大区别。本章对动态博弈的概念和 分析方法,特别是子博弈完美均衡和逆推归纳 法作系统介绍,并介绍各种经典的动态博弈模 型。
所以,在一个动态博弈中,博弈的结果包括双
方(或多方)采用的策略组合,实现的博弈路 径和各博弈方的得益。
完全信息动态博弈_海盗分金博弈问题
海盗分金博弈问题
显然,“海盗分金”问题可以看成有限的完全信息 动态博弈,所以可以采用逆向归纳法进行求解。不妨 将i(i=1,2,...,5)个提出分配方案的海盗成为海盗i,
用
si
(x
1 i
,x
2 i
,x
3 i
,x
4 i
,x表i5 )
示
海
盗
i
提
出
的
分
配
方
案
,
其
中
xi(j j=1,2,...,5表示海盗i愿意付给海盗j的金币数。
海盗分金博弈问题
利用“海盗分金”的例子可以解释很多 社会现象。例如,为什么企业中的一把手 ,在搞内部人控制时,经常是抛开二号人 物,而会计和出纳们打得火热?这正是因 为公司里的小人物好收买,而二号人物却 总是野心勃勃地想取而代之。
完全信息动态博弈——蜈蚣博弈
在一个T阶段博弈中,在每一个阶段参与人1先选 择是否终止博弈;如果参与人1选择博弈继续进行 ,则轮到参与人2选择是否终止博弈;如果参与人 2继续选择进行,则博弈进入下一阶段。
将会提出分配方案
s
* 4
,那么海盗5将什么也得
不到 x45 0. 现在只要他给海盗5一个单位的
金币 x35 1 x45 0 , 海盗5将赞成这个方案。这样
一来,集体投票的赞成票数将会就会大于半数
,因此海盗3就会选择分配方案
s*3 ( x31 , x32 , x33 , x34 , x35 ) ( 0,0,99,0,1 ).
在任一阶段,参与人1认为自己终止博弈的结果优 于参与人2终止博弈的结果,但不如博弈进入下一 阶段;参与人2认为自己终止博弈的结果优于参与 人1在下一阶段终止博弈的结果,但不如自己在下 一阶段终止博弈,当给出T=100时,博弈的拓展式 描述为:
第3章_完全信息动态博弈
A的行动来决定自己的策略; (3)策略空间:囚徒A和B的策略空间是相同的,所采取的策略
有两种情况:坦白和抵赖。 (4)信息集:完全信息意味着双方对博弈的整个过程都能正确
了解,对博弈另一方的策略以及双方采取不同策略时各个参 与者的收益等信息完全掌握。 (5)支付函数:如果囚徒A先行动,当A选择“坦白”时,若囚 徒B选择“坦白”,则A判刑8年,B也判刑8年;若囚徒B选择 “抵赖”,则A无罪释放,B被判刑10年;等等。
(2)博弈树与博弈顺序
博弈树各节点之间存在顺序关系,博弈树由上至下的节点顺序表示各 博弈参与者进行决策的顺序。
下图中博弈参与者进行决策的顺序是:首先是参与者1,然后是参与
者2,最后是参与者3.
参与者 1
S1
S2
(a1, b1, c1) T1
参与者 2 T2
(a2, b2, c2) U1
员工1先行动,但员工2观察不到员工1所采取的策略。在博弈树中如何表示?
1
H
O
2 H
3
H
O
O
3
H
O
H
3
H
O
2 O
3
H
O
(6, 6, 6)
(3, 3, 8) (3, 8, 3) (0, 2, 2) (8, 3, 3) (2, 0, 2) (2, 2, 0)
员工 2 只有一个信息集的博弈树
被虚线连接起来的两个博弈节点构成一个博弈信息集。
如果三人都罢工,那么公司无法运转,老板会被迫给每个人涨工资,三人均 得到收益6;
如果两人罢工,一个人不罢工,那么老板会认为唯一不罢工的员工是企业的 忠实员工,因此不罢工的员工得到收益8,两名罢工的员工各得收益3;
博弈论中国农业大学练习答案
博弈论中国农业大学练习答案1、“博弈的本意是什么?A、摔跤B、下棋C、赌博D、游戏参考答案:B2、古时“弈”字,就是指A、跳棋B、象棋C、五子棋D、围棋参考答案:D3、按照博弈方是否达成有约束力的协议,可以分为()A、理性博弈和非理性博弈B、完全信息博弈和不完全信息博弈C、动态博弈和静态博弈D、合作博弈与非合作博弈参考答案:D4、囚徒困境的例子属于()的典型A、非合作博弈B、合作博弈C、理性博弈D、动态博弈参考答案:A5、“石头剪刀布游戏,属于()。
A、贯序博弈B、动态博弈C、合作博弈D、静态博弈参考答案:D6、在博弈中,存在()时,不需要考虑其他人的战略选择。
A、占优战略B、重复剔除的占优均衡C、帕累托优势均衡D、风险优势均衡参考答案:A7.占优战略意味著参与人的最优战略是()A.多样化B.唯一的C.不唯一的D.无数个参考答案:B8.在社会两难中,采用()的收益要更高。
A.重复剔除的占优均衡B.占优均衡C.非均衡战略D.风险优势均衡参考答案:C9.智猪博弈中存在的均衡是-种()A.占优均衡B.重复剔除的占优均衡C.非均衡战略D.风险优势均衡参考答案:B10、智猪博弈的最佳解决方案是()A、减量方案B、增量方案C、增量加位移方案D、减量加位移方案参考答案:D11、()均衡的收益要比其他均衡纳什均衡的收益更高。
A、占优战略B、重复剔除的占优C、帕累托优势D、风险优势参考答案:C12、猎鹿博弈体现了()均衡思想。
A、占优战略B、重复剔除的占优C、帕累托优势D、风险优势参考答案:D13、奥曼认为,参与者通过一一个人们都能观测到的()来进行选择,由此确定博弈的均衡A、共同信号B、共同知识C、风险值D、收益值参考答案:A14、“性别战’博弈过程中,先动优势:体现了()均衡思想。
A、占优战略B、聚点C、相关D、风险优势参考答案:B15、交通信号灯体现了博弈中的()均衡思想。
A、占优战略B、聚点C、相关D、风险优势参考答案:C16、传统经济学对非合作博弈,是以亚当斯密的()理论来解释的。
5. 完全信息动态博弈
2 1
4 1
图4-5
3.用粗线连接具有相同赋值的节点,得到子博弈精炼纳什 用粗线连接具有相同赋值的节点, 用粗线连接具有相同赋值的节点 均衡 (R , (L' , L' )) , (R , (L' , R ' )) , (R R ' )) , 见图4-6。 见图 。 I
11
②
对 I 22 对应的节点赋值 1
3
,
4 1
I21
R’
② I22
; 。
L’
L’
3 1
R’
2.对 I11 对应的节点赋值 对
3 1
4 1 ,
1 1
开发
①
I11
不开发
I 21 ②
开发
不开发
I22
②
开发 不开发
− 3 − 3
1 0
0 1 图4-1
0 0
开发或不开发}, 局中人甲的策略集合 S 1 = { x x = 开发或不开发 , 开发或不开发}。 局中人乙的策略集合 S 2 = {( x, y) x, y = 开发或不开发 。 支付矩阵为: 支付矩阵为: , (开发 不开发) , (不开发开发) , (不开发不开发) , (开发 开发)
, 即对于固定的 最大化利润函数 π 2 (q1 , q 2 ) ,即对于固定的 q1 求解最大化 问题: 问题: maxπ 2 (q1 , q2 ) = P(q1 + q2 )q2 − C2 (q2 )
q2
企业2观察到企业 观察到企业1的产量 选择产量 t = 2 . 企业 观察到企业 的产量q1 ,选择产量 q 2
完全信息博弈
完全信息博弈完全信息博弈:是指每一参与者都拥有所有其他参与者的特征、策略集及得益函数等方面的准确信息的博弈。
关于完全信息博弈的最早结果出现在1950年代,但确切出自何人之手却无从得知,这就是所谓的“佚名定理”(the Folk Theorem)。
该定理认为,重复博弈的策略均衡结局与一次性博弈中的可行的个体理性结局恰好相一致,这个结局可被视为把多阶段非合作行为与一次性博弈的合作行为联系在一起。
或者可以说,只要行为人有足够的耐心,任何满足个体理性的可行支付都可以通过一个特定的子博弈精炼均衡达到。
然而,虽然所有可行的个体理性结局确实代表了合作博弈的解观点,但是它不能够提供相关信息,并且是相当模糊的。
奥曼认为该理论本身没有多少新东西,他指出,完全信息的重复博弈论与人们之间相互作用的基本形式的演化是相关的。
完全信息,是针对策略集和赢利(payoffs)集的。
如果任何参与人的策略集和支付集合皆为所有参与人共知,此为完全信息。
很显然,完全信息不一定完美的;不完全信息必定是不完美的。
区分标准博弈类型如何区分博弈类型?面对一个博弈问题,首先要识别出它的类型,只有“对症”,才能“下药”。
按照一般的分类方式,可以将(非合作)博弈按照博弈的顺序和信息的情况分为四大类:1、完全信息静态博弈2、完全信息动态博弈(又分为完全且完美信息动态博弈和完全但非完美信息动态博弈两小类)3、非完全信息静态博弈4、非完全信息动态博弈问题是:1、静态博弈和动态博弈的本质区别是什么?2、信息的完全性与信息的完美性有什么区别?另外,根据我的理解,把博弈类型以集合图的形式表示如下。
如有错误,还请批评指正。
动态静态分析一、完全信息动态博弈完全信息动态博弈,是指博弈中信息是完全的,即双方都掌握参与者对他参与人的战略空间和战略组合下的支付函数有完全的了解,但行动是有先后顺序的,后动者可以观察到前者的行动,了解前者行动的所有信息,而且一般都会持续一个较长时期。
第三讲 动态博弈与逆向归纳法
所以,在这个游戏中,先行者能确保取
胜。 但如果游戏开始时是20支旗,那么后 行者能确保取胜。
这是一个典型的完全完美信息动态博弈。 完全信息:每个参与者的策略集合及收益函 数均为博弈各方的共同知识。 完美信息:每个参与者都知道先前行动的参 与者采取了什么策略。
序贯理性
序贯理性:每个参与者在其每一个决策时点 上都将重新优化自己的选择,并且会把自己 将来会重新优化其选择这一点也纳入当前的 优化决策当中。 在序贯理性下不会有“后悔”出现。 “每个参与者是序贯理性的”是博弈的共同 知识。
203号海盗必须获得102张赞成票,但他 显然没有足够的金子去收买101名同伙。因 此,无论提出什么样的分配方案,他都注定 会被扔进大海喂鲨鱼。 悲催啊!
如果海盗人数为204人呢?
204号海盗知道,203号为了能保住性命,就必 须避免由他自己来提出分配方案这样一种局面,因 此不管204号提出什么样的方案,203号都一定会投 赞成票。这样,204号海盗总算可以拣到一条命: 他可以得到他自己的1票、203号的1票以及另外100 名被收买的海盗的赞成票,刚好达到保命所需的一 半票数。获得金子的海盗,就是根据202号方案肯 定一无所获的那100名海盗,即1到199号的所有奇 数号海盗。
精品资料分配贿赂的方法不是唯一的其中一种方法是让201号海盗把贿赂分给1到199号的所有奇数编号的海盗让202号分给2到200号的所有偶数编号的海盗然后是让204号贿赂奇数编号的海盗208号贿赂偶数编号的海盗依此类推也就是轮流贿赂奇数编号和偶数编号的海盗
《趣味博弈论》
杨驭云
华南师范大学南海校区
第三讲 动态博弈与逆向归纳法
21支旗游戏
美国哥伦比亚广播公司的电视真人秀节 目《Survivor 》(幸存者)中有这样一个 游戏: 地面插着21支旗,两个人轮流移走这 些旗。每个人在轮到自己时可以选择移走1 支、2支或3支旗。拿走最后1支旗的人获胜, 无论这支旗是最后1支,还是2支或3支中的 一支。
03 完全信息动态博弈
03 完全信息动态博弈(序贯决策博弈)主要内容⏹房地产开发问题讨论分析⏹一动态博弈的表示⏹二纳什均衡的可信性问题⏹三子博弈精炼纳什均衡⏹四先动优势与后动优势房地产开发博弈如果进行如下变化:1、该地的房地产需求状况是不确定的, 假定该博弈的行动顺序如下:(1) 开发商A先行动, 选择开发或不开发;(2)在A决策后,“自然”选择需求的大小;(3)开发商B在观测到1的决策和市场的需求后, 再决定开发或不开发。
2、如果B在决策时并不知道自然的选择3、B在决策时知道自然的选择,但不知道A的选择动态博弈包括以下要素:1,参与人集合:i=1,…,n,另外用N代表虚拟参与人“自然”;2,参与人的行动顺序:谁在什么时候行动;3,参与人的行动空间:在每次行动时,参与人有些什么选择;4,参与人的信息集:每次行动时,参与人知道些什么;5,参与人的支付函数(收益函数)6,外生事件(即自然的选择)的概率分布。
信息集的理解:当参与人作出他们的行动决策时,他所观测到或他所了解到的信息,即他在此时获得的信息集合关于博弈树的注意事项末端节点不为任何一个参与人单独拥有,末端节点后面的括号里按照一定次序给出所有局中人在这个结果的博弈所得(次序采用首次行动顺序原则给出)博弈树并不要求所有参与人都必须在至少一个非末端节点上进行决策,允许有参与人没有决策的机会,此时的支付向量分量的次序要专门说明;博弈树允许从一个非末端节点只延伸出一条棱的情况;子博弈精炼纳什均衡定义:如果在一个动态博弈中,各参与人的策略构成的一个策略组合满足:在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈精炼纳什均衡”。
⏹子博弈精炼纳什均衡能够排除均衡策略中不可信的威胁和承诺,因此是真正稳定的。
⏹逆向归纳法(倒推法)是求子博弈完美纳什均衡的基本方法。
逆向归纳法逆向归纳法包括步骤:⑴从博弈树的终点结出发, 追踪到紧接着它的前面的结;⑵在步骤⑴中到达的每一个基本结上,通过对该决策结出发到达的每一个终点结上参与人得到的得益求最佳行动;⑶在步骤⑵中检验过每一个基本决策结中所引起的所有非最优枝删去;⏹如达到树根,则中止,否则回到(1)⏹对每一个参与人,将该参与人在每一个决策结上的最优策略一起收集起来就构成了最佳策略。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
s ( x , x , x , x , x , ) ( 98,0,1,0,1 ).
* 1 1 1 2 1 3 1 4 1 5 1
海盗分金博弈问题
综合以上分析,可以看出: 海盗1提出的分配方案
s ( x , x , x , x , x , ) (98,0,1,0,1).
* 1 1 1 2 1 3 1 4 1 5 1
s ( x , x , x , x , x ) (0,99,0,1,0)
* 2 1 2 2 2 3 2 4 2 5 2
海盗分金博弈问题
最后,考察分赃之初海盗1是如何决定的。 当轮到海盗1提出分配方案的时候,所有的 海盗都在船上。他知道一旦他的方案被反 对,海盗2将提出方案 s* 2 , 那么海盗3和海 3 5 ( x 0 , x 盗5将什么也得不到 2 2 0 ), 于是只要他提出方案满足 x13 x23 , x15 x25 , 海盗3和海盗5就会赞成该方案,那么集体 投票的赞成票数就会超过半数,因此海盗1 就会选择分配方案
该方案即被多数人接受,博弈结束 。 在“海盗分金”中,任何“ 分配者”想让自己的方案获得通 过的关键是:事先考虑清楚“挑 战者”的分配方案是什么,并用 最小的代价获取最大的收益,拉 拢“挑战者”分配方案中最不得 意的人。
博弈树
s4
s3
s5
s (0,0,0,0,100)
* 5 * s4 (0,0,0,100,0)
海盗分金博弈问题
顺次向前推一步,如果轮到海盗3做决定,他 会提出怎样的分配方案?当轮到海盗3提出方 案时,前2个海盗肯定已经被丢到大海喂鱼了 ,这个时候只有海盗3、海盗4和海盗5留在船 上。海盗3知道如果他的方案被否决,海盗4 * 将会提出分配方案 s 4 ,那么海盗5将什么也得 5 0. 现在只要他给海盗5一个单位的 不到 x4 金币 x35 1 x45 0, 海盗5将赞成这个方案。这样 一来,集体投票的赞成票数将会就会大于半数 ,因此海盗3就会选择分配方案
s2
s1
* 1
* 2
* s3 (0,0,99,0,1)
s (0,99,0,1,0)
s (99,0,1,0,1)
海盗分金博弈问题
值得注意的是 , 本来海盗 1 看似最不容 易被丢进海里喂鱼,但是他牢牢把握住了 先发制人的优势,结果不但没有丢掉性命 ,还获得了最多的金币;而海盗5貌似最安 全,没有死亡威胁,甚至还能通过向海盗1 发出死亡威胁,坐收渔人之利,但却由于 其威胁“不可置信”( not credible ), 而不得不看人脸色行事。
j x 5 ). 下图是海盗分金问 显然, i 100( i 1,2 ,..., j 1 s
j
题的示意图。
海盗分金博弈问题
海盗分金博弈问题
根据逆向归纳法,首先考察到海盗5提出分配 方案时的情况。
轮到海盗5提出方案时,前4个海盗 肯定已经被丢到大海喂鱼了,这个时 候只有他自己留在船上,无论他提出 怎样的分配方案,最后都会被实施。 为了尽可能多获得金币,海盗5会选 择 * 1 2 3 4 5 s5 ( x5 , x5 , x5 , x5 , x5 ) ( 0,0,0,0,100).
海盗分金博弈问题
每个海盗都非常聪明并且知道其他人的凶 残。对于海盗而言,他们希望自己获得尽可能 多的金币,但是丢到海里就意味着喂鱼,因此 他们都不愿意丢掉性命。 意思是每一个海盗都想在保全自己生命安 全的前提下获取自己的最大利益,试问在这种 规则下最后的分配结果是什么?
ห้องสมุดไป่ตู้
海盗分金博弈问题
从视觉上看,最先提出分配方案的海盗所处的 位置最不利,因为其他的海盗可能通过将其扔进 海里减少分配金币的人数,从而使自己获得更多 的金币。但是,如果将“海盗分金”问题当成一 个完全信息动态博弈来分析,所得的结论将会与 我们的直觉完全不同。
0,3
2,2
、、、、、、
100,100
99,102
完全信息动态博弈——重复博弈
• 重复博弈是指同样结构的博弈重复许多次 ,其中的每次博弈称为“阶段博弈”。重 复博弈是动态博弈中的重要内容,它可以 是完全信息的重复博弈,也可以是不完全 信息的重复博弈。重复博弈是指同样结构 的博弈重复许多次。当博弈只进行一次时 ,每个参与人都只关心一次性的支付;如 果博弈是重复多次的,参与人可能会为了 长远利益而牺牲眼前的利益,从而选择不 同的均衡策略。
s ( x , x , x , x , x ) ( 0,0,99,0,1 ).
* 3 1 3 2 3 3 3 4 3 5 3
海盗分金博弈问题
继续向前递推,轮到海盗2做决定的时候, 海盗1已经被丢进大海,留在船上的还有海盗2、 海盗3、海盗4和海盗5。海盗2知道如果自己的方 * s 案被反对,海盗3会提出方案 3 , 这时海盗4什么 4 ( x 也得不到 3 0 ).于是只有他提出的方案满足 4 4 x x • 2 3 , 海盗4就赞成该方案,这样一来,集体 投票的赞成票数将会就会达到半数,因此海盗2 就会选择分配方案
海盗分金博弈问题
利用“海盗分金”的例子可以解释很多 社会现象。例如,为什么企业中的一把手 ,在搞内部人控制时,经常是抛开二号人 物,而会计和出纳们打得火热?这正是因 为公司里的小人物好收买,而二号人物却 总是野心勃勃地想取而代之。
完全信息动态博弈——蜈蚣博弈
在一个T阶段博弈中,在每一个阶段参与人1先选 择是否终止博弈;如果参与人1选择博弈继续进行 ,则轮到参与人2选择是否终止博弈;如果参与人 2继续选择进行,则博弈进入下一阶段。
在任一阶段,参与人1认为自己终止博弈的结果优 于参与人2终止博弈的结果,但不如博弈进入下一 阶段;参与人2认为自己终止博弈的结果优于参与 人1在下一阶段终止博弈的结果,但不如自己在下 一阶段终止博弈,当给出T=100时,博弈的拓展式 描述为:
蜈蚣博弈
1 2 1 2 1 2
进入
101,101
终 止
1,1
完全信息动态博弈 -----海盗分金博弈问题
组员:
海盗分金博弈问题
引入问题:
有5个亡命之徒在海上抢到100枚金币,他们决定通 过一种民主的方式来分配这笔财富。投票规则如 下:5个海盗通过抽签决定每个人提出分配方案的 顺序,由排序最靠前的海盗提出一个分配方案, 如果有半数或半数以上的人赞成,那么就按照这 个海盗提出的分配方案分配金币,否则提出这个 分配方案的海盗就要被扔到海里;再由下一个海 盗提出分配方案,如果有半数或半数以上的人赞 成,那么就按照他提出的分配方案分配金币,否 则他也要被扔到海里;以此类推。
海盗分金博弈问题
向前递推一次,当轮到海盗4 提出方案时 ,前3个海盗肯定已经被丢到大海喂鱼了, 这个时候只有海盗4和海盗5留在船上。无 论海盗5赞成与否,集体投票赞成的票数都 会达到半数,海盗4提出的分配方案最终将 被实施,因此海盗4会提出分配方案
* 2 3 4 5 s4 ( x1 , x , x , x , x ,0). 4 4 4 4 4 ) (0,0,0,100
海盗分金博弈问题
显然,“海盗分金”问题可以看成有限的完全信息 动态博弈,所以可以采用逆向归纳法进行求解。不妨 将i(i=1,2,...,5)个提出分配方案的海盗成为海盗 i,
1 2 3 4 5 s (x 用 i i 提出的分配方案,其中 i ,xi ,xi ,xi ,x表示海盗 i )
xi (j=1,2,...,5表示海盗i愿意付给海盗j的金币数。
重复博弈
有限重复博弈 无限重复博弈 讨价还价博弈
• 参考文献
【1】肖条军.博弈论及其应用[M]上海:上海三联书店,2004.7 【2】罗云峰.博弈论教程【M】北京:清华大学出版社,北京交通大学出 版社,2007 【3】靖继朋,张向先,李北伟.信息经济学(第二版)【M】北京:科学 出版社