博弈论(第四章)
博弈论谢识予第四五章参考答案
第四章参考答案2、火车站和机场餐饮商业服务的顾客往往都是一次性的,回头客、常客比较少,这些经济交易具有一次性博弈的特征,它们的价格总是较高而质量又会差一些,顾客也会尽量不在这些地方购买商品和消费。
在一般商业区和居民区的餐饮商业服务则回头客和常客较多,有明显的重复博弈特征,在居民区购买商品和消费的老顾客一般能得到比较公平、优惠的价格,还能得到较好的服务,甚至有些还可以信用消费(赊账),因此消费者一般会比较放心地消费。
这就是现实生活中重复博弈和一次性博弈效率不同的典型例子之一。
3、从研究对象和问题特征看,有限次重复博弈研究的主要是有明确结束时间的(合作、竞争等)关系,无限次重复博弈研究的主要是没有明确结果时间,或者较长期的关系。
从分析方法的角度,动态博弈和重复博弈分析中常用的逆推归纳法在无限次16重复博弈中无法直接运用,因为没有最后一次重复。
因此无限次重复博弈分析的主要方法是构造法,即根据特定效率意义等构造了博弈完美纳什均衡。
此外,也可以运用某些技巧解决问题,如教材中利用三阶段讨价还价博弈分析无限阶段讨价还价博弈的技巧。
从博弈的结果看,无限次重复博弈的效率往往高于有限次重复博弈,有些在有限次重复博弈中无法实现的效率较高的结果,在无限次重复博弈中有可能实现。
例如囚徒的困境型博弈的无限次重复博弈和有限次重复博弈就体现了这种差别。
两类重复博弈民间定理的差异也说明了这一点。
最后,在重复次数不多的有限次重复博弈中不一定要考虑得益贴现问题,在我限次重复博弈问题中这是必须考虑的。
上述区别在理论方面最主要的启发是重视有限次和无限次重复博弈的区别,区分研究这两类博弈问题是非常重要的,在实践方面的主要启发是促进和保持经济关系的长期稳定性,对于提高社会经济效率等常常有非常重要的意义。
6、用画线法容易找出该博弈的两个纯策略纳什均衡(T,L)和(M,R)。
这两个纳什均衡的得益都帕累托劣于(B,S)。
一次性博弈中效率较高的(B,S)不可能实现。
博弈论课件04
博
弈
论
5
第五人 100
4
100
3
0
2
1
1
2
第四人
第三人
0
1
99
2
0
0
1
第二人
第一人 博
97
0
97
弈
论
如果是同意方案的人数达到或超过半数 就有效呢?
5 4
0
3
1
2
0
1
1
第五人 100
第四人
第三人
100
0
99
1
0
0
1
第二人
第一人 博
99
0
98
弈
论
“海盗分金”模型(2)
博
弈
论
“20岁的时候就要开始作曲,作词。在演戏方面就要接拍大一 点的角色了。” 老师的话说得很轻松,但是我却感到一阵恐惧。这样推下 来,我应该马上着手为自己的理想做准备了,可是我现在却什 么都不会,什么都没想过,仍然为小丫鬟小舞女之类的角色沾 沾自喜。我觉得有一种强大的压力忽然朝自己袭来。 老师平静地笑着说:“周迅,你是一棵好苗子,但是你对 人生缺少规划,散漫而且混乱。我希望你能在空闲的时候,想 想十年以后的自己,到底要过什么样的生活,到底要实现什么 样的目标。如果你确定了目标,那么希望你从现在就开始做。”
博
弈
论
想想十年后的自己
十八岁之前,我是个不 知道自己想要什么的人,那 时我每天就在浙江艺术学校 里跟着同学唱唱歌,跳跳舞。 偶尔有导演来找我拍戏,我 就会很兴奋地去拍,无论多 小的角色。 如果没有老师跟我的那次 谈话,那么也许直到今天, 仍然没有人知道周迅是谁。
博弈论基础讲义-第四章
第四章动态不完全信息博弈第一节. 序贯均衡的内涵一.问题的提出1.序贯理性2.一致信念二.序贯均衡的内涵1.例子2.定义a.行为战略b.序贯理性c.一致信念3.存在性三.序贯均衡的计算1.例子:一般计算2.例子:分析应用第二节. 序贯均衡的应用一.教育和信号传递1.假设2.分析二.垄断限价模型1.假设2.分析三.声誉模型1.假设2.分析四.序贯均衡之再精炼1.剔除劣弱战略2.直观标准3.垄断限价模型第四章不完全信息动态博弈第一节.序贯均衡的内涵一.问题的提出1.序贯理性——参与人在所有情况决策都是理性的,即在给定信念的条件下,以及其他参与人的选择条件下,自身选择是最优的例1:子博弈最优——纳什均衡(,)L l是否合理?——如果参与人2有机会选择,肯定选r而不是l;——(,)L l不是子博弈精炼纳什均衡。
例2:单点信息集最优——纳什均衡(,,)D a l是子博弈纳什均衡;——但如果参与人2有机会选择,但肯定选择d;——(,,)D a l不满足单点信息集理性。
例3:多点信息集最优——纳什均衡(,)A r是子博弈精炼纳什均衡;——(,)A r不满足多点信息集理性。
2.一致信念例1:与客观事实一致u=是否合理?——参与人2的信念2/3——2/3u=是不合理的,因为任何到达参与人2信息集都不可能产生此后验概率;——后验信念必须与先念信念保持一致。
例2:前后信念一致——参与人2的第2个信息集上的信念,是否合理?——不合理,给定参与人战略和第1个信息集的信念,利用贝叶斯法则计算信念与此不一致;——参与人前后信念保持一致。
例3:独立偏离——参与人3的信念0.9u =是否合理?——参与人1和参与人3的偏离是独立的,所以参与人3的合理信念为0.1u =;——不同参与人之间的偏离是独立的总结,一致信念要求:参与人偏离最小化,,参与人之间偏离是独立的;二.序贯均衡的定义1.例子——定义参与人1在信息集1.1和1.3以及参与人2在2.2上的序贯理性;——定义信息集1.3和2.2的信念?2.定义a.行为战略:参与人在某个信息集到行动集映射,——如果某个状态真正发生,参与人如何决策;——序贯理性是否满足?b.序贯理性:在任何信息集上,参与人在给定信念和所有后续行为战略,选择自身行为战略最大化预期效用。
博弈论课件第四章
3
合作博弈
参与者之间可以合作并制定共同策略,追求更大的利益。
纳什均衡理论
纳什均衡是博弈论中的一个重要概念,指的是当参与者根据对手的选择来选 择自己的策略时,不存在更好的选择。这种均衡状态具有稳定性和可持续性。
混合策略的应用
硬币翻转
混合策略可以应用于硬币翻转等 概率性决策中,以平衡风险。
剪刀石头布
博弈理论在法律
博弈论可在法律领域中应用于博弈模型的构建和法律决策的优化。
博弈论的应用领域
经济学
博弈论在经济学中用于研究市场竞争、拍卖和价格形成等问题。
政治学
博弈论在政治学中用于分析选举、合作和冲突等政治策略。
生物学
博弈论在生物学中用于研究进化和动物行为等领域。
博弈论中的主要模型
1
零和游戏
参与者的收益总和为零,一方的利益损失即为另一方的利益增益。
2
非合作博弈
参与者之间缺乏合作,每个参与者根据自身利益进行决策。
博弈论课件第四章
博弈论是研究决策制定和互动模型的学科,第四章将介绍博弈论的基本概念、 应用领域、主要模型以及纳什均衡理论和混合策略的应用,同时提供实际应 用案例。
博弈论的基本概念
1 参与者
博弈论研究多人决策制定过程中的参与者之间的互动。
2 策略
参与者在决策过程中可选择参与者根据他们的行动所获得的支付或效益。
混合策略可用于剪刀石头布等多 次对局中,通过随机选择策略以 增加不可预测性。
扑克筹码
混合策略可应用于扑克中的下注 决策,以提高筹码的价值和战略 性。
博弈论在实际问题中的应用案例
商业竞争
博弈论可用于分析企业在市场竞争中的策略选择和定价决策。
军事战略
博弈论(第四章)
2.有限次重复博弈
有唯一纯策略纳什均衡博弈的有限次重复博弈
有限次重复博弈的囚徒困境博弈,可以理解成警察 给两人两次交代的机会。
囚 徒2 坦白 不坦白
囚 徒 1
坦白
不坦白
-5, -5
-8, 0
0, -8
-1, -1
谢富纪 2009年3月
12
2.有限次重复博弈
因为重复博弈全过程是一种动态博弈过程,从第二 阶段开始。 此前的博弈已是既成的事实,而在此后又没有任何 的后继阶段,因此实现本阶段最大利益是两博弈 方在该阶段的唯一原则。结果是(坦白,坦白),
谢富纪 2009年3月
29
2.有限次重复博弈
本博弈中之所以不能或不能部分实现最佳结果
(A,A),是因为在两次重复博弈中博弈方没
有运用触发策略的条件或者说机会。后面的选择 并不取决于第一次博弈的结果。
谢富纪 2009年3月
30
2.有限次重复博弈
厂商2 得益
(1,4) (1.5,3) (3,3)
谢富纪 2009年3月
17
2.有限次重复博弈
削价竞争博弈
高价 寡 高价 头 1 低价
寡头2
低价
100,100 20,150 150,20 70,70
由于两个寡头在同一市场的竞争可以看作维持很 长时间,因此可以看作是重复博弈。然而结果是 令人遗憾的。
谢富纪 2009年3月 18
2.有限次重复博弈
两个悖论
谢富纪 2009年3月
27
2.有限次重复博弈
两市场博弈的重复博弈
厂商 2 A 厂A 商 1 B B
3,3
1,4
4,1
0,0
博弈论第四章
(1)起始结是一个单结的信息结;
(2)子博弈保留了原博弈的所有结构。 则称它为原博弈的一个子博弈(子博弈)。
按照博弈树的延伸的时序,或者按照博弈 树生长的时序,我们用一个扁椭圆形的虚 线的圈,把所论局中人在同一个时点的若
干决策节点罩起来,成为他的一个信息集。
(1)起始结是一个单结的信息结
x1
L L 1 2 S L 2 S (1,1) (2,2) 1 (-1,-1) (-1,-1) S 2 L L S (2,2)
镇上能卖6000元;但如果另一家商铺同时在小镇上卖
鞭炮,价格下跌使得这批鞭炮只能卖4000元。纳什均
衡是什么?
• 假设甲先行动,商铺乙看到对方的选择后再决定是否
进货,子博弈精炼纳什均衡是什么?
如果甲先行动,但在博弈开始前商铺主乙有一次行动A 的机会,利用子博弈精炼均衡概念分析下述两种情况下
的博弈结果: 何行动他都不会改变这个决定;
一颗大树表示一个博弈,一颗小树同样可以表示
一个博弈。如果小树是大树的一颗子树,并且
小树表示的博弈不破坏大树表示的博弈的结构,
那么小树表示的博弈,就叫做大树表示的博弈
的子博弈。
一、子博弈(sub-game)
子博弈定义:在一个扩展型博弈中,如果一 个博弈由它的一个决策结及其所有后续结 构成,并满足:
信息集的时候,面临决策的局中人对于博弈迄今的历史是
不清楚的,他不清楚博弈具体走到了他的这个信息集里面 的哪个决策节点。
在市场进入博弈中,包含3个子博弈(包括原博 弈)。而在囚徒博弈中,只有一个子博弈(?)
收益: A
B 容忍
进入 抵抗 A 不进入 B
B
抵赖
B 抵赖
-1 ,-1 -9 ,0 0 ,-9
王则柯博弈论4序贯决策博弈
• 试验表明,在分别判断的情况下(也就是人们不能把这两杯冰 淇淋放在一起比较),人们反而愿意为冰淇淋A多付钱。结果 显示,人们愿意花2.26美元买冰淇淋A,却只愿意用1.66美元 买冰淇淋B。 • 说明:人们在作决策的时候,不是象传统经济学那样判断一个 物品的真正价值,而是根据一些比较容易评价的线索来判断。 • 引申:在送礼物的时候,礼物在它所属的类别里面是不是昂贵 很重要。
n人序贯博弈的博弈树的主要特征
• 对于表达有n个局中人P1,P2,…,Pn参与 的一个序贯博弈的博弈树:
1. 在树的每一个非末端节点上,都只有一个局中人 进行决策; 2. 在树的每一个末端节点上,都指派了一个n维的 “支付”向量p(v)=(p1(v),p2(v),…,p3(v)),这 里v是这个末端节点的相应的策略表达.而1, 2,…n是博弈参与人首次决策的自然顺序。
• 博弈树必须说明在每一个决策节点上相应的局中人能够 采取的所有可能的选择。 • 一些博弈树可能包含“不做任何决策”的决策节点。每一个 决策节点都有至少一条棱从它那里出发往后延伸,但是 没有最大延伸数量的限制。 • 对于不是根的每个节点,只能有来自别的节点的唯一的 棱指向它这个节点。
• 博弈树并不要求每个局中人必须在至少一个非末 端节点上进行决策。即,可能会出现某些局中人 并不在任何一个非末端节点上进行决策的情形。
• 策略组合
• 策略组合星号简示法 : ( U ,{ U’ , * } )2 • 策略组合的节点表示法: ( { U / D }, { U’ / D’ , U’’ / D’’ })8
4-4 倒推法(逆向推导法)
• 在序贯博弈中,由于均衡与结果是两个不同的概 念,所以求解纳什均衡的虚线排除确定法,并不适 用于求解序贯博弈的结果。一般使用倒推法(逆向 推导法)求序贯博弈的结果。
博弈论第四章
4 非完全信息动态博弈4.1 精炼贝叶斯均衡概述例简单的非完全信息动态博弈参与人1的类型t为个人信息。
参与人2 不知道t,但知道t的概率分布。
博弈的时序:(1)参与人1选择行动a1∈A1;(2)参与人2观察a1,选择a2∈A2博弈的收益:u1(a1, a2, t), u2(a1, a2, t )u1u1u1u1 u1u1u1u1u2u2u2u2 u2u2u2u2例:1 RL M 13p 2 1- pL'R'L'R'2 0 0 01 0 1 2标准式表示参与人 2L'R'L2,10,0参与人 1 M0, 20,1R1, 31, 3纯战略纳什均衡: (L,L'), (R,R')均为子博弈精炼纳什均衡(无子博弈)。
但是(R, R')不可信。
排除不可信的纳什均衡:要求1 参与人必须有一个推断(belief).要求2 参与者的战略必须满足序贯理性(sequentially rational).定义: 处于均衡路径上(on the equilibrium path)的信息集: 在均衡战略下,博弈以正的概率到达该集.要求3 在处于均衡路径上的信息集上, 推断由贝叶斯法则和参与人的均衡战略决定。
例要求3的说明参与人1的类型空间:{ t1,t2,t3,t4 }行动空间:A= { L,R}推断p i: 观察到L后,参与人1的类型是t i的概率。
推断q i: 观察到R后,参与人1的类型是t i的概率。
p1 + p2 + p3 + p4 = 1q1 + q2 + q3 + q4= 1N如果参与人1的战略: t 1选 L ,t 2选 L , t 3选R ,t 4 选R 。
参与人2对p i 与 q i 的推断:p 1 = 3.02.02.0+= 0.4, p 2 = 3.02.03.0+= 0.6, p 3 = 0, p 4 =0; q 1 = 0, q 2= 0, q 3 =3.02.02.0+= 0.4, q 4= 3.02.03.0+= 0.6,例 3个参与人的博弈。
博弈论第四章 完全且完美信息动态博弈
0,0
需求小的情况 开发商A
开发商B 开发 不开发
开发 -3000,-3000 1000,0
不开发 0,1000
0,0
精的扩展式表述包括四个要素:
✓ 参与人集合(Player) ✓ 每个参与人的战略集合(Strategy) ✓ 博弈的顺序(Order) ✓ 由战略组合决定的每个参与人的支付(Payoff)
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
精选PPT
12
动态博弈的 战略
精选PPT
13
动态博弈的战略的表述
✓ 战略:参与人在给定信息集的情况下选择行动的规则,它规定参 与人在什么情况下选择什么行动,是参与人的“相机行动方案”。
si表示第i个参与人的特定战略
Si si代表第i个参与人所有可选战 择略 的集合
如果n个参与人每人选择战 一略 个, n维向量s (s1,s2, ,si, ,sn)称为一个战略组合 si表示第i个人选择的战略
精选PPT
6
扩展式表示的一个例子
精选PPT
7
博弈树始于 局中人1 的一个决策结点,这时1
要从L和R中作出选择,如果局中人1选择L,其后就
到达 局中人2 的一个决策结点,这时,局中人2要
从L′和R′中作出选择。类似地,如果局中人1选择R, 则将到达局中人2的另一个决策结点。
这时局中人2从L′和R′中选择行动。无论局中人2 选择了哪一个,都将到达终结点 (即博弈结束)且两 局中人分别得到相应终点节下面的收益。
35博弈论-第四章
第四章完全信息动态博弈更为现实的考虑是将静态博弈动态化,动态化后,纳什均衡这一概念是否仍然有效呢?答案是部分有效的。
如果不存在动态不一致,那么纳什均衡在完全信息动态博弈中仍不失为一个有用的均衡概念,但纳什均衡概念本身并不能保证不出现动态不一致,为了克服这一点在纳什均衡的基础上生产了所谓子博弈完美均衡。
而这一章,我们将围绕这子博弈完美均衡来展开。
第一节完美信息与完全但不完美信息完全信息动态博弈可以分为两类,即完美信息与完全但不完美信息。
所谓的完美信息博弈,是指博弈中的后行动者始终能够观察到前行动者的行动,因而动态博弈中不存在参与者同时行动这样的情况。
而完全但不完美信息博弈,则指动态博弈中,至少存在两个参与者同时行动的情况,因而“后行动者”无法观察到“前行动者”的行动。
我们不妨用两个例子来加以说明。
例4.1 动态囚徒困境囚徒1图4-1 动态囚徒困境例4.2 取消管制政府图4-2 取消管制与图4-2完全等价的表示方法见图4-3。
政府图4-3 取消管制定义4.1完美信息动态博弈就是不存在同时行动的完全信息动态博弈。
显然,运用策略式来描述动态博弈会非常不便,特别是当信息不完全时更是如此,为了更简便地描述动态博弈,我们将引入一种新的博弈表达式——扩展式。
第二节动态博弈的扩展式我们把博弈中所有从开始到结束的行动序列称为全历史(Terminal history),而用参与者函数来表示在每一个全历史上,在博弈进行到某个阶段时谁来行动。
因而要完整地描述一个动态博弈,必须具备四个要素:(1)参与者集合;(2)全历史集合;(3)参与者函数;(4)偏好。
如果我们把全历史表示成一个行动序列(a1, a2,…, a K)(K为自然数,当K→∞时,就表示无穷动态博弈),那么(a1, a2, …, a m),其中m K≤,就称为全历史(a1, a2, …, a K)的子历史(Subhistory)。
当m < K时,(a1,a2, …, a m)就是全历史(a1, a2, …, a K)的真子历史(Proper subhistory)。
博弈论第4章答案
R R M 4.1.a 标准式1↖2 L ’ R ’4,1 0,0 3,0 0,1 2,2 2,2纯战略纳什均衡:( L, L ’ ) ( R, R ’ )子博弈精炼纳什均衡:( L, L ’ ) ( R, R ’ )精炼贝叶斯纳什均衡:( L, L ’ )4.1.b 标准式1↖2 L ’ M ’ R ’1, 3 1, 2 4, 0 4, 0 0, 2 3, 3 2, 4 2, 4 2, 4纯战略纳什均衡:( R, M ’ )子博弈精炼纳什均衡:( R, M ’ )精炼贝叶斯均衡: 没有4.2标准式1↖2 L ’ R ’2,2 2,2 3,0 0,1 0,1 3,0六种纯战略组合,每种组合中都至少有一方存在偏离的动机,因此不存在纯战略纳什均衡,因此也就不存在纯战略精炼贝叶斯均衡。
求混合战略精炼贝叶斯均衡:设参与者1选择L 、M 、R 的概率分别为1,2,12(1)p p p p −−参与者2选择L ’和R ’的概率分别为,(1)q q −在给定参与者1的战略下,参与者2选择L ’和R ’的收益无差异,则: 1212120*1*1*0*p p p p p p +=+⇒=给定参与者2的战略,参与者1选择L 、M 、R 的收益无差异,则:12121212[3*0*(1)][0*3*(1)]2*(1)41:**,*112p q q p q q p p p p p p q +−=+−=−−====又 联立得 所以 L LML LM L RL4.3答案(见4.5)4.4表示方法第一个括号,逗号左边为type 1发送者信号,逗号右边为type 1发送者信号;第二个括号,逗号左边为接收到L 信号的反应,逗号右边为接收到R 信号的反应; P 为信号接收者对type 1发送L 的推断,q 为信号接收者对type 1发送R 的推断 (a )[(,),(,),1/2][(,),(,),1/2][(,),((1),),1/2][(,),(,),1,0]R R u u p R R d u p R R d u u p L R u d p q αα><+−===(b )[(,),(,),1/2,2/3][(,),(,),1,0][(,),(,),0,1]L L u u p q L R d u p q R L u d p q =<====中文版习题4.5答案(a )[(,),(,),1/3,1/2]R R u d p q >=(b )12121212[(,,),(,),1/3,1/2][(,,),(,),1/2,0]L L L u u p p q q L L R u d p p q q ==+<==+=。
博弈论4 重复博弈
重复三价博弈的等价模型 不可信报复
第一阶段不管选什么策略,二阶段都选 (M,M),于是将(3,3)加到其余策略上,得到 右边等价的得益矩阵。结果第一阶段最 佳策略不是(H,H),而是(M,M)
囚徒2 坦 白 不坦白 囚 坦白 -5,-5 徒 1 不坦白 -8,0 0,-8
-1,-1
(-5,-5)
囚徒2 坦 白 不坦白 囚 坦白 -10,-10 -5,-13 徒 -13,-5 -6,-6 1 不坦白 (-10,-10)
二、一般结论 定理:设原博弈G有唯一的纯策略纳什 均衡,则对任意整数T,重复博弈 G(T)有 唯 一的子博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均衡策略。
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈中,所 有博弈方的唯一选择策略是重复一次性博弈中 的纳什均衡策略 (混合策略纳什均衡)。
原因:重复不会改变博弈效率是利益是 对立的不可调和的。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
唯一的Nash均衡有两种: 一是:本身是帕雷托最优的。它都符合双方的利益, 重复不会改变 二是:本身不是帕雷托最优的。重复能否改变得益? 一、有限次重复囚徒的困境博弈
两人零和博弈有限次重复的所有阶段都不可能发生合 作,因为他们的利益关系是完全对立的。博弈方会一 直重复原博弈的混合策略纳什均衡。 两人零和博弈无限次重复的所有阶段都不可能发生合 作,博弈方会一直重复原博弈的混合策略纳什均衡 由于无限次重复博弈没有最后一个阶段,所以无法用 逆向归纳法证明。 类似的方法是从无限次重复博弈的第t阶段,进行逆向 归纳。注意t是任意的。
博弈论第四章习题
第四章习题一、如果T次重复齐威王田忌赛马,双方在该重复博弈中的策略是什么?博弈结果如何?答:因为这是零和博弈,结论比较具体。
重复Nash 均衡,均以1/6的概率选择各个策略,期望收益分别为1和-1。
因为这是竞争性的零和博弈,无论是有限次重复博弈还是无限次的重复博弈,均不能达成合作的条件。
二、举出现实生活中的一个重复博弈与一次性博弈效率不同的例子。
答:火车站和机场餐饮业的服务的顾客往往是一次性的,回头客和常客也比较少,价格高,质量差,一次性博弈。
效率也比较低。
商业区和居民区的餐饮业和商业服务业,回头客和常客比较多,比较注重信誉,质优、价廉,重复博弈。
效率也比较高。
三、有限次重复博弈和无限次重复博弈有什么区别?这些区别对我们有什么启发?答:动态博弈的逆向归纳法可以用于有限次重复博弈,但不能用于无限次重复博弈,主要用逆向归纳法。
无限次重复博弈的效率往往高于有限次重复博弈。
当重复次数较少不一定考虑贴现问题,但无限次重复博弈必须考虑贴现问题。
启发:重视有限次与无限次的区别,区分和研究这两类博弈,在实践方面重要启发是促进和保持经济的长期稳定和可持续发展,提高社会经济效率是非常有意义的。
四、判断下列表述是否正确,并作简单讨论:(1)有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡。
答:不一定。
对于有两个以上纯策略纳什均衡的条件下就不一定。
如“触发策略”就不是。
(2)有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。
答:是,根据子博弈完美纳什均衡的要求,最后一次必须是原博弈的一个纳什均衡。
(3)无限次重复博弈均衡解的得益一定优于原博弈均衡解的得益。
答:错。
如严格竞争的零和博弈就不优于。
(4)无限次重复古诺产量博弈不一定会出现合谋生产垄断产量的现象。
答:正确。
合谋生产垄断产量是有条件的,由贴现率来反映,当不满足条件时,就不能构成激励。
(5)如果博弈重复无限次或者每次结束的概率足够小,而得益的时间贴现率 充分接近1,那么任何个体理性的可实现得益都可以作为子博弈完美纳什均衡的结果出现。
博弈论课件 第四章
重复博弈并不能给博弈方带来比一次博弈更好的结果, 每阶段的平均得益与一次性博弈的得益相同。
例:如果T次重复齐威王田忌赛马,双方在该重
触发策略trigger strategy:首先试探合作,一 旦发觉对方不合作,则也用不合作相报复的策略。 冷酷策略grim strategy
例3:分析两次重复制式问题时双方的 均衡策略
彩电有不同的制式,采用相同的制式,则厂商 之间由于零部件的通用性,相关设备可相互匹 配等大家都能获得一定的好处。
设有两厂商都决定引进彩电生产线,可选择的 有A,B两种制式,则两厂商面临一个决定制式 的博弈。
A 厂商A
B
厂商B
A
B
1,3
0,0
0,0
2,2
定理 设原博弈G有惟一的纯策略纳什均衡,则对任意正整数T,重复博弈G(T)有惟一的子博弈
一般结论:
(1)在有限次重复博弈中,如果原博弈存在唯一的纯策略纳什 均衡策略组合,则有限次重复博弈的唯一的均衡解即各博弈方在 每阶段中都采用原博弈的纳什均衡; (2)由于在这样的双方策略下,均衡路径中的每个阶段都不存 在任何不可信的威胁或许诺,因此这种均衡是子博弈完美纳什均 衡。 (3)在一个博弈中的每个博弈方的所有得益上各自加上相同的 数值不会改变博弈原来的均衡
有限次重复博弈的囚徒困境
两次
囚
坦白
徒
1
不坦白
囚徒2
坦白
不坦白
-Hale Waihona Puke , -50, -8-8, 0
-1, -1
第四章 博弈方法
4)理性
• 理性:不仅参与者是否有理性是重要的,参与者 是否相信其他参与者有理性也是十分重要的。一 旦恐怖分子不理性,财富国则蒙受巨大损失,必 须考虑不理性情况。 恐怖分子 自毁袭击(劣)不自毁袭击 财富国 -1 0 低增长 -10 10 -1 2 高增长 -100 30
本书由vince上传于世界工厂--学堂中心精品下载栏目
本书由vince上传于世界工厂--学堂中心精品下载栏目
3)纳什均衡-概念与计算
以假设对手采取了某种策略以后,自己应采取何种 策略,最后根据对手与自己同时达到最优决定均衡 策略。 计算方法:以对方策略为前提,找到自己最优方案 划线,再站在对方立场上,以自己的不同情况为 前提,找到最优方案。对那些都能够达到最优的 方案,称为纳什均衡。
•
进入 不进入
默许 (40,50) (0,300)
打击 (-10,0) (0,300)
本书由vince上传于世界工厂--学堂中心精品下载栏目
•讨论:不可置信威胁与精炼
•在位者打击与默许组合为前后四种组合,再与进入者的两个策 略组合为八种策略静态无唯一答案,但实际中却有答案,因为 先动者会给后动者造成信息,形成行动次序,称为动态决策 •两个均衡:(40,50)、(0,300) •。
注意:纳什均衡解不只一个,也可能没有。做三人 猜博弈问题,看是否有纳什解。 甲 C R 乙 T 2 1 2 0 B 0 2 0 2 本书由vince上传于世界工厂--学堂中心精品下载栏目
空城计没有纳什均衡
诸葛亮 司马彝 打 1 退 0 1 0 -1 -1 0 1 空城 不空城
本书由vince上传于世界工厂--学堂中心精品下载栏目
• 博弈树:依次决策,先决策在上,后决策在下;损益用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
个体理性得益(Individual Rationality Payoff )或保 证得益(Reservation Payoff ): 无论其他局中人行为 如何,一局中人在博弈中采取某种特定的策略,能 够最低限度保证得到的得益。 可实现得益(Feasible Payoff):博弈中所有纯策 略组合得益的凸组合(Convex Combination )即纯策 略得益的加权平均数组。
第一节 重复博弈引论
重复博弈的特征
�前一阶段的博弈不改变后一阶段博弈的结构。 �所有局中人都观测到以往博弈过程的支付和策略 。 �局中人的支付是所有阶段博弈支付的贴现值之和或 加权平均值。
第一节 重复博弈引论
基本概念
�分类 有限重复博弈。G(T) 无限重复博弈。G(∞) 随机结束的重复博弈 �策略、子博弈和均衡路径
第二节 有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈
原博弈有惟一的纯策略纳什均衡的博弈,则有 限次重复博弈的惟一均衡即各博弈方在每阶段(即每 次重复)中都采用原博弈的纳什均衡策略。由于这样 的均衡中各博弈方的策略都不存在不可信的威胁或承 诺,因此是子博弈精炼纳什均衡。
第二节 有限次重复博弈
*
*
则偷懒。 设厂商已采用上述触发策略。由于 w
*
> w ,工人接受工作是最佳
0
反应。用 Ve 记工人努力工作时无限次重复博弈得益的现值,则
V = ( w − e) + δV
*
e
e
即
V = ( w − e) (1 − δ )
*
e
记工人选偷懒时无限重复博弈得益的现值,则: 即
w V = w + δ ( pV + (1 − p ) ) 1− δ
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
U厂商2 (1,4) (1.5,3) (3,3) (2.5,2.5) (3,1.5)
(4,1)
(2,2)
U厂商1
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
�三次重复博弈 厂商1:第一阶段选A;如果第一阶段结果是(A,A),则第二阶段 选A,如果第一阶段结果是(A,B),第二阶段选B;第三阶段无条 件选B。 厂商2:第一阶段选A,第二阶段无条件选B,如果第一阶段结果是 (A,A),则第三阶段选A;如果第一阶段结果是(B,A),则第 三阶段选B。 根据这个触发策略,3次重复的均衡路径是(A,A)、(A,B) 和(B,A)。双方平均得益为(3+1+4)/3=2.67。
第二节有限次重复博弈
有限次重复博弈的民间( Folk Theorem )定理
设原博弈的一次性博弈有均衡得益数组优于w,那么在 该博弈的多次博弈中,所有不小于个体理性得益的可实现得 益,都至少有一个子博弈精炼纳什的极限的平均得益来实现 它们。
第二节有限次重复博弈
有限次重复博弈的民间( Folk Theorem )定理
* 0
s
s
* Vs = ⎡ (1 − δ ) w + δ(1 − p ) w0 ⎤ ⎣ ⎦ [(1 − δ p )(1 − δ )]
因此当 即
V >V
e
s
*
时,
0 0
1 − δp 1−δ w >w + e = w +e+ e δ (1 − p ) δ (1 − p )
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满足上式 条件,并且威胁一旦产量降低就解雇工人,则各阶段的得益为 y − w,
A B
厂商 1
A 3 B 4
3 1
1 0
4 0
两个纯策略纳什均衡(A,B)、(B,A)和一个 混合策略纳什均衡,即厂商1和厂商2以相同的概率随机 在选择A或B,混合策略双方得益=2。
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
�两次重复博弈 ★连续两次采用同一纯策略纳什均衡的路径,则双方得 益分别是(1,4)和(4,1)。 ★两次采用混合策略纳什均衡,则双方平均得益(2, 2)。 ★采用轮换策略,则双方平均得益为(2.5,2.5)。 ★一次纯策略、一次混合策略,则双方得益为(1.5,3) 和(3,1.5)。
第三节无限次重复博弈
一个男孩被视为傻瓜,因为每当别人拿一枚1元硬币和5角 硬币让他选的时候,他总是选5角的。有一个人觉得奇怪,就 问他:“为什么你不拿1元钱的?” 男孩小声回答:“假若我 拿了1元钱的硬币,下次他们就不会拿钱让我选了。”
第三节无限次重复博弈
无限次重复博弈的民间定理
设G是一个完全信息静态博弈,用(e1,…,en)记G的 纳什均衡的得益,用(x1,…,xn)表示G的任意可实现得益。 如果xi>ei对于任意局中人i都成立,而δ足够接近1,那么无 限次重复博弈G(∞,δ)中一定存在一个子博弈精炼纳 什均衡,各局中人的平均得益就是(x1,…,xn)。
多个纯策略纳什均衡博弈的有限次重复博弈
H H 5, 5 厂商1 M 6, 0 L 2, 0 厂商2 M 0, 6 3, 3 2, 0 L 0, 2 0, 2 1, 1
触发策略(Trigger Strategy):首先试探合作,一旦发觉不合 作则也采用不合作相报复的策略。 厂商1:第一次选H;如第一次结果为(H,H),则第二次 选M,如果第一次结果为任何其他策略组合,则第二次选L。 厂商2:同厂商1。
第二节 有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈
H H 8, 8 厂商1 M 7, 1 L 3, 1 厂商2 M 1, 7 4, 4 3, 1 L 1, 3 1, 3 2, 2
以上博弈重复n次,结论还是相似的。当重复次数较 多时,平均得益接近于一次性博弈中(H,H)的得益 (5,5)。
第四章 重复博弈
�有限次重复博弈 �无限次重复博弈 �民间(Folk Theorem)定理
第一节 重复博弈引论
为什么研究重复博弈
�普遍性 �长期利益的问题
第一节 重复博弈引论
重复博弈与一般动态博弈的区别
重复博弈的一个阶段就是一个独立 的静态博弈或动态博弈,各个博弈方都 有相应的得益,这是重复博弈与一般动 态博弈的主要区别之一。
L H
厂商 1
L 1 H 0
1 5
5 4
0 4
第三节无限次重复博弈
囚徒困境式博弈的无限次重复
触发策略:第一阶段采取H策略,在t阶段,如果前t-1阶段的结果 都是(H,H),则继续采取H策略,否则采用L。 当贴现值δ较大时,双方采取以上触发策略构成无限次重复博弈的 一个子博弈精炼纳什均衡。 如果局中人2采用一次L策略,则得益u: u=5+1·δ+1·δ2+…=5+δ/(1-δ) 如果局中人2一直采用H策略,则得益u: u’=4+4δ+4 δ2+…=4/(1-δ) 所以,当u>u’时,即5+δ/(1-δ)> 4/(1-δ),δ<1/4时,局中人2 会采用L策略。当u<u’时,即δ>1/4时,采用H策略有利。
∞
t =1
∑
1 − p t −1 u t( ) = 1 + r
∞
t =1
∑
δ t − 1u t
第二节 有限次重复博弈
零和博弈的有限次重复博弈
零和博弈的有限次重复博弈,博弈方的正确策 略就是重复基本博弈的纳什均衡策略。
第二节 有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈
如果基本博弈惟一纯策略纳什均衡本身就是帕 累托效率意义上的最佳策略组合,那么因为符合所 有博弈方的利益,因此有限次重复显然不会改变博 弈方的行为方式。
第三节无限次重复博弈
恶性竞争的无限次重复博弈
2个厂商按垄断产量进行生产并分享利润U,1家厂商单独 改变产量则独得全部利润U,2家厂商同时改变产量则双方均 无利润。则双方无限次重复博弈的策略是什么? 如果是n家厂商呢?
效率工资模型
效率工资模型
模型设定:
首先厂商选择工资率为 w,然后工人选择接受或拒绝。如果拒绝 ,则他作个体户得到收入 w0小于w,如果接受 ,则工人选择努力工作 (负效用为e ),或偷懒(无负效用)。 厂商只能看到产量高低,高产量为 y,低产量是0。 工人努力工作时一定是高产量 y; 不努力时却并不一定是0,而是 高产量 y 的概率为 p,低产量0的概率为1-p。 工人努力工作时,厂商得益为 y-w,工人得益为w-e;工人偷懒时, 厂商期望得益为py-w,工人得益为 w 。
重复博弈的试验
美国Michigen大学教授R.爱克塞罗曾进行计算机程序 竞赛,来决定什么策略最优。 14位程序设计者中有经济学家,计算机专家,政治 家,数学家等,总共进行 5次循环赛,12万次对局 获胜的策略是最简单的策略 ——“以牙还牙”(tit-for- tat)
第二节有限次重复博弈
多个纯策略纳什均衡博弈的有限次重复博弈 厂商2
第三节无限次重复博弈
无限次重复博弈的民间定理
U厂商2
(0,5)
(4,4)
(1,1) (5,0)
U厂商1
第三节无限次重复博弈
无限次重复的古诺模型
垄断产量=3,两厂商合作则q1=q2=1.5,u1=u2=4.5 如厂商2不合作,则u2=(8-1.5-q2)q2-2q2=4.5q2-q22 ,一阶导数=0 得q2=2.25 则u2=5.0625。 合作u2=4.5+4.5δ+4.5δ2 +···=4.5/(1-δ) 不合作u2’=5.0625+4δ+4δ2 +···=5.0625+4δ/(1-δ) 当u2≥u2’时,即δ≥0.5249时选择合作。
第二节 有限次重复博弈
惟一纯策略纳什均衡博弈的有限次重复博弈 囚徒2
坦白 不坦白 坦白 -5 不坦白 -8
囚徒 1