第八章 4 重复博弈和无名氏定理
博弈论无名氏定理
博弈论无名氏定理引言:博弈论是研究决策制定和行为选择的数学模型,并在许多领域发挥重要作用。
在博弈论中,无名氏定理是一项非常重要的结论,它对于理解玩家之间的互动和找到最佳策略提供了指导。
本文将就博弈论无名氏定理展开详细阐述。
一、博弈论基本概念博弈论研究决策者在决策制定中的相互影响,主要分为以下几个基本概念:1.玩家:参与博弈的个体或群体,每位玩家需根据自身利益作出决策。
2.策略:玩家在博弈中可采取的行动方案。
每位玩家需从多个策略中选择一个。
3.收益:玩家基于自己的策略和其他玩家的策略,所获得的结果。
4.纳什均衡:指在博弈中各个玩家选择了最佳策略,无法通过单方面改变策略来获得更好结果。
二、无名氏定理的内容无名氏定理由约翰·纳什于1950年提出,它在博弈论中具有重要意义。
该定理的内容可以概括为:在任意有限次博弈中,至少存在一个纳什均衡。
也就是说,在博弈中,无论玩家有多少,无论策略有多复杂,至少会有一个纳什均衡点。
这意味着无论其他玩家选择什么策略,玩家都无法通过单方面改变自己的策略来获得更好的结果。
三、无名氏定理的证明无名氏定理的证明过程比较复杂,需要运用到博弈论中的一些数学理论和方法。
在证明过程中,通常会利用到反证法、最优响应函数、偏微分方程等工具。
具体证明过程如下:1.反证法:首先假设不存在纳什均衡点,即每个玩家都能通过改变自己的策略来获得更好结果。
2.最优响应函数:然后,分别对每个玩家的每种策略进行最优响应函数的计算,即找到玩家最好的策略选项。
3.偏微分方程:最后,通过偏微分方程等工具推导,得出存在纳什均衡的结论,从而证明无名氏定理。
四、无名氏定理的应用无名氏定理在经济学、政治学、生物学等多个领域有广泛的应用。
它可以帮助人们理解玩家之间的互动关系,揭示各种冲突与合作的策略选择。
无名氏定理的应用举例:1.在市场竞争中,企业可以利用无名氏定理来确定最佳的定价策略,以获取最大利润。
2.在国际关系中,国家之间的冲突和合作可以通过博弈论无名氏定理来研究和解析。
4 重复博弈
1
2 3 1.5 1.5
混合策略
(A , B)
1.5
3
企业2得益
(1 , 4) (1.5 , 3) (3 , 3)
(2.5 , 2.5)
(2 , 2) (3 , 1.5) (4 , 1)
企业1得益
图 各均衡策略的平均得益
三次重复
企业1
无条件策略=〉有条件策略
第一阶段选A; 如果第一阶段的结果是(A,A),则第二阶段选A; 如果第一阶段的结果是(A,B),则第二阶段选B; 第三阶段无条件选B。 第一阶段选A; 第二阶段无条件选B; 如果第一阶段的结果是(A,A),则第三阶段选A; 如果第一阶段的结果是(B,A),则第三阶段选B。
平均得益=(99*3+4+1)/101=2.99
触发策略
博弈方之间首先试探合作,一旦发现对方不合作 则也用不合作相报复,利用后续阶段博弈的制约 作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问:能否用两次重复构造冷酷策略?如(A,A)、(A,B)
企业2
三次重复
如何证明为一条子博弈完美NE路径?
(A , A )、 (A , B ) 、 (B , A )
平均得益=(3+1+4)/3=2.67
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
推广到任意有限次
重复101次
企业1的策略是前99次都选A,但一旦发现哪次出现结果 (A,B),则改选并坚持B到底,最后二次与三次重复的后 两次一样; 企业2的策略是前99次都选A,但一旦发现哪次出现结果 (B,A),则改选并坚持B到底,最后二次与三次重复的后 两次一样。
重复博弈讲义
商厂
两市场博弈的重复博弈(重复两次)
A 厂商2B A 3,3 1,4 1 B 4,1 0,0
两市场博弈
(A,B)+(A,B) OR (B,A)+(B,A)——(1,4)OR(4,1) 连续两次采用混合策略——(2,2) (A,B)+(B,A) OR (B,A)+(A,B)——(2.5,2.5)轮
商厂
不同策略组合、均衡得益图示
厂商2
A 厂商2B
得益
A 3,3 1,4 1 B 4,1 0,0
两市场博弈
(1,4)
(1.5,3) (3,3)
(2.5,2.5)
(2,2) (3,1.5) (4,1)
厂商1得益
轮换策略结果比较好,但与最佳结果(A,A)还有一定差距。 本博弈不能实现最佳结果原因,是因为这个两次重复博弈没有 运用触发策略的条件或者说机会。
博弈方的一个策略就是在每次重复时, 针对其前面阶段所有可 能的情况如何进行行动的计划。 (2) 重复博弈的子博弈 重复博弈的子博弈就是从某个阶段(除第一阶段以外)开始, 包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍 然是重复博弈,只是重复的次数较少,要么就是原博弈。 (3) 重复博弈的均衡路径 重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。 而且对应前一阶段的每一种结果,下一阶段都有原博弈全部策 略组合数那么多种可能的结果,如原博弈有m种策略组合,那么 重复两次就有m2条博弈路径,重复T次就有mT条博弈路径,因此 在重博弈中,博弈方在重复博弈中的策略空间要远远大于在每 个阶段博弈中的策略空间,重复博弈的路径数往往是很大的, 常常可以产生一些意想不到的均衡路径。
重复博弈.ppt
中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
重复博弈
©2008仅供课程参考。
未经许可,请勿传播1博弈论与信息经济学重复博弈姚洪心重复博弈的现象•1.王朝更替(分久必合,合久必分)•2.情侣相处•3.政治集团的制衡与风险期(吴三桂为什么要在晚年叛变,死前封帝?)©2008仅供课程参考。
未经许可,请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。
•重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。
如囚徒困境。
•重复博弈的特征:✓1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的结构;✓2、所有参与人都观测到博弈过去的历史;✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。
贴现因子:下一期的一单位支付在这一期的价值。
注意:在每个阶段,参与人可同时行动,也可不同时行动。
©2008仅供课程参考。
未经许可,请勿传播3重复博弈©2008仅供课程参考。
未经许可,请勿传播4重复博弈©2008仅供课程参考。
未经许可,请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的,因此,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间,这意味着,重复博弈可能带来一些“额外”的均衡结果。
影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。
博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。
信息的完备性:当一个参与人的支付函数不为其他参与人知道时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。
©2008仅供课程参考。
未经许可,请勿传播6重复博弈和无名氏定理•有限次重复博弈—连锁店悖论重复博弈冷酷策略©2008仅供课程参考。
未经许可,请勿传播9冷酷型重复博弈囚徒A争锋相对的重复博弈•12345•行抵赖坦白抵赖坦白抵赖•列抵赖抵赖坦白抵赖坦白背离争锋相对•12345•行抵赖坦白坦白坦白坦白•列抵赖抵赖坦白坦白坦白©2008仅供课程参考。
重复博弈博弈论课件.ppt
重复博弈
动态博弈的类型
序贯博弈sequential game
每一个阶段的博弈结构是不同的,即从后一个决策结开 始的子博弈不同于从前一个决策结开始的子博弈。或者 说,同样结构的博弈只出现一次。 是指同样结构的博弈重复多次,其中的每次博弈称为 “阶段博弈”。如“囚徒困境”中小偷每次作案后判刑 释放后又作案。 分为有限次重复博弈与无限次重复博弈
H H 厂商1 M L 5, 5 6, 0 2,0
厂商2 M
L 0,2 0,2 1,1
0,6 3,3 2,0
触发策略可信的情况
博弈方1:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用P 博弈方2:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用Q
博弈方1 H M L P Q
5,5 6,0 2,0
重复两阶段三价博弈的等价博弈:如果 认为触发策略不可信,即不可信报复, 最佳选择为(M,M)
触发策略可信性问题
实际上,触发策略中的报复机制的可信性是一个很复 杂的问题,会受到相互预期等很多复杂因素的影响。 例如,未偏离的一方并不想报复偏离的一方,而偏离 的一方却因为害怕报复而采用L,结果心慈手软的未偏 离一方再次遭受损失,这种可能性的存在会使得报复 机制实施的可能性增加。 此外,考虑策略的制定者和执行者分离的情况,执行 者会严格执行决策者指令的情况等等。
在有限次重复博弈中,如果原博弈存在唯一的纯策略NE, 则有限次重复博弈的唯一的均衡解就是各博弈方在每阶段 中都采用原博弈的NE。 因为每个阶段NE都是SPNE,即不存在不可信的威胁和许 诺,因此重复博弈的解也是SPNE。
重复博弈
1,重复博弈的定义及特征 定义: (1) 定义: 重复博弈指同样结构的博弈重复多次, 其中每次博弈称为阶段博弈. (2) 特征: A,阶段博弈之间没有"物质"上的联系,即 前一阶段的博弈不改变后一阶段博弈的结构; B,所有参与人都观测到博弈过去的历史; C,参与人的总支付是所有阶段博弈支付的 贴现值之和或加权平均值.
(A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) 连续两次采用混合策略——(2,2) (A,B)+(B,A) OR (B,A)+(A,B)——(2.2,2.5)轮换策略 一次纯策略+一次混合策略——(1.5,3)(3,1.5)
厂商2 得益
(1,4)
(1.5,3)
厂商2 厂商
π 1, 2 , 相同的现在值,则称π 为π 1, 2 , 的平均得益 π π
有限次重复博弈不一定考虑贴现因素 无限次重复博弈必须考虑贴现问题π = (1 δ )∑ δ t 1π t
t =1 ∞
2010年7月15日3时11分
经济管理学院 曹正勇
ห้องสมุดไป่ตู้
博弈论与信息经济学
定理1 (3)定理1
中得益的T 平均每阶段得益等于原博弈G中的得益. 在G中得益的T倍,平均每阶段得益等于原博弈G中的得益.
2010年7月15日3时11分 经济管理学院 曹正勇
博弈论与信息经济学
例2
2010年7月15日3时11分 经济管理学院 曹正勇
博弈论与信息经济学
3,无限次重复博弈 (1)特征 无限次重复博弈的特征是不存在可作为最后一 阶段的最后一次重复. 阶段的最后一次重复. (2)分析无限次重复博弈的难点 一是普通的逆推归纳法无法直接运用; 一是普通的逆推归纳法无法直接运用; 二是在无限次重复中, 二是在无限次重复中,各博弈方的各阶段得益的 总和常常是趋向无穷大的, 总和常常是趋向无穷大的,在分析无限次重复博弈 时该用什么作判断依据. 时该用什么作判断依据.
博弈论重复博弈
D,D,D,D,D,D,… D,D,D,D,D,D,…
T,T,T,…. T,D,T,D,T,…. T,D,D,D,D,… D,T,T,T,T,….
重复博弈和无名氏定理
首先证明冷酷策略是一个纳什均衡 回顾一下,所谓纳什均衡,就是这样的一个状态,对于任
意一个参与人,给定其他参与人选择纳什均衡策略,该参 与人都无法偏离纳什均衡策略。 因此,证明囚徒问题中冷酷策略是一个纳什均衡的方法是: 给定其中任意一个参与人坚持“冷酷战略”,另外一个参 与人的最优选择也是坚持冷酷战略。
Axelrod (1984)
Tit-for-tat 是成功率最高的战略
惩罚与合作
Abreu(1986):最大合作战略是使用最严厉的可信 惩罚(the strongest credible punishment);
维护合作并不需要无限期的惩罚;只要惩罚期足 够长就可以了;
萝卜加大棒(stick and carrot): 从合作开始,一直合作直到: 如果有任何一方在t期不合作,在t+1期,前期合作者选择 “不合作”来实施惩罚,前期不合作者选择合作;如果该 合作的没有合作或者该惩罚的没有惩罚,在t+2期继续按 照上述t+1期的策略规定博弈;否则,合作恢复。
因为实际生活中,进入者和在位者在每个市场都斗 得你死我活
有限次重复博弈定理
令G是阶段博弈,G(T)是G重复T次的重复博弈(T<∞)。如 果G有唯一的纳什均衡,重复博弈G(T)的唯一子博弈精炼 纳什均衡结果是:
阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次 性博弈的均衡结果)。
只要博弈的重复次数是有限的,重复本身并不改变囚徒困 境的均衡结果。
因此,如果下列条件满足,给定对手没有选择坦白, i将不会选择坦白
5 重复博弈和无名氏定理 优质课件
动态博弈的另一种特殊但是非常重要的 类型就是所谓的“重复博弈”。
顾名思义,重复博弈是指同样结构的博 弈重复多次,其中的每次博弈称为“阶 段博弈”
有限次重复博弈:连锁店悖论
考虑市场进入阻挠博弈
在位者 默许 斗争 进入者 进入 40,50 -10,0 不进入 0,300 0,300
其他的战略
恕道战略 恶棍战略 流氓战略 傻客战略
或
6 1 1/6 1 1
解上述条件得: 1/ 6 也就是说,如果 1/ 6 ,给定j坚持冷酷战略并且j没有
首先坦白,i不会选择首先坦白。
现在假定j首先选择了坦白,那么i是否有积极 性坚持冷酷战略惩罚j的不合作行为呢?
假定j坚持冷酷战略,j一旦坦白将永远坦白; 如果i坚持冷酷战略,他随后每阶段的支付是- 6,但如果他选择任何其它战略,他在任何阶 段的支付不会大于-6,因此不论为多少,i有 积极性坚持冷酷战略。类似的,假定j坚持冷酷 战略,即使i自己首先选择了坦白,坚持冷酷战 略也是最优的。
令为贴现因子(假定两人的贴现因子相同)。如果i在 博弈的某个阶段首先选择了坦白,他在该阶段得到0单 位的支付。但他的这种行为将触发囚徒j的“永远坦白” 的惩罚,因此,i随后每个阶段的支付都是-6。因此如 果给定下列条件满足,假设j没有选择ቤተ መጻሕፍቲ ባይዱ白,i将不会选 择坦白:
0 (6) 2(6) 1 (1) 2(1)
在这个博弈中,在位者选择斗争的 惟一原因是希望斗争能起到一种威摄力 量,使进入者不敢进入。但在有限次重 复博弈中,斗争并不是一个值得置信的 威胁。
该博弈的惟一子博弈精炼均衡是: 在位者在每一个市场上都选择默许,进 入者在每一个市场上选择进入。
重复博弈的详细介绍
考察下列博弈
L2
2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
R1 0,0 0,0 3,3
• 单阶段Nash均衡: (L1 , L2)和(R1, R2);
• 合作均衡:(M1,M2);
• 问题:合作均衡能否出现?
2
L2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
重复博弈
4.重复博弈问题:在旅游地很容易出现假货,而在居民小区的便利店则很少出现假货,为什么?重复博弈是指由同样结构的基本博弈重复多次进行构成的博弈过程,其中的每次博弈称为阶段博弈。
给定一个基本博弈G(可是静态或动态博弈),重复进行T次G,并且在每次重复G之前各参与人都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。
而G 则称为G(T)基本博弈,G(T)中的每次重复称为G(T)的一个“阶段”重复博弈具有三个特征:1、阶段博弈之间没有“物质上”的联系(no physical links),即前一阶段的博弈不改变后一阶段博弈的结构。
(每阶段博弈的结构相同,都是独立的)2、所有参与人都能观察到博弈过去的历史(完全信息)。
3、参与人的总支付是所有阶段博弈支付的贴现值或加权平均值。
参与人是从总支付最大化的角度进行决策的。
在长期内,参与人之间的行为可能相互影响,合作或者报复不合作者(便利店老板就比较害怕报复),这样,在博弈的一个阶段支付大并不意味着在长期内的支付也大,所以,在重复博弈中参与人必须考虑到长期利益。
现实中的例子:寡头门在市场上的长期竞争,如价格战,市场份额战等;两个企业履行长期协议;商业中的回头客等4.1有限次重复博弈重复次数较少的有限次重复博弈可以不考虑贴现问题。
4.1.1零和博弈有限次重复博弈在零和博弈中,一方所得及为另一方所失,因而即使重复多,也不可能进行合作或报复,所以零和博弈的重复进行对博弈没有影响。
以猜硬币博弈为例,用逆向归纳法证明如下:在博弈的最后阶段T,纳什均衡是双方各以0.5的概率选择正面或反面;在博弈的T-1阶段,纳什均衡纳什均衡是双方各以0.5的概率选择正面或反面;.......上述结论也可以推广到非零和或多个博伊方,但博弈方的利益严格对立,没有纯策略纳什均衡的严格竞争博弈中。
4.1.2存在唯一纯策略纳什均衡博弈的有限次重复博弈参与人的行为不会因为博弈的有限次重复而发生改变,例一:连锁店在位者默许斗争不进入在此博弈中,如果进入者先行动,唯一的子博弈精炼纳什均衡结果是进入者进入,在位者默许(注意,这是一个两阶段动态博弈)。
博弈论重复博弈
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况, 最佳结果(A,A)无法实现是因为两次 博弈中博弈方没有运用触发策略的条件 或机会
两市场博弈的重复博弈(重复三次)
厂 商
A
1B
触发策略:
A 3,3 4,1
厂商2 B
1,4 0,0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
,此时利润为5.0625,高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
两市场博弈的重复博弈(重复101次)结果?
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都 不可能发生合作,博弈方会一直重复原 博弈的混合策略纳什均衡
博弈论:4重复博弈
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
重复博弈囚徒困境
逆推到第一阶段,将第二阶段的纳什均衡收 益代入,则如图3所示。 商人1 诚信 欺骗 有限重复博弈纳什 5,5 1,6 均衡是(欺骗,欺骗) 商 诚信 人 欺骗 6,1 2,2 2 此题解释了现实中 图3 信用困境(2) 存在的一类现象—— 普遍的欺诈行为;没有解释另一类现象——广泛 的合作。 为了在理论上容纳合作解,博弈论主要从三 个方面来加以发展: 一是引入多重均衡; 二是引入无限重复博弈; 三是引入信息不完全。
如果下列条件满足,企业 i 会选择合作均衡:
2 2 2 2 (a c) 2 (a c) 2 ( a c ) 9( a c ) ( a c ) ( a c ) 2 ... 2 ... 8 8 8 64 9 9
(五)对无名氏定理的三点说明:
1、惩罚点(纳什威胁点):在上述定理中,阶段博弈的 纳什均衡 a* 可能是混合战略均衡也可能是纯战略均衡; 由 a* 决定的支付向量 e (e1 , e2 ,..., en ) 是达到任何精练均 衡的结果v的惩罚点。 2、可行支付:v (v1 , v2 ,..., vn ) 称为一个可行支付向量,如 果它是阶段博弈G的纯战略支付的凸组合;所有可行支 付向量构成可行支付集合V。 凸组合:假设 r (r1 ,..., rn ) 为参与者选择纯策略组 合下所有可能收益组合的集合(r为向量),向量 n a (a1 ,..., an ) 中的任意一个元素 ai 0,且 ai 1 1 a r a r ... a r 那么, 11 n n 就称之为凸组合。
4、参与人在某一阶段的博弈选择依赖于其 他参与人过去的行动历史,所以,参与 人在重复博弈中的战略空间远远大于和 复杂于在每一个阶段博弈中的战略空间。 这一点意味着,重复博弈可能带来一些 “额外的”均衡结果,这些均衡结果在 一次性博弈中是从来不会出现的。 5、影响重复博弈均衡结果的主要因素是博 弈的重复次数。重复次数的重要性来源 于参与人在短期利益和长远利益之间的 权衡。
无限次重复博弈和无名氏定理_博弈论与信息经济学--PBL教程_[共2页]
84 博弈论与信息经济学︱︱P B L 教程 个“阶段”。
注意重复博弈的一个阶段本身就是一个独立的静态博弈或动态博弈,各个参与人都有相应的收益,这是重复博弈与一般动态博弈的主要区别之一。
定理3.2:令G 是阶段博弈,G (T )是G 重复T 次的重复博弈(T <∞)那么,如果G 有唯一的纳什均衡,重复博弈G (T )的唯一子博弈精炼纳什均衡结果是阶段博弈G 的纳什均衡重复T 次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。
上述定理表明,只要博弈的重复次数是有限的,重复本身并不改变博弈的均衡结果。
注意,单阶段博弈纳什均衡的“唯一性”是一个重要条件。
如果纳什均衡不是唯一的,上述结论就不一定成立。
下面我们来看一下有名的“连锁店悖论”。
“连锁店悖论”是泽尔腾于1978年提出的。
连锁店悖论讨论的问题是一个在n 个市场(也可以理解为n 个城镇)都开设有连锁店的企业,对于各个市场的竞争者是否应该加以打击排斥的战略选择。
由于n 个市场的竞争者一般不会同时进入竞争,如果忽略各个市场环境、竞争者不同等方面的微小差异,这个问题对上述连锁企业来说相当于一个n 次重复的重复博弈,重复博弈中的原博弈就是如图3.23所示的“先来后到”博弈扩展式。
根据我们前面介绍的分析方法得知,竞争者选择进入,先占领市场的连锁企业选择不打击,是原博弈唯一的子博弈精炼纳什均衡,是两个理性的参与人之间博弈的唯一结果。
根据定理或者直接用逆向归纳法很容易证明,在以这个博弈为原博弈的有限次重复博弈中,唯一的子博弈精炼纳什均衡是重复原博弈的纳什均衡。
也就是每个市场的竞争者都进入,连锁企业都不打击。
但这种理论结论和预言也显然有问题,首先现实中类似问题的直觉经验与该理论结论明显不符。
其次如果连锁企业对开头几个市场竞争者不计成本地进行打击,那么这种打击的威慑作用应该能够吓退其余市场的潜在竞争者,从而使得连锁企业能够独享其余几十个甚至更多市场利益,总体上肯定是合算的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由此我们证明,如果>=1/6,冷酷战略 是无限次重复博弈的一个子博弈精炼纳 什均衡,帕雷托最优(沉默,沉默)是 每一个阶段的均衡结果,囚徒走出了一 次性博弈的困境。
实际上,也存在一些其它的战略使得当 事人之间实现合作。
大众定理:存在无穷多对战略,可以成 为无限次重复博弈的平衡点,并同时实 现双方的合作。
这样,我们就证明了冷酷战略是一个纳什均衡。 接下来的任务是证明这个纳什均衡是一个子博 弈精炼纳什均衡,即在每一个子博弈上构成纳 什均衡。 因为博弈重复无限次,从任何一个阶段开始的 子博弈与这个博弈的结构相同。 在冷酷战略纳什下,子博弈可以划分为两类: A类,没有任何人曾经坦白;B类,至少一人曾 经坦白。我们已经证明,冷酷战略在A类子博 弈中构成纳什均衡。在B类,根据冷酷战略, 参与人只是重复单阶段博弈的纳什均衡,它自 然也是整个子博弈的纳什均衡。
0 (6) 2 (6) 1 (1) 2 (1)
或
6 1 1 1
1/ 6
解上述条件得:
1/ 6
1 / 6 ,择首先坦白。
现在假定j首先选择了坦白,那么i是否有积极 性坚持冷酷战略惩罚j的不合作行为呢? 假定j坚持冷酷战略,j一旦坦白将永远坦白; 如果i坚持冷酷战略,他随后每阶段的支付是- 6,但如果他选择任何其它战略,他在任何阶 段的支付不会大于-6,因此不论为多少,i有 积极性坚持冷酷战略。类似的,假定j坚持冷酷 战略,即使i自己首先选择了坦白,坚持冷酷战 略也是最优的。
在这个博弈中,在位者选择斗争的 惟一原因是希望斗争能起到一种威摄力 量,使进入者不敢进入。但在有限次重 复博弈中,斗争并不是一个值得置信的 威胁。 该博弈的惟一子博弈精炼均衡是: 在位者在每一个市场上都选择默许,进 入者在每一个市场上选择进入。
囚徒困境与市场进入阻挠博弈类似。只 要博弈重复的次数是有限的,最后阶段 的惟一纳什均衡就是两个囚徒都选择坦 白;逆向归纳法意味着“总是坦白”是 惟一的子博弈精炼均衡。 上述结果表明:只要博弈的重复次数是 有限的,重复本身并不改变囚徒困境的 结果。
其他的战略
恕道战略 恶棍战略 流氓战略 傻客战略
重复博弈和无名氏定理
动态博弈的另一种特殊但是非常重要的 类型就是所谓的“重复博弈”。 顾名思义,重复博弈是指同样结构的博 弈重复多次,其中的每次博弈称为“阶 段博弈”
有限次重复博弈:连锁店悖论
考虑市场进入阻挠博弈
在位者 默许 斗争
进入者
进入 不进入
40,50 0,300
-10,0 0,300
现在假定同样的市场有20个(可以理解为在位 者有20个连锁店),进入者每次进入一个市场, 博弈就变成了20次重复博弈。假定进入者先进 入第一个市场,在位者应该如何反应? 大家可能会猜想,尽管从一个市场上看,在位 者的最优选择是默认,但因为现在有20个市场 要保护,为了阻止进入者进入其他19个市场, 在位者应该选择斗争。但这个猜想是不正确的。
我们首先证明冷酷战略是一个纳什均衡。假定 囚徒j选择上述冷酷战略,冷酷战略是不是囚徒 i的最优战略呢? 令为贴现因子(假定两人的贴现因子相同)。 如果i在博弈的某个阶段首先选择了坦白,他在 该阶段得到0单位的支付。但他的这种行为将 触发囚徒j的“永远坦白”的惩罚,因此,i随 后每个阶段的支付都是-6。因此如果给定下列 条件满足,假设j没有选择坦白,i将不会选择 坦白:
无限次重复博弈和无名氏定理
当博弈重复无穷次而不是有限次时,存 在着完全不同于一次博弈的子博弈精炼 均衡。
考虑囚徒困境博弈,假定博弈重复无穷 次。
囚徒2的战略 囚徒1的战略 沉默 招认
沉默
招认
-1,-1
0,-9
-9,0
-6,-6
考虑下列所谓的“冷酷战略”: (1) 开始选择沉默;(2)选择沉默直到有一 方选择坦白,然后永远选择坦白。 根据这个战略,一旦一个囚徒在某个阶 段博弈中选择了坦白,之后他将永远选 择坦白。