第四章重复博弈习题讲解
4第四章:重复博弈
颤抖手均衡
U
博弈方2 L
10,0
R
6,2
博弈方1
D
10,1
2,0
• 顺推归纳法
1. 顺推归纳法——分析方法,其结果到底是策略还是均衡?
以退为进,迂回争取最大利益。以策略选择为依据,整体形成一 条均衡路径。
2.顺推归纳法与颤抖手均衡不要混为一谈
顺推归纳法的基本前提是博弈方有意识的犯错误以争取更大得益,
1. 重复博弈的策略 在每个阶段(即每次重复),针对每种情况(前期阶段的 结果)如何行为的计划。
2. 重复博弈的子博弈
重复博弈是动态博弈,故其同动态博弈一样既有阶段也有 子博弈。
重复博弈的子博弈是从某个阶段(不包括第一阶段)开始,
包括以后所有阶段的重复博弈部分。 重复博弈的子博弈要么仍然是重复博弈,要么就是原博弈。
蜈蚣博弈
逆推归纳法:博弈的效率越来越低 理论依据
多个纯策略纳什均衡的有限次重复博弈
关注点:原博弈的纳什均衡没有达到帕累托效率,是 否存在通过合作进一步提高效率的潜在可能性及其在有限 次重复博弈中能不能实现合作和提高效率的问题。
1. 三价博弈的重复博弈
博弈模型:
设一市场有两个生产同质产品的厂商,他们对产品
均衡策略(组合)不管是静态博弈还是动态博弈均衡没有强 调策略的次序问题。
如囚徒困境博弈的均衡策略是博弈双方均选择坦白;或如甲
乙开矿法律保障不足的博弈。
3.颤抖手均衡中偶然性犯错及其概率到底如何理解?
颤抖手均衡是在多个纳什均衡中寻找,其偶然性犯错误的概
率恰为多个纳什均衡的混合策略纳什均衡中不同博弈方选择不同策 略的概率。
三、重复博弈的分类
1. 有限次重复博弈 基本博弈进行有限次重复 2. 无限次重复博弈
[经济学]4 重复博弈--博弈论
策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。
第四讲重复博弈(下)详解
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
重复博弈的详细介绍
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
第四讲重复博弈详解
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
博弈论以及应用之4重复博弈
重复博弈分类
无限次重复博弈
给定一个基本博弈G重复无限多次,记为G(∞)。 重复的次数是有限的,但是具体结束时间是不确定的,每一 阶段都有可能结果博弈。
随机结束重复博弈
重复博弈特点
各阶段相互独立,前阶段博弈不会改变后阶段博弈的结构 所有局中人都能看到博弈历史 参与人的收益等于各阶段收益的贴现值之和或加权平均
22
4.2 有限次重复博弈
两市场博弈的重复博弈
重复三次
触发机制
厂商1:第一阶段,选择A;如果第一阶段结果为(A, A),那么 第二阶段选择A;如果第一阶段结果为(A, B),那么第二阶段选 择B;第三阶段无条件选择B。 厂商2:第一阶段,选择A;第二阶段无条件选择B;如果第一 阶段结果为(A, A),那么第三阶段选择A;如果第一阶段结果为 (A, B),那么第三阶段选择B。 子博弈精炼纳什均衡为(A ,A), (A, B), (B, A),双方平均收益分 别为(2.67, 2.67),较重复两次有提高,验证了猜想!
T M
L 3, 1 2, 1 1, 2
C 0, 0 1, 2 1, 1
R 5, 0 3, 1 4, 4
B
2013-8-4104.2 有 Nhomakorabea次重复博弈
多重纳什均衡博弈的有限次重复博弈
阶段博弈的纳什均衡
用画线法容易求得纯战略纳什均衡为(3,1)和(1,2)。 根据奇数定理,很可能还有一个混合战略纳什均衡。求解可 得混合战略纳什均衡为((1/3, 1/2, 1/6), (1/5, 3/5, 1/5)),其中局 中人1的收益为8/5,局中人2的收益为7/6。
@第4章 重复博弈
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
四章重复博弈
四章重复博弈第四章节重复博弈何为“重复博弈”?重复博弈是指基本博弈重复进⾏构成的博弈过程。
–重复博弈中每个阶段中的博弈⽅、可选策略、规则和得益都是相同的----是特殊的动态博弈;–形式上是基本博弈的重复进⾏,但博弈⽅的⾏为和博弈结果不⼀定是基本博弈的简单重复,因为博弈⽅对于博弈会重复进⾏的意识,会使他们对利益的判断发送变化,从⽽使他们在重复博弈过程不同阶段的⾏为选择受到影响。
–可信度:⼦博弈完美性仍是判断均衡是否稳定可靠的重要判断依据4.1 引论4.1.1 为什么研究重复博弈4.1.2 基本概念分类:有限次重复博弈,⽆限次重复博弈给定⼀个基本博弈G(可以静态,也可以动态),重复进⾏了T次G,并且在每次重复G之前,各博弈⽅都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为()G T的“原G T。
⽽G称为()博弈”。
()G T的⼀个“阶段”。
G T中的每次重复称为()理论上,重复博弈可以⽆限制进⾏下去,不⼀定经过⼀定次数重复以后就必须结束。
如果⼀个基本博弈G⼀直重复下去,这样的重复博弈就是“⽆限次重复博弈”,记为()G 。
⽆限次重复博弈的基本博弈也称为“原博弈”。
⽆限次重复博弈是有⽆限个阶段的动态博弈。
重复博弈的次数虽然有限,但重复的次数或博弈结束的时间不确定,这种重复博弈中博弈⽅的⾏为选择与确定结束时间的有限次重复博弈很不同,与⽆限次重复博弈很相似,甚⾄可以通过某种⽅式与⽆限次重复博弈统⼀起来。
这种重复博弈可以称为“随机结束的重复博弈”。
策略、⼦博弈和均衡路径●策略:–博弈⽅的⼀个策略就是在每个阶段(即每次重复),针对每种情况(以前阶段的结果)如何⾏动的计划。
●⼦博弈:–重复博弈的⼦博弈就是从某个阶段(不包括第⼀阶段)开始,包括此后所有阶段的重复博弈部分。
●路径:-–⼦博弈完美纳什均衡,以逆推归纳法(逆向归纳法)为核⼼的⼦博弈完美纳什均衡分析及相关结论,可以推⼴到重复博弈中。
-–重复博弈的路径是由每个阶段博弈⽅的⾏动组合串联⽽成的。
谢识予:经济博弈论4——重复博弈
考虑如下的触发策略:
厂商在第一阶段给工资率 w ,在第t阶段,如果前面t-1 阶段结果都是( w , y) 则继续给 w * ,否则从此永远 是w 0 。 工人的策略是如果 w w 则接受,否则宁愿作个体 户得到 w ,并在以前各期结果都是( w , y) 和当前工资率 为 w * 时努力工作,否则偷懒。
-1,-1
(-5,-5) 囚徒2 坦 白 不坦白 囚 坦白 -10,-10 -5,-13 徒 -13,-5 -6,-6 1 不坦白 (-10,-10)
有限次重复削价竞争博弈
寡头2 高 价
寡 高价 头 1 低价 100,100 150,20
低 价
20,150 70,70
有唯一纯策略纳什均衡 (70,70) 有限次重复的结果仍然是 (低价,低价)
2
4 1
当
4.5 4 5.0625 即 9 17 1 1
上述策略是厂商2对厂商1的同样触发策略的最佳反应, 否则偏离是最佳反应。
4.3.4 有效工资率
模型设定: 首先厂商选择工资率为 w ,然后工人选择接受或拒绝。 如果拒绝,则他作个体户得到收入 w 小于 w ,如果接 受 w ,则工人选择努力工作(负效用 e )还是偷懒(无 负效用)。 厂商只能看到产量高低,高产量为 y 0 ,低产量0。 工人努力工作时一定是高产量 y ,不努力时却并不一 定是0,而是高产量 y 的概率为 p ,低产量0的概率 为 1 p 。 工人努力工作时,厂商得益为 y w ,工人得益 为 w e ; 工人偷懒时,厂商期望得益为 py w ,工人 得益为 w 。
削价竞争博弈
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2
厂 商 1
4第四章:重复博弈
前面提及,重复博弈注重研究的是长期的合作或竞争 关系,时间是一个非常重要的考量因素!
如果重复博弈的次数较少,时间间隔较短,其结果对 博弈方的得益可能并没多大影响,但是若重复次数较多, 时间就不得不考虑。
因心理作用和资金有时间价值,不同时间获得的单位 利益对人们的价值是有差别的,忽略这一点就不能得出符 合实际的分析结论。
其解决方法:引进将后一阶段得益折算成当前得益的 贴现系数。
1 1
阶段 1 原博弈
1
阶段 2 原博弈
2
阶段 T 原博弈
T
all 1 2 23
T
T 1T t1 t t 1
总得益
如何求得“平均得益”?源自基本概念:若一常数 作为重复博弈各个阶段的得益,能
产生与得益序列 1, 2 , 相同的现在值,则称 为 1, 2 , 的“平均得益”。
all 2
T
第四章 重复博弈
基本博弈重复进行构成的博弈过程
例如:石头剪刀布博弈
虽然重复博弈形式上是基本博弈的重复进行, 但博弈方的行为和博弈结果却不一定是基本博弈的 简单重复。
博弈方对于博弈会重复进行的意识使得他们对 利益的判断发生变化,进而在重复博弈的不同阶段 的行为选择发生变化。
不能把重复博弈当作基本博弈的简单叠加,必 须把整个重复博弈过程作为整体进行研究。
三、重复博弈的分类
1. 有限次重复博弈 基本博弈进行有限次重复
2. 无限次重复博弈 如果某个重复博弈没有可以预见的结束时间,各博弈方主
观上认为博弈会不断进行下去,即可视为无限次重复博弈。 3. 随机结束的重复博弈
重复博弈的次数是有限的,但重复的次数或博弈结束的时 间是不确定的。
四、策略、子博弈和均衡路径
第四章__重复博弈
4.2.1 两人零和博弈的有限次重复博弈
田忌赛马
田 忌 上 中 下 3,-3 1,-1 1,-1 -1,1 1,-1 1,-1 上 下 中 1,-1 3,-3 -1,1 1,-1, 1,-1 1,-1
中 上 下
1,-1 1,-1 3,-3 1,-1 1,-1 -1,1
中 下 上 1,-1 1,-1 1,-1 3,-3 -1,1 1,-1
之前各博弈方都能观察到以前博弈的结果,这样的博弈过
程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶 段”。 无限次重复博弈:一个基本博弈G一直重复博弈下去的博
弈,记为G(∞)。
4.1.2 基本概念
注意重复博弈与动态博弈的联系与区别: 重复博弈是一个动态的过程,具有多个阶段,属于动态博弈的
1 1 r
2
现值之和就为
V R1 R2 R3
2
T 1
RT
t 1 t 1 t 1
T
t 1
Rt
V R1 R2 R3
Rt
4.2 有限次重复博弈
4.2.1 两人零和博弈的有限次重复博弈 4.2.2 唯一纯策略纳什均衡博弈的有限次重复博弈 4.2.3 多个纯策略纳什均衡博弈的有限次重复博弈 4.2.4 有限次重复博弈的民间定理
8,6 4,8
4,10 6,4
1
4.2.2 唯一纯策略纳什均衡博弈的 有限次重复博弈
如果纳什均衡本身就是帕累托意义上的最佳策略组合,符合所有博
弈方的利益,那么,有限次重复博弈的惟一均衡即是:各博弈方不会 改变自己的行为,在每阶段都采用原博弈的纳什均衡策略。
博弈论第四章习题
第四章习题一、如果T次重复齐威王田忌赛马,双方在该重复博弈中的策略是什么?博弈结果如何?答:因为这是零和博弈,结论比较具体。
重复Nash 均衡,均以1/6的概率选择各个策略,期望收益分别为1和-1。
因为这是竞争性的零和博弈,无论是有限次重复博弈还是无限次的重复博弈,均不能达成合作的条件。
二、举出现实生活中的一个重复博弈与一次性博弈效率不同的例子。
答:火车站和机场餐饮业的服务的顾客往往是一次性的,回头客和常客也比较少,价格高,质量差,一次性博弈。
效率也比较低。
商业区和居民区的餐饮业和商业服务业,回头客和常客比较多,比较注重信誉,质优、价廉,重复博弈。
效率也比较高。
三、有限次重复博弈和无限次重复博弈有什么区别?这些区别对我们有什么启发?答:动态博弈的逆向归纳法可以用于有限次重复博弈,但不能用于无限次重复博弈,主要用逆向归纳法。
无限次重复博弈的效率往往高于有限次重复博弈。
当重复次数较少不一定考虑贴现问题,但无限次重复博弈必须考虑贴现问题。
启发:重视有限次与无限次的区别,区分和研究这两类博弈,在实践方面重要启发是促进和保持经济的长期稳定和可持续发展,提高社会经济效率是非常有意义的。
四、判断下列表述是否正确,并作简单讨论:(1)有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡。
答:不一定。
对于有两个以上纯策略纳什均衡的条件下就不一定。
如“触发策略”就不是。
(2)有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。
答:是,根据子博弈完美纳什均衡的要求,最后一次必须是原博弈的一个纳什均衡。
(3)无限次重复博弈均衡解的得益一定优于原博弈均衡解的得益。
答:错。
如严格竞争的零和博弈就不优于。
(4)无限次重复古诺产量博弈不一定会出现合谋生产垄断产量的现象。
答:正确。
合谋生产垄断产量是有条件的,由贴现率来反映,当不满足条件时,就不能构成激励。
(5)如果博弈重复无限次或者每次结束的概率足够小,而得益的时间贴现率 充分接近1,那么任何个体理性的可实现得益都可以作为子博弈完美纳什均衡的结果出现。
经济博弈论第四章 重复博弈
4.2.4 民间定理
策略分析:与图4-4例子相比较,由于博弈的特殊 结构,这个触发策略的设计对偏离行为和合作行为 分别进行惩罚和奖励,因此策略具有很强的可信性。 而在图4-4例子中,针对对方的偏离行为采取了 (L,L)策略进行惩罚,但是惩罚对方的同时,自 身的利益也受到了损害,因此可信性不强。
第三节 无限次重复博弈
4.2.2 有限次重复的囚徒困境博弈
坦白 不坦白
坦白
不坦白
-5,-5
0, -8
-8, 0 -1,-1
图4-1 囚徒困境
求解思路:对于有限次重复囚徒困境博弈,根 据动态博弈的逆推归纳法可以求解。
4.2.2 有限次重复的囚徒困境博弈
以两阶段(以该博弈作为原博弈G重复两次)为
例:分析最后一阶段,子博弈即为原博弈,唯一的
包含以后所有阶段的原重复博弈的一部分。 2 策略:博弈方在每个阶段针对每种情况如何行
动的计划(注:在每一阶段之前,博弈方是可 以观察到以前博弈的结果的)。
4.1.2 有限次重复博弈的概念
3 路径: 是每个阶段博弈结果(原博弈的一个 策略组合)连接而成。对于具有n个策略组合 的原博弈,重复T次的路径数为nT,重复博弈 的求解即找出具有稳定性的均衡路径。
4.2.4 民间定理
触发策略:博弈方1在第一阶段采取M策略, 如果对方合作,则第二阶段采取R策略作为奖 励;否则第二阶段采取L策略进行惩罚(注意 (L,L)也是纳什均衡,因此具有稳定性)。博 弈方2也采取同样策略。
策略分析:如果任何一方在第一阶段偏离, 仅仅多获得5-4=1单位得益,而在第二阶段 的得益(L,L)仅仅为1;如果在第一阶段合作, 第二阶段的得益为3。因此双方不存在偏离该 策略的动机。
第三节 无限次重复博弈
第四章重复博弈详解
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
博弈论重复博弈
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈, 也可以是动态博弈),重复进行T次G,并且在每次重复G 之前各博弈方都能观察到以前博弈的结果,这样的博弈过 程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶 段”。
22
无限次重复两寡头削价博弈
触发策略:第一阶段采用H,如果前t-1阶段的结果 都是(H,H),则继续采用H,否则采用L。
如果博弈方2采用L,总得益现值为
5 1 1 2 5 1
如果博弈方2采用H,总得益现值为
V4V
其中V为博弈方2在该重复博弈中每阶段都能采用最佳选 择的总得益现在值。
在无限次重复古诺模型中,当贴现率 满足一定
条件时,两厂商采用下列触发策略构成一个子博 弈完美纳什均衡: 在第一阶段生产垄断产量的一半1.5;在第 t 阶段, 如果前 t-1 阶段结果都是(1.5,1.5),则继续生产1.5,
否则生产古诺产量 =2。q c
双方都采用上述触发策略的博弈路径为每阶段生
产产量(1.5,1.5),双方每阶段的得益都是 * 4.5
不能采用逆推归纳法证明
20
4.3.2唯一纯策略纳什均衡博弈 的无限次重复博弈
囚徒困境式博弈的无限次重复(两寡头削价竞争
博弈)
H
L
1、帕累托意义上的 最佳组合
H
4,4
0,5
2、不是效率最高的
L
5,0
1,1
策略组合
该博弈一次性博弈均衡是都采用低价,是囚徒困境 型博弈,有限次博弈也不能实现合作。
21
无限次重复两寡头削价博弈
解得
q 2
博弈论:4重复博弈
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• (3)将(下,左)的得益改为(1,5)情况会发生质的 变化。因为此时第一阶段两博弈方都有偏离(下,右)的 动机,而上述博弈又不存在同一个阶段中同时对两博弈方 惩罚或奖励的纳什均衡,因此重复两次时不可能存在子博 弈完美纳什均衡部分实现(4,4)得益。 • 至少在部分阶段实现得益(4,4)的条件是重复博弈的 次数达到三次或以上,或者得益进一步改变到(下,右) 是原博弈的纳什均衡。如设计触发策略: • 博弈方1:第一阶段选“下“,出现结果(下,右),则 第二阶段继续选”上“,第三阶段选”中“。 • 如果第一阶段没有出现,(下,右),则第二、第三阶段 选混合策略均衡。 • 博弈方2:第一阶段选“右“,出现结果(下,右)则第 二阶段选”左“,第三阶段选”中“,否则第二、三阶段 选择混合策略的均衡。 • 均衡路径为(下,右)(上,左)(中,中)
• 答:(1)上述静态博弈有两个纯策略纳什均衡(上,左)和 (中,中)。由于策略组合(下,右)实现的得益(4,4)对 博弈方2来说已是最理想的,因此博弈方2不会有偏离的动机, 只有博弈方1可能有偏离动机,因此可设计如下触发策略。
• 博弈方1:第一阶段采取下;如果第一阶段的结果是(下,右) 则采取上,否则采取中。 • 博弈方2:第一阶段采取右;如果第一阶段的结果是(下,右) 第二阶段采取左,否则采取中。