第四讲重复博弈详解
合集下载
4第四章:重复博弈
颤抖手均衡
U
博弈方2 L
10,0
R
6,2
博弈方1
D
10,1
2,0
• 顺推归纳法
1. 顺推归纳法——分析方法,其结果到底是策略还是均衡?
以退为进,迂回争取最大利益。以策略选择为依据,整体形成一 条均衡路径。
2.顺推归纳法与颤抖手均衡不要混为一谈
顺推归纳法的基本前提是博弈方有意识的犯错误以争取更大得益,
1. 重复博弈的策略 在每个阶段(即每次重复),针对每种情况(前期阶段的 结果)如何行为的计划。
2. 重复博弈的子博弈
重复博弈是动态博弈,故其同动态博弈一样既有阶段也有 子博弈。
重复博弈的子博弈是从某个阶段(不包括第一阶段)开始,
包括以后所有阶段的重复博弈部分。 重复博弈的子博弈要么仍然是重复博弈,要么就是原博弈。
蜈蚣博弈
逆推归纳法:博弈的效率越来越低 理论依据
多个纯策略纳什均衡的有限次重复博弈
关注点:原博弈的纳什均衡没有达到帕累托效率,是 否存在通过合作进一步提高效率的潜在可能性及其在有限 次重复博弈中能不能实现合作和提高效率的问题。
1. 三价博弈的重复博弈
博弈模型:
设一市场有两个生产同质产品的厂商,他们对产品
均衡策略(组合)不管是静态博弈还是动态博弈均衡没有强 调策略的次序问题。
如囚徒困境博弈的均衡策略是博弈双方均选择坦白;或如甲
乙开矿法律保障不足的博弈。
3.颤抖手均衡中偶然性犯错及其概率到底如何理解?
颤抖手均衡是在多个纳什均衡中寻找,其偶然性犯错误的概
率恰为多个纳什均衡的混合策略纳什均衡中不同博弈方选择不同策 略的概率。
三、重复博弈的分类
1. 有限次重复博弈 基本博弈进行有限次重复 2. 无限次重复博弈
4 重复博弈
1
2 3 1.5 1.5
混合策略
(A , B)
1.5
3
企业2得益
(1 , 4) (1.5 , 3) (3 , 3)
(2.5 , 2.5)
(2 , 2) (3 , 1.5) (4 , 1)
企业1得益
图 各均衡策略的平均得益
三次重复
企业1
无条件策略=〉有条件策略
第一阶段选A; 如果第一阶段的结果是(A,A),则第二阶段选A; 如果第一阶段的结果是(A,B),则第二阶段选B; 第三阶段无条件选B。 第一阶段选A; 第二阶段无条件选B; 如果第一阶段的结果是(A,A),则第三阶段选A; 如果第一阶段的结果是(B,A),则第三阶段选B。
平均得益=(99*3+4+1)/101=2.99
触发策略
博弈方之间首先试探合作,一旦发现对方不合作 则也用不合作相报复,利用后续阶段博弈的制约 作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问:能否用两次重复构造冷酷策略?如(A,A)、(A,B)
企业2
三次重复
如何证明为一条子博弈完美NE路径?
(A , A )、 (A , B ) 、 (B , A )
平均得益=(3+1+4)/3=2.67
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
推广到任意有限次
重复101次
企业1的策略是前99次都选A,但一旦发现哪次出现结果 (A,B),则改选并坚持B到底,最后二次与三次重复的后 两次一样; 企业2的策略是前99次都选A,但一旦发现哪次出现结果 (B,A),则改选并坚持B到底,最后二次与三次重复的后 两次一样。
第四讲重复博弈(下)详解
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
博弈论讲义004
重复博弈的策略、子博弈和均衡路径
(1) 重复博弈的策略。 在动态博弈中,博弈方的一个策略是指每一次轮 到其选择时针对每种可能情况如何选择的计划。由于 重复博弈中每个博弈方在每个阶段都必须进行策略选 择,因此博弈方的一个策略就是在每次重复时, 针对 其前面阶段所有可能的情况如何进行行动的计划。
(2) 重复博弈的子博弈 重复博弈是动态博弈,因此也有阶段子博弈的概念。我 们已经知道子博弈是全部博弈的一部分,当全部博弈进行到 任何一个阶段,到此为止的进行过程已成为各博弈方的共同 知识,其后尚未开始的博弈部分就是一个子博弈。重复博弈 的子博弈就是从某个阶段(除第一阶段以外)开始,包括此 后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是 重复博弈,只是重复的次数较少,要么就是原博弈。 定义:在有限次重复博弈G(T)中,由第t+1阶段开始 的一个子博弈为G进行T-t次的重复博弈。在无限重复博弈G (∞,δ)中,由第t+1阶段开始每个子博弈都等同于初始博 弈G(∞,δ)。
2
终于有一天,有一位女士问他:难道你不知道 10块钱比1块钱更多一些钱吗? 他如此回答道:如果我有一次选择了10块钱, 就不会有人来找我让我在1块钱与10块钱之间选择了, 我也讨不到钱了。
3
第一节 重复博弈基本概念
一次动态博弈也称为“序贯博弈”。 重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段 博弈”。如囚徒困境。 重复博弈的特征: 1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变 后一阶段的结构 ; 2、所有参与人都观测到博弈过去的历史; 3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均 值。贴现因子: 下一期的一单位支付在这一期的价值。 注意:在每个阶段,参与人可同时行动,也可不同时行动。
第四章重复博弈详解
t 1
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
经济博弈论第四章 重复博弈
4.2.4 民间定理
策略分析:与图4-4例子相比较,由于博弈的特殊 结构,这个触发策略的设计对偏离行为和合作行为 分别进行惩罚和奖励,因此策略具有很强的可信性。 而在图4-4例子中,针对对方的偏离行为采取了 (L,L)策略进行惩罚,但是惩罚对方的同时,自 身的利益也受到了损害,因此可信性不强。
第三节 无限次重复博弈
4.2.2 有限次重复的囚徒困境博弈
坦白 不坦白
坦白
不坦白
-5,-5
0, -8
-8, 0 -1,-1
图4-1 囚徒困境
求解思路:对于有限次重复囚徒困境博弈,根 据动态博弈的逆推归纳法可以求解。
4.2.2 有限次重复的囚徒困境博弈
以两阶段(以该博弈作为原博弈G重复两次)为
例:分析最后一阶段,子博弈即为原博弈,唯一的
包含以后所有阶段的原重复博弈的一部分。 2 策略:博弈方在每个阶段针对每种情况如何行
动的计划(注:在每一阶段之前,博弈方是可 以观察到以前博弈的结果的)。
4.1.2 有限次重复博弈的概念
3 路径: 是每个阶段博弈结果(原博弈的一个 策略组合)连接而成。对于具有n个策略组合 的原博弈,重复T次的路径数为nT,重复博弈 的求解即找出具有稳定性的均衡路径。
4.2.4 民间定理
触发策略:博弈方1在第一阶段采取M策略, 如果对方合作,则第二阶段采取R策略作为奖 励;否则第二阶段采取L策略进行惩罚(注意 (L,L)也是纳什均衡,因此具有稳定性)。博 弈方2也采取同样策略。
策略分析:如果任何一方在第一阶段偏离, 仅仅多获得5-4=1单位得益,而在第二阶段 的得益(L,L)仅仅为1;如果在第一阶段合作, 第二阶段的得益为3。因此双方不存在偏离该 策略的动机。
第三节 无限次重复博弈
第四章重复博弈.
4.1.1 为何研究重复博弈
普遍存在性:经济中的长期关系
与一次性博弈的差异:未来利益对当前行为的制约
与动态博弈的差异:各阶段有独立的选择和利益
短期关系中缺乏 形成某种默契或 合作关系,或通 过报复、制裁的 威胁,约束相互 行为,追求共同 利益的机会
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈, 也可以是动态博弈),重复进行T次G,并且在每次重复G 之前各博弈方都能观察到以前博弈的结果,这样的博弈过 程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶 段”。 无限次重复博弈:一个基本博弈G一直重复进行下去的博 弈,记为G( )—没有可以预见的结束时间,主观上认为会不断进行 策略:博弈方在每个阶段针对每种情况如何行为的计划 子博弈:从某个阶段(不包括第一阶段)开始,包括此后 所有的重复博弈部分 均衡路径:由每个阶段博弈方的行为组合串联而成
可以运用触发策略实 现较好的结果 厂商2 厂 商 1 H M L H 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1 厂 H 商 M 1 L H 8,8 7,1 3,1 厂商2 M 1,7 4,4 3,1
L 1,3 1,3 2,2
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博弈方1 子博弈完美纳什均衡路径:第一阶 段(H,H),第二阶段(M,M)
采用触发策略:π*/(1-δ) 第一阶段偏离:此时厂商2最优产量q2=(6-q*)/2,得益 πd=(6-q*)2/4,无限次博弈得益现值为
@第4章 重复博弈
*
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
第四章博弈论
2、重复博弈类型:
有限次:如果一个博弈G,只重复进行和T次,则称该重复 博弈为有限T次重复博弈。 无限次:如果一个博弈无限次重复进行下去,则称该博弈为 无限次重复博弈。现实中是没有无限次博弈的,但可以将不知 道何时结束的博弈看作为无限次博弈。如雇用、婚姻、邻里关 系等。
3、策略、子博弈和均衡路径 策略:同动态博弈一样,博弈方的一个策略就是每次轮到 某博弈方行动阶段时,针对每种情况(以前阶段的结果),的
作,如果对方不合作,则永远不合作。
可以证明当贴现因子 很大时,也就是说,由于利率 很低,未来收益对博弈双方来说值得现在予以重视。从 而牺牲现在而追求未来。 因为博弈在某阶段前一直是(合作,合作),关键是后
继都者的选择。假如第一阶段厂商1为合作触发策略,厂 商2如何决策呢?
如果厂商2采用(不合作),则以后的代价是永不合作。
而不仅仅考虑某一阶段的博弈得益。
然而,重复博弈的每次重复是有先后顺序的,这意味着不 同阶段的得益有时间上的先后之分。因此,得益的时间价值 就不得不考虑。解决的方法是引入贴现。 贴现系数为:
1 1 r
其中r为利率。
T次重复博弈,某一均衡下各阶段的得益分别 为: 1 , 2 ... T ,贴现率为 ,则得益的现值 为: 1 2 3
0,6
3,3 2,0
0,2
0,2 1,1
该博弈两个纯策略纳什均衡(M,M)和(L,L)。 显然在一次博弈中均衡为(M,M)。当博弈重复时, 会出现高得益的(H,H)吗?
若博依下策略进行: 厂商1:第一次选H,若结果为(H,H),则第二次选M, 否则第二次选L,成为共同知识。 厂商2:同厂商1。 在这种策略下,两次重复博弈和均衡路径一定为第阶 段(H,H),第二阶段(M,M)。
4第四章:重复博弈
前面提及,重复博弈注重研究的是长期的合作或竞争 关系,时间是一个非常重要的考量因素!
如果重复博弈的次数较少,时间间隔较短,其结果对 博弈方的得益可能并没多大影响,但是若重复次数较多, 时间就不得不考虑。
因心理作用和资金有时间价值,不同时间获得的单位 利益对人们的价值是有差别的,忽略这一点就不能得出符 合实际的分析结论。
其解决方法:引进将后一阶段得益折算成当前得益的 贴现系数。
1 1
阶段 1 原博弈
1
阶段 2 原博弈
2
阶段 T 原博弈
T
all 1 2 23
T
T 1T t1 t t 1
总得益
如何求得“平均得益”?源自基本概念:若一常数 作为重复博弈各个阶段的得益,能
产生与得益序列 1, 2 , 相同的现在值,则称 为 1, 2 , 的“平均得益”。
all 2
T
第四章 重复博弈
基本博弈重复进行构成的博弈过程
例如:石头剪刀布博弈
虽然重复博弈形式上是基本博弈的重复进行, 但博弈方的行为和博弈结果却不一定是基本博弈的 简单重复。
博弈方对于博弈会重复进行的意识使得他们对 利益的判断发生变化,进而在重复博弈的不同阶段 的行为选择发生变化。
不能把重复博弈当作基本博弈的简单叠加,必 须把整个重复博弈过程作为整体进行研究。
三、重复博弈的分类
1. 有限次重复博弈 基本博弈进行有限次重复
2. 无限次重复博弈 如果某个重复博弈没有可以预见的结束时间,各博弈方主
观上认为博弈会不断进行下去,即可视为无限次重复博弈。 3. 随机结束的重复博弈
重复博弈的次数是有限的,但重复的次数或博弈结束的时 间是不确定的。
四、策略、子博弈和均衡路径
4 重复博弈
结果是具non-exploitability 的 TFT表现最好,tit-for-two-tats 只得到第24名,随机策略仍最差。
DEV1L: TFT 直至第 L回合. 采取 D 一次. 重新选择 C ,然后再回到TFT 局中人2有没有动机采取 DEV1L?
(TFT, TFT)
0
1
2 …
L
L+1
L+2
L+3 …
1: C 2: C
C C
C… C…
C C
C C
C C
C … C …
(TFT, DEV1L)
1: C 2: C
C C
C… C…
4. 重复博弈的三个特征
阶段博弈之间没有物质上的联系,也就 是说,前一阶段的博弈不改变后一阶段 的结构; 所有参与人能观察到博弈过去的历史; 参与人的总支付(报酬)是所有阶段博 弈支付的贴现值之和;
5. 重复博弈的策略、子博弈和均衡路径
(1) 重复博弈的策略 重复博弈中每个博弈方在每个阶段都必须进行 策略选择,因此博弈方的一个策略就是在每次 重复时, 针对其前面阶段所有可能的情况如何 进行行动的计划。 (2) 重复博弈的子博弈 重复博弈的子博弈就是从某个阶段(除第一 阶段以外)开始,包括此后所有阶段的重复博 弈部分。重复博弈的子博弈要么仍然是重复博 弈,只是重复的次数较少,要么就是原博弈。
第四章 重复博弈
1. 基本概念
重复博弈:给定一个基本博弈G(可以 是静态博弈,也可以是动态博弈), 重复进行T次G,并且在每次重复G之前 各博弈方都能观察到以前博弈的结果, 这样的博弈过程称为“G的T次重复博 弈”,记为G(T)。而G则称为G(T)的 “原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。
4 重复博弈
• 重复博弈可以看做是存在同时行动的扩 展式博弈。
4. 策略
• 每阶段行动的组合
策略的表示
• 假设局中人存在两种状态,C或者D。
• 冷酷策略(grim/trigger strategy): • 最初状态为 C。一旦对方在某一阶段选 择了D,那么,在下一个阶段也选择D, 并永远保持下去。
• 可以用下图表示.
• k ≥ 2, δ 足够大,有限惩罚足以促成合 作.
无限次重复博弈的子博弈 完美纳什均衡
• 子博弈完美纳什均衡(SPE): 对于任何 子博弈而言, 局中人不能通过改变子博弈 中最初的行动以增加收益。
• (1) 冷酷策略 • 假定最初的结果为 (C, D).
• 给定对方选择冷酷策略,那么局中人坚 持冷酷策略是最优的吗?
• 如果局中人1在子博弈第1阶段选择 D , 然后坚持TFT,那么结果为 (D, D) ,平 均收益为 1.
• 共四种状况 (C, C), (C, D), (D, C), (D, D).
• 对于而言 (C, C)分析与整个博弈的纳什 均衡分析完全相同: • 如果δ ≥ 1/2, TFT为最优反应.
• 接下来考虑 (C, D)之后的子博弈。
• 假定局中人2坚持TFT. 如果局中人1坚持 TFT,那么结果是在 (D, C) 和 (C, D)之 间进行交替。局中人1的平均收益为:
• 接下来,局中人2面临着与博弈初始处完 全相同的状况。
• 坚持不偏离的收益贴现均值是:
• 偏离后贴现收益均值是:
• 不偏离的条件如下:
• 如果k = 1 , 那么任何小于1的δ 都无法 满足上述不等式: 一阶段的惩罚不足以阻 止偏离, 无论局中人的耐心有多大。
• 如果 k = 2 ,要求 δ ≥ 0.62才会不偏离; • 如果 k = 3 ,要求 δ ≥ 0.55. • K增加后, δ 下限为 ½ , 下限表示的是冷 酷策略.
博弈论:4重复博弈
对任意博弈方i都成立,而足够接近1,那么无限
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
一、引言:案例 据《北京晚报》2001年6月20日报道,2001年2月 14日,魏女士到北京建设银行甘家口分理处支取了5 万元现金,随即到相距不到30米的工商银行甘家口储 蓄所存入。工商银行工作人员从中验出两张100元的 假钞。魏女士称,两张假钞是刚在建行取出的一整捆 1万元的现金中发现的,当时封条都没有拆。魏女士 立即返回建设银行要求赔偿,但银行称,钱出了大门, 难以确认假钞是从哪一个环节出现的,银行不能承担 责任。魏女士因此向法院提出诉讼,法院判决魏女士 败诉。
13
信誉机制发生作用的条件
第一, 博弈必须是重复的,或者说,交易关系必须有 足够高的概率持续下去。如果交易关系只进行一次, 当事人在未来没有赌注,放弃当期收益就不值得,信 誉就不会出现。 第二, 当事人必须有足够的耐心。前面的δ可以理解 为代理人收入的贴现因子。我们说一个人有耐心, 意思是说他的贴现因子高。一个人越有耐性,就越 有积极性建立信誉。一个只重眼前利益而不考虑长 远的人是不值得信赖的。
第四讲 重复博弈
重复博弈指基本博弈重复进行构成的博弈 过程(例如囚徒困境、商业活动中的回头客问 题)。虽然重复博弈形式上是基本博弈的重复 进行,但博弈的行为和博弈结果却不一定是基 本博弈的简单重复。在长期关系中人们在考虑 当前利益的同时需要兼顾未来利益,因此人们 的行为选择和博弈的结果就更复杂,可能性也 就更多。
12
乡村农民之间借款的例子
熟人之间借款,他们之间无须书面的合同或借据, 甚至没有说清还款的日期。 小村里的人们信守承诺,我们可以作这样三点解 读: 第一,借款人的人有追求长远利益的动机,不会为 了短期的利益而损害自己的声誉。 第二,一个人不守信用的消息很快会被全村人知道。 人类学家的研究表明,在乡村社会,“闲言碎语” (gossip)是储存和传播信息的主要手段,对维持信 誉机制具有关键的作用。 第三,人们有积极性惩罚违约者,办法是不再与他 交易往来。
10
市场秩序的信誉基础
既然法律上不可行,当事人为什么要“签 定”这样的合约呢? 因为当事人预期,出 于信誉的考虑,对方会自觉遵守合约。也 就是说,非正式合约是通过信誉机制自执 行的。这里,信誉可以理解为为了获得交 易的长远利益而自觉遵守合约的承诺。
11
三、重复博弈与信誉机制
生活中的例子:传统社会的信誉 在传统社会中,人们常年生活在封闭的村庄。 即使没有法律,村民之间也可以建立起高度的 信任,欺骗行为很少发生。 原因?
6
二、正式合同与非正式合约
市场的本质是交易。交易出现的必要条件:(一) 交 易能带来总收益(社会效率) 的增加,从而使得交易双 方受益,(二),当事人都有充分的信心预期对方能履行 承诺。否则,即使交易能带来社会剩余,交易也不会发 生。发达经济的一个标志是复杂商品的非现货交易. 设想A 与B 事前签署一个合同,规定A 为B 生产这件 物品,B 在收到该物品之后再给A 支付价格P。 那么,A 是基于什么因素作出对B 履行承诺的判断呢? 一个因素是B 的个人品德。但是,在商业社会,交易一 方对另一方的了解是非常有限的,许多交易活动都是 在不认识的人之间进行的。
2
问题?
在旅游地很容易出现假货,而在居民小 区的便利店则很少出现假货,为什么?
张维迎,法律制度的信誉基础,经济研 究,20
张维迎,担任过北京大学校长助理。2006 年至今北京大学光华管理学院院长,经济学教 授。1959年出生于陕西省吴堡县,1982年西北 大学经济学本科毕业,1994年获牛津大学经济 学博士学位,1984-1990年曾在国家体改委工作。 在牛津大学读书期间,师从诺贝尔奖得主 James Mirrlees教授和产业组织理论专家Donald Hay,主攻产业组织和企业理论。致力于推动中 国大学体制的改革、特别是商学院教育体制的 改革。 4
8
市场秩序的信誉基础
用法律执行合同所需要的第一个条件是,交易双方当 事人事前( ex ante) 签定的合同条款必须相当完备。 实际生活中,合同是不完全的,例如装修,聘请哪 家公司,如何签订合同,等等(不确定性、个人理性 有限)。 用法律执行合同所需要的第二个条件是,合同中规定 的行为在事后(ex post) 不仅能被双方当事人观察到 (observable) ,而且能为第三方(法官) 所见证 (verifiable) 。
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
一、引言:案例 据《北京晚报》2001年6月20日报道,2001年2月 14日,魏女士到北京建设银行甘家口分理处支取了5 万元现金,随即到相距不到30米的工商银行甘家口储 蓄所存入。工商银行工作人员从中验出两张100元的 假钞。魏女士称,两张假钞是刚在建行取出的一整捆 1万元的现金中发现的,当时封条都没有拆。魏女士 立即返回建设银行要求赔偿,但银行称,钱出了大门, 难以确认假钞是从哪一个环节出现的,银行不能承担 责任。魏女士因此向法院提出诉讼,法院判决魏女士 败诉。
13
信誉机制发生作用的条件
第一, 博弈必须是重复的,或者说,交易关系必须有 足够高的概率持续下去。如果交易关系只进行一次, 当事人在未来没有赌注,放弃当期收益就不值得,信 誉就不会出现。 第二, 当事人必须有足够的耐心。前面的δ可以理解 为代理人收入的贴现因子。我们说一个人有耐心, 意思是说他的贴现因子高。一个人越有耐性,就越 有积极性建立信誉。一个只重眼前利益而不考虑长 远的人是不值得信赖的。
第四讲 重复博弈
重复博弈指基本博弈重复进行构成的博弈 过程(例如囚徒困境、商业活动中的回头客问 题)。虽然重复博弈形式上是基本博弈的重复 进行,但博弈的行为和博弈结果却不一定是基 本博弈的简单重复。在长期关系中人们在考虑 当前利益的同时需要兼顾未来利益,因此人们 的行为选择和博弈的结果就更复杂,可能性也 就更多。
12
乡村农民之间借款的例子
熟人之间借款,他们之间无须书面的合同或借据, 甚至没有说清还款的日期。 小村里的人们信守承诺,我们可以作这样三点解 读: 第一,借款人的人有追求长远利益的动机,不会为 了短期的利益而损害自己的声誉。 第二,一个人不守信用的消息很快会被全村人知道。 人类学家的研究表明,在乡村社会,“闲言碎语” (gossip)是储存和传播信息的主要手段,对维持信 誉机制具有关键的作用。 第三,人们有积极性惩罚违约者,办法是不再与他 交易往来。
10
市场秩序的信誉基础
既然法律上不可行,当事人为什么要“签 定”这样的合约呢? 因为当事人预期,出 于信誉的考虑,对方会自觉遵守合约。也 就是说,非正式合约是通过信誉机制自执 行的。这里,信誉可以理解为为了获得交 易的长远利益而自觉遵守合约的承诺。
11
三、重复博弈与信誉机制
生活中的例子:传统社会的信誉 在传统社会中,人们常年生活在封闭的村庄。 即使没有法律,村民之间也可以建立起高度的 信任,欺骗行为很少发生。 原因?
6
二、正式合同与非正式合约
市场的本质是交易。交易出现的必要条件:(一) 交 易能带来总收益(社会效率) 的增加,从而使得交易双 方受益,(二),当事人都有充分的信心预期对方能履行 承诺。否则,即使交易能带来社会剩余,交易也不会发 生。发达经济的一个标志是复杂商品的非现货交易. 设想A 与B 事前签署一个合同,规定A 为B 生产这件 物品,B 在收到该物品之后再给A 支付价格P。 那么,A 是基于什么因素作出对B 履行承诺的判断呢? 一个因素是B 的个人品德。但是,在商业社会,交易一 方对另一方的了解是非常有限的,许多交易活动都是 在不认识的人之间进行的。
2
问题?
在旅游地很容易出现假货,而在居民小 区的便利店则很少出现假货,为什么?
张维迎,法律制度的信誉基础,经济研 究,20
张维迎,担任过北京大学校长助理。2006 年至今北京大学光华管理学院院长,经济学教 授。1959年出生于陕西省吴堡县,1982年西北 大学经济学本科毕业,1994年获牛津大学经济 学博士学位,1984-1990年曾在国家体改委工作。 在牛津大学读书期间,师从诺贝尔奖得主 James Mirrlees教授和产业组织理论专家Donald Hay,主攻产业组织和企业理论。致力于推动中 国大学体制的改革、特别是商学院教育体制的 改革。 4
8
市场秩序的信誉基础
用法律执行合同所需要的第一个条件是,交易双方当 事人事前( ex ante) 签定的合同条款必须相当完备。 实际生活中,合同是不完全的,例如装修,聘请哪 家公司,如何签订合同,等等(不确定性、个人理性 有限)。 用法律执行合同所需要的第二个条件是,合同中规定 的行为在事后(ex post) 不仅能被双方当事人观察到 (observable) ,而且能为第三方(法官) 所见证 (verifiable) 。