第四讲重复博弈(下)详解
合集下载
[经济学]4 重复博弈--博弈论
策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。
博弈论(重复博弈)
第四章 重复博弈 (p129~)
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集
例
B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集
例
B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0
重复博弈
在有限次重复博弈中,如果原博弈存在唯 一纯策略纳什均衡组合,则重复博弈的唯 一子博弈完美纳什均衡解为各博弈方在每 阶段都采取的原博弈纳什均衡策略 由于完全理性的博弈方具有对“共同知识” 的分析推理能力,因此在从最后阶段开始 的逆推过程中,仍然无法摆脱囚徒困境 由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺, 因此这种均衡是子博弈完美纳什均衡
重复博弈
定义:给定一个博弈G(静态或动态),若 重复进行T次G,并且在每次重复之前各博弈 方都能观察到以前博弈的结果,则称G有一 个“T次重复博弈”,记为G(T) 其中,G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段 重复博弈是一种特殊的动态博弈 与静态和动态都有关系
本章主要结论 由于参与者在重复博弈中具有了长期利益 可通过在后阶段中的报复策略使威胁变得 可信 从而可能摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作
但是在后续阶段中只能得到古诺产 量下的利润4,总收益: 5.0625+4(δ + δ*δ +…)= 5.0625+4 δ /(1- δ) (2) 如果得益满足(1)大于(2),触 发策略下保持合作的垄断产量将构 成子博弈完美纳什均衡 这要求:δ≥9/17
一般结论:在触发策略1中,如果满足条件 δ≥9/17,博弈方可以通过古诺产量作为 威胁,迫使对方合作达成帕累托最优的垄 断产量 如果允许其它利润较低的可实现得益,相 应的贴现系数要求是否可以降低(即博弈 方是否可以不那么看重未来长期利益)? 触发策略2:第一阶段生产q*,如果前(t- 1)阶段结局都是(q*,q*),那么继续生产q* , 否则采取纳什均衡的斗争能 起到一种威慑作用,使进入者不敢再进入 下一个市场 但在有限次重复博弈中,斗争并不是一个 可信的威胁 设前 19 个市场已被进入,进入者现在要进 入第20个市场 因为在最后阶段斗争已没有任何威慑意义, 在位者的最优选择是默许,进入者将选择 进入
第四章重复博弈详解
t 1
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
ch4 重复博弈
4.2.3多个纯策略纳什均衡的有限次重复博弈
一、三价博弈的重复博弈
厂商2 H 厂 商 1 H M L 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1 厂H 商M 1 L 厂商2 H 8,8 7,1 3,1 M 1,7 4,4 3,1 L 1,3 1,3 2,2
第四章
重复博弈
本章介绍基本博弈重复进行构成重复博弈。虽 然形式上是基本博弈重复,但重复博弈中博弈方行 为和博弈结果却不一定是基本博弈的简单重复,因 为博弈方对于博弈会重复进行的意识,会使他们对 利益的判断发生变化,从而使他们在重复博弈过程 中的行为选择受到影响。这意味着不能把重复博弈 当作基本博弈的简单叠加,必须把整个重复博弈过 程作为整体进行研究。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、 有限次重复的囚徒困境博弈
坦白 坦白 不坦白 不坦白
-5,-5
-8, 0
0,
-8
-1,-1
图4-1 囚徒困境
求解思路:对于有限次重复囚徒困境博弈,根据动态博 弈的逆推归纳法可以求解。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、有限次重复的囚徒困境博弈
两次重复三价博弈的等价模型
如果重复n次,结论相似。采用触发策略实现比较好的结果, 子博弈完美纳什均衡路径为:除了最后一次外,每次都采用 (H,H),最后一次采用(M,M)。当重复次数较多时, 平均得益接近于一次性博弈中(H,H)的得益(5,5)。
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
重复博弈的详细介绍
收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现 率 ,无限的收1益,序2,列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益 相等时的总收益
2 t1t t 1
重复博 弈总收益
所以 故
也称触发战略;
以囚徒困境为例:开始 选择抵赖,而且一直选 择抵赖直到有一方选择 了坦白,然后永远选择 坦白;
这意味着:一旦哪个参 与人选择了坦白,就触 发了惩罚的扳机。
根据上述原则,可构造如下战略:
01 S1:第一阶段选择M1;如果第一阶段结果为(M1, M2),则下一阶段选R1;否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂 的战略。但使爱克斯罗德和其他人深为吃惊的是,竞赛 的桂冠属于其中最简单的战略:一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上 来的战略。
2
一报还一报战略:它总是以合作开局,但从此以后就采 取以其人之道还治其人之身的战略。也就是说,一报还 一报的战略实行了胡萝卜加大棒的原则。
i
集合。 若存在
G(, )
(x , x , , x ) 则 存 在 贴 现 率 , 使 无 限 重 复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡,其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中,如果参与人具有足够的耐心(只要满足一定的 条件),那么任何满足个人理性的可行收益向量都可以通过一个特定的
第四讲重复博弈详解
1
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
博弈论以及应用之4重复博弈
重复博弈分类
无限次重复博弈
给定一个基本博弈G重复无限多次,记为G(∞)。 重复的次数是有限的,但是具体结束时间是不确定的,每一 阶段都有可能结果博弈。
随机结束重复博弈
重复博弈特点
各阶段相互独立,前阶段博弈不会改变后阶段博弈的结构 所有局中人都能看到博弈历史 参与人的收益等于各阶段收益的贴现值之和或加权平均
22
4.2 有限次重复博弈
两市场博弈的重复博弈
重复三次
触发机制
厂商1:第一阶段,选择A;如果第一阶段结果为(A, A),那么 第二阶段选择A;如果第一阶段结果为(A, B),那么第二阶段选 择B;第三阶段无条件选择B。 厂商2:第一阶段,选择A;第二阶段无条件选择B;如果第一 阶段结果为(A, A),那么第三阶段选择A;如果第一阶段结果为 (A, B),那么第三阶段选择B。 子博弈精炼纳什均衡为(A ,A), (A, B), (B, A),双方平均收益分 别为(2.67, 2.67),较重复两次有提高,验证了猜想!
T M
L 3, 1 2, 1 1, 2
C 0, 0 1, 2 1, 1
R 5, 0 3, 1 4, 4
B
2013-8-4104.2 有 Nhomakorabea次重复博弈
多重纳什均衡博弈的有限次重复博弈
阶段博弈的纳什均衡
用画线法容易求得纯战略纳什均衡为(3,1)和(1,2)。 根据奇数定理,很可能还有一个混合战略纳什均衡。求解可 得混合战略纳什均衡为((1/3, 1/2, 1/6), (1/5, 3/5, 1/5)),其中局 中人1的收益为8/5,局中人2的收益为7/6。
重复博弈
重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约
重复博弈概述
重复博弈是博弈论中的一个重要概念,指的是同一个博弈进行多次的过程。根据重复的次数,重复博弈可分为有限重复博弈和无限重复博弈。在重复博弈中,参与者需要考虑将来可信的重要区别。有限重复博弈中,即使博弈重复进行有限次,合作行为也可能难以达成,因为参与者可能会为了短期利益而背离合作。重复博弈的定义基于阶段博弈的多次重复,每次博弈的结果在下一轮开始前都可被观测到,并且这些结果将累加作为最终收益。在重复博弈的分析中,子博弈精炼解是一个核心概念,它要求在每个子博弈中都达到均衡,从而确保整个重复博弈过程的稳定性和可预测性。通过对重复博弈的研究,可以更深入地理解合作与竞争的关系,以及如何在长期关系中制定有效的策略。
重复博弈的详细介绍
考察下列博弈
L2
2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
R1 0,0 0,0 3,3
• 单阶段Nash均衡: (L1 , L2)和(R1, R2);
• 合作均衡:(M1,M2);
• 问题:合作均衡能否出现?
2
L2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
4 重复博弈
结果是具non-exploitability 的 TFT表现最好,tit-for-two-tats 只得到第24名,随机策略仍最差。
DEV1L: TFT 直至第 L回合. 采取 D 一次. 重新选择 C ,然后再回到TFT 局中人2有没有动机采取 DEV1L?
(TFT, TFT)
0
1
2 …
L
L+1
L+2
L+3 …
1: C 2: C
C C
C… C…
C C
C C
C C
C … C …
(TFT, DEV1L)
1: C 2: C
C C
C… C…
4. 重复博弈的三个特征
阶段博弈之间没有物质上的联系,也就 是说,前一阶段的博弈不改变后一阶段 的结构; 所有参与人能观察到博弈过去的历史; 参与人的总支付(报酬)是所有阶段博 弈支付的贴现值之和;
5. 重复博弈的策略、子博弈和均衡路径
(1) 重复博弈的策略 重复博弈中每个博弈方在每个阶段都必须进行 策略选择,因此博弈方的一个策略就是在每次 重复时, 针对其前面阶段所有可能的情况如何 进行行动的计划。 (2) 重复博弈的子博弈 重复博弈的子博弈就是从某个阶段(除第一 阶段以外)开始,包括此后所有阶段的重复博 弈部分。重复博弈的子博弈要么仍然是重复博 弈,只是重复的次数较少,要么就是原博弈。
第四章 重复博弈
1. 基本概念
重复博弈:给定一个基本博弈G(可以 是静态博弈,也可以是动态博弈), 重复进行T次G,并且在每次重复G之前 各博弈方都能观察到以前博弈的结果, 这样的博弈过程称为“G的T次重复博 弈”,记为G(T)。而G则称为G(T)的 “原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。
4 重复博弈
• 重复博弈可以看做是存在同时行动的扩 展式博弈。
4. 策略
• 每阶段行动的组合
策略的表示
• 假设局中人存在两种状态,C或者D。
• 冷酷策略(grim/trigger strategy): • 最初状态为 C。一旦对方在某一阶段选 择了D,那么,在下一个阶段也选择D, 并永远保持下去。
• 可以用下图表示.
• k ≥ 2, δ 足够大,有限惩罚足以促成合 作.
无限次重复博弈的子博弈 完美纳什均衡
• 子博弈完美纳什均衡(SPE): 对于任何 子博弈而言, 局中人不能通过改变子博弈 中最初的行动以增加收益。
• (1) 冷酷策略 • 假定最初的结果为 (C, D).
• 给定对方选择冷酷策略,那么局中人坚 持冷酷策略是最优的吗?
• 如果局中人1在子博弈第1阶段选择 D , 然后坚持TFT,那么结果为 (D, D) ,平 均收益为 1.
• 共四种状况 (C, C), (C, D), (D, C), (D, D).
• 对于而言 (C, C)分析与整个博弈的纳什 均衡分析完全相同: • 如果δ ≥ 1/2, TFT为最优反应.
• 接下来考虑 (C, D)之后的子博弈。
• 假定局中人2坚持TFT. 如果局中人1坚持 TFT,那么结果是在 (D, C) 和 (C, D)之 间进行交替。局中人1的平均收益为:
• 接下来,局中人2面临着与博弈初始处完 全相同的状况。
• 坚持不偏离的收益贴现均值是:
• 偏离后贴现收益均值是:
• 不偏离的条件如下:
• 如果k = 1 , 那么任何小于1的δ 都无法 满足上述不等式: 一阶段的惩罚不足以阻 止偏离, 无论局中人的耐心有多大。
• 如果 k = 2 ,要求 δ ≥ 0.62才会不偏离; • 如果 k = 3 ,要求 δ ≥ 0.55. • K增加后, δ 下限为 ½ , 下限表示的是冷 酷策略.
博弈论:4重复博弈
对任意博弈方i都成立,而足够接近1,那么无限
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
第四讲 重复博弈(下)
• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 0
0,0
0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 00,0Fra bibliotek0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
2、后续阶段中包含着奖励和惩罚机制:选M可 以奖励对方,选L可以惩罚对方。因为(M,M) 和(L,L)都是阶段博弈的NE,所以奖励和惩 罚都是可信的。
考虑如下抽象博弈: L 1,1 参与人2 M R P Q 5,0 0,0 0,0 0,0
L
参 与 人 1
M 0,5 R P Q 0,0 0,0
4,4
第一阶段的行动组合是(M,M),则第二阶段的行动组 合将是(R,R);第一阶段的行动组合是(M,X)或(X, M),则第二阶段的行动组合将是(P,P)或(Q,Q);第 一阶段的行动组合为其它,则第二阶段还是(R,R)。
三、无限次重复博弈
无限次重复博弈与有限次重复博弈的异同: 1、没有最后一阶段博弈; 2、不可忽略贴现问题 3、都可能通过惩罚来实现理想的均衡。
证明
第二阶段( M,M )是原博弈的纳什 均衡,参与人的行为不会发生偏离。第 一阶段( H,H )虽然不是原博弈的纳什 均衡,单独偏离为M能增加1单位支付, 但这样做第二阶段要损失2,因而不会偏 离(H,H)。
这就证明了该策略组合是子博弈完美的。从这 条均衡路径中看到:将来利益对当前的选择有 约束。 这种策略有2个特点: 1、第一阶段选H,试探合作。 机会主义
• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
表2
囚徒困境博弈
乙
招
不招 0,-8 -1,-1
招
甲 不招
-5,-5 -8,0
(这样一个博弈重复进行2次)
而在两阶段囚徒困境中,第二阶段的NE可以完全 不依赖于第一阶段的结果。 分析时要注意3点: 1 逆推归纳法backwards-induction
2 参与人在第二阶段行动只须考虑该阶段的 利益最大化,因为无须“瞻前顾后”。 3 分析第一阶段时,可把第二阶段的均衡结 果下的支付值叠加到第一阶段的相应支付值上。
触发策略(trigger strategy)
假设寡头采取触发策略(trigger strategy),即开始选择合作,如果对方也合 作,就一直合作;但在博弈中一旦发现对方 不合作,就永远选择报复,不合作。 寡头 1 ,第一次选 H. 如果第一次结果为 (H,H), 则第二次选M;否则选L. 寡头2:同上。 子博弈精炼纳什均衡结果是:第一阶段 (H,H),第二阶段(M,M)。
第四讲 重复博弈(下)
一、有限次重复博弈 (以two-stage repeated games为例) (一)阶段博弈只有唯一NE 考虑曾经给出的囚徒困境的标准式(回忆并 画出支付矩阵)。 假设两个参与者要把这样一个同时行动博弈重 复两次,并且在第二次博弈开始之前可观测第一 次的结果。再假设整个过程博弈的收益等于两阶 段各自收益的简单相加(即不考虑贴现因素), 我们称这一重复进行的博弈为两阶段囚徒困境。
(二) 存在多个NE的有限次重复博弈
• 例1:三价博弈 故事:两生产同质商品的寡头。在两 寡头都是高价时市场总利润为10,都是 中价时市场总利润为6,都是低价时市场 总利润为2。两寡头同时决策,价格相同 时分享利润,否则低价者独占。
三价博弈
寡头2 M
0,6 3,3 2,0
H
寡 头 1 H M L
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 00,0Fra bibliotek0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
2、后续阶段中包含着奖励和惩罚机制:选M可 以奖励对方,选L可以惩罚对方。因为(M,M) 和(L,L)都是阶段博弈的NE,所以奖励和惩 罚都是可信的。
考虑如下抽象博弈: L 1,1 参与人2 M R P Q 5,0 0,0 0,0 0,0
L
参 与 人 1
M 0,5 R P Q 0,0 0,0
4,4
第一阶段的行动组合是(M,M),则第二阶段的行动组 合将是(R,R);第一阶段的行动组合是(M,X)或(X, M),则第二阶段的行动组合将是(P,P)或(Q,Q);第 一阶段的行动组合为其它,则第二阶段还是(R,R)。
三、无限次重复博弈
无限次重复博弈与有限次重复博弈的异同: 1、没有最后一阶段博弈; 2、不可忽略贴现问题 3、都可能通过惩罚来实现理想的均衡。
证明
第二阶段( M,M )是原博弈的纳什 均衡,参与人的行为不会发生偏离。第 一阶段( H,H )虽然不是原博弈的纳什 均衡,单独偏离为M能增加1单位支付, 但这样做第二阶段要损失2,因而不会偏 离(H,H)。
这就证明了该策略组合是子博弈完美的。从这 条均衡路径中看到:将来利益对当前的选择有 约束。 这种策略有2个特点: 1、第一阶段选H,试探合作。 机会主义
• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
表2
囚徒困境博弈
乙
招
不招 0,-8 -1,-1
招
甲 不招
-5,-5 -8,0
(这样一个博弈重复进行2次)
而在两阶段囚徒困境中,第二阶段的NE可以完全 不依赖于第一阶段的结果。 分析时要注意3点: 1 逆推归纳法backwards-induction
2 参与人在第二阶段行动只须考虑该阶段的 利益最大化,因为无须“瞻前顾后”。 3 分析第一阶段时,可把第二阶段的均衡结 果下的支付值叠加到第一阶段的相应支付值上。
触发策略(trigger strategy)
假设寡头采取触发策略(trigger strategy),即开始选择合作,如果对方也合 作,就一直合作;但在博弈中一旦发现对方 不合作,就永远选择报复,不合作。 寡头 1 ,第一次选 H. 如果第一次结果为 (H,H), 则第二次选M;否则选L. 寡头2:同上。 子博弈精炼纳什均衡结果是:第一阶段 (H,H),第二阶段(M,M)。
第四讲 重复博弈(下)
一、有限次重复博弈 (以two-stage repeated games为例) (一)阶段博弈只有唯一NE 考虑曾经给出的囚徒困境的标准式(回忆并 画出支付矩阵)。 假设两个参与者要把这样一个同时行动博弈重 复两次,并且在第二次博弈开始之前可观测第一 次的结果。再假设整个过程博弈的收益等于两阶 段各自收益的简单相加(即不考虑贴现因素), 我们称这一重复进行的博弈为两阶段囚徒困境。
(二) 存在多个NE的有限次重复博弈
• 例1:三价博弈 故事:两生产同质商品的寡头。在两 寡头都是高价时市场总利润为10,都是 中价时市场总利润为6,都是低价时市场 总利润为2。两寡头同时决策,价格相同 时分享利润,否则低价者独占。
三价博弈
寡头2 M
0,6 3,3 2,0
H
寡 头 1 H M L