第四讲重复博弈(下)详解

合集下载

[经济学]4 重复博弈--博弈论

[经济学]4 重复博弈--博弈论

策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。

博弈论(重复博弈)

博弈论(重复博弈)
第四章 重复博弈 (p129~)
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集

B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0

重复博弈

重复博弈

在有限次重复博弈中,如果原博弈存在唯 一纯策略纳什均衡组合,则重复博弈的唯 一子博弈完美纳什均衡解为各博弈方在每 阶段都采取的原博弈纳什均衡策略 由于完全理性的博弈方具有对“共同知识” 的分析推理能力,因此在从最后阶段开始 的逆推过程中,仍然无法摆脱囚徒困境 由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺, 因此这种均衡是子博弈完美纳什均衡
重复博弈
定义:给定一个博弈G(静态或动态),若 重复进行T次G,并且在每次重复之前各博弈 方都能观察到以前博弈的结果,则称G有一 个“T次重复博弈”,记为G(T) 其中,G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段 重复博弈是一种特殊的动态博弈 与静态和动态都有关系
本章主要结论 由于参与者在重复博弈中具有了长期利益 可通过在后阶段中的报复策略使威胁变得 可信 从而可能摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作
但是在后续阶段中只能得到古诺产 量下的利润4,总收益: 5.0625+4(δ + δ*δ +…)= 5.0625+4 δ /(1- δ) (2) 如果得益满足(1)大于(2),触 发策略下保持合作的垄断产量将构 成子博弈完美纳什均衡 这要求:δ≥9/17
一般结论:在触发策略1中,如果满足条件 δ≥9/17,博弈方可以通过古诺产量作为 威胁,迫使对方合作达成帕累托最优的垄 断产量 如果允许其它利润较低的可实现得益,相 应的贴现系数要求是否可以降低(即博弈 方是否可以不那么看重未来长期利益)? 触发策略2:第一阶段生产q*,如果前(t- 1)阶段结局都是(q*,q*),那么继续生产q* , 否则采取纳什均衡的斗争能 起到一种威慑作用,使进入者不敢再进入 下一个市场 但在有限次重复博弈中,斗争并不是一个 可信的威胁 设前 19 个市场已被进入,进入者现在要进 入第20个市场 因为在最后阶段斗争已没有任何威慑意义, 在位者的最优选择是默许,进入者将选择 进入

第四章重复博弈详解

第四章重复博弈详解
t 1
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈

经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念

有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。

这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略

在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1

ch4 重复博弈

ch4 重复博弈

4.2.3多个纯策略纳什均衡的有限次重复博弈
一、三价博弈的重复博弈
厂商2 H 厂 商 1 H M L 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1 厂H 商M 1 L 厂商2 H 8,8 7,1 3,1 M 1,7 4,4 3,1 L 1,3 1,3 2,2
第四章
重复博弈
本章介绍基本博弈重复进行构成重复博弈。虽 然形式上是基本博弈重复,但重复博弈中博弈方行 为和博弈结果却不一定是基本博弈的简单重复,因 为博弈方对于博弈会重复进行的意识,会使他们对 利益的判断发生变化,从而使他们在重复博弈过程 中的行为选择受到影响。这意味着不能把重复博弈 当作基本博弈的简单叠加,必须把整个重复博弈过 程作为整体进行研究。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、 有限次重复的囚徒困境博弈

如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、 有限次重复的囚徒困境博弈
坦白 坦白 不坦白 不坦白
-5,-5
-8, 0
0,
-8
-1,-1
图4-1 囚徒困境

求解思路:对于有限次重复囚徒困境博弈,根据动态博 弈的逆推归纳法可以求解。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
一、有限次重复的囚徒困境博弈
两次重复三价博弈的等价模型
如果重复n次,结论相似。采用触发策略实现比较好的结果, 子博弈完美纳什均衡路径为:除了最后一次外,每次都采用 (H,H),最后一次采用(M,M)。当重复次数较多时, 平均得益接近于一次性博弈中(H,H)的得益(5,5)。

博弈论课件4重复博弈

博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理

重复博弈的详细介绍

重复博弈的详细介绍

收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现 率 ,无限的收1益,序2,列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益 相等时的总收益
2 t1t t 1
重复博 弈总收益
所以 故
也称触发战略;
以囚徒困境为例:开始 选择抵赖,而且一直选 择抵赖直到有一方选择 了坦白,然后永远选择 坦白;
这意味着:一旦哪个参 与人选择了坦白,就触 发了惩罚的扳机。
根据上述原则,可构造如下战略:
01 S1:第一阶段选择M1;如果第一阶段结果为(M1, M2),则下一阶段选R1;否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂 的战略。但使爱克斯罗德和其他人深为吃惊的是,竞赛 的桂冠属于其中最简单的战略:一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上 来的战略。
2
一报还一报战略:它总是以合作开局,但从此以后就采 取以其人之道还治其人之身的战略。也就是说,一报还 一报的战略实行了胡萝卜加大棒的原则。
i
集合。 若存在
G(, )
(x , x , , x ) 则 存 在 贴 现 率 , 使 无 限 重 复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡,其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中,如果参与人具有足够的耐心(只要满足一定的 条件),那么任何满足个人理性的可行收益向量都可以通过一个特定的

第四讲重复博弈详解

第四讲重复博弈详解
1
重复博弈和信誉问题


如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础

经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础

但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:

博弈论以及应用之4重复博弈

博弈论以及应用之4重复博弈

重复博弈分类

无限次重复博弈

给定一个基本博弈G重复无限多次,记为G(∞)。 重复的次数是有限的,但是具体结束时间是不确定的,每一 阶段都有可能结果博弈。

随机结束重复博弈


重复博弈特点



各阶段相互独立,前阶段博弈不会改变后阶段博弈的结构 所有局中人都能看到博弈历史 参与人的收益等于各阶段收益的贴现值之和或加权平均
22
4.2 有限次重复博弈

两市场博弈的重复博弈

重复三次

触发机制



厂商1:第一阶段,选择A;如果第一阶段结果为(A, A),那么 第二阶段选择A;如果第一阶段结果为(A, B),那么第二阶段选 择B;第三阶段无条件选择B。 厂商2:第一阶段,选择A;第二阶段无条件选择B;如果第一 阶段结果为(A, A),那么第三阶段选择A;如果第一阶段结果为 (A, B),那么第三阶段选择B。 子博弈精炼纳什均衡为(A ,A), (A, B), (B, A),双方平均收益分 别为(2.67, 2.67),较重复两次有提高,验证了猜想!
T M
L 3, 1 2, 1 1, 2
C 0, 0 1, 2 1, 1
R 5, 0 3, 1 4, 4
B
2013-8-4104.2 有 Nhomakorabea次重复博弈

多重纳什均衡博弈的有限次重复博弈

阶段博弈的纳什均衡
用画线法容易求得纯战略纳什均衡为(3,1)和(1,2)。 根据奇数定理,很可能还有一个混合战略纳什均衡。求解可 得混合战略纳什均衡为((1/3, 1/2, 1/6), (1/5, 3/5, 1/5)),其中局 中人1的收益为8/5,局中人2的收益为7/6。

重复博弈

重复博弈

重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约

重复博弈概述

重复博弈概述
重复博弈是博弈论中的一个重要概念,指的是同一个博弈进行多次的过程。根据重复的次数,重复博弈可分为有限重复博弈和无限重复博弈。在重复博弈中,参与者需要考虑将来可信的重要区别。有限重复博弈中,即使博弈重复进行有限次,合作行为也可能难以达成,因为参与者可能会为了短期利益而背离合作。重复博弈的定义基于阶段博弈的多次重复,每次博弈的结果在下一轮开始前都可被观测到,并且这些结果将累加作为最终收益。在重复博弈的分析中,子博弈精炼解是一个核心概念,它要求在每个子博弈中都达到均衡,从而确保整个重复博弈过程的稳定性和可预测性。通过对重复博弈的研究,可以更深入地理解合作与竞争的关系,以及如何在长期关系中制定有效的策略。

重复博弈的详细介绍

重复博弈的详细介绍

考察下列博弈
L2
2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
R1 0,0 0,0 3,3
• 单阶段Nash均衡: (L1 , L2)和(R1, R2);
• 合作均衡:(M1,M2);
• 问题:合作均衡能否出现?
2
L2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以

2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0

4 重复博弈

4 重复博弈

结果是具non-exploitability 的 TFT表现最好,tit-for-two-tats 只得到第24名,随机策略仍最差。

DEV1L: TFT 直至第 L回合. 采取 D 一次. 重新选择 C ,然后再回到TFT 局中人2有没有动机采取 DEV1L?
(TFT, TFT)
0
1
2 …
L
L+1
L+2
L+3 …
1: C 2: C
C C
C… C…
C C
C C
C C
C … C …
(TFT, DEV1L)
1: C 2: C
C C
C… C…
4. 重复博弈的三个特征



阶段博弈之间没有物质上的联系,也就 是说,前一阶段的博弈不改变后一阶段 的结构; 所有参与人能观察到博弈过去的历史; 参与人的总支付(报酬)是所有阶段博 弈支付的贴现值之和;
5. 重复博弈的策略、子博弈和均衡路径


(1) 重复博弈的策略 重复博弈中每个博弈方在每个阶段都必须进行 策略选择,因此博弈方的一个策略就是在每次 重复时, 针对其前面阶段所有可能的情况如何 进行行动的计划。 (2) 重复博弈的子博弈 重复博弈的子博弈就是从某个阶段(除第一 阶段以外)开始,包括此后所有阶段的重复博 弈部分。重复博弈的子博弈要么仍然是重复博 弈,只是重复的次数较少,要么就是原博弈。
第四章 重复博弈
1. 基本概念

重复博弈:给定一个基本博弈G(可以 是静态博弈,也可以是动态博弈), 重复进行T次G,并且在每次重复G之前 各博弈方都能观察到以前博弈的结果, 这样的博弈过程称为“G的T次重复博 弈”,记为G(T)。而G则称为G(T)的 “原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。

4 重复博弈

4 重复博弈

• 重复博弈可以看做是存在同时行动的扩 展式博弈。
4. 策略
• 每阶段行动的组合
策略的表示
• 假设局中人存在两种状态,C或者D。
• 冷酷策略(grim/trigger strategy): • 最初状态为 C。一旦对方在某一阶段选 择了D,那么,在下一个阶段也选择D, 并永远保持下去。
• 可以用下图表示.
• k ≥ 2, δ 足够大,有限惩罚足以促成合 作.
无限次重复博弈的子博弈 完美纳什均衡
• 子博弈完美纳什均衡(SPE): 对于任何 子博弈而言, 局中人不能通过改变子博弈 中最初的行动以增加收益。
• (1) 冷酷策略 • 假定最初的结果为 (C, D).
• 给定对方选择冷酷策略,那么局中人坚 持冷酷策略是最优的吗?
• 如果局中人1在子博弈第1阶段选择 D , 然后坚持TFT,那么结果为 (D, D) ,平 均收益为 1.
• 共四种状况 (C, C), (C, D), (D, C), (D, D).
• 对于而言 (C, C)分析与整个博弈的纳什 均衡分析完全相同: • 如果δ ≥ 1/2, TFT为最优反应.
• 接下来考虑 (C, D)之后的子博弈。
• 假定局中人2坚持TFT. 如果局中人1坚持 TFT,那么结果是在 (D, C) 和 (C, D)之 间进行交替。局中人1的平均收益为:
• 接下来,局中人2面临着与博弈初始处完 全相同的状况。
• 坚持不偏离的收益贴现均值是:
• 偏离后贴现收益均值是:
• 不偏离的条件如下:
• 如果k = 1 , 那么任何小于1的δ 都无法 满足上述不等式: 一阶段的惩罚不足以阻 止偏离, 无论局中人的耐心有多大。
• 如果 k = 2 ,要求 δ ≥ 0.62才会不偏离; • 如果 k = 3 ,要求 δ ≥ 0.55. • K增加后, δ 下限为 ½ , 下限表示的是冷 酷策略.

博弈论:4重复博弈

博弈论:4重复博弈
对任意博弈方i都成立,而足够接近1,那么无限
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?

第四讲 重复博弈(下)

第四讲 重复博弈(下)

• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 0
0,0
0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈


不招 -5,-13 -6,-6

甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 00,0Fra bibliotek0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
2、后续阶段中包含着奖励和惩罚机制:选M可 以奖励对方,选L可以惩罚对方。因为(M,M) 和(L,L)都是阶段博弈的NE,所以奖励和惩 罚都是可信的。
考虑如下抽象博弈: L 1,1 参与人2 M R P Q 5,0 0,0 0,0 0,0
L
参 与 人 1
M 0,5 R P Q 0,0 0,0
4,4
第一阶段的行动组合是(M,M),则第二阶段的行动组 合将是(R,R);第一阶段的行动组合是(M,X)或(X, M),则第二阶段的行动组合将是(P,P)或(Q,Q);第 一阶段的行动组合为其它,则第二阶段还是(R,R)。
三、无限次重复博弈
无限次重复博弈与有限次重复博弈的异同: 1、没有最后一阶段博弈; 2、不可忽略贴现问题 3、都可能通过惩罚来实现理想的均衡。
证明
第二阶段( M,M )是原博弈的纳什 均衡,参与人的行为不会发生偏离。第 一阶段( H,H )虽然不是原博弈的纳什 均衡,单独偏离为M能增加1单位支付, 但这样做第二阶段要损失2,因而不会偏 离(H,H)。
这就证明了该策略组合是子博弈完美的。从这 条均衡路径中看到:将来利益对当前的选择有 约束。 这种策略有2个特点: 1、第一阶段选H,试探合作。 机会主义
• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
表2
囚徒困境博弈


不招 0,-8 -1,-1

甲 不招
-5,-5 -8,0
(这样一个博弈重复进行2次)
而在两阶段囚徒困境中,第二阶段的NE可以完全 不依赖于第一阶段的结果。 分析时要注意3点: 1 逆推归纳法backwards-induction
2 参与人在第二阶段行动只须考虑该阶段的 利益最大化,因为无须“瞻前顾后”。 3 分析第一阶段时,可把第二阶段的均衡结 果下的支付值叠加到第一阶段的相应支付值上。
触发策略(trigger strategy)
假设寡头采取触发策略(trigger strategy),即开始选择合作,如果对方也合 作,就一直合作;但在博弈中一旦发现对方 不合作,就永远选择报复,不合作。 寡头 1 ,第一次选 H. 如果第一次结果为 (H,H), 则第二次选M;否则选L. 寡头2:同上。 子博弈精炼纳什均衡结果是:第一阶段 (H,H),第二阶段(M,M)。
第四讲 重复博弈(下)
一、有限次重复博弈 (以two-stage repeated games为例) (一)阶段博弈只有唯一NE 考虑曾经给出的囚徒困境的标准式(回忆并 画出支付矩阵)。 假设两个参与者要把这样一个同时行动博弈重 复两次,并且在第二次博弈开始之前可观测第一 次的结果。再假设整个过程博弈的收益等于两阶 段各自收益的简单相加(即不考虑贴现因素), 我们称这一重复进行的博弈为两阶段囚徒困境。
(二) 存在多个NE的有限次重复博弈
• 例1:三价博弈 故事:两生产同质商品的寡头。在两 寡头都是高价时市场总利润为10,都是 中价时市场总利润为6,都是低价时市场 总利润为2。两寡头同时决策,价格相同 时分享利润,否则低价者独占。
三价博弈
寡头2 M
0,6 3,3 2,0
H
寡 头 1 H M L
相关文档
最新文档