重复博弈

合集下载

4 重复博弈

1
2 3 1.5 1.5
混合策略
(A , B)
1.5
3
企业2得益
(1 , 4) (1.5 , 3) (3 , 3)
(2.5 , 2.5)
(2 , 2) (3 , 1.5) (4 , 1)
企业1得益
图各均衡策略的平均得益
三次重复
企业1

无条件策略=〉有条件策略

第一阶段选A; 如果第一阶段的结果是（A,A），则第二阶段选A; 如果第一阶段的结果是（A,B），则第二阶段选B; 第三阶段无条件选B。第一阶段选A; 第二阶段无条件选B; 如果第一阶段的结果是（A,A），则第三阶段选A; 如果第一阶段的结果是（B,A），则第三阶段选B。
平均得益=（99*3+4+1）/101=2.99
触发策略
博弈方之间首先试探合作，一旦发现对方不合作则也用不合作相报复，利用后续阶段博弈的制约作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问：能否用两次重复构造冷酷策略？如（A,A）、（A,B）
企业2

三次重复
如何证明为一条子博弈完美NE路径？
（A , A ）、（A , B ）、（B , A ）
平均得益=（3+1+4）/3=2.67
A A 企业1 B 企业2 B
3，3 4，1
1，4 0，0
推广到任意有限次
重复101次
企业1的策略是前99次都选A，但一旦发现哪次出现结果 (A,B)，则改选并坚持B到底，最后二次与三次重复的后两次一样；企业2的策略是前99次都选A，但一旦发现哪次出现结果 (B,A)，则改选并坚持B到底，最后二次与三次重复的后两次一样。

重复博弈

在有限次重复博弈中，如果原博弈存在唯一纯策略纳什均衡组合，则重复博弈的唯一子博弈完美纳什均衡解为各博弈方在每阶段都采取的原博弈纳什均衡策略由于完全理性的博弈方具有对“共同知识” 的分析推理能力，因此在从最后阶段开始的逆推过程中，仍然无法摆脱囚徒困境由于在这样的双方策略下，均衡路径中的每个阶段都不存在不可信的威胁或许诺，因此这种均衡是子博弈完美纳什均衡
重复博弈
定义：给定一个博弈G（静态或动态），若重复进行T次G，并且在每次重复之前各博弈方都能观察到以前博弈的结果，则称G有一个“T次重复博弈”，记为G(T) 其中，G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段重复博弈是一种特殊的动态博弈与静态和动态都有关系
本章主要结论由于参与者在重复博弈中具有了长期利益可通过在后阶段中的报复策略使威胁变得可信从而可能摆脱静态博弈中“追求自身利益最大化”导致的囚徒困境，实现长期合作
但是在后续阶段中只能得到古诺产量下的利润4，总收益： 5.0625＋4(δ ＋ δ*δ ＋…)＝ 5.0625＋4 δ /(1- δ) (2) 如果得益满足（1）大于（2），触发策略下保持合作的垄断产量将构成子博弈完美纳什均衡这要求：δ≥9/17
一般结论：在触发策略1中，如果满足条件 δ≥9/17，博弈方可以通过古诺产量作为威胁，迫使对方合作达成帕累托最优的垄断产量如果允许其它利润较低的可实现得益，相应的贴现系数要求是否可以降低（即博弈方是否可以不那么看重未来长期利益）？触发策略2：第一阶段生产q*，如果前(t－ 1)阶段结局都是(q*,q*)，那么继续生产q* ，否则采取纳什均衡的斗争能起到一种威慑作用，使进入者不敢再进入下一个市场但在有限次重复博弈中，斗争并不是一个可信的威胁设前 19 个市场已被进入，进入者现在要进入第20个市场因为在最后阶段斗争已没有任何威慑意义，在位者的最优选择是默许，进入者将选择进入

第十二讲重复博弈

如果不论对方选择什么，非理性囚徒总是选择D（合作），那么，合作均衡就不会出现，因为给定非理性囚徒总是选择D的情况下，C是理性囚徒的占优战略。
54
3 g = (a − c ) 8
2 i
i的最优利润为
2 i
9 2 π = (a − c ) 64
20
j 的冷酷策略：
（1）首先选择合作即生产量为（2）如果i选择 2 背叛即生产量为， i 则j将永远选择不合作。
1 g = (a − c ) 4
1 j
3 g = (a − c ) 8
21
企业i没有积极性偏离合作均企业没有积极性偏离合作均衡的条件为
ui = 50 + δ 50 + • • • + δ 1− δ = 50 1− δ
T T −1
50
7
定理1.设G是价格博弈，G（T）是 G重复博弈T，
• 如果G有唯一的纳什均衡， • 则G（T）的唯一子博弈精 • 炼纳什均衡是G的纳什均衡 • 重复T次。
8
例2，掷硬币游戏
正正反 -1，1 1，-1
34
特别地，
• 在有限次重复囚徒博弈中，每次都选择 “坦白”是每个囚徒的最优战略。 • 这一结果与人们的直观感觉不一致。 • 阿克斯罗德（ 1981）的实验结果表明，即 • 使在有限次重复博弈中，合作行为也频繁 • 出现。
35
二、悖论的破解：声誉模型
• 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊（1982） • 将不完全信息引入重复博弈 • 参与人对其他参与人支付函数或策略的不完全信息对均衡结果有重要影响， • 合作行为在有限次博弈中会出现，只要博弈重复的次数足够长（没有必要是无限的）。 • 特别地，“坏人”可能在相当长一段时期表现得像“好人”一样。

博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H，总得益现值为：
1
V 4 V
因此当 1/ 4时，此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理（弗里德曼，1971）
设G是一个完全信息的静态博弈，用(e1, , en )记G的纳什均衡得益，
用(x , 1
重复囚徒困境悖论和连锁店悖论
☻理论和实践的直觉矛盾，现实中寡头之间的价格战问题并不十分普遍，重复次数较大的实验研究的结果（重复200 次的囚徒困境）
☻泽尔腾(1978)，“连锁店悖论” （导论中的先来后到博弈），实际中对开头几个市场的进入者不计代价的打击
☻问题的症结与蜈蚣博弈类似，在于在较多阶段的动态博弈中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益：如果一常数作为重复博弈（有限次重复博弈或
无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2,相同的现在值，则称为1， 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5，5 6，0 2，0
厂商2
M 0，6 3，3 2，0
L
0，2 0，2 1，1
+3
厂H 商M 1L
H
8，8 7，1 3，1
厂商2 M
1，7 4，4 3，1
L
1，3 1，3 2，2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理

重复博弈的名词解释

重复博弈的名词解释重复博弈（Repeated Games）是博弈论中的一个重要分支，指的是在一定时间内重复进行相同博弈过程的一类博弈模型。

在重复博弈中，参与者的行为不再是仅基于当前回合的局部最优策略选择，而是考虑到未来回合的长期利益。

通过持续进行博弈，参与者可以互相观察对方过去的行为，并以此来调整自己的决策策略，进而达到一种稳定的合作或竞争姿态。

1. 重复博弈的基本特征重复博弈具有以下基本特征：1.1 时间维度：与一次性博弈（One-shot Games）相比，重复博弈将博弈过程拉长至多个时间回合，并通过观察对方的历史行为来调整策略选择。

1.2 互动性：重复博弈需要有多个参与者之间的相互作用，参与者的决策会受到对方决策的影响，并进一步影响对方的决策。

1.3 不完全信息：在重复博弈中，参与者对于对方的信息不完全，无法准确了解对方的策略选择和收益函数。

因此，参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。

2. 重复博弈的策略选择在重复博弈中，参与者的策略选择通常可以分为两种基本类型：协作（Cooperation）和背叛（Defection）。

2.1 协作策略：协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动，追求长期合作和互利利益最大化。

协作策略的核心是建立合作的声誉和信任，通过长期合作获得稳定收益。

2.2 背叛策略：背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动，追求个体利益最大化。

背叛策略的核心是以牺牲他人利益为代价，获得短期利益。

3. 重复博弈的平衡在重复博弈中，参与者通过观察对方过去的行为和收益来判断对方的策略选择，并以此为依据来调整自己的行动策略。

由于参与者之间的相互影响和信息不对称，重复博弈中存在多种平衡。

3.1 历史依赖平衡：指的是参与者根据对方过去的行为来决定自己的最优策略选择，并以此为依据来推测对方的未来行为。

通过建立声誉机制和信誉积累，在博弈的不同时间段实现稳定合作关系。

重复博弈的详细介绍

收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现率，无限的收1益，序2，列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益相等时的总收益
2 t1t t 1
重复博弈总收益
所以故
也称触发战略；
以囚徒困境为例：开始选择抵赖，而且一直选择抵赖直到有一方选择了坦白，然后永远选择坦白；
这意味着：一旦哪个参与人选择了坦白，就触发了惩罚的扳机。
根据上述原则，可构造如下战略：
01 S1：第一阶段选择M1；如果第一阶段结果为(M1， M2)，则下一阶段选R1；否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂的战略。但使爱克斯罗德和其他人深为吃惊的是，竞赛的桂冠属于其中最简单的战略：一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上来的战略。
2
一报还一报战略：它总是以合作开局，但从此以后就采取以其人之道还治其人之身的战略。也就是说，一报还一报的战略实行了胡萝卜加大棒的原则。
i
集合。若存在
G(, )
(x , x , , x ) 则存在贴现率，使无限重复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡，其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中，如果参与人具有足够的耐心（只要满足一定的条件），那么任何满足个人理性的可行收益向量都可以通过一个特定的

重复博弈

博弈论与信息经济学
1,重复博弈的定义及特征定义: (1) 定义: 重复博弈指同样结构的博弈重复多次, 其中每次博弈称为阶段博弈. (2) 特征: A,阶段博弈之间没有"物质"上的联系,即前一阶段的博弈不改变后一阶段博弈的结构; B,所有参与人都观测到博弈过去的历史; C,参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值.
(A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) 连续两次采用混合策略——(2,2) (A,B)+(B,A) OR (B,A)+(A,B)——(2.2,2.5)轮换策略一次纯策略+一次混合策略——(1.5,3)(3,1.5)
厂商2 得益
(1,4)
(1.5,3)
厂商2 厂商
π 1, 2 , 相同的现在值,则称π 为π 1, 2 , 的平均得益 π π
有限次重复博弈不一定考虑贴现因素无限次重复博弈必须考虑贴现问题π = (1 δ )∑ δ t 1π t
t =1 ∞
2010年7月15日3时11分
经济管理学院曹正勇
ห้องสมุดไป่ตู้
博弈论与信息经济学
定理1 (3)定理1
中得益的T 平均每阶段得益等于原博弈G中的得益. 在G中得益的T倍,平均每阶段得益等于原博弈G中的得益.
2010年7月15日3时11分经济管理学院曹正勇
博弈论与信息经济学
例2
2010年7月15日3时11分经济管理学院曹正勇
博弈论与信息经济学
3,无限次重复博弈 (1)特征无限次重复博弈的特征是不存在可作为最后一阶段的最后一次重复. 阶段的最后一次重复. (2)分析无限次重复博弈的难点一是普通的逆推归纳法无法直接运用; 一是普通的逆推归纳法无法直接运用; 二是在无限次重复中, 二是在无限次重复中,各博弈方的各阶段得益的总和常常是趋向无穷大的, 总和常常是趋向无穷大的,在分析无限次重复博弈时该用什么作判断依据. 时该用什么作判断依据.

第四章重复博弈

假设某参与人在无限次重复博弈的一个均衡路径上各阶段博弈的收益为πt，则该参与人无限次重复博弈的总收益（即各阶段收益的贴现值）为
PV 1 2 2 3 t 1 t
t 1
定义：给定一个博弈G，无限次重复进行G博弈的过程称为G的“无限次重复博弈”，记为 G(∞,δ)，其中δ是参与人收益的贴现系数（是所有参与人共同的贴现系数）。并且在进行第t阶段（第t次重复）博弈之前，参与人都能看到(t-1)阶段博弈的结果。各参与人在G(∞,δ)中的收益等于各阶段收益的贴现值。
4、子博弈完美纳什均衡参与人2的收益：
（1）参与人2不合作
U 5 1 1 1 5
2 3

1
（2）参与人2合作
V 4 V 4 V 1
（3）参与人合作的条件：V≥U
4 5 1 1 1 4
1 当 4
– 平均期望收益为（1.5，3）。
• 第一次是混合战略均衡，第二次是纯战略均衡(B, A)；
– 平均期望收益为（3，1.5）。
4、三次重复
–三次重复博弈中，除了有与上述类似的均衡战略组合外，还有以下战略可以构成子博弈完美纳什均衡
• 厂商1的战略：
第一阶段博弈选A；第二阶段的行动选择取决于第一阶段的结果第三阶段无条件选B。
参与人正确的战略就是在每次重复博弈中都采
用一次性博弈的纳什均衡策略。
三、有限次重复博弈—囚徒的困境
假设：
有两个惯犯，每次判刑都不是很重。在刑满释放之后再作案，作案之后再判刑；刑满释放之后又作案，如此反复。他们反复作案之后接受隔离审查过程就是一个重复博弈的过程。
重复两次：
逆向归纳法求解

重复博弈

重复博弈——平均得益
平均得益：如果一常数作为重复博弈（有限次重复博弈或无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2 ,相同的现在值，则称为 1， 2 ,的平均得益
有限次重复博弈不一定考虑贴现因素无限次重复博弈必须考虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
厂商2 H 8， 8 7， 1 3， 1 厂商2 M 1，7 4，4 3，1 L 1， 3 1， 3 2， 2
厂商 1
H M L
H 5，5 6，0 2，0
M 0，6 3，3 2，0 三价博弈
L 0， 2 0， 2 1， 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论：无论博弈重复多长时期，只要是有限次数的重复，合作都不可能达成！有限次的重复博弈，其均衡结果与一次性博弈的结果是完全一样的。
假设：货币存在时间价值，下一时期的1元
货币只能等于现在这一时期的元货币， 0< <1（因此被称为贴现因子）。假设任何参与人都采取如下对策：自己首先选择合作，如果观察到对方选择对抗，那么自己从下一个时期开始就永远选择对抗。如果每个观察到对方选择对抗，那么自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙合作甲合作对抗 5元，5元 10元，0元对抗 0元，10元 1元，1元
这个博弈实际上是一个囚徒困境博弈，因
为它具有囚徒困境一样的博弈结构，不管对方选择对抗还是合作，甲选择对抗总是更有利；当然乙也是一样的想法。（对抗，对抗）是惟一的纳什均衡。为什么不合作呢？
未来利益对当前行为的制约

@第4章重复博弈

*
*
*
最后这个不等式正是存在有效工资率，工作激励有效的基 131 本条件。
三、无限次重复博弈
（四）效率工资博弈
综上所述，在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下，双方的触发策略构成一个纳什均衡。而上述两式实际上意味着 1 y e w e (1 p)
131
（一）两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有限次重复博弈的结果并不会有什么不同，所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均衡。
三、无限次重复博弈
131
（二）唯一纯策略纳什均衡无限次重复博弈两种情况
三、无限次重复博弈
*
e
s
0
0
努力是工人的最佳选择。
反过来，设工人已采用上述触发策略。若厂商给的工资率满足上式条件，并且威胁一旦产量降低就解雇工人，则各阶段的得益为 y w，无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ，则解雇工人，以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
（二）唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4，4 5，0
0，5 1，1
该博弈一次性博弈均衡是都采用低价，是囚徒困境型博弈
三、无限次重复博弈
131
（二）唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”（P134）

重复博弈

1 P 1 e w e e 时，努力工作是工人 0 (1 P) (1 P) 的最佳选择，也就是说，要使工人努力工作，y w*不仅要包括工人个体收入 w0
* 当 Ve Vs ，即 w w0
1 e。和努力工作的负效用e，还要有一点升水 (1 P)

6 随即停止的重复博弈的期望得益现值：
E[ 1 ]

E[ 2 ]

E[ t ]

上述结果说明无限次重复博弈和随机停止博弈具有统一的表示形式。
7 重复博弈的几个重要理论成果
无纯策略混合策论有唯一纯策略
有纯策略有多个纯策略 T h：存在合作的可能 (Folk Theorem, Friedman,1971) 三价博弈两市场博弈
1 * e ，则只要各阶段得益 y w 0 ，厂商选择前述触 (1 P) * 发策略就是对工人触发策略的最佳反应。故在满足 y w 0 和工资率 w* w0 e 1 * e 时，双方触发策略构成一个纳什均衡。而 y w 0 (1 P) 1 * e 意味着工人努力工作产出减去努力工作的负效用和 w w0 e (1 P) w* w0 e
e越大，工资补偿越多；
越小，说明未来利益越不重要，工人更看重当前利益，当前工资也必须高；
P越高，工人丢饭碗的风险越小，除非工资更高，否则工人宁愿偷懒。计划经济体制下劳动者偷懒总是难以被发觉或无人认真发觉，工资又是固定在平均水平，无任何刺激，故工人必然倾向于偷懒。
* 而若工人已采用触发策略，则对工人的选择，厂商给的工资率 w 若满足

4 重复博弈

结果是具non-exploitability 的 TFT表现最好，tit-for-two-tats 只得到第24名，随机策略仍最差。

DEV1L: TFT 直至第 L回合. 采取 D 一次. 重新选择 C ，然后再回到TFT 局中人2有没有动机采取 DEV1L?
(TFT, TFT)
0
1
2 …
L
L+1
L+2
L+3 …
1: C 2: C
C C
C… C…
C C
C C
C C
C … C …
(TFT, DEV1L)
1: C 2: C
C C
C… C…
4. 重复博弈的三个特征

阶段博弈之间没有物质上的联系，也就是说，前一阶段的博弈不改变后一阶段的结构；所有参与人能观察到博弈过去的历史；参与人的总支付（报酬）是所有阶段博弈支付的贴现值之和；
5. 重复博弈的策略、子博弈和均衡路径

(1) 重复博弈的策略重复博弈中每个博弈方在每个阶段都必须进行策略选择，因此博弈方的一个策略就是在每次重复时, 针对其前面阶段所有可能的情况如何进行行动的计划。 (2) 重复博弈的子博弈重复博弈的子博弈就是从某个阶段（除第一阶段以外）开始，包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复博弈，只是重复的次数较少，要么就是原博弈。
第四章重复博弈
1. 基本概念

重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态博弈），重复进行T次G，并且在每次重复G之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G则称为G(T)的 “原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。

重复博弈

重复博弈重复博弈(Repeated Games)[什么是重复博弈顾名思义，重复博弈是指同样结构的博弈重复许多次，其中的每次博弈称为“阶段博弈”（stage games）[1]。

重复博弈是动态博弈中的重要内容，它可以是完全信息的重复博弈，也可以是不完全信息的重复博弈。

在重复博弈中，每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。

有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。

下面给出两个重要定义：定义1：可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。

定义2：如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。

在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。

[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系，也就是说，前一阶段的博弈不改变后一阶段的结构。

2、所有参与人观察到博弈过去的历史。

3、参与人的总得益是所有阶段博弈得益的贴现值之和。

如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以将自己的选择依赖于其他人之前的行动，因而有了更多的策略可以选择，均衡结果可能与一次博弈大不相同。

[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈，给出了一次性完全信息静态博弈的收益矩阵。

A、B两个参与人都有两种定价待选择：定高价或定低价。

博弈论重复博弈

(2.5,2.5)
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况，最佳结果（A，A）无法实现是因为两次博弈中博弈方没有运用触发策略的条件或机会
两市场博弈的重复博弈（重复三次）
厂商
A
1B
触发策略：
A 3，3 4，1
厂商2 B
1，4 0，0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略，则他在第一阶段所选
产量应为给定厂商1产量为1.5时，自己的最大利润产量，
即满足：
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
，此时利润为5.0625，高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行，但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复，因为博弈方对于博弈会重复进行的意识，会使他们对利益的判断发生变化，从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。
两市场博弈的重复博弈（重复101次）结果？
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均衡

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

重复博弈
刘峰 1105060144 司法1101班
重复博弈是一种特殊的博弈，在博弈中，相同结构的博弈重复多次，甚至无限次。

本文通过运用博弈论对企业合作行为的形成机理和实施条件进行了简要的剖析，最终认为重复博弈激励企业合作，同时企业合作是合作企业集体理性的结果。

“囚徒困境”在经济生活中具有很大的普遍性，在资源利用和环境保护，以及政治、军事和法律等各种领域的问题中，都存在类似的“囚徒困境”的现象。

“囚徒困境”中的参与人基于个体理性所作的选择，均衡解都是非合作的。

那么，经济理性的前提下，是否存在合作的博弈均衡呢？
考虑博弈对局反复进行多次的情况，结局可能会有所不同。

因为博弈如果只进行一次，参与人就只关心一次博弈的支付；但如果博弈将重复多次，短期机会主义行为的所得可能是微不足道的，参与人可能会为长期利益暂时牺牲眼前利益从而选择不同的策略。

在“囚徒困境”例子中，如果两人是一对经常合谋犯罪的惯犯，他们有一个长期的攻守同盟，被抓捕受审时就会考虑，这次我被判了，他下次他一定会报复我，共同抵赖的合作均衡就可能出现。

美国密执安大学的艾克赛罗教授曾邀请博弈论专家就“囚徒困境”提交计算机程序，以竞赛的方式决出最优程序，结果是一种被称作“针锋相对”的最简单的程序胜出。

这一程序以合作的策略开始，以后每一次选择都模仿对方上一次的选择，即如果对方合作，自己也选择合作，如果对方不合作，自己也立即选择不合作进行报复，如果对方“改过自新”重新采取合作的态度，自己也不计前嫌，继续与对方合作。

值得注意的是，从理论上说，“针锋相对”策略的胜出有一个十分重要的条件，即博弈是无限次重复的，也就是说，对局双方都预期这一博弈将永远持续下去，如果对局是有限次的话，上述结论将不再有效。

本文认为战略联盟是企业间在重复博弈的理性选择。

自从战略联盟的概念被提出以来，就受到了管理学界和企业界的广泛关注。

战略联盟一般是由具有共同利益关系的单位之间组成的合作共同体，他们可能是供应商、生产商、分销商之间形成的合作联盟，甚至是竞争者之间形成的合作联盟，战略联盟是企业间相互
博弈，形成集体理性，进行合作的结果。

假定有两个企业A和B每家企业有合作和竞争两种策略，支付矩阵如下图。

这个博弈也是一个囚徒困境。

如果两家都采取不合作的竞争策略，它们的利润都低于共同实施合作策略的结局，虽然合作能够产生更高的收益，但只要任何一方采取不合作的态度，主动合作的一方都会蒙受更大的损失，因此一次博弈的均衡结果只能是双方共同的占有优均衡：（竞争，竞争）。

如果这两个企业将长期垄断这一市场，博弈将重复进行下去，结局会有何不同呢？先来分析有限次博弈的情况。

假定对局的次数是N，我们从第N次即最后一次对局开始分析。

此时对企业A来讲，如果它是理性的，它会作如下推理：企业B采取的是“针锋相对”的策略，但现在是最后一次对局，即使我采取不合作竞争的策略，它也没有机会报复我了，而且我还可以从不合作竞争中获取更大的利润。

因此，企业A将在最后一次对局中采取不合作的竞争策略。

同样，企业B也是理性的，它也会做同样的分析和选择，而且理性的它还会进一步推理：既然企业A在第N次肯定不会与我合作，那么我在N-1次选择合作又有什么意义呢？我的合作态度是不会得到回报的。

因此企业B在N-1次对局中就会选择不合作竞争的策略。

反过来，企业A 也会做同样的推理，类似的推理还会发生在第N-2次、N-3次、……，直到第一次。

显然，在这种情况下，企业A和企业B都从一开始就选择不合作策略，因此，有限次博弈和一次性的博弈在本质上不会有什么区别，结局都是不合作的。

但是如果博弈是无限次重复的，具有经济理性的双方都清楚的知道，合作是对双方都有利的，如果自己不选择合作策略，对方一定也会选择不合作，结果是两败俱伤；如果自己选择合作策略而对方不合作，自己也有机会在下一次惩罚对方，因此，在无限次的重复博弈中，双方理性选择的结果完全可能产生合作均衡。

由于联盟企业有共同的战略目标和具有高度的战略价值认同感，因此能相互协调行动，形成协作动力，激励自己努力实现联盟目标。

另外在社会化大生产分工越来越细的现代经济社会，企业之间互相协作相互依赖的程度越来越大，资源
的匮乏和不合作的低效率促使企业间必须进行合作，在战略联盟内，虽然还存在着一定程度的竞争，但以合作取代竞争成为企业之间关系的主流，通过合作最大限度提高企业价值创造能力，达到双赢的效果。

如果仅为一次交易利益的最大化而过多损害交易双方的利益必然妨碍其长期利益的最大化，会使合作陷入困境，这是得不偿失的事。

因此尽管双方都有利己主义的动机，但在长期的博弈中，双方都采取合作的策略相互协调，不仅有利而且是有十分重要的现实意义。

重复博弈

4 重复博弈

重复博弈

第十二讲重复博弈

博弈论课件4重复博弈

重复博弈的名词解释

重复博弈的详细介绍

重复博弈

第四章 重复博弈

重复博弈

@第4章 重复博弈

重复博弈

4 重复博弈

重复博弈

博弈论重复博弈

第四章重复博弈

@第4章重复博弈