无限重复博弈

合集下载

重复博弈的经典例子

重复博弈的经典例子重复博弈的经典例子在经济学和游戏理论中，博弈论是一种非常重要的分析工具。

它通过对智力游戏、竞争和合作等情境的描述，来研究参与者的行为和决策方式，以及他们的利益。

其中，重复博弈是一种经典的博弈类型，透露了很多有趣的现象和策略。

本文就将介绍其中的两个典型例子。

例子一：囚徒困境囚徒困境是博弈论史上最著名的例子之一。

它描述了两名罪犯在审讯时的选择。

如果他们都保持沉默，那么他们各被判三年徒刑；如果其中一个人背叛了另一个人并供出了他的罪行，那么背叛者将被判无期徒刑而另一个人将被无罪释放；如果两个人都背叛了对方，那么都将被判十年徒刑。

显然，各自为政并不能得到最好的结果，但是如果双方都不信任彼此，那么无法避免地会被卷入恶性循环，陷入坏的局面。

所以，如何打破僵局，达到合作互惠的结果呢？答案是，在重复博弈的前提下，让双方建立起稳定的信任关系，并通过稳健的策略来激励对方合作。

比如，如果一方合作另一方背叛，那么背叛者的惩罚应该比另一方少，这样可以让背叛者看到合作的好处；如果另一方也背叛了，那么惩罚应该更大，从而降低背叛的动机。

这种实验表明，人们在重复博弈中往往会采取长远最大化利益的策略，而不是只考虑眼前的利益。

例子二：公共产品的提供公共产品是指对所有人都有益处，但是没有私人市场提供或者通过个人机会成本无法享受的产品，比如环保、文化教育等。

由于公共产品的自由乘坐，导致许多人往往倾向于“裹着麻袋过河”，即只享受公共产品的好处而不出任何力气来投资。

这样，公共产品会出现供给不足的情况，逐渐凋零。

那么，如何解决公共产品的提供问题呢？重复博弈可以给出一些帮助。

假设每个人都可以选择投资或不投资，而且每个人都可以看到其他人的决策；如果有足够多的人投资了，那么所有人都可以获得好处；如果投资的人太少了，那么所有人都得不到好处。

那么，如何让更多的人参与投资呢？答案是，通过适当设定利益偏好，比如对投资者给予优惠，以鼓励更多的人来投资。

博弈论(第四章)

谢富纪 2009年3月 11
2.有限次重复博弈
有唯一纯策略纳什均衡博弈的有限次重复博弈
有限次重复博弈的囚徒困境博弈，可以理解成警察给两人两次交代的机会。
囚徒2 坦白不坦白
囚徒 1
坦白
不坦白
-5， -5
-8， 0
0， -8
-1， -1
谢富纪 2009年3月
12
2.有限次重复博弈
因为重复博弈全过程是一种动态博弈过程，从第二阶段开始。此前的博弈已是既成的事实，而在此后又没有任何的后继阶段，因此实现本阶段最大利益是两博弈方在该阶段的唯一原则。结果是（坦白，坦白），
谢富纪 2009年3月
29
2.有限次重复博弈
本博弈中之所以不能或不能部分实现最佳结果
（A，A），是因为在两次重复博弈中博弈方没
有运用触发策略的条件或者说机会。后面的选择并不取决于第一次博弈的结果。
谢富纪 2009年3月
30
2.有限次重复博弈
厂商2 得益
（1，4）（1.5，3）（3，3）
谢富纪 2009年3月
17
2.有限次重复博弈
削价竞争博弈
高价寡高价头 1 低价
寡头2
低价
100，100 20，150 150，20 70，70
由于两个寡头在同一市场的竞争可以看作维持很长时间，因此可以看作是重复博弈。然而结果是令人遗憾的。
谢富纪 2009年3月 18
2.有限次重复博弈
两个悖论
谢富纪 2009年3月
27
2.有限次重复博弈
两市场博弈的重复博弈
厂商 2 A 厂A 商 1 B B
3，3
1，4
4，1
0，0

重复博弈

在有限次重复博弈中，如果原博弈存在唯一纯策略纳什均衡组合，则重复博弈的唯一子博弈完美纳什均衡解为各博弈方在每阶段都采取的原博弈纳什均衡策略由于完全理性的博弈方具有对“共同知识” 的分析推理能力，因此在从最后阶段开始的逆推过程中，仍然无法摆脱囚徒困境由于在这样的双方策略下，均衡路径中的每个阶段都不存在不可信的威胁或许诺，因此这种均衡是子博弈完美纳什均衡
重复博弈
定义：给定一个博弈G（静态或动态），若重复进行T次G，并且在每次重复之前各博弈方都能观察到以前博弈的结果，则称G有一个“T次重复博弈”，记为G(T) 其中，G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段重复博弈是一种特殊的动态博弈与静态和动态都有关系
本章主要结论由于参与者在重复博弈中具有了长期利益可通过在后阶段中的报复策略使威胁变得可信从而可能摆脱静态博弈中“追求自身利益最大化”导致的囚徒困境，实现长期合作
但是在后续阶段中只能得到古诺产量下的利润4，总收益： 5.0625＋4(δ ＋ δ*δ ＋…)＝ 5.0625＋4 δ /(1- δ) (2) 如果得益满足（1）大于（2），触发策略下保持合作的垄断产量将构成子博弈完美纳什均衡这要求：δ≥9/17
一般结论：在触发策略1中，如果满足条件 δ≥9/17，博弈方可以通过古诺产量作为威胁，迫使对方合作达成帕累托最优的垄断产量如果允许其它利润较低的可实现得益，相应的贴现系数要求是否可以降低（即博弈方是否可以不那么看重未来长期利益）？触发策略2：第一阶段生产q*，如果前(t－ 1)阶段结局都是(q*,q*)，那么继续生产q* ，否则采取纳什均衡的斗争能起到一种威慑作用，使进入者不敢再进入下一个市场但在有限次重复博弈中，斗争并不是一个可信的威胁设前 19 个市场已被进入，进入者现在要进入第20个市场因为在最后阶段斗争已没有任何威慑意义，在位者的最优选择是默许，进入者将选择进入

重复性博弈

但在重复性博弈中，情况有所不同。双方知道，如果我降价，对方一定会降价，可能降得还更惨，对方要置我于死地而后快；如果我采取合作态度，对方很可能也会合作。
为什么我不首先采取合作态度——把价格定在垄断价格呢？
© 2011-13 王秋石
3/100
重复性博弈：日常生活
在公交车上，我们很少为素不相识的乘客买车票，因为这大凡是一次性博弈。
无限次重复性博弈就是可以无限次数地、重复性地玩的一种博弈。
© 2011-13 王秋石
7/100
有限次重复性博弈
假定我们知道囚犯困境博弈只玩十次，现在就是最后一次，结果会如何呢？最后玩的那次博弈就像只玩一次的博弈。因此，两者的结果应该是相同的。
第九轮会如何呢？我们已知在第十轮双方都会承认犯罪，为什么在第九轮就要合作呢？
在囚犯困境的重复性博弈中，大家都清楚地知道，合作的巨大收益提供了合作的正面激励，对方的有效威胁和潜在伤害则提供了合作的负面激励。
© 2011-13 王秋石
2/100
重复性博弈：价格
在固定价格的一次性博弈中，哪怕有约在先，双方都保持垄断价格同时分享市场需求，最后的均衡为各自采用竞争性价格获得零经济利润。
无限次重复性博弈所形成的合作均衡解并不是稳定的，它较为容易被打破。
© 2011-13 王秋石
9/100
序列博弈
到目前为止所讨论的博弈都是两个选手要同时选择策略。例如，在古诺模型中，两家企业同时决定产量。
在序列博弈中，选手们按先后顺序进行选择。因此，序列博弈就是选手依次出招的博弈。
30/100
可信的威胁
© 2011-13 王秋石
31/100
可信的威胁

完整版)博弈论知识点总结

完整版)博弈论知识点总结博弈论是研究决策主体在相互作用中做出的决策以及均衡问题的学科。

该学科的研究假设包括：1）决策主体是理性的，会尽可能地最大化自己的收益；2）完全理性是共同知识；3）每个参与者都能对环境和其他参与者的行为形成正确的信念和预期。

博弈中涉及到的变量包括：参与人、行动、战略和信息。

完全信息指每个参与人都了解其他参与人的支付函数，而完美信息则指在博弈过程中，每个参与人都能观察和记忆之前的行动选择。

不完全信息则表示参与人没有完全掌握其他参与人的信息，存在不确定性因素。

博弈与传统决策的区别在于，博弈是决策主体之间的相互作用，需要考虑其他决策者的选择和效用函数。

博弈的表示形式包括战略式博弈和扩展式博弈，其中战略式博弈适用于描述不需要考虑博弈进程的完全信息静态博弈问题，而扩展式博弈则更适用于描述动态博弈问题。

与战略式博弈不同，扩展式博弈更注重参与者在博弈过程中面临的决策问题的序列结构分析，而不是仅关注博弈结果的描述。

扩展式博弈包括参与人集合、参与人的行动顺序、序列结构和参与人的支付函数等要素。

战略式博弈是一种静态模型，而扩展式博弈是一种动态模型。

博弈论可以分为合作博弈和非合作博弈，其中合作博强调团体理性、团体最优决策和效率，而非合作博弈强调个人理性和个人最优决策。

根据参与人行动先后顺序的不同，博弈可以分为静态博弈和动态博弈，后者包括先行动者获得先行动者行动信息的情况。

根据参与人对信息的掌握程度，博弈可以分为完全信息和不完全信息博弈。

根据决策主体对信息的掌握程度和行动的先后顺序，博弈可以分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。

不同类型的博弈有不同的均衡类型和求解方法，顺序的不同也会影响均衡结果。

Hotelling价格竞争模型是一种重要的扩展式博弈，用于描述两个企业在同一市场上的价格竞争。

相对应。

占有均衡是指在博弈中存在一组参与人的战略选择，使得每个参与人都无法通过改变自己的战略来提高自己的支付。

博弈论四种类型

类型
信息和行动特点
均衡
均衡类型
特别均衡
求解方法
学过的例子
性质
完全信息静态博弈
每个参与人对其他所有参与人的特征、战略空间及支付函数有精确的了解，博弈开始时不存在不确定性因素，参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。战略和行动相同。
纳什均衡
纯战略纳什均衡(PNE)
占优战略纳什均衡（DSE）
箭头法
划线法
Hotelling价格竞争
库诺特价格竞争
多重性和存在性
重复剔除的占有均衡(IFDE)
不断剔除劣战略（弱劣战略的剔除顺序会影响均衡结果
一般一个博弈中存在参与者有多个行动时可以先考虑能否剔除弱战略简化博弈
混合战略纳什均衡(MNE)
聚点均衡
支付最大化法
支付等值法
社会福利博弈
小偷－守卫博弈
完全信息动态博弈
精炼贝叶斯纳什均衡
信号传递博弈
分离均衡
根据所得信息修正判断概率，根据收益最大化决策
信号传递博弈
不完全信息重复博弈与声誉
Milgrom-Roberts垄断限价模型
不完全信息动态博弈子博弈精炼纳什均衡与海萨尼不完全信息静态博弈贝叶均衡
贝叶斯纳什均衡
混合战略（不完全信息情况下纯战略均衡的极限）
对原混合战略加入少许不确定性因素，求极限。
性别战
1、均衡存在性
2、不确定性体现为类型的不确定性
一般贝叶斯均衡
Harsanyi转换
机制设计
不完全信息动态博弈
在博弈开始前参与人之间的信息存在不确定性，同时参与人行动存在先后顺序。不完全信息动态博弈过程不仅是参与人选择行动的过程，而且是参与人不断修正信念的过程。

重复博弈的详细介绍

收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现率，无限的收1益，序2，列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益相等时的总收益
2 t1t t 1
重复博弈总收益
所以故
也称触发战略；
以囚徒困境为例：开始选择抵赖，而且一直选择抵赖直到有一方选择了坦白，然后永远选择坦白；
这意味着：一旦哪个参与人选择了坦白，就触发了惩罚的扳机。
根据上述原则，可构造如下战略：
01 S1：第一阶段选择M1；如果第一阶段结果为(M1， M2)，则下一阶段选R1；否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂的战略。但使爱克斯罗德和其他人深为吃惊的是，竞赛的桂冠属于其中最简单的战略：一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上来的战略。
2
一报还一报战略：它总是以合作开局，但从此以后就采取以其人之道还治其人之身的战略。也就是说，一报还一报的战略实行了胡萝卜加大棒的原则。
i
集合。若存在
G(, )
(x , x , , x ) 则存在贴现率，使无限重复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡，其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中，如果参与人具有足够的耐心（只要满足一定的条件），那么任何满足个人理性的可行收益向量都可以通过一个特定的

第四章重复博弈.

4.1.1 为何研究重复博弈

普遍存在性：经济中的长期关系

与一次性博弈的差异：未来利益对当前行为的制约
与动态博弈的差异：各阶段有独立的选择和利益
短期关系中缺乏形成某种默契或合作关系，或通过报复、制裁的威胁，约束相互行为，追求共同利益的机会
4.1.2 基本概念

有限次重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态博弈），重复进行T次G，并且在每次重复G 之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。无限次重复博弈：一个基本博弈G一直重复进行下去的博弈，记为G( )—没有可以预见的结束时间，主观上认为会不断进行策略：博弈方在每个阶段针对每种情况如何行为的计划子博弈：从某个阶段（不包括第一阶段）开始，包括此后所有的重复博弈部分均衡路径：由每个阶段博弈方的行为组合串联而成
可以运用触发策略实现较好的结果厂商2 厂商 1 H M L H 5，5 6，0 2，0 M 0，6 3，3 2，0 三价博弈 L 0，2 0，2 1，1 厂 H 商 M 1 L H 8，8 7，1 3，1 厂商2 M 1，7 4，4 3，1
L 1，3 1，3 2，2
两次重复三价博弈的等价模型
触发策略：两博弈方先试探合作，一旦发现对方不合作则也用不合作报复博弈方1：第一次选H；如第一次结果为(H,H)，则第二次选M，否则选L 博弈方2：同博弈方1 子博弈完美纳什均衡路径：第一阶段(H,H)，第二阶段(M,M)

采用触发策略：π*/(1-δ) 第一阶段偏离：此时厂商2最优产量q2=(6-q*)/2,得益 πd=(6-q*)2/4，无限次博弈得益现值为

重复博弈

重复博弈——平均得益
平均得益：如果一常数作为重复博弈（有限次重复博弈或无限次重复博弈）各个阶段的得益，能产生与得益序列
1， 2 ,相同的现在值，则称为 1， 2 ,的平均得益
有限次重复博弈不一定考虑贴现因素无限次重复博弈必须考虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
厂商2 H 8， 8 7， 1 3， 1 厂商2 M 1，7 4，4 3，1 L 1， 3 1， 3 2， 2
厂商 1
H M L
H 5，5 6，0 2，0
M 0，6 3，3 2，0 三价博弈
L 0， 2 0， 2 1， 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论：无论博弈重复多长时期，只要是有限次数的重复，合作都不可能达成！有限次的重复博弈，其均衡结果与一次性博弈的结果是完全一样的。
假设：货币存在时间价值，下一时期的1元
货币只能等于现在这一时期的元货币， 0< <1（因此被称为贴现因子）。假设任何参与人都采取如下对策：自己首先选择合作，如果观察到对方选择对抗，那么自己从下一个时期开始就永远选择对抗。如果每个观察到对方选择对抗，那么自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙合作甲合作对抗 5元，5元 10元，0元对抗 0元，10元 1元，1元
这个博弈实际上是一个囚徒困境博弈，因
为它具有囚徒困境一样的博弈结构，不管对方选择对抗还是合作，甲选择对抗总是更有利；当然乙也是一样的想法。（对抗，对抗）是惟一的纳什均衡。为什么不合作呢？
未来利益对当前行为的制约

无限重复博弈

对于严厉触发策略，实际上只有两类子博弈——（1）在首t个阶段重复采用（n, n）之后的子博弈，和（2）其它的子博弈。对于类型（2），策略明确说明从此以后都采用（c, c）。在这个子博弈里面，它的确是纳什均衡。没有一个局中人能在任何阶段通过取n来对付c从而增加自己的盈利；而且，他不会改变今后预期的行动方式。
T 1 5 7 T 1 [5 5 5 2 ] 7 1
但是，继续采用提出的不认罪行为产生了5的无限序列，即，终身盈利为 5
1 5(1 T 1 ) 7 或者等价地 1 那么触发是确实有效的。当折扣因子接近于1，公式的左边近似地为5(T + 1）。因此，当未来重要时——即，当接近于1时——即使一个周期的惩罚——即，即使 T义。临界触发策略定义为一个数，比如m。局中人由取（n, n）开始，并且如果两个局中人在每一阶段的盈利保持在m之上，则继续这样做。两者之中任一个盈利第一次掉到m 以下时，局中人持续T阶段取（c, c）；然后重新开始此策略。 •触发越严厉，即， T 越高，这个策略越有可能成为均衡。 •触发越严厉或者越迅速（ m 越高），策略越无利可图。
严厉的触发策略由两个部分组成：第一，存在严厉的惩罚，永远地（c, c）下去。第二，存在可取的“好人”行为，永远地（n, n）。对可取行为的任何背离会触发惩罚。如果足够地大，那么严厉惩罚是十足的威慑以及“好人”行为是可以如愿以偿的。 • 严厉惩罚的威慑也可以有助于实现其他行为。 • 伴随不同的（和不太苛刻的）惩罚， “好人”行为也许是可实现的。
所有可能的行为都是均衡行为在任何均衡中，每一个局中人在循环上的盈利必定至少为零。该陈述是正确的，因为每一个局中人可以使自己的盈利高于在每一阶段完全地都认罪。无名氏定理的结果指出了对于均衡来说，正盈利不仅是必要的，而且也是充分的；每一个具有正盈利的行为循环都是关于高值的均衡。考虑所有的盈利你也许认为，只考虑循环，我们排斥了一定类型的行为。虽然是的确如此，然而这种限制并不造成损失，因为我们并没有排斥任何可能的盈利。说明一下，从盈利到行为循环的一个考虑方法是利用它的每一阶段平均盈利，。当我们察看不同的行为循环时我们得到不同的每阶段平均盈利。假如我们察看的行为不是循环。这种型式当然也有它的每阶段平均盈利。得到的结论是，不管这个每阶段平均盈利等于多少，总存在一个行为循环恰好具有与它相同的每阶段平均盈利。

无限重复完全信息博弈的例子

无限重复完全信息博弈的例子【篇一：无限重复完全信息博弈的例子】四完全信息重复博弈(完整版)博弈博弈完全信息重复博弈【故事1：《笑林广记》有一个人去理发铺剃头，剃头匠给他剃得很草率。

剃完后，这人却付给剃头匠双倍的钱，什么也没说就走了。

一个多月后的一天，这人又来理发铺子剃头。

剃头匠还记得他上次多付了钱，觉得此人阔绰大方，为讨其欢心，多赚点钱，便竭力上心，周到细致，多用了一倍的功夫。

剃完后，这人便起身付钱，反而少给了许多钱。

剃头匠不愿意，说“上次我为您剃头，剃得很草率，您尚且给了我很多钱；今天我格外用心，为何反而少付钱呢？”这人不慌不忙地解释道：“今天的剃头钱，上次我已经付给你了；今天给你的钱，正是上次的剃头钱。

”说完大笑而去。

两人缓缓地走到山脚下，回头只见夕阳在山，照得半天云彩红中泛紫，蓝天薄雾衬着山顶积雪，实是美艳难以言宣，两人想到在世之时无多，对这丽景更是留念。

龙女痴痴的望了一会，忽问：“你说人死之后，真要去阴世，真是有个阎罗王么？”杨过道：“但愿如此。

阴世便有刀山油锅诸般苦刑，也还是阴世的好。

否则，渺渺茫茫，咱俩可永远不能相见聚会了。

”小龙女道：“是啊，但愿得真有个阴世才好。

听说黄泉路上有个孟婆，她让你喝一碗汤，阳世种种你便尽都忘了。

这碗汤啊，我可不喝。

过儿，我要永永远远记得你的恩情。

”她善于自制，虽然心中悲伤，语气还是平平淡淡。

杨过却实在忍耐不住了，转过身去，拭了拭眼泪。

小龙女叹道：“幽冥之事，究属渺茫，能够不死，总是不死的好。

”。

两人又行一阵，在一片草地上坐了下来。

小龙女道：“你还记得那日拜我为师的情景么？”杨过道：“怎不记得？”小龙女道：“你发过誓，说这一生永远听我的话，不管我说什么，你总是不会违拗。

”杨过笑道：“你说什么，我便做什么。

师命不敢违，妻命更加不敢违。

”小龙女道：“嗯，你可要记得才好。

” 。

陆无双忽道：“还有一处没去瞧过，说不定她正设法捞那颗绝情丹上来…” 。

杨过心头一震，没听她说完，发足便往断肠崖奔去。

博弈论-第五章

第五章重复博弈在这一章中，我们将围绕着人类的合作为什么产生这一命题来展开。

人与人之间合作生产的一个原因（从经济学的角度来看）是这种做法对于参与者双方而言是一个有利可图的事，为什么说明这一点我们将用到重复博弈。

另一个解释合作生产的方法就是引入信息不对称，在这种情况下，一个人装作是好人是有利可图的（因为好名声能够给他带来收益），这在信息不对称中会加以介绍。

第一节重复博弈的定义及扩展式给出重复博弈定义之前，需要做若干准备，一个准备就是由于重复博弈有可能会进行一个很长的时期，甚至是无穷期，因而必须考虑收益的时间价值。

相应的表达偏好的收益函数也需要给出一定的限制。

一、贴现因子与偏好明天的一元钱和今天的一元钱价值是不一样的，最简单的理由是今天的一元钱如果存入银行那么在明天会变成1+ r ，所以明天的一元钱只相当于今天的1/(1+ r )元钱，1/(1+ r )实际上就是经济学中的贴现率。

如果假设未来没有不确定性，定义11r δ=+，未来存在收益流R 1，R 2，R 3，…，那么这个未来收益流的贴现值之和就为V =211231t t t R R R R δδδ∞-=+++=∑L(5-1)其中(0,1)δ∈称为贴现因子(Discount factor)。

严格讲，贴现因子并不等于贴现率，但贴现因子与贴现率一定是同方向变动的。

例如，我们考虑一个特殊的重复博弈，其结束之前重复进行的次数是随机的，即在博弈的每一阶段完成之后，都要通过抛若干枚（加权的）硬币的方式来决定博弈是否结束，如果硬币朝上那么博弈结束（即概率为p），如果是其他情况，那么博弈继续（即概率为1 –p）。

如果下一阶段能得到的收益为R1，那么在当前阶段硬币未抛之前的价值（即贴现后的期望值）为(1 –p)R1/(1+ r)；如果下两阶段能得到的收益为R2，在当前阶段硬币未抛之前的价值为(1 –p)2R2/(1+ r)2；下三阶段、四阶段等等的收益，照此类推。

重复博弈

重复博弈重复博弈(Repeated Games)[什么是重复博弈顾名思义，重复博弈是指同样结构的博弈重复许多次，其中的每次博弈称为“阶段博弈”（stage games）[1]。

重复博弈是动态博弈中的重要内容，它可以是完全信息的重复博弈，也可以是不完全信息的重复博弈。

在重复博弈中，每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。

有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。

下面给出两个重要定义：定义1：可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。

定义2：如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。

在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。

[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系，也就是说，前一阶段的博弈不改变后一阶段的结构。

2、所有参与人观察到博弈过去的历史。

3、参与人的总得益是所有阶段博弈得益的贴现值之和。

如果博弈不是一次的，而是重复进行的，参与人过去行动的历史是可以观察到的，参与人就可以将自己的选择依赖于其他人之前的行动，因而有了更多的策略可以选择，均衡结果可能与一次博弈大不相同。

[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈，给出了一次性完全信息静态博弈的收益矩阵。

A、B两个参与人都有两种定价待选择：定高价或定低价。

博弈论重复博弈

(2.5,2.5)
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况，最佳结果（A，A）无法实现是因为两次博弈中博弈方没有运用触发策略的条件或机会
两市场博弈的重复博弈（重复三次）
厂商
A
1B
触发策略：
A 3，3 4，1
厂商2 B
1，4 0，0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略，则他在第一阶段所选
产量应为给定厂商1产量为1.5时，自己的最大利润产量，
即满足：
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
，此时利润为5.0625，高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行，但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复，因为博弈方对于博弈会重复进行的意识，会使他们对利益的判断发生变化，从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。
两市场博弈的重复博弈（重复101次）结果？
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都不可能发生合作，博弈方会一直重复原博弈的混合策略纳什均衡

西方经济学知识点总结

西方经济学知识点总结一、判断分析1.寡头垄断（1）市场存在多个企业，但又很有限，不构成完全竞争市场。

（2）每个企业的价格和产量决策都会对市场价格以及其他企业的收益产生影响。

（3）市场均衡就取决于各个企业之间的相互作用2.伯特兰德模型古诺模型讨论的是：厂商如何决定产量，而让市场决定价格。

伯特兰德模型讨论的是：厂商如何决定价格，而让市场决定销售量。

前提条件：生产同质产品，成本相同假设市场上只有两家企业：企业1和企业2，双方同时定价，它们生产的产品完全相同（同质），寡头企业的成本函数也完全相同：生产的边际成本等于单位成本c，且假设不存在固定成本。

市场需求函数D（p）是线性函数，相互之间没有任何正式的串谋行为。

由于两个寡头垄断企业生产的产品同质，因而定价高者将失去整个市场；如果两个企业定价相同，则它们将平分市场。

Bertrand均衡的含义:如果同业中的两家企业经营同样的产品，且成本一样，则价格战必定使每家企业按p=边际成本的原则来经营，即只获得正常利润。

但是，如果两家企业的成本不同，则从长期看，成本低的企业必定挤走成本高的企业Bertrand悖论：伯特兰德均衡说明，只要市场上有两个或两个以上生产同样产品的企业，则没有一个企业可以控制市场价格，获取垄断利润；超过边际成本的价格不是均衡价格。

而在现实市场上，企业间的价格竞争往往没有使均衡价格降低到等于边际成本的水平上，而是高于边际成本。

对于大多数产业而言，即使只有两个竞争者，它们也能获得超额利润。

三种解释：Edgeworth解释：现实生活中企业生产能力是有限的。

生产能力约束解。

博弈时序解：企业很可能勾结，以避免价格战。

产品差异解：企业产品有差异，服务上也有可能有差异。

3.无限次重复博弈：当博弈重复无穷次而不是有限次时，存在着完全不同于一次博弈的子博弈纳什均衡考虑囚徒困境冷酷战略：1、开始选择沉默2、选择沉默知道一方选择坦白，然后永远选择坦白如果要达到（沉默，沉默）的均衡，囚徒要考虑无限次后的结果是否好于一次博弈的结果存在贴现因子δ，当其中一个没有选择坦白，另一个将不会选择坦白，于是有0+δ（-6）+δ2（-6）+……≤ 0+δ（-1）+δ2（-1）+……δδδδ所以，无限次重复博弈是有可能出现不同于单词博弈的结果，但需要保证的前提是：1、参与人均采取冷酷战略2、贴现因子足够大双方都采用“冷酷的战略”，即（1）从选择“合作”（高价）开始；（2）只要对方一直选择合作，便合作下去；直到有一天发现多方偷偷实行了不合作，便因此采取不合作到永远；（3）贴现因子足够的大，即将来在收益贴现之后还比较值钱。