无限重复博弈
重复博弈的经典例子
重复博弈的经典例子重复博弈的经典例子在经济学和游戏理论中,博弈论是一种非常重要的分析工具。
它通过对智力游戏、竞争和合作等情境的描述,来研究参与者的行为和决策方式,以及他们的利益。
其中,重复博弈是一种经典的博弈类型,透露了很多有趣的现象和策略。
本文就将介绍其中的两个典型例子。
例子一:囚徒困境囚徒困境是博弈论史上最著名的例子之一。
它描述了两名罪犯在审讯时的选择。
如果他们都保持沉默,那么他们各被判三年徒刑;如果其中一个人背叛了另一个人并供出了他的罪行,那么背叛者将被判无期徒刑而另一个人将被无罪释放;如果两个人都背叛了对方,那么都将被判十年徒刑。
显然,各自为政并不能得到最好的结果,但是如果双方都不信任彼此,那么无法避免地会被卷入恶性循环,陷入坏的局面。
所以,如何打破僵局,达到合作互惠的结果呢?答案是,在重复博弈的前提下,让双方建立起稳定的信任关系,并通过稳健的策略来激励对方合作。
比如,如果一方合作另一方背叛,那么背叛者的惩罚应该比另一方少,这样可以让背叛者看到合作的好处;如果另一方也背叛了,那么惩罚应该更大,从而降低背叛的动机。
这种实验表明,人们在重复博弈中往往会采取长远最大化利益的策略,而不是只考虑眼前的利益。
例子二:公共产品的提供公共产品是指对所有人都有益处,但是没有私人市场提供或者通过个人机会成本无法享受的产品,比如环保、文化教育等。
由于公共产品的自由乘坐,导致许多人往往倾向于“裹着麻袋过河”,即只享受公共产品的好处而不出任何力气来投资。
这样,公共产品会出现供给不足的情况,逐渐凋零。
那么,如何解决公共产品的提供问题呢?重复博弈可以给出一些帮助。
假设每个人都可以选择投资或不投资,而且每个人都可以看到其他人的决策;如果有足够多的人投资了,那么所有人都可以获得好处;如果投资的人太少了,那么所有人都得不到好处。
那么,如何让更多的人参与投资呢?答案是,通过适当设定利益偏好,比如对投资者给予优惠,以鼓励更多的人来投资。
博弈论(第四章)
2.有限次重复博弈
有唯一纯策略纳什均衡博弈的有限次重复博弈
有限次重复博弈的囚徒困境博弈,可以理解成警察 给两人两次交代的机会。
囚 徒2 坦白 不坦白
囚 徒 1
坦白
不坦白
-5, -5
-8, 0
0, -8
-1, -1
谢富纪 2009年3月
12
2.有限次重复博弈
因为重复博弈全过程是一种动态博弈过程,从第二 阶段开始。 此前的博弈已是既成的事实,而在此后又没有任何 的后继阶段,因此实现本阶段最大利益是两博弈 方在该阶段的唯一原则。结果是(坦白,坦白),
谢富纪 2009年3月
29
2.有限次重复博弈
本博弈中之所以不能或不能部分实现最佳结果
(A,A),是因为在两次重复博弈中博弈方没
有运用触发策略的条件或者说机会。后面的选择 并不取决于第一次博弈的结果。
谢富纪 2009年3月
30
2.有限次重复博弈
厂商2 得益
(1,4) (1.5,3) (3,3)
谢富纪 2009年3月
17
2.有限次重复博弈
削价竞争博弈
高价 寡 高价 头 1 低价
寡头2
低价
100,100 20,150 150,20 70,70
由于两个寡头在同一市场的竞争可以看作维持很 长时间,因此可以看作是重复博弈。然而结果是 令人遗憾的。
谢富纪 2009年3月 18
2.有限次重复博弈
两个悖论
谢富纪 2009年3月
27
2.有限次重复博弈
两市场博弈的重复博弈
厂商 2 A 厂A 商 1 B B
3,3
1,4
4,1
0,0
重复博弈
在有限次重复博弈中,如果原博弈存在唯 一纯策略纳什均衡组合,则重复博弈的唯 一子博弈完美纳什均衡解为各博弈方在每 阶段都采取的原博弈纳什均衡策略 由于完全理性的博弈方具有对“共同知识” 的分析推理能力,因此在从最后阶段开始 的逆推过程中,仍然无法摆脱囚徒困境 由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺, 因此这种均衡是子博弈完美纳什均衡
重复博弈
定义:给定一个博弈G(静态或动态),若 重复进行T次G,并且在每次重复之前各博弈 方都能观察到以前博弈的结果,则称G有一 个“T次重复博弈”,记为G(T) 其中,G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段 重复博弈是一种特殊的动态博弈 与静态和动态都有关系
本章主要结论 由于参与者在重复博弈中具有了长期利益 可通过在后阶段中的报复策略使威胁变得 可信 从而可能摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作
但是在后续阶段中只能得到古诺产 量下的利润4,总收益: 5.0625+4(δ + δ*δ +…)= 5.0625+4 δ /(1- δ) (2) 如果得益满足(1)大于(2),触 发策略下保持合作的垄断产量将构 成子博弈完美纳什均衡 这要求:δ≥9/17
一般结论:在触发策略1中,如果满足条件 δ≥9/17,博弈方可以通过古诺产量作为 威胁,迫使对方合作达成帕累托最优的垄 断产量 如果允许其它利润较低的可实现得益,相 应的贴现系数要求是否可以降低(即博弈 方是否可以不那么看重未来长期利益)? 触发策略2:第一阶段生产q*,如果前(t- 1)阶段结局都是(q*,q*),那么继续生产q* , 否则采取纳什均衡的斗争能 起到一种威慑作用,使进入者不敢再进入 下一个市场 但在有限次重复博弈中,斗争并不是一个 可信的威胁 设前 19 个市场已被进入,进入者现在要进 入第20个市场 因为在最后阶段斗争已没有任何威慑意义, 在位者的最优选择是默许,进入者将选择 进入
重复性博弈
为什么我不首先采取合作态度——把价格定在垄 断价格呢?
© 2011-13 王秋石
3/100
重复性博弈:日常生活
在公交车上,我们很少为素不相识的乘客买车票 ,因为这大凡是一次性博弈。
无限次重复性博弈就是可以无限次数地、重复性 地玩的一种博弈。
© 2011-13 王秋石
7/100
有限次重复性博弈
假定我们知道囚犯困境博弈只玩十次,现在就是 最后一次,结果会如何呢?最后玩的那次博弈就 像只玩一次的博弈。因此,两者的结果应该是相 同的。
第九轮会如何呢?我们已知在第十轮双方都会承 认犯罪,为什么在第九轮就要合作呢?
在囚犯困境的重复性博弈中,大家都清楚地知道 ,合作的巨大收益提供了合作的正面激励,对方 的有效威胁和潜在伤害则提供了合作的负面激励 。
© 2011-13 王秋石
2/100
重复性博弈:价格
在固定价格的一次性博弈中,哪怕有约在先,双 方都保持垄断价格同时分享市场需求,最后的均 衡为各自采用竞争性价格获得零经济利润。
无限次重复性博弈所形成 的合作均衡解并不是稳定 的,它较为容易被打破。
© 2011-13 王秋石
9/100
序列博弈
到目前为止所讨论的博弈都是两个选手要同时选 择策略。例如,在古诺模型中,两家企业同时决 定产量。
在序列博弈中,选手们按先后顺序进行选择。因 此,序列博弈就是选手依次出招的博弈。
30/100
可信的威胁
© 2011-13 王秋石
31/100
可信的威胁
完整版)博弈论知识点总结
完整版)博弈论知识点总结博弈论是研究决策主体在相互作用中做出的决策以及均衡问题的学科。
该学科的研究假设包括:1)决策主体是理性的,会尽可能地最大化自己的收益;2)完全理性是共同知识;3)每个参与者都能对环境和其他参与者的行为形成正确的信念和预期。
博弈中涉及到的变量包括:参与人、行动、战略和信息。
完全信息指每个参与人都了解其他参与人的支付函数,而完美信息则指在博弈过程中,每个参与人都能观察和记忆之前的行动选择。
不完全信息则表示参与人没有完全掌握其他参与人的信息,存在不确定性因素。
博弈与传统决策的区别在于,博弈是决策主体之间的相互作用,需要考虑其他决策者的选择和效用函数。
博弈的表示形式包括战略式博弈和扩展式博弈,其中战略式博弈适用于描述不需要考虑博弈进程的完全信息静态博弈问题,而扩展式博弈则更适用于描述动态博弈问题。
与战略式博弈不同,扩展式博弈更注重参与者在博弈过程中面临的决策问题的序列结构分析,而不是仅关注博弈结果的描述。
扩展式博弈包括参与人集合、参与人的行动顺序、序列结构和参与人的支付函数等要素。
战略式博弈是一种静态模型,而扩展式博弈是一种动态模型。
博弈论可以分为合作博弈和非合作博弈,其中合作博强调团体理性、团体最优决策和效率,而非合作博弈强调个人理性和个人最优决策。
根据参与人行动先后顺序的不同,博弈可以分为静态博弈和动态博弈,后者包括先行动者获得先行动者行动信息的情况。
根据参与人对信息的掌握程度,博弈可以分为完全信息和不完全信息博弈。
根据决策主体对信息的掌握程度和行动的先后顺序,博弈可以分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。
不同类型的博弈有不同的均衡类型和求解方法,顺序的不同也会影响均衡结果。
Hotelling价格竞争模型是一种重要的扩展式博弈,用于描述两个企业在同一市场上的价格竞争。
相对应。
占有均衡是指在博弈中存在一组参与人的战略选择,使得每个参与人都无法通过改变自己的战略来提高自己的支付。
博弈论四种类型
信息和行动特点
均衡
均衡类型
特别均衡
求解方法
学过的例子
性质
完全信息静态博弈
每个参与人对其他所有参与人的特征、战略空间及支付函数有精确的了解,博弈开始时不存在不确定性因素,参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。战略和行动相同。
纳什均衡
纯战略纳什均衡(PNE)
占优战略纳什均衡(DSE)
箭头法
划线法
Hotelling价格竞争
库诺特价格竞争
多重性和存在性
重复剔除的占有均衡(IFDE)
不断剔除劣战略(弱劣战略的剔除顺序会影响均衡结果
一般一个博弈中存在参与者有多个行动时可以先考虑能否剔除弱战略简化博弈
混合战略纳什均衡(MNE)
聚点均衡
支付最大化法
支付等值法
社会福利博弈
小偷-守卫博弈
完全信息动态博弈
精炼贝叶斯纳什均衡
信号传递博弈
分离均衡
根据所得信息修正判断概率,根据收益最大化决策
信号传递博弈
不完全信息重复博弈与声誉
Milgrom-Roberts垄断限价模型
不完全信息动态博弈子博弈精炼纳什均衡与海萨尼不完全信息静态博弈贝叶均衡
贝叶斯纳什均衡
混合战略(不完全信息情况下纯战略均衡的极限)
对原混合战略加入少许不确定性因素,求极限。
性别战
1、均衡存在性
2、不确定性体现为类型的不确定性
一般贝叶斯均衡
Harsanyi转换
机制设计
不完全信息动态博弈
在博弈开始前参与人之间的信息存在不确定性,同时参与人行动存在先后顺序。不完全信息动态博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正信念的过程。
重复博弈的详细介绍
收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现 率 ,无限的收1益,序2,列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益 相等时的总收益
2 t1t t 1
重复博 弈总收益
所以 故
也称触发战略;
以囚徒困境为例:开始 选择抵赖,而且一直选 择抵赖直到有一方选择 了坦白,然后永远选择 坦白;
这意味着:一旦哪个参 与人选择了坦白,就触 发了惩罚的扳机。
根据上述原则,可构造如下战略:
01 S1:第一阶段选择M1;如果第一阶段结果为(M1, M2),则下一阶段选R1;否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂 的战略。但使爱克斯罗德和其他人深为吃惊的是,竞赛 的桂冠属于其中最简单的战略:一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上 来的战略。
2
一报还一报战略:它总是以合作开局,但从此以后就采 取以其人之道还治其人之身的战略。也就是说,一报还 一报的战略实行了胡萝卜加大棒的原则。
i
集合。 若存在
G(, )
(x , x , , x ) 则 存 在 贴 现 率 , 使 无 限 重 复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡,其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中,如果参与人具有足够的耐心(只要满足一定的 条件),那么任何满足个人理性的可行收益向量都可以通过一个特定的
第四章重复博弈.
4.1.1 为何研究重复博弈
普遍存在性:经济中的长期关系
与一次性博弈的差异:未来利益对当前行为的制约
与动态博弈的差异:各阶段有独立的选择和利益
短期关系中缺乏 形成某种默契或 合作关系,或通 过报复、制裁的 威胁,约束相互 行为,追求共同 利益的机会
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈, 也可以是动态博弈),重复进行T次G,并且在每次重复G 之前各博弈方都能观察到以前博弈的结果,这样的博弈过 程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶 段”。 无限次重复博弈:一个基本博弈G一直重复进行下去的博 弈,记为G( )—没有可以预见的结束时间,主观上认为会不断进行 策略:博弈方在每个阶段针对每种情况如何行为的计划 子博弈:从某个阶段(不包括第一阶段)开始,包括此后 所有的重复博弈部分 均衡路径:由每个阶段博弈方的行为组合串联而成
可以运用触发策略实 现较好的结果 厂商2 厂 商 1 H M L H 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1 厂 H 商 M 1 L H 8,8 7,1 3,1 厂商2 M 1,7 4,4 3,1
L 1,3 1,3 2,2
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博弈方1 子博弈完美纳什均衡路径:第一阶 段(H,H),第二阶段(M,M)
采用触发策略:π*/(1-δ) 第一阶段偏离:此时厂商2最优产量q2=(6-q*)/2,得益 πd=(6-q*)2/4,无限次博弈得益现值为
重复博弈
重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约
无限重复博弈
对于严厉触发策略,实际上只有两类子 博弈——(1)在首t个阶段重复采用(n, n)之后的子博弈,和(2)其它的子博 弈。 对于类型(2),策略明确说明从此以后 都采用(c, c)。在这个子博弈里面,它 的确是纳什均衡。没有一个局中人能在 任何阶段通过取n来对付c从而增加自己 的盈利;而且,他不会改变今后预期的 行动方式。
T 1 5 7 T 1 [5 5 5 2 ] 7 1
但是,继续采用提出的不认罪 行为产生了5的无限序列, 即,终身盈利为 5
1 5(1 T 1 ) 7 或者等价地 1 那么触发是确实有效的。当折扣因子接近于1,公式的 左边近似地为5(T + 1)。因此,当未来重要时——即, 当 接近于1时——即使一个周期的惩罚——即,即使 T义。 临界触发策略定义为一个数,比如m。 局中人由取(n, n)开始,并且如果两个局中 人在每一阶段的盈利保持在m之上,则继续这 样做。两者之中任一个盈利第一次掉到m 以 下时,局中人持续T阶段取(c, c);然后重 新开始此策略。 •触发越严厉,即, T 越高,这个策略越有可 能成为均衡。 •触发越严厉或者越迅速( m 越高),策略越 无利可图。
严厉的触发策略由两个部分组成:第一, 存在严厉的惩罚,永远地(c, c)下去。 第二,存在可取的“好人”行为,永远 地(n, n)。对可取行为的任何背离会触 发惩罚。如果 足够地大,那么严厉惩罚 是十足的威慑以及“好人”行为是可以 如愿以偿的。 • 严厉惩罚的威慑也可以有助于实现其他 行为。 • 伴随不同的(和不太苛刻的)惩罚, “好人”行为也许是可实现的。
所有可能的行为都是均衡行为 在任何均衡中,每一个局中人在循环上的盈利必定至少为零。 该陈述是正确的,因为每一个局中人可以使自己的盈利高 于在每一阶段完全地都认罪。无名氏定理的结果指出了对 于均衡来说,正盈利不仅是必要的,而且也是充分的;每 一个具有正盈利的行为循环都是关于高 值的均衡。 考虑所有的盈利 你也许认为,只考虑循环,我们排斥了一定类型的行为。虽 然是的确如此,然而这种限制并不造成损失,因为我们并 没有排斥任何可能的盈利。说明一下,从盈利到行为循环 的一个考虑方法是利用它的每一阶段平均盈利,。当我们 察看不同的行为循环时我们得到不同的每阶段平均盈利。 假如我们察看的行为不是循环。 这种型式当然也有它的每 阶段平均盈利。得到的结论是,不管这个每阶段平均盈利 等于多少,总存在一个行为循环恰好具有与它相同的每阶 段平均盈利。
无限重复完全信息博弈的例子
无限重复完全信息博弈的例子【篇一:无限重复完全信息博弈的例子】四完全信息重复博弈(完整版)博弈博弈完全信息重复博弈【故事1:《笑林广记》有一个人去理发铺剃头,剃头匠给他剃得很草率。
剃完后,这人却付给剃头匠双倍的钱,什么也没说就走了。
一个多月后的一天,这人又来理发铺子剃头。
剃头匠还记得他上次多付了钱,觉得此人阔绰大方,为讨其欢心,多赚点钱,便竭力上心,周到细致,多用了一倍的功夫。
剃完后,这人便起身付钱,反而少给了许多钱。
剃头匠不愿意,说“上次我为您剃头,剃得很草率,您尚且给了我很多钱;今天我格外用心,为何反而少付钱呢?”这人不慌不忙地解释道:“今天的剃头钱,上次我已经付给你了;今天给你的钱,正是上次的剃头钱。
”说完大笑而去。
两人缓缓地走到山脚下,回头只见夕阳在山,照得半天云彩红中泛紫,蓝天薄雾衬着山顶积雪,实是美艳难以言宣,两人想到在世之时无多,对这丽景更是留念。
龙女痴痴的望了一会,忽问:“你说人死之后,真要去阴世,真是有个阎罗王么?”杨过道:“但愿如此。
阴世便有刀山油锅诸般苦刑,也还是阴世的好。
否则,渺渺茫茫,咱俩可永远不能相见聚会了。
”小龙女道:“是啊,但愿得真有个阴世才好。
听说黄泉路上有个孟婆,她让你喝一碗汤,阳世种种你便尽都忘了。
这碗汤啊,我可不喝。
过儿,我要永永远远记得你的恩情。
”她善于自制,虽然心中悲伤,语气还是平平淡淡。
杨过却实在忍耐不住了,转过身去,拭了拭眼泪。
小龙女叹道:“幽冥之事,究属渺茫,能够不死,总是不死的好。
”。
两人又行一阵,在一片草地上坐了下来。
小龙女道:“你还记得那日拜我为师的情景么?”杨过道:“怎不记得?”小龙女道:“你发过誓,说这一生永远听我的话,不管我说什么,你总是不会违拗。
”杨过笑道:“你说什么,我便做什么。
师命不敢违,妻命更加不敢违。
”小龙女道:“嗯,你可要记得才好。
” 。
陆无双忽道:“还有一处没去瞧过,说不定她正设法捞那颗绝情丹上来…” 。
杨过心头一震,没听她说完,发足便往断肠崖奔去。
博弈论-第五章
第五章重复博弈在这一章中,我们将围绕着人类的合作为什么产生这一命题来展开。
人与人之间合作生产的一个原因(从经济学的角度来看)是这种做法对于参与者双方而言是一个有利可图的事,为什么说明这一点我们将用到重复博弈。
另一个解释合作生产的方法就是引入信息不对称,在这种情况下,一个人装作是好人是有利可图的(因为好名声能够给他带来收益),这在信息不对称中会加以介绍。
第一节 重复博弈的定义及扩展式 给出重复博弈定义之前,需要做若干准备,一个准备就是由于重复博弈有可能会进行一个很长的时期,甚至是无穷期,因而必须考虑收益的时间价值。
相应的表达偏好的收益函数也需要给出一定的限制。
一、贴现因子与偏好明天的一元钱和今天的一元钱价值是不一样的,最简单的理由是今天的一元钱如果存入银行那么在明天会变成1+ r ,所以明天的一元钱只相当于今天的1/(1+ r )元钱,1/(1+ r )实际上就是经济学中的贴现率。
如果假设未来没有不确定性,定义11r δ=+,未来存在收益流R 1,R 2,R 3,…,那么这个未来收益流的贴现值之和就为V =211231t t t R R R R δδδ∞-=+++=∑L(5-1)其中(0,1)δ∈称为贴现因子(Discount factor)。
严格讲,贴现因子并不等于贴现率,但贴现因子与贴现率一定是同方向变动的。
例如,我们考虑一个特殊的重复博弈,其结束之前重复进行的次数是随机的,即在博弈的每一阶段完成之后,都要通过抛若干枚(加权的)硬币的方式来决定博弈是否结束,如果硬币朝上那么博弈结束(即概率为p),如果是其他情况,那么博弈继续(即概率为1 –p)。
如果下一阶段能得到的收益为R1,那么在当前阶段硬币未抛之前的价值(即贴现后的期望值)为(1 –p)R1/(1+ r);如果下两阶段能得到的收益为R2,在当前阶段硬币未抛之前的价值为(1 –p)2R2/(1+ r)2;下三阶段、四阶段等等的收益,照此类推。
重复博弈
重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。
重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。
博弈论重复博弈
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况, 最佳结果(A,A)无法实现是因为两次 博弈中博弈方没有运用触发策略的条件 或机会
两市场博弈的重复博弈(重复三次)
厂 商
A
1B
触发策略:
A 3,3 4,1
厂商2 B
1,4 0,0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
,此时利润为5.0625,高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
两市场博弈的重复博弈(重复101次)结果?
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都 不可能发生合作,博弈方会一直重复原 博弈的混合策略纳什均衡
西方经济学知识点总结
西方经济学知识点总结一、判断分析1.寡头垄断(1)市场存在多个企业,但又很有限,不构成完全竞争市场。
(2)每个企业的价格和产量决策都会对市场价格以及其他企业的收益产生影响。
(3)市场均衡就取决于各个企业之间的相互作用2.伯特兰德模型古诺模型讨论的是:厂商如何决定产量,而让市场决定价格。
伯特兰德模型讨论的是:厂商如何决定价格,而让市场决定销售量。
前提条件:生产同质产品,成本相同假设市场上只有两家企业:企业1和企业2,双方同时定价,它们生产的产品完全相同(同质),寡头企业的成本函数也完全相同:生产的边际成本等于单位成本c,且假设不存在固定成本。
市场需求函数D(p)是线性函数,相互之间没有任何正式的串谋行为。
由于两个寡头垄断企业生产的产品同质,因而定价高者将失去整个市场;如果两个企业定价相同,则它们将平分市场。
Bertrand均衡的含义:如果同业中的两家企业经营同样的产品,且成本一样,则价格战必定使每家企业按p=边际成本的原则来经营,即只获得正常利润。
但是,如果两家企业的成本不同,则从长期看,成本低的企业必定挤走成本高的企业Bertrand悖论:伯特兰德均衡说明,只要市场上有两个或两个以上生产同样产品的企业,则没有一个企业可以控制市场价格,获取垄断利润;超过边际成本的价格不是均衡价格。
而在现实市场上,企业间的价格竞争往往没有使均衡价格降低到等于边际成本的水平上,而是高于边际成本。
对于大多数产业而言,即使只有两个竞争者,它们也能获得超额利润。
三种解释:Edgeworth解释:现实生活中企业生产能力是有限的。
生产能力约束解。
博弈时序解:企业很可能勾结,以避免价格战。
产品差异解:企业产品有差异,服务上也有可能有差异。
3.无限次重复博弈:当博弈重复无穷次而不是有限次时,存在着完全不同于一次博弈的子博弈纳什均衡考虑囚徒困境冷酷战略:1、开始选择沉默2、选择沉默知道一方选择坦白,然后永远选择坦白如果要达到(沉默,沉默)的均衡,囚徒要考虑无限次后的结果是否好于一次博弈的结果存在贴现因子δ,当其中一个没有选择坦白,另一个将不会选择坦白,于是有0+δ(-6)+δ2(-6)+……≤ 0+δ(-1)+δ2(-1)+……δδδδ所以,无限次重复博弈是有可能出现不同于单词博弈的结果,但需要保证的前提是:1、参与人均采取冷酷战略2、贴现因子足够大双方都采用“冷酷的战略”,即(1)从选择“合作”(高价)开始;(2)只要对方一直选择合作,便合作下去;直到有一天发现多方偷偷实行了不合作,便因此采取不合作到永远;(3)贴现因子足够的大,即将来在收益贴现之后还比较值钱。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
折扣
• 局中人i的总折扣盈利 为
i 0 i1 i 2 it
2 t
• 有关折扣总和的一个事实是非常有用的:
事实1:当每个阶段的阶段博弈盈利都等于1时,总 和1 + + 2+ … + t + …等于 因此,当阶段博弈盈利为常数,比方,那么总和 等于
所有可能的行为都是均衡行为 在任何均衡中,每一个局中人在循环上的盈利必定至少为零。 该陈述是正确的,因为每一个局中人可以使自己的盈利高 于在每一阶段完全地都认罪。无名氏定理的结果指出了对 于均衡来说,正盈利不仅是必要的,而且也是充分的;每 一个具有正盈利的行为循环都是关于高 值的均衡。 考虑所有的盈利 你也许认为,只考虑循环,我们排斥了一定类型的行为。虽 然是的确如此,然而这种限制并不造成损失,因为我们并 没有排斥任何可能的盈利。说明一下,从盈利到行为循环 的一个考虑方法是利用它的每一阶段平均盈利,。当我们 察看不同的行为循环时我们得到不同的每阶段平均盈利。 假如我们察看的行为不是循环。 这种型式当然也有它的每 阶段平均盈利。得到的结论是,不管这个每阶段平均盈利 等于多少,总存在一个行为循环恰好具有与它相同的每阶 段平均盈利。
1 1
1பைடு நூலகம்
触发策略和好行为
• 囚徒困境阶段博弈周而复始地进行,没有明确的最 后阶段。 • 考虑如下策略对,每个局中人对应一个策略:由采 用(n, n)开始。如果在任何阶段没有一个局中人 认罪,那么继续采用(n, n)。但是,如果在某个 阶段两个局中人中只要有一个认罪,那么从此以后 每个阶段一直采用(c, c)。像这样的策略称为严厉 的触发策略:对可取行动(n, n)的偏离,开启了 “惩罚阶段”(c, c)。触发在下述意义下是严厉的, 惩罚阶段一旦开始,决不撤消。
对于严厉触发策略,实际上只有两类子 博弈——(1)在首t个阶段重复采用(n, n)之后的子博弈,和(2)其它的子博 弈。 对于类型(2),策略明确说明从此以后 都采用(c, c)。在这个子博弈里面,它 的确是纳什均衡。没有一个局中人能在 任何阶段通过取n来对付c从而增加自己 的盈利;而且,他不会改变今后预期的 行动方式。
严厉的触发策略由两个部分组成:第一, 存在严厉的惩罚,永远地(c, c)下去。 第二,存在可取的“好人”行为,永远 地(n, n)。对可取行为的任何背离会触 发惩罚。如果 足够地大,那么严厉惩罚 是十足的威慑以及“好人”行为是可以 如愿以偿的。 • 严厉惩罚的威慑也可以有助于实现其他 行为。 • 伴随不同的(和不太苛刻的)惩罚, “好人”行为也许是可实现的。
其它的惩罚
考虑下述内容:由取(n, n)开始,如果没有一个局中人 认罪则继续采用(n, n);然而,如果任一个局中人在 某个阶段认罪,那么在下面T个阶段采用(c, c)。此后, 返回到(n, n),不过,记住以后每一次背离(n, n) 也将遇到T阶段的(c, c)。像这样的策略称为宽容触发。 对可取行为(n, n)的偏离触发了惩罚阶段(c, c)的开 启,但是所有这些在T阶段惩罚之后得到宽容。 宽容触发是充分威慑吗?当一个局中人被认为取n时他却 取了 c ,他得到了盈利 7 ,然后跟着 T 个阶段得 0 ,接下 来——一旦行动回到(n, n )——得到5的无限序列。 这样从这个“异常”行为得到的总盈利是
对于类型(1)的子博弈,让我们检查一下局 中人在任何阶段是否有认罪的动机——而其 他的局中人在那个阶段取的是n。做这样的事 将给认罪的局中人带来眼前的盈利7,但在以 后的每一个阶段结果盈利为0。(为什么?) 继续采用这个策略将为这个局中人产生当前 阶段的盈利5和未来每一个时期中一连串的盈 利5。因而,继续采用这个策略的总盈利为 显然,只要 ,即,只要 大于 2/7 , 继续采用所提出的严厉触发策略较好一些。
如果
5 5 T 1 7 1 1
定义 一个行为循环是行动的重复周期;T1个阶 段采用(n, n),然后T2个阶段实施(c, c), 接着T3个阶段的(n, c),然后T4个阶段的(c, n)。在这些T1 + T2 + T3 +T4个阶段结束时,又 开始了循环,然后再开始。如此等等。 无名氏定理 • 均衡行为 考虑任何个人理性行为循环。每当折 扣因子 接近于1,那么这个循环可实现为子博 弈完美均衡的行为。 • 均衡策略 构成均衡的一个策略是严厉触发;从 可取的行为循环开始,如果两个局中人不做其 它事则继续采用它。如果两者之中任何一个局 中人偏离去做其它某些事情,那么此后一直采 取(c, c)。
具不完美察觉的重复博弈
定义。 临界触发策略定义为一个数,比如m。 局中人由取(n, n)开始,并且如果两个局中 人在每一阶段的盈利保持在m之上,则继续这 样做。两者之中任一个盈利第一次掉到m 以 下时,局中人持续T阶段取(c, c);然后重 新开始此策略。 •触发越严厉,即, T 越高,这个策略越有可 能成为均衡。 •触发越严厉或者越迅速( m 越高),策略越 无利可图。
未来必须是重要的 结论只对高 值有效,因为那正好是做出具有威慑价值的承 诺和威胁所必需的 值。如我们前面所见,高的 意味着 未来的盈利是重要的。转而,该事实意味着未来的承诺— —或威胁——可以影响当前行为。 无限多个均衡 结论的含义是在无限重复囚徒困境中存在无限多个子博弈 完美均衡。从预测的观点来看这很令人失望。所有我们可 以推断的是,将要发生的威胁和奖励是如此有影响以至于 局中人可能愿意去做几乎任何事情。 可观察行动 迄今为止,分析的一个缺陷在于它要求偏离是完全可观察 的——从而可以立即给予惩罚。在许多场合这个假设是不 切合实际的,因为其他局中人关于对手在过去已经作了什 么可能没有精确的信息。
T 1 5 7 T 1 [5 5 5 2 ] 7 1
但是,继续采用提出的不认罪 行为产生了5的无限序列, 即,终身盈利为 5
1 5(1 T 1 ) 7 或者等价地 1 那么触发是确实有效的。当折扣因子接近于1,公式的 左边近似地为5(T + 1)。因此,当未来重要时——即, 当 接近于1时——即使一个周期的惩罚——即,即使 T = 1——惩罚也是充分的。
5 7 1
5 5 5 5 5 1
2 t
在无限重复博弈中“好”是可以持续的, 因为在每一个阶段有可能做出有条件的好 人承诺——如果今天你“好”,那么明天 我也“好”。(伴随的威胁是,如果今天 你“恶”,那么此后我一直“恶”。)承 诺保证了盈利5的持续不断;凶恶地威胁 表明了从此以后盈利降为零。 如果一个局 中人单方面决定今天当一回恶人,那么在 他们中间,构成了将来损失5 /(1- )的 盈利。如果很在乎未来,即,如果 大的 话,这种“大棒胡萝卜”是十足的威慑。