[经济学]博弈论第六章 重复博弈
[经济学]4 重复博弈--博弈论
策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。
第六章第一讲重复博弈的类型解读
2020年11月18日
博弈论第六章
1
重复博弈的类型
“宽容”OR“不好惹”?
A家长教育孩子A的原则: 宽容
A的选择: 及时还击, 培养“不好惹”的声誉—— “他打你,你就打他”
C家长教育孩子C的原则: 好斗
若A与C之间的博 弈重复进行?
要与人为善
2020年11月18日
博弈论第六章
1
1 r r 市场利率
1 2 2 3 T 1T
T
2020年11月18日
t 1 博t 弈论第六章
13
t 1
重复博弈的类型
第一节 重复博弈的类型
➢二、无限次重复
➢(一)案例:寡头削价竞争
➢1.案例
➢
寡头1
➢
高价
低价
➢
高价
➢寡头2
4,4
➢
低价 5,0
0,5 1,1
2020年11月18日
重复博弈的类型
第一节 重复博弈的类型
➢二、无限次重复 ➢(一)案例:寡头削价竞争 ➢2.无限次重复博弈策略分析 ➢(3)以后各期
A、if寡头2合作,“高价”→ 寡头1坚持“高价”
2020年11月18日
B、 if寡头2不合作,“低价”→ 寡头1报复,永远低价
博弈论第六章
16
重复博弈的类型
第一节 重复博弈的类型
9
重复博弈的类型
第一节 重复博弈的类型
➢一、有限次重复
➢(二)定理:有限次重复博弈的均衡
G(T):有限次重复博弈 G:博弈 T:重复次数 G:阶段博弈,T<∞
2020年11月18日
若G有唯一的纳什均衡,
则G(T)的唯一子博弈精炼
博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理
博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理博弈论与信息经济学第6章完全且完美信息动态博弈——重复/超级博弈-连锁店悖论-无名氏定理经济学院丁言强内容提要重复博弈与战略空间有限次重复博弈:连锁店悖论无限次重复博弈冷酷战略与针锋相对战略无名氏定理阿伯罗定理: 两期战略序贯博弈与重复博弈序贯博弈的特征是,参与人在前一个阶段的行动选择决定随后的子博弈的结构,因此,从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一次。
动态博弈的另一种特殊但是非常重要的类型是所谓的“重复博弈”,就是同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。
在每个阶段博弈,参与人可能同时行动,也可能不同时行动,在后一种情况下,每个阶段博弈本身就是一个动态博弈。
重复博弈的3个基本特征重复博弈可能是不完美信息博弈,也可能是完美信息博弈,但在博弈论中一般指的是前一种情况。
(1)阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段博弈的结构;(2)所有参与人都观测到博弈过去的历史;(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。
重复博弈的战略空间战略是一套完备的相机行动规则,它必须说明在每一种可能的状态下参与人的行动选择,即使参与人并不预期这种状态真的会出现。
因为可以观察到其他参与人过去行动的历史,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史。
所以,参与人在重复博弈中的战略是定义在博弈历史上的每个阶段博弈中的行动选择规则,即从博弈历史到行动空间的映射。
重复博弈的战略空间参与人在重复博弈中的战略空间远远大于且复杂于在每一个阶段博弈中的战略空间。
比如说,即使囚徒困境博弈只重复5次,每个囚徒的纯战略数量大于20亿个,战略组合的数量更多。
所以,重复博弈可能带来一些“额外的”均衡结果,这些均衡结果在一次博弈中是从来不会出现的。
经济博弈论之重复博弈
9
三、重复博弈的得益
重复博弈的得益,必须兼顾其他阶段的得益,或者考虑整个重复博弈过程得益 的总体情况。
1.计算重复博弈的“总得益”,即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”,即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数,不同时间获得的利益对人们的价值是 有差别的,考虑到这个因素,引进将后一段的得益折算成当前阶段得益(现在值) 的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业,对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈,竞争者选择进入,先占领市场的连锁店不打击, A 打进 B 不进 (1,10) 是原博弈的唯一的子博弈完美纳什均衡,是两个理性的博弈方之间 博弈的唯一结果。 根据上诉的定理和一般结论,以这个博弈为原博弈的有限次重复博弈, 唯一的子博弈完美纳什均衡就是原博弈的纳什均衡,也就是每个竞争者 可以进入,连锁店不打击。 (-2,3) (5,5) 现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡(M,M),(L,L);符合博弈方总利益最大(H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈 厂商2 A 3,3 4,1 B 1,4 0,0 三次重复博弈的均衡路径是(A,A),(A,B),(B,A), 得益是(3+1+4)/3=2.67.
重复博弈.ppt
中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2
重复博弈
©2008仅供课程参考。
未经许可,请勿传播1博弈论与信息经济学重复博弈姚洪心重复博弈的现象•1.王朝更替(分久必合,合久必分)•2.情侣相处•3.政治集团的制衡与风险期(吴三桂为什么要在晚年叛变,死前封帝?)©2008仅供课程参考。
未经许可,请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。
•重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。
如囚徒困境。
•重复博弈的特征:✓1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的结构;✓2、所有参与人都观测到博弈过去的历史;✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。
贴现因子:下一期的一单位支付在这一期的价值。
注意:在每个阶段,参与人可同时行动,也可不同时行动。
©2008仅供课程参考。
未经许可,请勿传播3重复博弈©2008仅供课程参考。
未经许可,请勿传播4重复博弈©2008仅供课程参考。
未经许可,请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的,因此,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间,这意味着,重复博弈可能带来一些“额外”的均衡结果。
影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。
博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。
信息的完备性:当一个参与人的支付函数不为其他参与人知道时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。
©2008仅供课程参考。
未经许可,请勿传播6重复博弈和无名氏定理•有限次重复博弈—连锁店悖论重复博弈冷酷策略©2008仅供课程参考。
未经许可,请勿传播9冷酷型重复博弈囚徒A争锋相对的重复博弈•12345•行抵赖坦白抵赖坦白抵赖•列抵赖抵赖坦白抵赖坦白背离争锋相对•12345•行抵赖坦白坦白坦白坦白•列抵赖抵赖坦白坦白坦白©2008仅供课程参考。
研究生-第六章 博弈论与信息经济学
逆向选择
3.逆向选择与信贷市场 信贷配给是信贷市场上存在的一种典型现象,原因在于逆 向选择现象存在,高风险的项目驱赶了低风险的项目. 信贷市场中,一般高风险与高收益成正比,银行不了解贷 款者的类型,厂商知道自己的信息.导致贷款利率与银 行期望收益之间的变化如图所示,利率上升的(直接的) 收益效应大于(间接的)风险效应,π随r上升而上升; 当r>r*时,利率上升的(间接的)风险效应超过(直接 的)收益效应,π随r的上升而下降,银行期望收益最大 化的利率为r*.
隐藏行动 事前 隐藏信息 逆向选择模型 信号传递模型 信息筛选模型 隐藏信号的道德风险模型
事后
隐藏行动的道德风险模型
第一节 逆向选择
1.逆向选择与旧货市场(Akerlof,the market for lemons) 逆向选择:在鉴定交易契约前,进行市场交易的一方 可能因为占据信息优势,做出对自己有利,对另一方 有害的事情,从而降低了市场效率,甚至可能导致这 一市场的萎缩. 在旧货市场,卖者拥有信息,买者缺乏信息,买者以 平均质量的价格购买旧商品,将质量较高的旧商品逐 出市场,质量较差的旧商品留在市场,并最终成交. 即为旧货市场的逆向选择行为.
第三节 完全信息静态博弈(二) ——混合策略(mixed strategies) ——混合策略(mixed strategies)
1.混合策略 定义:σ*=(σ1*,…,σn*)=(σi*,σ-i *)是一纳什混合 策略均衡,当且仅当对所有局中人而言, σi* 是σ-i*的最适反应,ui(σi*,σ-i *)≥ ui(σI',σ-i *), σ σ σ ≥ σ σ 对所有σi'∈∑i成立). 持混合策略的前提是在均衡时两种策略的报酬会 相等,是预期支付最大化的推导结果. 2.案例分析 掷硬币
重复博弈博弈论课件.ppt
重复博弈
动态博弈的类型
序贯博弈sequential game
每一个阶段的博弈结构是不同的,即从后一个决策结开 始的子博弈不同于从前一个决策结开始的子博弈。或者 说,同样结构的博弈只出现一次。 是指同样结构的博弈重复多次,其中的每次博弈称为 “阶段博弈”。如“囚徒困境”中小偷每次作案后判刑 释放后又作案。 分为有限次重复博弈与无限次重复博弈
H H 厂商1 M L 5, 5 6, 0 2,0
厂商2 M
L 0,2 0,2 1,1
0,6 3,3 2,0
触发策略可信的情况
博弈方1:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用P 博弈方2:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用Q
博弈方1 H M L P Q
5,5 6,0 2,0
重复两阶段三价博弈的等价博弈:如果 认为触发策略不可信,即不可信报复, 最佳选择为(M,M)
触发策略可信性问题
实际上,触发策略中的报复机制的可信性是一个很复 杂的问题,会受到相互预期等很多复杂因素的影响。 例如,未偏离的一方并不想报复偏离的一方,而偏离 的一方却因为害怕报复而采用L,结果心慈手软的未偏 离一方再次遭受损失,这种可能性的存在会使得报复 机制实施的可能性增加。 此外,考虑策略的制定者和执行者分离的情况,执行 者会严格执行决策者指令的情况等等。
在有限次重复博弈中,如果原博弈存在唯一的纯策略NE, 则有限次重复博弈的唯一的均衡解就是各博弈方在每阶段 中都采用原博弈的NE。 因为每个阶段NE都是SPNE,即不存在不可信的威胁和许 诺,因此重复博弈的解也是SPNE。
《博弈论与信息经济学讲义》第6章 重复博弈与信誉
重复博弈的三个特征
• 阶段博弈之间没有物质上的联系,也就 是说,前一阶段的博弈不改变后一阶段 的结构;
• 所有参与人观察到博弈过去的历史; • 参与人的总支付(报酬)是所有阶段博
弈支付的贴现值之和;
重复博弈和信誉问题
• 如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。
RT RT
RP RP
含义
• 欺骗行为越难以被发现,欺骗发生的可 能性越大;或者说,合作越困难;
• 在前面的例子,R=4, T=3, P=0. 如果欺骗 一次就被发现,只要 4 3 0.25 合作就 会出现;而如果欺骗两次4 才0 被发现,只
有当 0.5 时,合作才可能出现;
• 一般地,欺骗行为越不容易被发现,合 作越困难。
商业社会的问题
• 现在社会被称为“匿名社会”(anonymous society), 与乡村社会不同,居民的流动性大,交易双方通常并 不认识,相互之间也缺少如乡村社会中存在的其他制 约关系,使得受害人的惩罚措施受到很大限制;开放 的社会也使得人们较不在乎闲言碎语的议论。凡此种 种,使得传统的以个人为基础的信誉机制失灵,这也 是都市社会犯罪率高的一个重要原因。但是,西方市 场经济只所以能发达到今天的程度,除了较完善的司 法制度之外,是因为他们在更高的形态上复制出了前 面讲的四个条件。
社团内的博弈
B
A
C
H
D
G
E
F
社团内的博弈
B
A
C
H
D
G
E
F
Third-party enforcement problem
第讲博弈论重复博弈课件
• 如果你知道对方会一直坦白,那么你的最佳应对是一直坦白 • T,T,T,T,… • T,T,T,T,…
第讲博弈论重复博弈
24
重复博弈和无名氏定理
• 考虑下列所谓的“冷酷策 略”(grim strategies):
• 开始时选择抵赖;
• 选择抵赖直到有一方选择
囚 徒
1
了坦白,然后永远选择坦
19
• 当博弈有多个纳什均衡时,参与人可以使用不同的纳什均衡惩罚 前面阶段的不合作行为或奖励第一阶段的合作行为。
• 从而迫使大家合作
第讲博弈论重复博弈
20
今天欺骗的收获 合作后的收获(承诺) – 欺骗后的收获 (威胁)
教训:在发展关系的时候,承诺合作后的收益以及威胁欺骗的惩罚, 有时能够激励今天良好行为的发生。 而这种行为,有助于创建一个好的未来!
• 但这个机会主义行为将触发他的伙伴选择“永远坦白” 的惩罚,因此i随后每个阶段的支付都是-8。
• 因此,如果下列条件满足,给定对手没有选择坦白,i 将不会选择坦白
0 a ( 8 ) a 2 ( 8 ) . . 1 . a ( 1 ) a 2 ( 1 ) ...
即
8a 1 1a 1a
第讲博弈论重复博弈
• 今天投资100万元的项目,将来如能收回200万,也不能证明此项投资一定有效。因为如果这回收的 200万要等50年之后,今天衡量的价值就远低于100万。这是由于如果利率是3%,100万元存银行,50
年内得到的利息也将达338万元(利率为2%的话,50年的利息为169万元)。所以50年后回收200万的
白。
坦白 抵赖
囚徒2 坦白 抵赖 -8,-8 0,-10
-10, 0 -1,-1
管理经济学第六章博弈论和策略行为
案例6-2:性别之战 两个谈恋爱的人准备在周末晚上一起出去。男 的喜欢听音乐会,但女的喜欢看电影。当然,两个 人都不愿意分开活动。 不同的选择给他们带来的满足由表 2表示。
女
音乐会 电 影
音乐会
2 , 1 -1 , -1
男
电 影 -1 , -1 1 , 2
在这样一个对局中,男的和女的都没有支配性 策略。实际上,他们的最优策略依赖于对方的选择, 一旦对方选定了某一项活动,另一个人选择同样的 活动就是最好的策略。两个纳什均衡解。
四、顺序性博弈
序列博弈
现实生活中,还存在另一种博弈状态,即对局者
选择策略有时间先后的顺序,某些对局者可能率先采
取行动,这种博弈称为顺序性博弈。重复博弈和序列
博弈都是动态博弈。
先行动的参与者往往会有一定的优势。
案例6-6:双寡头垄断的两家企业都打算推出 一种新产品。四种可能的策略组合的利润结果见表 6, 单位是百万美元。
1、在一次性博弈中任何欺骗和违约行为都不会 遭到报复,囚犯困境的不合作解通常是难以避免的。
2、在无限期重复博弈中,报复的机会总是存在 的,所以,每一个参与者都不会采取违约或欺骗的 行为,囚犯困境合作均衡解是存在的。
3、在有限期重复博弈中,囚犯困境博弈的纳什 均衡是参与者的不合作。
4、在不能确定终止期的有限期重复博弈的囚犯 困境模型中,纳什均衡的合作解是可以存在的。
无新产品 有新产品
企业 B
无新产品 有新产品
4,4
3,6
6,3
2,2
1、如果企业谋求最大利润,本例存在两个纳什均衡。
两个纳什均衡:(无新产品 ,有新产品)和 (有新产品,无新产品)
2、按照最大最小决策准则,均衡解是: (无新产品 ,无新产品)
[经济学]博弈论第六章 重复博弈
r表示投资收益率,1/(1+r)称为折现因子。 当1>2/r时,即周收益率r>200%时,乙选择永远背叛下去 才是值得的。而这种情况几乎是不太可能的.因此,当双方 都实行礼尚往来策略时,双方是不会背叛对方的.这样礼尚 往来策略就解决了囚徒困境的难题了!
举例
假如投资收益率为10%(即r=0.1,从而 δ=1/1.1=0.91),并且博弈在持续一期的概率为 35%(即P=0.35),那么投资的有效收益率为:
R 1 1 2.14 0.35 0.91
在前面礼尚往来例子中,假如甲坚持采用礼尚往来策略, 只有当投资收益率大于200%时,乙采用永久性背叛策略就是值 得的。但是如果乙面临10%的投资收益率以及博弈再多维持一 期的概率是0.35时,有效收益率为214%,超过了200%的临界值。 因此,如果重复博弈有足够高的概率在一阶段结束,也就是P 足够小,则通过礼尚往来策略支持的合作会由于局中人的背叛 而结束。
假如在前面那个案例中企业乙背叛了一假如在前面那个案例中企业乙背叛了一个星期后突然又个星期后突然又改邪归正改邪归正选择继选择继续合作则选择合作的这个星期利润只续合作则选择合作的这个星期利润只有有11万因为此时甲企业为了惩罚他的上万因为此时甲企业为了惩罚他的上次背叛使用了低价策略因此这次背叛次背叛使用了低价策略因此这次背叛的收益是的收益是11万在背叛的那个星期获得的万在背叛的那个星期获得的背叛的成本是损失了背叛的成本是损失了44万在背叛后接下来万在背叛后接下来的一个星期发生的那么他这次背叛是的一个星期发生的那么他这次背叛是否值得呢
在囚徒困境中,重复博弈是一种促使局中 人采用合作策略的机制。因为,局中人担 心一次不合作会招致未来合作机会的丧失。 如果未来合作的价值很大,超过采取背叛 策略所能获得的短期收益,则双方会出于 长远利益的考虑,形成非契约的默契,使 彼此都从默契的非契约合约中得到好处。
博弈论重复博弈
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况, 最佳结果(A,A)无法实现是因为两次 博弈中博弈方没有运用触发策略的条件 或机会
两市场博弈的重复博弈(重复三次)
厂 商
A
1B
触发策略:
A 3,3 4,1
厂商2 B
1,4 0,0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
,此时利润为5.0625,高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
两市场博弈的重复博弈(重复101次)结果?
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都 不可能发生合作,博弈方会一直重复原 博弈的混合策略纳什均衡
博弈论:4重复博弈
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
第六章 重复博弈
第六章 重复博弈与群体博弈§6-1 重复博弈与合作重复博弈(Repeated Games)是基本博弈重复进行构成的博弈过程。
虽然重复博弈形式上是基本博弈的重复进行,但博弈方的行为和博弈结果却不一定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意识,会使他们对利益的判断发生变化,从而使他们在重复博弈过程不同阶段的行为选择受到影响。
在肯尼亚有一种猴子,受到威胁时就会嚎叫,它的朋友也会跟着嚎叫助威。
而助阵的猴子大都是上次互相抓痒的猴子,不互相抓痒的猴子很少相互助阵。
在大海的珊瑚礁中,有一种小鱼可以为大鱼清除牙齿中的寄生虫,当然小鱼清除寄生虫时也获得了食物。
但是,大鱼在小鱼清除寄生虫后,完全可以一口把小鱼吃掉。
如果它们见面机会少,那么吃掉小鱼是大鱼的最佳策略,由此可见,珊瑚礁地域小,双方必定可以相互认识。
茫茫大海,萍水相逢,一生若只见一回,那么就不可能见到这些合作的鱼了。
来自生物界的这两个例子,深刻地说明了合作产生的根源。
存在合作利益、保持有长期关系并且能够识别和惩罚欺骗者,对于生物界的合作必不可少。
同样,对于人类社会的合作,这些因素似乎也是最根本的。
至少通过学习博弈论,我们得到的结论是这样的。
1、合作的模式在某些情况下,合作看起来一点也不奇怪。
比如图6-1的博弈中:乙合作 对抗甲 合作 对抗图6-1 简单的互惠合作这个博弈中,大家都选择对抗则谁也得不到一点好处,一方合作而另一方对抗也不符合双方利益。
只有双方都选择合作才是稳定的结果。
显然,图6-1中出现的合作,并非甲、乙道德高尚,其原因仅仅因为合作对双方都是有明显好处的,所以合作就产生了。
此类合作被称为简单的互惠合作,对于研究者并没有太大的吸引力。
相反,另外一些存在冲突的博弈中,是否能够达成合作呢?这是研究者们深感兴趣的话题。
比如图6-2的博弈:图6-2的博弈实际上是一个囚徒困境博弈,因为它具有囚徒困境一样的博弈结构:不管对方选择对抗还是合作,甲选择对抗总是更有利;当然乙也是一样的想法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
触发策略
两个最著名的触发策略:冷酷策略和礼尚往来策略。 触发策略包含着威胁和惩罚,但惩罚的力度有所不同。 冷酷策略:双方一开始的时候选择合作,然后继续选 择合作,知道有一方选择背叛,从此永远选择背叛。 即任何局中人的一次性不合作将触发永远不合作。 礼尚往来策略:开始的时候和冷酷策略一样,即双方 从合作开始,在以后的每个阶段,如果你的对手在最 近的一次或连续K次博弈中采取合作策略,则你继续 跟他合作;如果你的对手在上一阶段的博弈中采取背 叛策略,则你在下次的博弈中背叛他,或者连续K次 背叛他。
低价 高价
低价
企业甲 高价
3,3 1,6
6,1 5,5
有限次重复博弈的定义
有限次重复博弈:给定一个基本博弈G(可 以是静态博弈,也可以是动态博弈),重 复进行T次G,并且在每次重复G之前各博弈 方都能观察到以前博弈的结果,这样的博 弈过程称为“G的T次重复博弈”,记为 G(T)。而G则称为G(T)的“原博弈”。G(T) 中的每次重复称为G(T)的一个“阶段”。
在囚徒困境中,重复博弈是一种促使局中 人采用合作策略的机制。因为,局中人担 心一次不合作会招致未来合作机会的丧失。 如果未来合作的价值很大,超过采取背叛 策略所能获得的短期收益,则双方会出于 长远利益的考虑,形成非契约的默契,使 彼此都从默契的非契约合约中得到好处。
重复博弈产生“道德感”
有一群猴子被关在笼子里,从笼子上方垂下 一条绳子,绳子的末端栓着一个香蕉, 上端 连着一个机关,机关可以开启水源。猴子们 发现了香蕉,纷纷跳上去够这个香蕉,当猴 子够着香蕉时,相连的绳子带动了机关,于 是一盆水倒了下来,尽管够到香蕉的猴子吃 到了香蕉,但是大多数的猴子都被淋湿了。 这个过程重复着,猴子们发现,吃到香蕉的 猴子是少数,其余的猴子都被淋湿了。于是, 每当有猴子去以香蕉时,其它的猴子主动地 去撕咬那个猴子,久而久之,猴子们产生了 默契,再也没有猴子敢去取香蕉了。
有限次重复博弈的结果
由此表明,如果纳什均衡是唯一的,只要 博弈的重复次数有限,重致这个结果的原因是,当阶 段博弈有多个纳什均衡时,参与人可以使 用不同的纳什均衡惩罚第一阶段的不合作 行为或奖励第一阶段的合作行为。
第二节 囚徒困境的无限次重复
一、重复博弈的概念
重复博弈是一种特殊的动态博弈,它是指同样结 构的博弈重复多次。 其中的每一次博弈称为“阶段博弈”。 局中人可以根据先前双方的博弈行为,决定自己 下一阶段的策略选择。 三项基本特征:(1)阶段博弈之间没有“物质上” 的联系,也就是说,前一阶段的博弈不改变后一 阶段博弈的结构;(2)所有参与人都观测到博弈 过去的历史;(3)参与人的总支付是所有阶段博 弈支付的贴现值之和或加权平均值。
有限次重复博弈的结果
假如该企业之间的合作关系只有两次,博弈的结 果? 利用倒推法.在第二阶段中,双方都意识到这是最 后一次合作,即以后没有合作关系了,即没有损 失“2万”的代价了,因此,双方都会背叛合作以 获得1万元好处。
在第一阶段中,双方想到下个阶段对方会背叛自 己,因此想:自己在这个阶段背叛可能获得1万元 的好处,因此,双方在第一个阶段就都会采取低 价。博弈的结果和一次囚徒困境博弈的结果一样。
礼尚往来策略
惩罚一次的礼尚往来策略,叫做严格礼尚 往来策略:即你对我好我也对你好,你对 我坏我马上也对你坏,“以牙还牙”、 “针锋相对”。它“不记仇”。
礼尚往来策略的结果分析
假如在前面那个案例中,企业乙背叛了一 个星期后,突然又“改邪归正”,选择继 续合作,则选择合作的这个星期,利润只 有1万,因为此时,甲企业为了惩罚他的上 次背叛使用了低价策略,因此,这次背叛 的收益是1万(在背叛的那个星期获得的), 背叛的成本是损失了4万(在背叛后接下来 的一个星期发生的),那么他这次背叛是 否值得呢?
博弈重复无穷多次而不是有限次时,存在着完全 不同于一次博弈的子博弈精炼纳什均衡。 在任何博弈中,局中人会根据前一阶段双方是否 合作,决定自己下一阶段的策略是选择合作还是 背叛。——依存策略(或称之为相机策略)。 大多数依存策略是触发策略:即只要他的对手在 博弈中一直采取合作策略,则该局中人也会在博 弈中继续采取合作策略;但是,一旦对手在某一 个阶段采取背叛策略,将会触发该局中人在往后 的一段时期内采取不合作策略,甚至永远采取不 合作策略,从而对对手实施惩罚。
第六章 重复博弈和策略性行动
本章主要考察重复博弈是如何进行 的,如何计算重复博弈的支付,以及如 何寻找重复博弈的纳什均衡。
主要内容
1、囚徒困境的有限次重复 2、囚徒困境的无限次重复 3、重复次数不确定的情形 4、策略型行动的分类 5、承诺及其可信性 6、重复博弈的运用
为什么研究重复博弈
二、影响结果的主要因素
(1)重复次数。其重要性来自于参与人在短期利益 与长期利用之间的权衡。当博弈只进行一次时, 每个参与人可能只关心一次性的支付;但如果博 弈重复多次,参与人可能会为了长远利益而牺牲 眼前利益,从而选择不同的均衡策略。—这是重 复博弈分析给出的一个强有力的结果,它为现实 中观测到的许多合作行为和社会规范提供了解释。 (2)信息完备性。退一步讲,即便一个参与人的 支付函数(特征)不为其他参与人所知时,该参 与人可能有积极性建立一个“好声誉”以换取长 远利益。这一点或许可以解释为什么那些本质并 不好的人在相当长的时间内干好事。
第一节 囚徒困境的有限次重复
假如两个企业垄断了一种商品市场,他们之间的 博弈如图所示。假定开始的时候两家企业彼此合 作,双方都实行高价。假如一个星期后乙背叛合 作采取低价,他的利润将从5万增加到6万。但甲 企业看到后也将采取低价,从此双方的利润各为3 万。即乙企业在背叛的当周获得了1万利润的增加, 但往后的每个星期都以损失2万为代价。 企业乙 博弈的结果?
即使在不完全信息的情况下,如果博弈重复无穷 多次,均衡结果也可能大大不同于一次性博弈。
一种威胁策略,即使在一次博弈中是不可置信的, 在无限次重复博弈中却可能是值得置信的,因为 在后一种情况下,当事人考虑的所有未来收益的 贴现值之和,而不是一次性收益。如果施行威胁 带来的贴现值之和大于不施行威胁的贴现值之和, 威胁就是可置信的。