重复博弈的详细介绍分解
第四章 重复博弈
通用面粉
策略 无广告 12,12 20,1 中等强度 1,20 6,6 高强度 -1,15 0,9 无广告 中等强度
凯洛格
高强度
15,-1
9,0
2,2
纳什均衡
无限重复博弈
如果企业每年都进行这种一次博弈,并且永远进行下去,这时参与人可以对对 手的“欺骗”行为进行惩罚或报复。在这种情况下,共谋起作用吗?
4.2.2 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2 有限次重复的囚徒困境博弈
凯洛格
中等强度 高强度
Kellogg从欺骗行为中获得的好处:
欺骗 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i – 假设i = .05 欺骗 - 合作 = 8 - 10/.05 = 8 - 200 = -192 欺骗没有好处. – 在无限次重复博弈中共谋是纳什均衡!
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高
无广告 中等强度 高强度
欺骗行为的收益和成本
如果 当前收益 > 未来成本的现值
–
欺骗行为是有利的 欺骗行为没有好处
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高强度 -1,15 0,9 2,2 无广告 中等强度 高强度
一次广告博弈
第四讲重复博弈(下)详解
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈
乙
招
不招 -5,-13 -6,-6
招
甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
第十二讲重复博弈
如果不论对方选择什么,非理性囚徒 总是选择D(合作),那么,合作均衡 就不会出现,因为给定非理性囚徒总 是选择D的情况下,C是理性囚徒的占 优战略。
54
3 g = (a − c ) 8
2 i
i的最优利润为
2 i
9 2 π = (a − c ) 64
20
j 的冷酷策略:
(1)首先选择 合作即生产量为 (2)如果i选择 2 背叛即生产量为, i 则j将永远选择 不合作。
1 g = (a − c ) 4
1 j
3 g = (a − c ) 8
21
企业i没有积极性偏离合作均 企业 没有积极性偏离合作均 衡的条件为
ui = 50 + δ 50 + • • • + δ 1− δ = 50 1− δ
T T −1
50
7
定理1.设G是价格博弈,G(T)是 G重复博弈T,
• 如果G有唯一的纳什均衡, • 则G(T)的唯一子博弈精 • 炼纳什均衡是G的纳什均衡 • 重复T次。
8
例2,掷硬币游戏
正 正 反 -1,1 1,-1
34
特别地,
• 在有限次重复囚徒博弈中,每次都选择 “坦白”是每个囚徒的最优战略。 • 这一结果与人们的直观感觉不一致。 • 阿克斯罗德( 1981)的实验结果表明,即 • 使在有限次重复博弈中,合作行为也频繁 • 出现。
35
二、悖论的破解:声誉模型
• 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(1982) • 将不完全信息引入重复博弈 • 参与人对其他参与人支付函数或策略的不完全信 息对均衡结果有重要影响, • 合作行为在有限次博弈中会出现,只要博弈重复 的次数足够长(没有必要是无限的)。 • 特别地,“坏人”可能在相当长一段时期表现得 像“好人”一样。
第四章重复博弈详解
T
G(,)
1 2 2 3 t 1 t
t 复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
4.1.1 为何研究重复博弈
经济中的长期关系
人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态 博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前 博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G 则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。
这种结论对于帮助我们加强对重复博弈意义的理解,帮助我们在重复 博弈中更好地把握机会,设计和运用高效率的策略,建立相互的默契 和信任,从而争取实现更好的博弈结果,都有相当重要的意义。
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈
4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈
4.3.3 无限次重复古诺模型
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用 不合作报复。 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M, 否则选L 博弈方2:同博弈方1
触发策略
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段 (H,H),第二阶段(M,M)这是一个子博弈完美纳什均衡路径。
两寡头削价竞争博弈
H L H 4,4 5,0 L 0,5 1,1
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
重复博弈的名词解释
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
第四讲重复博弈详解
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
@第4章 重复博弈
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
第六讲 重复博弈
一、重复博弈引论 二、有限次重复博弈 三、无限次博弈
重复博弈是指基本博弈重复进行构成的博 这里并不是博弈的简单重复, 弈过程 。这里并不是博弈的简单重复,因 为博弈方在重复进行博弈的过程中, 为博弈方在重复进行博弈的过程中,重复 的意识会使他们对利益的判断发生变化。 的意识会使他们对利益的判断发生变化。 所以不是简单叠加, 所以不是简单叠加,而是对重复博弈过程 进行整体研究。一般是静态的重复, 进行整体研究。一般是静态的重复,而重 复本身是一个动态过程。 复本身是一个动态过程。 主要内容: 主要内容: 1.有限次重复博弈 有限次重复博弈 2.无限次重复博弈 无限次重复博弈
为了更进一步说明重复博弈的特点,我们 可以认为重复博弈是动态博弈的一种特殊 类型。在前面讲过的动态博弈中,从后一 个决策结开始的子博弈不同于从前一个决 策结开始的子博弈,或者说同样结构的子 博弈只重复一次。如,在房地产开发博弈 中,开发商A选择“开发”后的子博弈就不 同于选择“不开发”后的子博弈。这样的 动态博弈叫“序贯博弈”(sequential games). “重复博弈”是指同样结构的博弈重复多次, 其中每次的博弈称为“阶段博弈”(stage game)
重复博弈的各阶段有时间次序,各阶段的得益也有时 重复博弈的各阶段有时间次序, 重复次数不多或时间间隔不长, 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长, 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 限阶段重复博弈,就必须考虑得益的时序问题。 一般是把各阶段的得益折合成现值来计算。若利率为 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1
短期关系中因为缺乏形成默契与合作,或者报复 短期关系中因为缺乏形成默契与合作, 与制裁,不能形成共同追求利益的机会。 与制裁,不能形成共同追求利益的机会。而长期 关系则不同,博弈方在考虑当前利益的同时, 关系则不同,博弈方在考虑当前利益的同时,要 兼顾未来利益,行为和结果都较为复杂。 兼顾未来利益,行为和结果都较为复杂。 因为是重复博弈,各阶段不像一般的动态博弈一 因为是重复博弈, 样环环相扣,而是各阶段相互独立, 样环环相扣,而是各阶段相互独立,后一阶段的 选择受前面博弈过程的影响不大。比如回头客, 选择受前面博弈过程的影响不大。比如回头客, 每一次交易都是独立的博弈, 每一次交易都是独立的博弈,每次交易对未来的 影响是间接的。 影响是间接的。所以理解为重复博弈比理解为长 期的动态博弈更符合实际情况。 期的动态博弈更符合实际情况。
重复博弈
1 P 1 e w e e 时,努力工作是工人 0 (1 P) (1 P) 的最佳选择,也就是说,要使工人努力工作,y w*不仅要包括工人个体收入 w0
* 当 Ve Vs ,即 w w0
1 e。 和努力工作的负效用e,还要有一点升水 (1 P)
6 随即停止的重复博弈的期望得益现值:
E[ 1 ]
E[ 2 ]
E[ t ]
上述结果说明无限次重复博弈和随机停止博弈具有统一的表示形式。
7 重复博弈的几个重要理论成果
无纯策略 混合策论 有唯一纯策略
有纯策略 有多个纯策略 T h:存在合作的可能 (Folk Theorem, Friedman,1971) 三价博弈 两市场博弈
1 * e ,则只要各阶段得益 y w 0 ,厂商选择前述触 (1 P) * 发策略就是对工人触发策略的最佳反应。故在满足 y w 0 和工资率 w* w0 e 1 * e 时,双方触发策略构成一个纳什均衡。而 y w 0 (1 P) 1 * e 意味着工人努力工作产出减去努力工作的负效用 和 w w0 e (1 P) w* w0 e
e越大,工资补偿越多;
越小,说明未来利益越不重要,工人更看重当前利益,当前工资也必须高;
P越高,工人丢饭碗的风险越小,除非工资更高,否则工人宁愿偷懒。 计划经济体制下劳动者偷懒总是难以被发觉或无人认真发觉,工资又是固 定在平均水平,无任何刺激,故工人必然倾向于偷懒。
* 而若工人已采用触发策略,则对工人的选择,厂商给的工资率 w 若满足
4 重复博弈
结果是具non-exploitability 的 TFT表现最好,tit-for-two-tats 只得到第24名,随机策略仍最差。
DEV1L: TFT 直至第 L回合. 采取 D 一次. 重新选择 C ,然后再回到TFT 局中人2有没有动机采取 DEV1L?
(TFT, TFT)
0
1
2 …
L
L+1
L+2
L+3 …
1: C 2: C
C C
C… C…
C C
C C
C C
C … C …
(TFT, DEV1L)
1: C 2: C
C C
C… C…
4. 重复博弈的三个特征
阶段博弈之间没有物质上的联系,也就 是说,前一阶段的博弈不改变后一阶段 的结构; 所有参与人能观察到博弈过去的历史; 参与人的总支付(报酬)是所有阶段博 弈支付的贴现值之和;
5. 重复博弈的策略、子博弈和均衡路径
(1) 重复博弈的策略 重复博弈中每个博弈方在每个阶段都必须进行 策略选择,因此博弈方的一个策略就是在每次 重复时, 针对其前面阶段所有可能的情况如何 进行行动的计划。 (2) 重复博弈的子博弈 重复博弈的子博弈就是从某个阶段(除第一 阶段以外)开始,包括此后所有阶段的重复博 弈部分。重复博弈的子博弈要么仍然是重复博 弈,只是重复的次数较少,要么就是原博弈。
第四章 重复博弈
1. 基本概念
重复博弈:给定一个基本博弈G(可以 是静态博弈,也可以是动态博弈), 重复进行T次G,并且在每次重复G之前 各博弈方都能观察到以前博弈的结果, 这样的博弈过程称为“G的T次重复博 弈”,记为G(T)。而G则称为G(T)的 “原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。
重复博弈
重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。
重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。
第十章 重复博弈
• 该博弈具有固定且有限数目的时期段,而且这一点在所有参与 人间是共同知识。
• 我们来看下面这个折现因子为 、重复两次的两阶段重复博弈的例子:
• 这一矩阵表明存在两个纯Байду номын сангаас略纳什均衡,对于每一个参与人这两个纳
什均衡的帕累托排序为(R,r)优于(F,f)。这样,根据我们在第
九章对多阶段博弈的知识,我们使用“胡萝卜”和“大棒”来约束第 一个阶段的行为。这意味着,若然折现因子足够高,我们就可以找到 支持第一个阶段上在一次性阶段博弈并非纳什均衡行为的子博弈完美 均衡。
掉好名声,参与人们就会转而进入不合作的阶段。 如果没有了未来,或者未来不再那么重要,这种对 声誉的关注就会大打折扣,甚至消失。
• 2.作为声誉机制的第三方机构
主要是指参与人向第三方预交一定的“押金”, 当参与人选择非合作时,第三方将扣除“押 金”,这也就相当于改变了博弈的原有支付结 果,为合作行为提供了相应的激励。这里的第 三方可以是法官或某个其他的机构参与人,其 能够有助于维持其他人良好行为的声誉。
第十章 重复博弈
本章重点:
重复博弈的定义与类别,以及不同类别在解概念上的差异 重复博弈子博弈完美均衡的性质和运用 支付和平均支付的计算 三种类型声誉的运用 无名氏定理的理解及运用
本章主要内容
• 一、有限重复博弈
• 二、无限重复博弈
• 三、子博弈完美均衡
• 四、序贯互动和声誉 • 五、无名氏定理
一、有限重复博弈
• 3.没有第三方的声誉转移
– 当不是两个可以活无限期的参与人,而是一系
列寿命有限的(一次性)参与人对时,那么在
无限期存在的第三方帮助之下,我们就可以恢
复声誉激励,以使得贸易获益成为可能。这可
博弈论:4重复博弈
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主要内容:
一、有限次重复博弈 二、无限次重复博弈与无名氏定理 三、重复博弈的社会学,老兵按住他: 别乱开枪!新兵问:为什么?老兵对其 解释:曾有一段时间,双方打得不可开 交,结果大家都躲着,屎尿都撒在猫耳 洞里,由于猫耳洞很潮湿,人呆在里面 很难受,导致有人耳朵都发了霉,最后 是谁也打不着谁,自己却活受罪。此后, 便慢慢达成默契:我出来你不开枪,你 出来我也不开枪。
一、有限次重复博弈
• 动态博弈中涉及的一个重要问题是,博弈 过程中威胁和承诺如何影响博弈的进程。 • 重复博弈所关心的议题也与之相似: (1)将来可信的威胁或承诺如何影响到 当前的行动? (2)在一次博弈中无法实现的均衡,在 重复博弈中能否实现?
考察下列博弈
1
L
2
R
U
D
1,1 0,5
5,0 4,4
• 该博弈存在唯一的Nash均衡,即(U,L)。 • 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。 • 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
• S2:第一阶段选择M2;如果第一阶段 结果为(M1,M2) ,则下一阶段选R2; 否则选择L2。
根据上述战略,博弈可表示为:
L2
2
M2
R2
L1 1+1,1+1 5+1,0+1 0+1,0+1 1 M 1 0+1,5+1 4+3,4+3 0+1,0+1 R1 0+1,0+1 0+1,0+1 3+1,3+1
连锁店悖论
• 假定在位者在不同的市场上有20家连锁店, 进入者试图进入这些市场。如果进入者进 入了每一个市场,此时博弈就变成了20次 重复博弈。当进入者进入第1个市场时, 在位者应该如何反应呢? • 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付
在位者
默许
3,3 1,10
斗争
-1,0 1,10
进入者
进入 不进入
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k I A F
-1,0
O C
3,3 1,10
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。 重复博弈的子博弈精炼纳什均衡:在位者在每一个市场 选择默许,进入者在每一个市场选择进入。
• 同样可证明:在n阶段重复博弈(即博弈重 复n次且每次博弈开始时,前面博弈的结 果都已知)中,高效的均衡同样无法实现。
有限重复博弈定义
• 定义: 对于给定的阶段博弈G,令G(T) 表示G重复进行T次的有限重复博弈, 并且在下一次博弈开始前,所有之 前博弈的进程均可被观测到。
有限重复博弈的战略、子博弈与支付
• 例子2
一个男孩被视为傻瓜,因为每当别 人拿一枚1块硬币和5分硬币让他选的时 候,他总是选5分的,有一个人觉得奇怪, 就问他:“为什么你不拿1块钱的?”, 男孩小声回答:“假若我拿了1块钱的硬 币,下次他们就不会再拿钱让我选了。”
• 威胁和承诺的重要性:以上两个例子带 给我们什么启发?
• 问题1
• 战略:重复博弈环境下,参与人的 战略非常复杂。一般地,我们定义 参与人的一个战略是在博弈的每个 阶段针对之前的博弈历史而制定的 行动计划; • 子博弈:子博弈要么仍然是重复博 弈,要么是原博弈;
有限重复博弈的战略、子博弈与支付 • 参与人的支付:是所有阶段博弈支付 的贴现值之和,或者加权平均值。 • 注意:在重复博弈中,阶段博弈可能 是静态博弈,也可能是动态博弈,因 此,重复博弈可能是完美信息重复博 弈和不完美信息重复博弈。此处我们 仅讨论完美信息重复博弈。
在相互联系紧密的人际关系中,人 们普遍比较注意礼节、道德,因为合作 和协调对大家都有好处;但是,我们又 常常见到这样的消息:在公共汽车上, 两个陌生人会为一个座位争吵,为什么 会发生这种事情?原因何在?
• 问题2
在“囚徒困境”这一例子中,博弈的 参与人为了追求自身利益的最大化,而陷 入了个人理性与集体理性的冲突中,导致 最优的结果未能出现,即合作没有产生。 如果我们假定博弈可以多次重复进行,结 果是否会发生变化?是否会出现合作的局 面?
冷酷战略(grim strategies)
• 也称触发战略; • 以囚徒困境为例:开始选择抵赖,而且一 直选择抵赖直到有一方选择了坦白,然后 永远选择坦白; • 这意味着:一旦哪个参与人选择了坦白, 就触发了惩罚的扳机。
根据上述原则,可构造如下战略:
• S1:第一阶段选择M1;如果第一阶段 结果为(M1,M2),则下一阶段选R1; 否则选择L1。
定理:
如果阶段博弈G有唯一的Nash均衡, 则对任意有限的T,重复博弈G(T)有唯 一的子博弈精炼解,即G的Nash均衡结 果在每一个阶段重复进行。
问题:囚徒困境中的囚徒有可能实现高效 的均衡吗?
存在多重纳什均衡的情形
考察下列博弈
L2 L1
1 M1
M2 5,0 4,4 0,0
2
R1
1,1 0,5 0,0
1 2 1
第二阶段 2 L R
1 U D
第一阶段
2 L 1 U D R
1,1 0,5
5,0 4,4
1,1 0,5
5,0 4,4
2
第一阶段
L 1
R
U 1+1,1+1 5+1,0+1 D 0+1,5+1 4+1,4+1
• 运用逆推归纳法,可以发现上述重复博弈 的子博弈精炼Nash均衡为:在每次博弈中, 参与人1都选择U,参与人2都选择L。 • 这说明:在两次重复博弈中,高效的均衡 仍无法实现。
R2 0,0 0,0 3,3
• 单阶段Nash均衡: (L1 , L2)和(R1, R2); • 合作均衡:(M1,M2); • 问题:合作均衡能否出现?
L2 L1
1 M1
M2 5,0 4,4 0,0
2
R1
1,1 0,5 0,0
R2 0,0 0,0 3,3
• 现在假设博弈重复两次,可以根据以下原则构造均 衡:由第一阶段的结果,预测第二阶段的均衡。 • 例如:若第一阶段出现(M1,M2)(即出现合作),则第 二阶段为(R1,R2)(即“好的纳什均衡”);若第一阶 段没有出现(M1, M2), 则第二阶段为(L1,L2)(即“差 的纳什均衡”)。