博弈论7. Repeated Games and Subgame-Perfect Nash Equilibrium
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
给定如图2.3.1的标准式
– 纳什均衡为(L1 , L2) – 同时行动博弈
图2.3.1
• 让两个参与人进行两次囚徒困境博弈,第二次博弈开始 之前可以观察到第一次博弈的结果,并假设整个过程博 弈的总收益等于两阶段博弈收益的简单相加 (即不考虑 贴现因素) 。
6 张醒洲,大连 2014-04-03
“2 × 2 ×2博弈” 和子博弈精炼结果
M1
R1
0, 5
0, 0
4, 4
0, 0
0, 0
3, 3
图 2.3.3
12 张醒洲,大连
2014-04-03
触法策略:发送信号奖惩信号
假设:
如果参与人预测到第一阶段的 结果是(M1,M2),第二阶段的结 果将会是 (R1,R2) ; 如果第一阶段出现其他8个结果 中任何一个,第二阶段的结果 就会是 (L1,L2)。
张醒洲,大连
14
2014-04-03
两阶段重复博弈:触发策略
第一阶段的非合作倾向在第二阶段遭到报复或惩罚! 图2.3.4 里的第三 个纳什均衡结果与前两者存在质的差别:
– 图2.3.4中的 (M1,M2)对应的重复博弈子博弈精炼结果为 ((M1,M2),(R1,R2)),因为对(M1,M2)之后第二阶段结果预期是(R1,R2) ,
1.
2.
参与人1和2同时从各自的可行集A1和A2中选择a1和a2;
支付是 ui(a1,a2,a3*(a1,a2), a4*(a1,a2)),i=1,2;
假定(a1*,a2*)为以上同时行动博弈唯一的纳什均衡,我们称 (a1*,a2*,a3*(a1*,a2*), a4*(a1*,a2*))为这一两阶段博弈的子博弈精炼结果。 这个子博弈精炼结果由第1阶段的唯一纳什均衡和第2阶段对它 的最优反映构成.
果,第二阶段的结果都将是
(R1,R2) 的话,则第一阶段选择 (M1,M2) 的动机就被破坏了:
R1
0, 0
0, 0
3, 3
图 2.3.3
因为两个参与人在第一阶段面临的局势可以简化为在2.3.3 所示阶段博弈的每一单元格中的支付都加上(3, 3) 后形成的一 次性博弈, 于是参与人 i 对 Mj 的最优反应就是Li。
* = ui (a1 ,a2 ,a* ,a 1' 2' ) * = ui (a1 ,a2 )+ ui (a1' ,a* 2' )
8
张醒洲,大连
2014-04-03
两阶段囚徒困境
第二阶段博弈的结果为纳什均衡 (L1 , L2) ,两人支付是 (1, 1); 参与人在两阶段囚徒困境博弈中 第一阶段的交互行动如右所示;
M1
R1
0, 0
0, 0
3, 3
图 2.3.3
图2.2.2中,3个结果(M1,L2) 、 (L1,M2) 和(M1,M2)是Pareta有效 的——某一个参与人偏离该结果会减少另一个参与人的支付。它们构成 该博弈的Pareto边界。 结果(R1,R2)在Pareto边界内部;结果(M1,M2) 是对(R1,R2)的改进。
2014-04-03
3
张醒洲,大连
重复博弈
后动者的威胁或承诺是否影响其他参与人当前的行动? 直观: 大部分直观的结论是由两阶段的例子给出的, 一些 观点需要讨论无限次的情况 概念:子博弈精炼纳什均衡 重复博弈中子博弈精炼纳什均衡的概念
这一定义在重复博弈的条件下表述比较容易理解,而在2.4.B. 节分析一般完全信息动态博弈中则要复杂一些。
4
张醒洲,大连
2014-04-03
两阶段重复博弈
两阶段囚徒困境
两阶段博弈的阶段博弈有多个纳什均衡
预测第二阶段的行动 重复博弈的子博弈精炼结果
5
张醒洲,大连
2014-04-03
两阶段囚徒困境
考虑囚徒困境
参与人 2
L2 参与人 1 L1 R1 1, 1 0, 5 R2 5, 0 4, 4
15 张醒洲,大连 2014-04-03
子博弈精炼结果对可信性的要求
如果第一阶段两个参与人不选择 (M1,M2) ,那么第二阶段为什么 不选择可以获得支付(3,3)、帕累 托优于(L1,L2)的(R1,R2)? 答案是如果对每个第一阶段的结
参与人 1 参与人 2 L2 L1 M1 1, 1 0, 5 M2 5, 0 4, 4 R2 0, 0 0, 0
解的概念
Backwards Induction Outcome (BIO) 后向归纳结果 Subgame Perfect Outcome (SPO) 子博弈精炼结果 Subgame-perfect Nash equilibrium 子博弈精炼NE
2014-04-03
双寡头垄断模型 鲁宾斯坦 (1982) 讨价还价模型 多人两阶段重复博弈 Lazear&Rosen (“同时行动” 意味 Tournaments (1981 ) 着 “不完美信息”) 工作竞赛模型 下一次博弈开始前的 所有博弈的结果都能 被观察到的重复博弈
• 第二阶段的结果 ?
第一阶段 (L1, L2) (R1, R2) 第二阶段 ? ? 收益 (1,1)+(?,?) (3,3)+(?,?)
(M1, M2)
(M1, L2) (L1, M2) others
?
? ? ?
(4,4)+(?,?)
(0,5)+(?,?) (5,0)+(?,?) (0,0)+(?,?)
11
张醒洲,大连
2014-04-03
两阶段重复博弈:阶段博弈有多个纳什均衡
这个阶段博弈有不止一个纳什均衡,参与人可能会预测: 根据第一阶段的不同结果,在第二阶段的博弈中将会出现 不同的纳什均衡。
• 关键问题是:预测对第一阶段的 行动a1 和a2 的反应。
参与人 2 L2 L1 参与人 1 1, 1 M2 5, 0 R2 0, 0
16
张醒洲,大连
2014-04-03
问题: 同时惩罚了惩罚者?
将图2.3.3的博弈重复 两次,对一个参与人 在第一阶段不合作的 惩罚,只能是在第二 阶段的 帕累托居劣均 衡,这就同时惩罚了 惩罚者。
参与人 2
L2 L1 1, 1 0, 5 M2 5, 0 4, 4 R2 0, 0 0, 0
参与人 1
L2 参与人2 M2 R2
L1
参与人 1 M1 R1
2, 2
1, 6 1, 1
6, 1
7, 7 1, 1
1, 1
1, 1 4, 4
那么,这个两阶段博弈就如同 图2.3.4的一次性博弈。
• 在图2.3.4所示的博弈中有3个纯策 略纳什均衡: (L1,L2), (M1,M2) 和 (R1,R2)。与图2.3.2中一样,这个一 次性博弈中的纳什均衡对应着重复 博弈的子博弈精炼结果。
9 张醒洲,大连 2014-04-03
有限重复博弈:重复独立
令 G = {A1, ...,An; u1, ..., un} 表示一个完全信息博弈,其中参与人 1到n同时从各自的行动空间A1到An中分别选择行动a1到an ,支付 分别为u1(a1, ..., an) , ..., un(a1, ..., an),我们称博弈G为重复博弈中的 阶段博弈。 定义1 对给定的阶段博弈G,令 G(T)表示G重复进行T次的有限 博弈,并且在下一次博弈开始前,参与人观察到了所有以前博弈 的过程。G(T)的收益为T次阶段博弈收益的简单相加。 定理1 如果阶段博弈G有唯一的纳什均衡,则对任意有限的T, 重复博弈G(T)有唯一的子博弈精炼结果:即G的纳什均衡结果在 每一阶段重复进行。
解的概念 Central Issue 中心问题 Theme 主题思想
credibility threats or promise (self-enforcement) 可信性威胁或承诺 一个完全信息动态博弈可能会有很多个纳什均衡, 但是有些均衡包含了不可置信的威胁和承诺。子博 弈精炼纳什均衡就是通过了可信任检测的均衡。
13 张醒洲,大连
图 2.3.4
参与人 2 L2 L1 参与人 1 M1 R1 0, 5 0, 0 4, 4 0, 0 0, 0 3, 3 1, 1 M2 5, 0 R2 0, 0
2014-04-03
两阶段重复博弈的子博弈精炼结果
记号 : 令 ((w, x), (y, z))表示重复博弈的一个结果,其中 第一阶段和第二阶段的行动分别为 (w, x) 和(y, z) 。 图2.3.4中的纳什均衡 (L1,L2) 对应着重复博弈的子博弈 精炼结果 ((L1,L2), (L1,L2)) ,因为除第一阶段的结果是 (M1,M2) 外,其他任何情况发生时,第二阶段的结果都 是 (L1,L2)。 类似地,图2.3.4 中的纳什均衡 (R1,R2) 对应了重复博弈 的子博弈精炼结果 ((R1,R2), (L1,L2)) 。重复博弈的这两 个子博弈精炼结果都简单地由两个阶段博弈的纳什均衡 解相串而成。
重复博弈与子博弈精炼纳什均衡
Repeated Games and Subgame-Perfect Nash Equilibrium
trigger mechanism
张醒洲
1
张醒洲,大连
2014-04-03
动态博弈:要点
博弈类型
简单的完全且完美信 息动态博弈
举例 Stackelberg (1934)
参与人 1 L1 R1 参与人 2
L2
2, 2பைடு நூலகம்1, 6
R2
6, 1 5, 5
注意:这个一次性博弈有唯一的 纳什均衡 (L1 ,L2) 。
• 两阶段囚徒困境唯一的子博弈精炼结果就是第一阶段 (L1,L2) 和第二阶段 (L1,L2)。 • 在子博弈精炼结果中,任意阶段都不能达成相互合作 (R1,R2)。
7 张醒洲,大连 2014-04-03
两阶段囚徒困境
第2阶段的反应 a3*(a1,a2),a4*(a1,a2)
根据第一阶段的行动a1和 a2 ,预测第二阶段参与人的反应; 注意,在囚徒困境博弈中存在唯一的纳什均衡,因此参与人的 反应独立于其在第一阶段的行动。
计算 ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2. 在本例中,支 付等于两个阶段博弈支付的简单和. * ui (a1 ,a2 ,a* (a ,a ),a 1' 1 2 2' (a1 ,a 2 ))
两阶段囚徒困境博弈是“2×2 两人同时行动博弈” 的一个特例。利 用后向归纳法的思路分析该博弈的子博弈精炼结果,参阅课本2.2.1节。 如果参与人1和2预测到参与人3和4在第二阶段的行动将由 (a3*(a1,a2),a4*(a1,a2))给出,则参与人1和2在第一阶段的问题就可以 用以下的同时行动博弈表示:
17 张醒洲,大连 2014-04-03
Pareto边界上有5个结果,其中3个是NE
四个纯策略纳什均衡: (L1,L2) 和 (R1,R2), (P1, P2)和 (Q1,Q2). 不存在一个纳什均衡 (x, y) ,使 参与双方与(P1, P2)或 (Q1,Q2)或 (R1,R2)相比,都倾向于选择(x, y). 均衡(P1, P2), (Q1,Q2)和(R1,R2) 都处于图 2.3.5所示博弈的帕托 边界上.
10
张醒洲,大连
2014-04-03
两阶段重复博弈:阶段博弈有多个纳什均衡
参与人 2 L2 M2 R2
L1
参与人 1 M1 R1
1, 1
0, 5 0, 0
5, 0
4, 4 0, 0
0, 0
0, 0 3, 3
将图2.2.3的阶段博弈重复 进行两次,在第二阶段开 始前可以观察到第一阶段 的结果。
可以证明在这一重复博弈 图 2.3.3 中存在一个子博弈精炼结 果,其中第一阶段的策略 • 图2.2.3中表示的博弈有两 组合为 (M1,M2)。 个纳什均衡 (L1,L2),(R1,R2)
2 张醒洲,大连
动态博弈主题: 可信威胁与承诺会影 响现在的行为
动态博弈:要点
完全信息动态博弈 表述 Normal-form / Strategicform 标准式/策略式 Nash Equilibrium (NE) Nash均衡 Extensive-form 扩展式 Subgame-perfect Nash equilibrium (SPNE) 子博弈精炼Nash均衡
亦即正如我们前面讲过的,在重复博弈的子博弈精炼结果中,合作
可以在第一阶段达成。 下面是更为一般的情况 如果 G = {A1, ...,An; u1, ..., un} 是一个有多个纳什均衡的完全信息静态
博弈,则重复博弈G(T)可以存在子博弈精炼结果,其中对每一 t < T ,
t 阶段的结果都不是 G的纳什均衡。 重复博弈的子博弈精炼结果允许在阶段博弈中出现非Nash均衡。