第四讲重复博弈(下)详解

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表3 囚徒困境博弈


不招 -5,-13 -6,-6

甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
2、后续阶段中包含着奖励和惩罚机制:选M可 以奖励对方,选L可以惩罚对方。因为(M,M) 和(L,L)都是阶段博弈的NE,所以奖励和惩 罚都是可信的。
考虑如下抽象博弈: L 1,1 参与人2 M R P Q 5,0 0,0 0,0 0,0
L
参 与 人 1
M 0,5 R P Q 0,0 0,0
4,4
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
触发策略(trigger strategy)
假设寡头采取触发策略(trigger strategy),即开始选择合作,如果对方也合 作,就一直合作;但在博弈中一旦发现对方 不合作,就永远选择报复,不合作。 寡头 1 ,第一次选 H. 如果第一次结果为 (H,H), 则第二次选M;否则选L. 寡头2:同上。 子博弈精炼纳什均衡结果是:第一阶段 (H,H),第二阶段(M,M)。
(二) 存在多个NE的有限次重复博弈
• 例1:三价博弈 故事:两生产同质商品的寡头。在两 寡头都是高价时市场总利润为10,都是 中价时市场总利润为6,都是低价时市场 总利润为2。两寡头同时决策,价格相同 时分享利润,否则低价者独占。
三价博弈
寡头2 M
0,6 3,3 2,0
H
寡 头 1 H M L
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。
表2
囚徒困境博弈
பைடு நூலகம்


不招 0,-8 -1,-1

甲 不招
-5,-5 -8,0
(这样一个博弈重复进行2次)
而在两阶段囚徒困境中,第二阶段的NE可以完全 不依赖于第一阶段的结果。 分析时要注意3点: 1 逆推归纳法backwards-induction
2 参与人在第二阶段行动只须考虑该阶段的 利益最大化,因为无须“瞻前顾后”。 3 分析第一阶段时,可把第二阶段的均衡结 果下的支付值叠加到第一阶段的相应支付值上。
• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
第四讲 重复博弈(下)
一、有限次重复博弈 (以two-stage repeated games为例) (一)阶段博弈只有唯一NE 考虑曾经给出的囚徒困境的标准式(回忆并 画出支付矩阵)。 假设两个参与者要把这样一个同时行动博弈重 复两次,并且在第二次博弈开始之前可观测第一 次的结果。再假设整个过程博弈的收益等于两阶 段各自收益的简单相加(即不考虑贴现因素), 我们称这一重复进行的博弈为两阶段囚徒困境。
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 0
0,0
0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
证明
第二阶段( M,M )是原博弈的纳什 均衡,参与人的行为不会发生偏离。第 一阶段( H,H )虽然不是原博弈的纳什 均衡,单独偏离为M能增加1单位支付, 但这样做第二阶段要损失2,因而不会偏 离(H,H)。
这就证明了该策略组合是子博弈完美的。从这 条均衡路径中看到:将来利益对当前的选择有 约束。 这种策略有2个特点: 1、第一阶段选H,试探合作。 机会主义
第一阶段的行动组合是(M,M),则第二阶段的行动组 合将是(R,R);第一阶段的行动组合是(M,X)或(X, M),则第二阶段的行动组合将是(P,P)或(Q,Q);第 一阶段的行动组合为其它,则第二阶段还是(R,R)。
三、无限次重复博弈
无限次重复博弈与有限次重复博弈的异同: 1、没有最后一阶段博弈; 2、不可忽略贴现问题 3、都可能通过惩罚来实现理想的均衡。
相关文档
最新文档