重复博弈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章
重复博弈
本章主要内容: 1 重复博弈的概念; 2 作为一种特殊的动态博弈,有限次和无限次重复 博弈的子博弈完美纳什均衡的求解方法; 3 无限次重复博弈古诺模型和效率工资模型。 本章主要结论(民间定理): 由于参与者在重复博弈中具有了长期利益, 可以通过在后面阶段中采取的报复策略使得威胁 变得可信,从而摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作的结局。
4.2.3 有两个纳什均衡的重复博弈
结果分析: 子博弈路径(A,A),(A,B),(B,A)为子 博弈纳什均衡。 因为后续两阶段的结局(A,B)和(B,A)为 纳什均衡,而第一阶段的合作结局(A,A)是由于 触发策略针对对方偏离合作的行为设计了后续两 阶段都不合作的惩罚措施,其单方面偏离的路径 (B,A)(B,B)(B,B)收益并不增加,因此不 存在偏离的动机。
4.2.3 有两个纳什均衡的重复博弈
考虑三次重复博弈各策略组合子博弈纳什均衡 路径: 1.由原博弈的纳什均衡组合而成的路径,如采 取轮换策略(在上述的协调博弈中,双方轮换采取 纯纳什均衡策略,路径为(A,B),(B,A),(A,B)….. 不考虑时间的价值(贴现系数),每阶段的平均得 益为(4+1)/2 =2.5,高于混合策略的得益2。 2.触发策略,博弈方首先采取合作行为,如果 发现对方没有进行合作,那么在后续阶段的博弈中 采取不合作策略进行惩罚。
4.2.4 民间定理
触发策略:博弈方1在第一阶段采取M策略, 如果对方合作,则第二阶段采取R策略作为奖 励;否则第二阶段采取L策略进行惩罚(注意 (L,L)也是纳什均衡,因此具有稳定性)。博 弈方2也采取同样策略。 策略分析:如果任何一方在第一阶段偏离, 仅仅多获得5-4=1单位得益,而在第二阶段 的得益(L,L)仅仅为1;如果在第一阶段合作, 第二阶段的得益为3。因此双方不存在偏离该 策略的动机。
定理 设原博弈G有唯一的纯策略纳什均衡,则 对任意正整数T,重复博弈G(T)有唯一的子 博弈完美的解,即各博弈方每个阶段都采用G 的纳什均衡策略。各博弈方在G(T)中的总得 益为在G中得益的T倍,平均每阶段得益等于原 博弈G中的得益。
4.2.3 有两个纳什均衡的重复博弈
例 两个厂商1和2,同时 A B A 3,3 面临两个市场机会A和B。假 1, 4 0,0 B 4,1 设每个厂商都只有能力选择 图4-2 两厂商差别市场博弈 一市场发展,即他们的可选 择策略都是A或B,其得益矩 阵如图所示。 此博弈具有2个纯策略纳什均衡(1,4)、 (4,1)和混合策略纳什均衡概率(0.5,0.5)。
坦白 不坦白
- 5, -13
坦白 不坦白
-10,-10
-13, -5
-6,-6
此时,博弈的纳什均衡仍是(坦白,坦白)。
4.2.2 有限次重复的囚徒困境博弈
结论: 在有限次重复博弈G(T)中,如果原博 弈G存在唯一的纯策略纳什均衡组合,则重复 博弈的唯一的子博弈完美纳什均衡解为各博弈 方在每阶段都采取的原博弈纳什均衡策略。 含义:在原博弈具有唯一均衡的有限次重复博 弈中,由于完全理性的博弈方具有“共同知识” 的分析推理能力,因此在从最后阶段开始的逆 推过程中,仍然无法摆脱囚徒困境。
4.2.4 民间定理
策略分析:与图4-4例子相比较,由于博弈的特殊 结构,这个触发策略的设计对偏离行为和合作行为 分别进行惩罚和奖励,因此策略具有很强的可信性。 而在图4-4例子中,针对对方的偏离行为采取了 (L,L)策略进行惩罚,但是惩罚对方的同时,自 身的利益也受到了损害,因此可信性不强。
第三节 无限次重复博弈
第一节 几个概念
重复博弈的概念 有限次重复博弈的概念
4.1.1
重复博弈的概念
1 由简单的静态博弈(或动态博弈)的有限次 (或无限次)重复进行构成的。 2 每一阶段博弈方、策略集合、规则和得益都相 同。 3 包括:有限次重复博弈和无限次重复博弈 4 例子: 多场决胜负的体育比赛(有限次) 两寡头市场上两个厂商之间的竞争(无限次) 商场与顾客交易
第二节
有限次重复博弈
有限次重复的猜硬币博弈——原博弈为零和博弈 有限次重复的囚徒困境博弈——原博弈有唯一的 纯策略纳什均衡 有多个纳什均衡的重复博弈的策略设计——触发 策略 有多个纳什均衡重复博弈的得益范围——民间定 理
4.2.1 有限次重复的猜硬币博弈
在零和博弈中,双方不存在合作的可能性, 因此在长期进行的重复博弈中,子博弈完美纳什 均衡由各个阶段原博弈的纳什均衡构成(例,在 猜硬币博弈中以0.5的概率选择正面或者反面, 即采取混合策略)。 实际上,所有以零和博弈为原博弈所构成的 重复博弈与猜硬币博弈构成的重复博弈一样,各 博弈方的正确策略就是在每次重复中都采用一次 性博弈中的纳什均衡策略。
4.1.2 有限次重复博弈的概念
定义:给定一个博弈G,重复进行T次G,并且在 每次重复之前各博弈方都能观察到以前博弈的结 果,称为G的一个“T次重复博弈”,记为G(T)。 其中,G成为G(T)的原博弈。每次重复称为G(T) 的一个阶段。
4.1.2 有限次重复博弈的概念
几个概念: 1 子博弈:从某一阶段(不包括第一阶段)开始, 包含以后所有阶段的原重复博弈的一部分。 2 策略:博弈方在每个阶段针对每种情况如何行 动的计划(注:在每一阶段之前,博弈方是可 以观察到以前博弈的结果的)。
4.2.4 民间定理
例(双方各五种可选策略重复博弈):
L M R P Q L M R 1,1 5,0 0,0 P 0,0 Q 0,0
0,5 0,0 0,0 0,0
4,4 0,0 0,0 0,0
Байду номын сангаас
0,0 0,0 0,0 3,3 0,0 0,0 0,0 4,1/2 0,0 0,0 0,0 1/2,4
图4-5双方各五种可选策略重复博弈
4.2.4 民间定理
例(两人各三种可选策略):
L L M R
1, 1 0, 5 0, 0
M
5, 0 4, 4 0, 0
R
0, 0 0, 0 3, 3
图4-4多种策略博弈的重复博弈
该博弈具有两个纯策略纳什均衡和一个混合 策略纳什均衡,但是双方存在一个更好的得益( 4, 4)。对于二次重复博弈,根据民间定理可以设计 一个触发策略来实现这个得益。
在有限次重复博弈中, (1)由于完全理性的博弈方可以运用逆推归纳法, 因此对于原博弈具有唯一纳什均衡(如囚徒困境 博弈)的有限次重复博弈,重复博弈结局尚无法 摆脱囚徒困境; (2)但是对于原博弈具有多个纳什均衡的有限次 重复博弈,根据民间定理可以设计出具有可信威 胁的触发策略,达到帕累托最优的博弈结局。
4.2.2 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2 有限次重复的囚徒困境博弈
4.2.4 民间定理
定理分析:民间定理表明,在具有多个纳 什均衡的有限次重复博弈中,通过设计具有可 信威胁的触发策略(即在第一阶段采取合作行 为,当对方不合作时通过在后续阶段采取相应 的不合作策略进行惩罚;当对方合作时,在最 后阶段采取一次性原博弈的纳什均衡策略作为 稳定的结局。),可以使得博弈方在重复博弈 的过程中具有了一定学习能力,从而达到博弈 的帕累托前沿得益。
4.2.3 有两个纳什均衡的重复博弈
那一次的结果不是(A,A),则改为B并坚持 到底,最后两次重复与三次重复博弈后两次重 复的策略相同; 博弈方2:前99次选A,但从其中的第二次开始, 一旦发现那一次的结果不是(A,A),则改 为B并坚持到底,最后两次重复与三次重复博 弈后两次重复的策略相同; 双方的每阶段的平均得益是(99×3+1+4) /101=2.99,非常接近效率最高的得益(3,3)
4.2.4 民间定理
该博弈具有4个纯策略纳什均衡,在二次重 复博弈中,触发策略设计:第一阶段双方采取 (M,M)策略,如果博弈方1偏离此策略,那么第二 阶段采取(Q,Q)策略对博弈方1进行惩罚,对博弈 方2进行奖励;同理,如果博弈方2偏离了此策略, 那么采取(P,P)策略对博弈方2进行惩罚,对博弈 方1进行奖励。如果双方都没有偏离,那么第二 阶段采取具有较高收益的纳什均衡(R,R)策略。 如果双方都偏离了此策略,第二阶段同样采取纳 什均衡的(R,R)策略。
4.1.2 有限次重复博弈的概念
3 路径: 是每个阶段博弈结果(原博弈的一个 策略组合)连接而成。对于具有n个策略组合 的原博弈,重复T次的路径数为nT,重复博弈 的求解即找出具有稳定性的均衡路径。 4 得益:不同于一般的动态博弈,重复博弈的得 益为各个阶段得益的加总。考虑到时间的价值, 需要引进“贴现系数”将未来的得益折算成当 期得益的价值。
4.2.4 民间定理
在图4-2一次性博弈中,博弈方均衡得益分别 为纯策略的得益(1,4)和混合策略的得益(2, 2),最差的均衡得益数组为w=(1,1)。
厂 商 得 益 (1,4) (3,3) 2 (1,1)
(4,1)
图4-3
民间定理
厂商1得益
4.2.4 民间定理
在图4-3中,通过不同得益的组合,阴影部 分(包括连线)的得益都是可实现得益。 民间定理揭示出:在有限次重复博弈中,可 以通过设计触发策略来实现(或者逼近)阴影部 分的得益。
4.2.3 有两个纳什均衡的重复博弈
策略设计分析: (1)在博弈方1和2中,在第一阶段都采取了合作 行为A,并针对对方的不合作行为B,都设计了在 后续2个阶段采取不合作B的相应惩罚措施; (2)如果对方在第一阶段中采取了合作行为,在 后续阶段的策略设计中要保证博弈结局具有稳健 性。因此,针对第一阶段的合作行为,后续阶段 的策略设计是为了实现双方的行动协调,以保证 实现纳什均衡(B,A)或(A,B)。
4.2.2 有限次重复的囚徒困境博弈
坦白 坦白 不坦白 不坦白
-5,-5
-8, 0
0,
-8
-1,-1
图4-1 囚徒困境
求解思路:对于有限次重复囚徒困境博弈,根 据动态博弈的逆推归纳法可以求解。
4.2.2 有限次重复的囚徒困境博弈
以两阶段(以该博弈作为原博弈G重复两次)为 例:分析最后一阶段,子博弈即为原博弈,唯一的 均衡为(-5,-5);分析第一阶段,将最后阶段 的收益(-5)添加到第一阶段的矩阵中,即:
4.2.3 有两个纳什均衡的重复博弈
在图4-2中,触发策略的设计为: (1)博弈方1的策略是第一阶段合作A,如果发现对方采取B不 合作,则第二阶段采取不合作的B策略惩罚,否则第二阶段 继续合作;第三阶段无条件采取B策略。 (惩罚放在第二阶段) (2)博弈方2的策略是第一阶段合作A,第二阶段无条件选B, 如果第一阶段结果是(A,A),则第三阶段A;如果第一阶 段结果是(B,A),则第三阶段选B。(惩罚放在第三阶段) (3)是一子博弈完美纳什均衡,双方每阶段的平均得益为 (3+1+4)/3=2.67,效率较高。 (4)如果增加博弈的重复次数到101次。若采用的触发策略是: 博弈方1在前99次中都选A,但从其中的第二次开始,一旦发 现
4.2.4 民间定理
用wi记博弈方i在一次性博弈中最差的均衡得 益,用w记各博弈方的wi构成的得益数组。结合 “个体理性得益”和“可实现得益”,则有限但 次数很多的重复博弈有如下民间定理: 定理:将一次性博弈中最差的均衡得益数组 记为w,如果原博弈G的一次性博弈有得益数组优 于w,那么在有限次重复博弈G(T)中,所有个体 理性得益和可实现得益都至少有一个子博弈完美 纳什均衡来实现。
4.2.4 民间定理
问题的提出:由于具有多个纳什均衡的重复博弈 可以设计多种策略,在双方缺乏沟通的情况下, 结局具有不确定性。因此,这里讨论具有多个纳 什均衡的重复博弈可以实现的收益范围。 个体理性得益:不管对方采取何种行动,只要自 己的行为合理就可以保证实现的收益。 可实现得益:各纯策略组合得益的加权平均数组。 注意:并非一定是均衡策略的组合得益,因此在 图4-2中,(3,3)也是可实现得益。
重复博弈
本章主要内容: 1 重复博弈的概念; 2 作为一种特殊的动态博弈,有限次和无限次重复 博弈的子博弈完美纳什均衡的求解方法; 3 无限次重复博弈古诺模型和效率工资模型。 本章主要结论(民间定理): 由于参与者在重复博弈中具有了长期利益, 可以通过在后面阶段中采取的报复策略使得威胁 变得可信,从而摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作的结局。
4.2.3 有两个纳什均衡的重复博弈
结果分析: 子博弈路径(A,A),(A,B),(B,A)为子 博弈纳什均衡。 因为后续两阶段的结局(A,B)和(B,A)为 纳什均衡,而第一阶段的合作结局(A,A)是由于 触发策略针对对方偏离合作的行为设计了后续两 阶段都不合作的惩罚措施,其单方面偏离的路径 (B,A)(B,B)(B,B)收益并不增加,因此不 存在偏离的动机。
4.2.3 有两个纳什均衡的重复博弈
考虑三次重复博弈各策略组合子博弈纳什均衡 路径: 1.由原博弈的纳什均衡组合而成的路径,如采 取轮换策略(在上述的协调博弈中,双方轮换采取 纯纳什均衡策略,路径为(A,B),(B,A),(A,B)….. 不考虑时间的价值(贴现系数),每阶段的平均得 益为(4+1)/2 =2.5,高于混合策略的得益2。 2.触发策略,博弈方首先采取合作行为,如果 发现对方没有进行合作,那么在后续阶段的博弈中 采取不合作策略进行惩罚。
4.2.4 民间定理
触发策略:博弈方1在第一阶段采取M策略, 如果对方合作,则第二阶段采取R策略作为奖 励;否则第二阶段采取L策略进行惩罚(注意 (L,L)也是纳什均衡,因此具有稳定性)。博 弈方2也采取同样策略。 策略分析:如果任何一方在第一阶段偏离, 仅仅多获得5-4=1单位得益,而在第二阶段 的得益(L,L)仅仅为1;如果在第一阶段合作, 第二阶段的得益为3。因此双方不存在偏离该 策略的动机。
定理 设原博弈G有唯一的纯策略纳什均衡,则 对任意正整数T,重复博弈G(T)有唯一的子 博弈完美的解,即各博弈方每个阶段都采用G 的纳什均衡策略。各博弈方在G(T)中的总得 益为在G中得益的T倍,平均每阶段得益等于原 博弈G中的得益。
4.2.3 有两个纳什均衡的重复博弈
例 两个厂商1和2,同时 A B A 3,3 面临两个市场机会A和B。假 1, 4 0,0 B 4,1 设每个厂商都只有能力选择 图4-2 两厂商差别市场博弈 一市场发展,即他们的可选 择策略都是A或B,其得益矩 阵如图所示。 此博弈具有2个纯策略纳什均衡(1,4)、 (4,1)和混合策略纳什均衡概率(0.5,0.5)。
坦白 不坦白
- 5, -13
坦白 不坦白
-10,-10
-13, -5
-6,-6
此时,博弈的纳什均衡仍是(坦白,坦白)。
4.2.2 有限次重复的囚徒困境博弈
结论: 在有限次重复博弈G(T)中,如果原博 弈G存在唯一的纯策略纳什均衡组合,则重复 博弈的唯一的子博弈完美纳什均衡解为各博弈 方在每阶段都采取的原博弈纳什均衡策略。 含义:在原博弈具有唯一均衡的有限次重复博 弈中,由于完全理性的博弈方具有“共同知识” 的分析推理能力,因此在从最后阶段开始的逆 推过程中,仍然无法摆脱囚徒困境。
4.2.4 民间定理
策略分析:与图4-4例子相比较,由于博弈的特殊 结构,这个触发策略的设计对偏离行为和合作行为 分别进行惩罚和奖励,因此策略具有很强的可信性。 而在图4-4例子中,针对对方的偏离行为采取了 (L,L)策略进行惩罚,但是惩罚对方的同时,自 身的利益也受到了损害,因此可信性不强。
第三节 无限次重复博弈
第一节 几个概念
重复博弈的概念 有限次重复博弈的概念
4.1.1
重复博弈的概念
1 由简单的静态博弈(或动态博弈)的有限次 (或无限次)重复进行构成的。 2 每一阶段博弈方、策略集合、规则和得益都相 同。 3 包括:有限次重复博弈和无限次重复博弈 4 例子: 多场决胜负的体育比赛(有限次) 两寡头市场上两个厂商之间的竞争(无限次) 商场与顾客交易
第二节
有限次重复博弈
有限次重复的猜硬币博弈——原博弈为零和博弈 有限次重复的囚徒困境博弈——原博弈有唯一的 纯策略纳什均衡 有多个纳什均衡的重复博弈的策略设计——触发 策略 有多个纳什均衡重复博弈的得益范围——民间定 理
4.2.1 有限次重复的猜硬币博弈
在零和博弈中,双方不存在合作的可能性, 因此在长期进行的重复博弈中,子博弈完美纳什 均衡由各个阶段原博弈的纳什均衡构成(例,在 猜硬币博弈中以0.5的概率选择正面或者反面, 即采取混合策略)。 实际上,所有以零和博弈为原博弈所构成的 重复博弈与猜硬币博弈构成的重复博弈一样,各 博弈方的正确策略就是在每次重复中都采用一次 性博弈中的纳什均衡策略。
4.1.2 有限次重复博弈的概念
定义:给定一个博弈G,重复进行T次G,并且在 每次重复之前各博弈方都能观察到以前博弈的结 果,称为G的一个“T次重复博弈”,记为G(T)。 其中,G成为G(T)的原博弈。每次重复称为G(T) 的一个阶段。
4.1.2 有限次重复博弈的概念
几个概念: 1 子博弈:从某一阶段(不包括第一阶段)开始, 包含以后所有阶段的原重复博弈的一部分。 2 策略:博弈方在每个阶段针对每种情况如何行 动的计划(注:在每一阶段之前,博弈方是可 以观察到以前博弈的结果的)。
4.2.4 民间定理
例(双方各五种可选策略重复博弈):
L M R P Q L M R 1,1 5,0 0,0 P 0,0 Q 0,0
0,5 0,0 0,0 0,0
4,4 0,0 0,0 0,0
Байду номын сангаас
0,0 0,0 0,0 3,3 0,0 0,0 0,0 4,1/2 0,0 0,0 0,0 1/2,4
图4-5双方各五种可选策略重复博弈
4.2.4 民间定理
例(两人各三种可选策略):
L L M R
1, 1 0, 5 0, 0
M
5, 0 4, 4 0, 0
R
0, 0 0, 0 3, 3
图4-4多种策略博弈的重复博弈
该博弈具有两个纯策略纳什均衡和一个混合 策略纳什均衡,但是双方存在一个更好的得益( 4, 4)。对于二次重复博弈,根据民间定理可以设计 一个触发策略来实现这个得益。
在有限次重复博弈中, (1)由于完全理性的博弈方可以运用逆推归纳法, 因此对于原博弈具有唯一纳什均衡(如囚徒困境 博弈)的有限次重复博弈,重复博弈结局尚无法 摆脱囚徒困境; (2)但是对于原博弈具有多个纳什均衡的有限次 重复博弈,根据民间定理可以设计出具有可信威 胁的触发策略,达到帕累托最优的博弈结局。
4.2.2 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2 有限次重复的囚徒困境博弈
4.2.4 民间定理
定理分析:民间定理表明,在具有多个纳 什均衡的有限次重复博弈中,通过设计具有可 信威胁的触发策略(即在第一阶段采取合作行 为,当对方不合作时通过在后续阶段采取相应 的不合作策略进行惩罚;当对方合作时,在最 后阶段采取一次性原博弈的纳什均衡策略作为 稳定的结局。),可以使得博弈方在重复博弈 的过程中具有了一定学习能力,从而达到博弈 的帕累托前沿得益。
4.2.3 有两个纳什均衡的重复博弈
那一次的结果不是(A,A),则改为B并坚持 到底,最后两次重复与三次重复博弈后两次重 复的策略相同; 博弈方2:前99次选A,但从其中的第二次开始, 一旦发现那一次的结果不是(A,A),则改 为B并坚持到底,最后两次重复与三次重复博 弈后两次重复的策略相同; 双方的每阶段的平均得益是(99×3+1+4) /101=2.99,非常接近效率最高的得益(3,3)
4.2.4 民间定理
该博弈具有4个纯策略纳什均衡,在二次重 复博弈中,触发策略设计:第一阶段双方采取 (M,M)策略,如果博弈方1偏离此策略,那么第二 阶段采取(Q,Q)策略对博弈方1进行惩罚,对博弈 方2进行奖励;同理,如果博弈方2偏离了此策略, 那么采取(P,P)策略对博弈方2进行惩罚,对博弈 方1进行奖励。如果双方都没有偏离,那么第二 阶段采取具有较高收益的纳什均衡(R,R)策略。 如果双方都偏离了此策略,第二阶段同样采取纳 什均衡的(R,R)策略。
4.1.2 有限次重复博弈的概念
3 路径: 是每个阶段博弈结果(原博弈的一个 策略组合)连接而成。对于具有n个策略组合 的原博弈,重复T次的路径数为nT,重复博弈 的求解即找出具有稳定性的均衡路径。 4 得益:不同于一般的动态博弈,重复博弈的得 益为各个阶段得益的加总。考虑到时间的价值, 需要引进“贴现系数”将未来的得益折算成当 期得益的价值。
4.2.4 民间定理
在图4-2一次性博弈中,博弈方均衡得益分别 为纯策略的得益(1,4)和混合策略的得益(2, 2),最差的均衡得益数组为w=(1,1)。
厂 商 得 益 (1,4) (3,3) 2 (1,1)
(4,1)
图4-3
民间定理
厂商1得益
4.2.4 民间定理
在图4-3中,通过不同得益的组合,阴影部 分(包括连线)的得益都是可实现得益。 民间定理揭示出:在有限次重复博弈中,可 以通过设计触发策略来实现(或者逼近)阴影部 分的得益。
4.2.3 有两个纳什均衡的重复博弈
策略设计分析: (1)在博弈方1和2中,在第一阶段都采取了合作 行为A,并针对对方的不合作行为B,都设计了在 后续2个阶段采取不合作B的相应惩罚措施; (2)如果对方在第一阶段中采取了合作行为,在 后续阶段的策略设计中要保证博弈结局具有稳健 性。因此,针对第一阶段的合作行为,后续阶段 的策略设计是为了实现双方的行动协调,以保证 实现纳什均衡(B,A)或(A,B)。
4.2.2 有限次重复的囚徒困境博弈
坦白 坦白 不坦白 不坦白
-5,-5
-8, 0
0,
-8
-1,-1
图4-1 囚徒困境
求解思路:对于有限次重复囚徒困境博弈,根 据动态博弈的逆推归纳法可以求解。
4.2.2 有限次重复的囚徒困境博弈
以两阶段(以该博弈作为原博弈G重复两次)为 例:分析最后一阶段,子博弈即为原博弈,唯一的 均衡为(-5,-5);分析第一阶段,将最后阶段 的收益(-5)添加到第一阶段的矩阵中,即:
4.2.3 有两个纳什均衡的重复博弈
在图4-2中,触发策略的设计为: (1)博弈方1的策略是第一阶段合作A,如果发现对方采取B不 合作,则第二阶段采取不合作的B策略惩罚,否则第二阶段 继续合作;第三阶段无条件采取B策略。 (惩罚放在第二阶段) (2)博弈方2的策略是第一阶段合作A,第二阶段无条件选B, 如果第一阶段结果是(A,A),则第三阶段A;如果第一阶 段结果是(B,A),则第三阶段选B。(惩罚放在第三阶段) (3)是一子博弈完美纳什均衡,双方每阶段的平均得益为 (3+1+4)/3=2.67,效率较高。 (4)如果增加博弈的重复次数到101次。若采用的触发策略是: 博弈方1在前99次中都选A,但从其中的第二次开始,一旦发 现
4.2.4 民间定理
用wi记博弈方i在一次性博弈中最差的均衡得 益,用w记各博弈方的wi构成的得益数组。结合 “个体理性得益”和“可实现得益”,则有限但 次数很多的重复博弈有如下民间定理: 定理:将一次性博弈中最差的均衡得益数组 记为w,如果原博弈G的一次性博弈有得益数组优 于w,那么在有限次重复博弈G(T)中,所有个体 理性得益和可实现得益都至少有一个子博弈完美 纳什均衡来实现。
4.2.4 民间定理
问题的提出:由于具有多个纳什均衡的重复博弈 可以设计多种策略,在双方缺乏沟通的情况下, 结局具有不确定性。因此,这里讨论具有多个纳 什均衡的重复博弈可以实现的收益范围。 个体理性得益:不管对方采取何种行动,只要自 己的行为合理就可以保证实现的收益。 可实现得益:各纯策略组合得益的加权平均数组。 注意:并非一定是均衡策略的组合得益,因此在 图4-2中,(3,3)也是可实现得益。