第四章(重复博弈)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章
重复博弈
重复博弈引论; 有限次重复博弈; 无限次重复博弈。
第一节
重复博弈引论
一、重复博弈分类 重复博弈(Repeated Games)是指基本博弈重复进 行构成的博弈过程。重复博弈是静态或动态博弈的重复 进行,或者说重复进行的过程。 1、有限次重复 定义:给定一个基本博弈G(可以是静态博弈,也 可以是动态博弈),重复进行T次G,并且在每次重复G 之前,各博弈方都能观察到以前博弈的结果,这样的博 弈过程称为 “G的T次重复博弈”,记为G(T)。而G 则称为G(T)的 “原博弈”。G(T)中的每次重复称 为 G(T)的一个“阶段”。
而成的。
如果原博弈有m种策略组合,那么重复两次就有 m 2
条博弈路径,重复T次就有 mT 条博弈路径;当 T或 m较大时,重复博弈的路径数是很大的。
三、重复博弈的得益与博弈方的行为选择
1、要从整体上把握博弈的得益 重复博弈的得益与一次性博弈有所不同,因为它 们的每个阶段本身就是一个博弈,各个博弈方都有得 益,而不是整个博弈结束后有一个总的得益,如果博 弈方是根据当前阶段得益选择,那么等于把重复博弈 割裂成了一个个基本博弈,重复博弈就失去了意义。 因此重复博弈中,博弈方的行为、策略选择不能只考 虑本阶段的得益,必须兼顾其他阶段的得益,或者说 要考虑整个重复博弈过程得益的总体情况。
就不可能得出符合实际的分析结论。
那么如何处理未来得益对当前决策的影响呢? 解决这个问题的方法是引进将后一阶段得益折算 成当前阶段得益的贴现系数 。有了贴现系数 ,如 果一个T 次重复博弈的某博弈方某一均衡下各阶段得 益分别为 1 , 2 ,, T ,则考虑时间价值的重复博弈总 得益现在值为:
(二)一般结论
原博弈有惟一的纯策略纳什均衡的博弈,则有限次重复
博弈的惟一均衡即各博弈方在每阶段(即每次重复)中
都采用原博弈的纳什均衡策略。
定理 设原博弈 G有惟一的纯策略纳什均衡,则对任意正 整数T,重复博弈G(T)有惟一的子博弈完美纳什均衡, 即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方
2 t 1
无限次重复博弈也写成 G(, ) 。
四、随机停止和贴现率
可理解为通过抽签来决定是否停止重复,设抽 到停止的概率是 p ,重复下去的概率为 1 p 。 设某博弈方的阶段得益为
1 p
t
,利率为
,因
为在第一次博弈以后能继续下一次重复的可能性是
,第二阶段的期望得益为
3 (1 p) 2 (1 ) 2
1 2 2 3 T 1 T t 1 t
t 1
T
在无限次重复博弈路径下,某博弈方各阶段得 益为 1 , 2 ,, ,则该博弈方总得益的现在值就是:
1 2 3 t 1 t
2、各阶段的时间间隔对博弈方行为的影响 重复博弈每个阶段的得益有时间上的先后之分, 这在只有少数几次重复且每次重复间隔时间并不很长
的情况下可能并不重要。但对于重复次数很多且每次
重复间隔时间又较长的有限次重复博弈,或者是无限 次重复博弈时,得益的时间先后就不能不考虑。因为 由于心理作用和资金有时间价值的原因,不同时间获 得的单位利益对人们的价值是有差别的,忽略这一点
1 p 其中最后一个等式是通过令 1
得到的。由此就把 已知概率的随机停止重复博弈与无限次重复博弈统一 起来了。
第二节 有限次重复博弈
重复次数较少的有限次重复博弈可以不考虑不同阶段得 益的贴现问题。 一、两人零和博弈的有限次重复博弈 重复零和博弈不会创造出新的利益。如重复进行猜硬币 博弈,不管两个博弈方如何选择,每次重复的结果都是一方 赢一方输,得益相加为0。因此在零和博弈或者它们的重复博 弈中,双方合作的可能性根本不存在。 二、惟一纯策略纳什均衡博弈的有限次重复博弈 如果原博弈惟一的纳什均衡没有达到帕累托效率,在有 限次重复博弈中能不能实现合作和提高效率呢?
2、无限次重复 某个重复博弈没有可以预见的结束时间,各博弈
方主观上认为博弈会不断进行下去,那么就可以看作
是无限次重复博弈。 3、随机结束博弈 重复博弈的次数虽然是有限的,但重复的次数或 博弈结束的时间却是不确定的。这种重复博弈可以称
为“随机结束的重复博弈”。
二、重复博弈的策略、子博弈和均衡路径
(一)有限次重复囚徒的困境博弈
囚徒2
坦白
囚 坦白 徒 1 抵赖
抵赖
囚 坦白 徒 1 抵赖
囚徒2
坦白
-10,-10 -13,-5
抵赖
-5,-13 -6, -6
Biblioteka Baidu
-5,-5 0,-8 -8, 0
-1,-1
图4-1 囚徒困境博弈
图4-2逆推归纳法和等价博弈
上图所示囚徒的困境博弈,考虑两次重复该博弈。 用逆推归纳法来分析该重复博弈,先分析第二阶段,由于该阶段仍然 是一个囚徒困境博弈,结果还是原博弈惟一的纳什均衡(坦白,坦白), 双方得益(-5,-5)。回到第一阶段,理性的博弈方会知道第二阶段的结 果必然是(坦白,坦白),因此可以把第二阶段的得益直接加到第一阶段 对应得益上(如图4-2),结果与一次性博弈一样,最终两次重复囚徒的困 境仍然相当于一次性囚徒的困境博弈的简单重复。
2 (1 p) 1
,进一步第三
阶段的期望得益为
,……,所以该博弈方
在该重复博弈中期望得益的现在值为: 2 (1 p) 3 (1 p) 2 (1 p) t 1 t 1 1 t t 2 t 1 1 (1 ) (1 ) t 1 t 1
重复博弈中博弈方的一个策略就是在每个阶段 (即每次重复),针对每种情况(以前阶段的结果) 如何行为的完整计划。
重复博弈的子博弈就是从某个阶段(不包括第一 阶段)开始,包括此后所有阶段的重复博弈部分。
重复博弈也是动态博弈,也有路径概念。但重复博
弈的所有博弈方在每个阶段都必须行为,因此重复
博弈的路径是由每个阶段各博弈方的行为组合串联
重复博弈
重复博弈引论; 有限次重复博弈; 无限次重复博弈。
第一节
重复博弈引论
一、重复博弈分类 重复博弈(Repeated Games)是指基本博弈重复进 行构成的博弈过程。重复博弈是静态或动态博弈的重复 进行,或者说重复进行的过程。 1、有限次重复 定义:给定一个基本博弈G(可以是静态博弈,也 可以是动态博弈),重复进行T次G,并且在每次重复G 之前,各博弈方都能观察到以前博弈的结果,这样的博 弈过程称为 “G的T次重复博弈”,记为G(T)。而G 则称为G(T)的 “原博弈”。G(T)中的每次重复称 为 G(T)的一个“阶段”。
而成的。
如果原博弈有m种策略组合,那么重复两次就有 m 2
条博弈路径,重复T次就有 mT 条博弈路径;当 T或 m较大时,重复博弈的路径数是很大的。
三、重复博弈的得益与博弈方的行为选择
1、要从整体上把握博弈的得益 重复博弈的得益与一次性博弈有所不同,因为它 们的每个阶段本身就是一个博弈,各个博弈方都有得 益,而不是整个博弈结束后有一个总的得益,如果博 弈方是根据当前阶段得益选择,那么等于把重复博弈 割裂成了一个个基本博弈,重复博弈就失去了意义。 因此重复博弈中,博弈方的行为、策略选择不能只考 虑本阶段的得益,必须兼顾其他阶段的得益,或者说 要考虑整个重复博弈过程得益的总体情况。
就不可能得出符合实际的分析结论。
那么如何处理未来得益对当前决策的影响呢? 解决这个问题的方法是引进将后一阶段得益折算 成当前阶段得益的贴现系数 。有了贴现系数 ,如 果一个T 次重复博弈的某博弈方某一均衡下各阶段得 益分别为 1 , 2 ,, T ,则考虑时间价值的重复博弈总 得益现在值为:
(二)一般结论
原博弈有惟一的纯策略纳什均衡的博弈,则有限次重复
博弈的惟一均衡即各博弈方在每阶段(即每次重复)中
都采用原博弈的纳什均衡策略。
定理 设原博弈 G有惟一的纯策略纳什均衡,则对任意正 整数T,重复博弈G(T)有惟一的子博弈完美纳什均衡, 即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方
2 t 1
无限次重复博弈也写成 G(, ) 。
四、随机停止和贴现率
可理解为通过抽签来决定是否停止重复,设抽 到停止的概率是 p ,重复下去的概率为 1 p 。 设某博弈方的阶段得益为
1 p
t
,利率为
,因
为在第一次博弈以后能继续下一次重复的可能性是
,第二阶段的期望得益为
3 (1 p) 2 (1 ) 2
1 2 2 3 T 1 T t 1 t
t 1
T
在无限次重复博弈路径下,某博弈方各阶段得 益为 1 , 2 ,, ,则该博弈方总得益的现在值就是:
1 2 3 t 1 t
2、各阶段的时间间隔对博弈方行为的影响 重复博弈每个阶段的得益有时间上的先后之分, 这在只有少数几次重复且每次重复间隔时间并不很长
的情况下可能并不重要。但对于重复次数很多且每次
重复间隔时间又较长的有限次重复博弈,或者是无限 次重复博弈时,得益的时间先后就不能不考虑。因为 由于心理作用和资金有时间价值的原因,不同时间获 得的单位利益对人们的价值是有差别的,忽略这一点
1 p 其中最后一个等式是通过令 1
得到的。由此就把 已知概率的随机停止重复博弈与无限次重复博弈统一 起来了。
第二节 有限次重复博弈
重复次数较少的有限次重复博弈可以不考虑不同阶段得 益的贴现问题。 一、两人零和博弈的有限次重复博弈 重复零和博弈不会创造出新的利益。如重复进行猜硬币 博弈,不管两个博弈方如何选择,每次重复的结果都是一方 赢一方输,得益相加为0。因此在零和博弈或者它们的重复博 弈中,双方合作的可能性根本不存在。 二、惟一纯策略纳什均衡博弈的有限次重复博弈 如果原博弈惟一的纳什均衡没有达到帕累托效率,在有 限次重复博弈中能不能实现合作和提高效率呢?
2、无限次重复 某个重复博弈没有可以预见的结束时间,各博弈
方主观上认为博弈会不断进行下去,那么就可以看作
是无限次重复博弈。 3、随机结束博弈 重复博弈的次数虽然是有限的,但重复的次数或 博弈结束的时间却是不确定的。这种重复博弈可以称
为“随机结束的重复博弈”。
二、重复博弈的策略、子博弈和均衡路径
(一)有限次重复囚徒的困境博弈
囚徒2
坦白
囚 坦白 徒 1 抵赖
抵赖
囚 坦白 徒 1 抵赖
囚徒2
坦白
-10,-10 -13,-5
抵赖
-5,-13 -6, -6
Biblioteka Baidu
-5,-5 0,-8 -8, 0
-1,-1
图4-1 囚徒困境博弈
图4-2逆推归纳法和等价博弈
上图所示囚徒的困境博弈,考虑两次重复该博弈。 用逆推归纳法来分析该重复博弈,先分析第二阶段,由于该阶段仍然 是一个囚徒困境博弈,结果还是原博弈惟一的纳什均衡(坦白,坦白), 双方得益(-5,-5)。回到第一阶段,理性的博弈方会知道第二阶段的结 果必然是(坦白,坦白),因此可以把第二阶段的得益直接加到第一阶段 对应得益上(如图4-2),结果与一次性博弈一样,最终两次重复囚徒的困 境仍然相当于一次性囚徒的困境博弈的简单重复。
2 (1 p) 1
,进一步第三
阶段的期望得益为
,……,所以该博弈方
在该重复博弈中期望得益的现在值为: 2 (1 p) 3 (1 p) 2 (1 p) t 1 t 1 1 t t 2 t 1 1 (1 ) (1 ) t 1 t 1
重复博弈中博弈方的一个策略就是在每个阶段 (即每次重复),针对每种情况(以前阶段的结果) 如何行为的完整计划。
重复博弈的子博弈就是从某个阶段(不包括第一 阶段)开始,包括此后所有阶段的重复博弈部分。
重复博弈也是动态博弈,也有路径概念。但重复博
弈的所有博弈方在每个阶段都必须行为,因此重复
博弈的路径是由每个阶段各博弈方的行为组合串联