4第四章:重复博弈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
长期动态博弈,更能反映问题的实质,这正是研究重复博弈的
根本理由。
二、重复博弈的基本概念
给定一个基本博弈 G(可以是静态博弈,也可
以是动态博弈),重复进行 T 次 G,并且在每次 重复 G 之前各博弈方都能观察到以前博弈的结果, 这样的博弈过程称为“G 的 T 次重复博弈”,记 为 G(T)。而 G 则称为 G(T)的“原博弈”。G(T) 中 的每次重复称为 G(T) 的一个“阶段”。
t 1 t 1
将无限次重复博弈与随机结束的重复博弈统一起来
有限次重复博弈
• 两人零和博弈的有限次重复博弈 • 惟一纯策略纳什均衡的有限次重复博弈 • 多个纯策略纳什均衡的有限次重复博弈
• 有限次重复博弈的民间定理
两人零和博弈的有限次重复博弈
1. 重复零和博弈不会创造出新的利益; 2. 博弈方之间不会存在合作的可能性; 3. 惟一的子博弈完美纳什均衡是所有博弈方都始终采用原 博弈的混合策略纳什均衡策略。 阶段 1 猜硬币 阶段 2 猜硬币 阶段 T 猜硬币
all 2 T t 1 t 1 t 1
all 1
2 T
all 1 2 3 T t
博弈方的得益可能并没多大影响,但是若重复次数较多,
时间就不得不考虑。 因心理作用和资金有时间价值,不同时间获得的单位
利益对人们的价值是有差别的,忽略这一点就不能得出符
合实际的分析结论。 其解决方法:引进将后一阶段得益折算成当前得益的 贴现系数。
1 1
阶段 1 原博弈
阶段 2 原博弈
阶段 T 原博弈
举例应用:有限次重复削价竞争博弈
削价竞争博弈 寡头 1 高价 低价
寡头 2
高价 100,100 150,20 低价 20,150 70,70
2. 重复囚徒困境悖论
理论上,困境式博弈的有限次重复博弈,惟一的子博弈
完美纳什均衡是每次都采用原博弈的纯策略纳什均衡,意味
着有限次重复博弈并不能摆脱囚徒困境的低效率问题。 事实上,在重复囚徒的困境博弈的大量实验研究中,重 复次数较大时实验结果通常与上述理论结论不同,包含合作 的情况非常普遍。
2 T t 1 t 1
(1 ) t 1 t
t 1
六、随机停止与贴现系数
阶段 1 原博弈 阶段 2 原博弈 阶段 T 原博弈
1
1 p
2
1 p
2 2
T
p
停止概率
all 1 (1 p) 2 (1 p) 3 [(1 p) ] t
1. 重复博弈的百度文库略 在每个阶段(即每次重复),针对每种情况(前期阶段的 结果)如何行为的计划。
2. 重复博弈的子博弈
重复博弈是动态博弈,故其同动态博弈一样既有阶段也有 子博弈。
重复博弈的子博弈是从某个阶段(不包括第一阶段)开始,
包括以后所有阶段的重复博弈部分。 重复博弈的子博弈要么仍然是重复博弈,要么就是原博弈。
三、重复博弈的分类
1. 有限次重复博弈 基本博弈进行有限次重复 2. 无限次重复博弈
如果某个重复博弈没有可以预见的结束时间,各博弈方主
观上认为博弈会不断进行下去,即可视为无限次重复博弈。 3. 随机结束的重复博弈 重复博弈的次数是有限的,但重复的次数或博弈结束的时 间是不确定的。
四、策略、子博弈和均衡路径
举例:连锁店悖论
Selten(1978)“连锁店悖论”
连锁店悖论讨论的问题是:一个在 n 个市场都开设 有连锁店的企业,对于各个市场的竞争者是否应该加以 打击排斥的策略选择。
进 A 打击 打击 和平 ( 1 , 10 ) B 不进
(-2,3)
(5,5)
悖论的关键问题:博弈方的决策依据逻辑
事实结果 顺推归纳法:合作的潜在可能性越大
单独偏离;
为什么?
第一阶段(H,H)是如何实现的? 反证法:假设某一方偏离,如采用M得益增加1个单位,采用L利 益降低3个单位;若再考虑第二阶段的得益,对方采取报复机制,得 益至少要损失2个单位。 综合而言,采用(H,H)可实现双赢,而偏离(H,H)则损人 不利已。作为一个理性的经济人,合理的选择是坚持H。
第 1 阶段
囚徒 1
坦白 不坦白
阶段 1
阶段 2
阶段 T
囚徒博弈
囚徒博弈
囚徒困境
(-5,-5)
(-5,-5)
(-5,-5)
定理:设原博弈 G 有惟一的纯策略纳什均衡,则对任意正 整数 T ,重复博弈 G(T) 有惟一的子博弈完美纳什纳什,即各博 弈方每个阶段都采用 G 的纳什均衡策略。各博弈在 G(T) 中的总 得益为在 G 中得益的 T 倍,平均得益等于原博弈 G 中的得益。
1
2
T
T
all 1 2 2 3 T 1 T t 1 t
t 1
总得益
如何求得“平均得益”?
基本概念:
若一常数 作为重复博弈各个阶段的得益,能
产生与得益序列 1 , 2 , 相同的现在值,则称
为 1 , 2 ,的“平均得益”。
三价博弈
H
厂商2
M L
厂 商 1
H M L
5,5 6,0 2,0
0,6 3,3 2,0
0,2 0,2 1,1
三价博弈
H
厂商2
M
等价博弈
L
3. 重复博弈的均衡路径
阶段1 原博弈 阶段2 原博弈 阶段3 原博弈
分析重复博弈就是要在这些路径中找出具有稳定性的 均衡路径,并分析它们的效率意义。
五、重复博弈的得益
得益是任何博弈中博弈方策略选择的惟一依据。 重复博弈的得益有阶段得益和总体得益之分,博弈方 到底根据哪个得益进行策略选择是重复博弈的重要问题。
事实表明,如果研究阶段得益则会割裂重复博弈的总
体效果,不利于考察整个重复博弈的得与失,相比较而 言,考察重复博弈的总体得益更好! 而考虑重复博弈总体利益的分析方法又有两种:其一 是计算重复博弈的“总体得益”;其二是计算各个阶段
的“平均得益”。
前面提及,重复博弈注重研究的是长期的合作或竞争 关系,时间是一个非常重要的考量因素! 如果重复博弈的次数较少,时间间隔较短,其结果对
惟一纯策略纳什均衡的有限次重复博弈
与无纯策略纳什均衡的零和博弈和严格竞争博弈的 有限次重复博弈相比,惟一纯策略纳什均衡的有限次重 复博弈之中,博弈方之间的利益关系不再是始终对立的, 而是有很大一致性甚至完全一致。 关注点:原博弈惟一的纳什均衡没有达到帕累托效
率,存在通过合作进一步提高效率的潜在可能性的囚徒
蜈蚣博弈
逆推归纳法:博弈的效率越来越低 理论依据
多个纯策略纳什均衡的有限次重复博弈
关注点:原博弈的纳什均衡没有达到帕累托效率,是 否存在通过合作进一步提高效率的潜在可能性及其在有限 次重复博弈中能不能实现合作和提高效率的问题。
1. 三价博弈的重复博弈
博弈模型:
设一市场有两个生产同质产品的厂商,他们对产品
博弈决策次序必须有先有后。
第四章 重复博弈
基本博弈重复进行构成的博弈过程
例如:石头剪刀布博弈
虽然重复博弈形式上是基本博弈的重复进行, 但博弈方的行为和博弈结果却不一定是基本博弈的 简单重复。 博弈方对于博弈会重复进行的意识使得他们对
利益的判断发生变化,进而在重复博弈的不同阶段
的行为选择发生变化。 不能把重复博弈当作基本博弈的简单叠加,必 须把整个重复博弈过程作为整体进行研究。
子博弈完美纳什均衡的实现原理
1. 首先采取试探策略,一旦发现对方不合作则也用不合作 相报复的策略(触发策略); 2. 一旦对方合作,则除最后一次重复采用原博弈的纳什均 衡外,其余都采用效率最高的策略。
触发策略是重复博弈中实现合作和提高均衡效率的关键机制。 当重复次数较多时,平均得益接近一次性博弈中最高效率的得益。
3. 风险上策均衡到底是不是纳什均衡?
可能是,可能不是。
• 得益矩阵与扩展形
1. 得益矩阵与扩展形能否相互转化?
两者可以相互转化。得益矩阵不仅可以表示静态也可
以表示动态博弈,扩展形也一样,只是两者表示不同类型 博弈时有分析问题上的优劣之分而已。 2. 静态博弈与动态博弈能否相互转化? 两者不能相互转化。静态博弈必须同时决策,而动态
1,1
1. 该博弈的纳什均衡是什么? 2. 是否存在帕累托上策或风险上策均衡? 3. 一次性博弈能否实现效率最高? 4. 两次性重复博弈又是否可以实现效率最高?
两次重复博弈实现效率最高的路径
策略组合: 博弈方1:第一次选择H;如第一次结果为(H,H), 则第二次选择M,如第一次结果为任何其他策略组合,则 第二次选L。
上节课遗留问题的解释
1. 颤抖手均衡 偶然性犯错的概率到底是怎样回事? 2. 顺推归纳法
是策略的选择还是均衡的比较?
3. 风险上策均衡 该均衡到底是不是纳什均衡? 4. 得益矩阵与扩展形 两者在分析问题时到底能不能转化?
• 颤抖手均衡的偶然性犯错概率
1. 什么是(纳什)均衡? “策略最优,得益最大。” 2.均衡中博弈方的策略有没有选择次序的差异?
均衡策略(组合)不管是静态博弈还是动态博弈均衡没有强 调策略的次序问题。
如囚徒困境博弈的均衡策略是博弈双方均选择坦白;或如甲
乙开矿法律保障不足的博弈。
3.颤抖手均衡中偶然性犯错及其概率到底如何理解?
颤抖手均衡是在多个纳什均衡中寻找,其偶然性犯错误的概
率恰为多个纳什均衡的混合策略纳什均衡中不同博弈方选择不同策 略的概率。
而颤抖手均衡是一种偶然性的犯错误。 如银行取钱急用与丢钱诈骗。
• 风险上策均衡
1. 风险上策均衡的识别标准是什么?
如果所有博弈方在预计其他博弈方采用多种纳什均衡的策略的概率相同 时,都偏爱其中一个纳什均衡,则该纳什均衡即为风险上策均衡。
2.有些风险上策均衡跑到多重纳什均衡之外是怎么回事?
风险态度是博弈方在决策时人为加入,其动机是排除风险对其得益的 负效应,只要能够排除风险的负效应的决策即为博弈方的最优策略。其关 键问题就在于博弈双方的策略选择是否相同,如果策略选择相同,则风险 上策均衡在多重纳什均衡之内;而如果双方的策略选择不同,则跑到多重 纳什均衡之外也是合理之事。
博弈方2:第一次选择H;如第一次结果为(H,H),
则第二次选择M,如第一次结果为任何其他策略组合,则 第二次选L。 子博弈完美纳什均衡路径:第一阶段(H,H),第二阶段(M,M)。
子博弈完美纳什均衡路径:第一阶段(H,H),第二阶段(M,M)。
理由解释:
第二阶段(M,M)是一个原博弈的纳什均衡,没有哪一方愿意
的定价同有高、中、低三种可能。
设高价时市场总利润为10个单位,中价时市场总利
润为6个单位,低价时市场总利润为2个单位。 再假设两厂商同时决定价格,价格相等时价格低者 独享利润,价格相等时双方平分利润。
三价博弈
H
厂商2
M L
厂 商 1
几个问题:
H M L
5,5
0,6
0,2
6,0
2,0
3,3
2,0
0,2
的困境式博弈及其在有限次重复博弈中能不能实现合作 和提高效率的问题。
1. 有限次重复囚徒的困境博弈
囚徒的困境博弈 囚徒 1 坦白 不坦白
囚徒 2
坦白
-5,-5 -8,0
不坦白
0,-8 -1,-1
阶段 1 囚徒博弈
阶段 2 囚徒博弈
逆推归纳法
第 2 阶段
(-5,-5)
囚徒的困境博弈
等价博弈
囚徒 2 坦白 -10,-10 -13,-5 不坦白 -5,-13 -6,-6
颤抖手均衡
U
博弈方2 L
10,0
R
6,2
博弈方1
D
10,1
2,0
• 顺推归纳法
1. 顺推归纳法——分析方法,其结果到底是策略还是均衡?
以退为进,迂回争取最大利益。以策略选择为依据,整体形成一 条均衡路径。
2.顺推归纳法与颤抖手均衡不要混为一谈
顺推归纳法的基本前提是博弈方有意识的犯错误以争取更大得益,
一、为什么要研究重复博弈
现实生活中除了短期一次性的合作或竞争关系之外,还存 在许多长期反复的合作和竞争关系。长期关系中人们在考虑当 前利益的同时需要兼顾未来利益,其行为的选择和博弈更复杂。
某些长期的合作或竞争关系并不像动态博弈那样,前一阶
段与后一阶段环环相扣,而是各个阶段之间有很强的独立性, 各个阶段有独立的选择和利益,而且后一阶段的选择的内容和 利益形式上并不受前面阶段影响。 把上述社会经济活动中的关系理解成重复博弈,比复杂的