重复博弈的详细介绍分解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
冷酷战略(grim strategies)
• 也称触发战略; • 以囚徒困境为例:开始选择抵赖,而且一 直选择抵赖直到有一方选择了坦白,然后 永远选择坦白; • 这意味着:一旦哪个参与人选择了坦白, 就触发了惩罚的扳机。
根据上述原则,可构造如下战略:
• S1:第一阶段选择M1;如果第一阶段 结果为(M1,M2),则下一阶段选R1; 否则选择L1。
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k I A F
-1,0
O C
3,3 1,10
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。 重复博弈的子博弈精炼纳什均衡:在位者在每一个市场 选择默许,进入者在每一个市场选择进入。
• 战略:重复博弈环境下,参与人的 战略非常复杂。一般地,我们定义 参与人的一个战略是在博弈的每个 阶段针对之前的博弈历史而制定的 行动计划; • 子博弈:子博弈要么仍然是重复博 弈,要么是原博弈;
有限重复博弈的战略、子博弈与支付 • 参与人的支付:是所有阶段博弈支付 的贴现值之和,或者加权平均值。 • 注意:在重复博弈中,阶段博弈可能 是静态博弈,也可能是动态博弈,因 此,重复博弈可能是完美信息重复博 弈和不完美信息重复博弈。此处我们 仅讨论完美信息重复博弈。
重复博弈
主要内容:
一、有限次重复博弈 二、无限次重复博弈与无名氏定理 三、重复博弈的社会学含义
• 例子1-越战战场上的潜规则
一名新兵刚上战场,老兵按住他: 别乱开枪!新兵问:为什么?老兵对其 解释:曾有一段时间,双方打得不可开 交,结果大家都躲着,屎尿都撒在猫耳 洞里,由于猫耳洞很潮湿,人呆在里面 很难受,导致有人耳朵都发了霉,最后 是谁也打不着谁,自己却活受罪。此后, 便慢慢达成默契:我出来你不开枪,你 出来我也不开枪。
连锁店悖论
• 假定在位者在不同的市场上有20家连锁店, 进入者试图进入这些市场。如果进入者进 入了每一个市场,此时博弈就变成了20次 重复博弈。当进入者进入第1个市场时, 在位者应该如何反应呢? • 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付
在位者
默许
3,3 1,10
斗争
-1,0 1,10
进入者
进入 不进入
定理:
如果阶段博弈G有唯一的Nash均衡, 则对任意有限的T,重复博弈G(T)有唯 一的子博弈精炼解,即G的Nash均衡结 果在每一个阶段重复进行。
问题:囚徒困境中的囚徒有可能实现高效 的均衡吗?
存在多重纳什均衡的情形
考察下列博弈
L2 L1
1 M1
M2 5,0 4,4 0,0
2
R1
1,1 0,5 0,0
• 例子2
一个男孩被视为傻瓜,因为每当别 人拿一枚1块硬币和5分硬币让他选的时 候,他总是选5分的,有一个人觉得奇怪, 就问他:“为什么你不拿1块钱的?”, 男孩小声回答:“假若我拿了1块钱的硬 币,下次他们就不会再拿钱让我选了。”
• 威胁和承诺的重要性:以上两个例子带 给我们什么启发?
• 问题1
• 同样可证明:在n阶段重复博弈(即博弈重 复n次且每次博弈开始时,前面博弈的结 果都已知)中,高效的均衡同样无法实现。
有限重复博弈定义
• 定义: 对于给定的阶段博弈G,令G(T) 表示G重复进行T次的有限重复博弈, 并且在下一次博弈开始前,所有之 前博弈的进程均可被观测到。
有限重复博弈的战略、子博弈与支付
1 2 1
第二阶段 2 L R
1 U D
第一阶段
2 L 1 U D R
1,1 0,5
5,0 4,4
1,1 0,5
5,0 4,4
2
第一阶段
L 1
R
U 1+1,1+1 5+1,0+1 D 0+1,5+1 4+1,4+1
• 运用逆推归纳法,可以发现上述重复博弈 的子博弈精炼Nash均衡为:在每次博弈中, 参与人1都选择U,参与人2都选择L。 • 这说明:在两次重复博弈中,高效的均衡 仍无法实现。
• 该博弈存在唯一的Nash均衡,即(U,L)。 • 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。 • 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
R2 0,0 0,0 3,3
• 单阶段Nash均衡: (L1 , L2)和(R1, R2); • 合作均衡:(M1,M2); • 问题:合作均衡能否出现?
L2 L1
1 M1
M2 5,0 4,4 0,0
2
R1
1,1 0,5 0,0
R2 0,0 0,0 3,3
• 现在假设博弈重复两次,可以根据以下原则构造均 衡:由第一阶段的结果,预测第二阶段的均衡。 • 例如:若第一阶段出现(M1,M2)(即出现合作),则第 二阶段为(R1,R2)(即“好的纳什均衡”);若第一阶 段没有出现(M1, M2), 则第二阶段为(L1,L2)(即“差 的纳什均衡”)。
在相互联系紧密的人际关系中,人 们普遍比较注意礼节、道德,因为合作 和协调对大家都有好处;但是,我们又 常常见到这样的消息:在公共汽车上, 两个陌生人会为一个座位争吵,为什么 会发生这种事情?原因何在?
• 问题2
在“囚徒困境”这一例子中,博弈的 参与人为了追求自身利益的最大化,而陷 入了个人理性与集体理性的冲突中,导致 最优的结果未能出现,即合作没有产生。 如果我们假定博弈可以多次重复进行,结 果是否会发生变化?是否会出现合作的局 面?
• S2:第一阶段选择M2;如果第一阶段 结果为(M1,M2) ,则下一阶段选R2; 否则选择L2。
根据上述战略,博弈可表示为:
L2
2
பைடு நூலகம்
M2
R2
L1 1+1,1+1 5+1,0+1 0+1,0+1 1 M 1 0+1,5+1 4+3,4+3 0+1,0+1 R1 0+1,0+1 0+1,0+1 3+1,3+1
一、有限次重复博弈
• 动态博弈中涉及的一个重要问题是,博弈 过程中威胁和承诺如何影响博弈的进程。 • 重复博弈所关心的议题也与之相似: (1)将来可信的威胁或承诺如何影响到 当前的行动? (2)在一次博弈中无法实现的均衡,在 重复博弈中能否实现?
考察下列博弈
1
L
2
R
U
D
1,1 0,5
5,0 4,4