重复博弈的详细介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• S2:第i阶段选择R;如果第i阶段结果为 (D,R),则下一阶段选R;否则以后一直 选择L。
• 可以证明:在一定的贴现率下,上述触发 策略构成Nash均衡;
• 贴现率的求解:
5+1 +1 2 4+4 +4 2
所以 1
4
2
L
R
U 1,1 5,0
1
D 0,5 4,4
可行收益
• 一组收益(x1, x2, , xn )为阶段博弈G的可行
• 一报还一报战略:简单明了,对手一看便知其用 意何在。
为了验证上述结果的合理性,爱克斯罗 德又举行了第二轮竞赛,特别邀请了更多的 人,看看能否从一报还一报战略那儿将桂冠 夺过来。这次有62个程序参加了竞赛,结果 是一报还一报又一次夺魁。
竞赛的结论无可争议地证明,具备以下 特点的人,将总会是赢家:(1)本性善良; (2)品格宽厚;(3)不失强硬;(4)处 事干练,原则简单明了。
一、有限次重复博弈
• 动态博弈中涉及的一个重要问题是,博弈 过程中威胁和承诺如何影响博弈的进程。
• 重复博弈所关心的议题也与之相似: (1)将来可信的威胁或承诺如何影响到 当前的行动? (2)在一次博弈中无法实现的均衡,在 重复博弈中能否实现?
考察下列博弈
U 1
D
2
L
R
1,1 5,0
0,5 4,4
一个Nash均衡下的收益,且用 (x1, x2 , , xn ) 表 示G的其它任何可行收益,X 表示可行收益的
集合。 若存在 xi ei , 对i, xi X
则存在贴现率 ,使无限重复博弈G(, ) 存在 一个子博弈精炼Nash均衡,其平均收益可达 到 (x1, x2 , , xn )。
子博弈精炼Nash均衡的可行收益区间
一报还一报战略的特征
• 一报还一报战略:永远不先背叛对方,从这个意 义上来说它是“善意的”。
• 一报还一报战略:会在下一轮中对对手的前一次 合作给予回报(哪怕以前这个对手曾经背叛过 它),从这个意义上来说它是"宽容的"。
• 一报还一报战略:会采取背叛的行动来惩罚对手 前一次的背叛,从这个意义上来说它又是“强硬 的”。
考虑如下无限次重复博弈:
2
L
R
U 1,1 5,0
1
D 0,5 4,4
• 对于阶段博弈为上述博弈的有限次重复博弈,合 作不可能形成。
• 但对于无限次重复博弈,在一定的贴现率下,合 作有可能形成。
构造如下触发策略:
• S1:第i阶段选择D;如果第i阶段结果为 (D,R),则下一阶段选D;否则以后一直 选择U。
收益,如果它们是G的纯战略收益的凸组 合,即纯战略收益的加权平均,权重非 负且和为1。 • 前述阶段博弈的可行收益集合如下图所 示。
阴影部分为上述博弈的可行收益区间
(0,5) (4,4)
(1,1)
(0,0)
(5,0)
收益: (3,3) 权重 : (1/ 3,1/ 3,1/ 3, 0) [(4, 4), (5, 0), (0, 5), (1,1)]
考察下列博弈
L2
2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
R1 0,0 0,0 3,3
• 单阶段Nash均衡: (L1 , L2)和(R1, R2);
• 合作均衡:(M1,M2);
• 问题:合作均衡能否出现?
2
L2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
冷酷战略(grim strategies)
• 也称触发战略; • 以囚徒困境为例:开始选择抵赖,而且一
直选择抵赖直到有一方选择了坦白,然后 永远选择坦白; • 这意味着:一旦哪个参与人选择了坦白, 就触发了惩罚的扳机。
根据上述原则,可构造如下战略:
• S1:第一阶段选择M1;如果第一阶段 结果为(M1,M2),则下一阶段选R1; 否则选择L1。
有限重复博弈的战略、子博弈与支付
• 战略:重复博弈环境下,参与人的 战略非常复杂。一般地,我们定义 参与人的一个战略是在博弈的每个 阶段针对之前的博弈历史而制定的 行动计划;
• 子博弈:子博弈要么仍然是重复博 弈,要么是原博弈;
有限重复博弈的战略、子博弈与支付
• 参与人的支付:是所有阶段博弈支付 的贴现值之和,或者加权平均值。
• 这意味着,合作可以在第一阶段达到。这一结论说明, 对将来行动所作的可信威胁或承诺可以影响到当前的行 动。
• 问题:没有考虑贴现率。
二、无限次重复博弈与无名氏定理
• 定义:
给定一阶段博弈G,令 G(, )表示 相应的无限次重复博弈,其中G将无限次 的重复进行,且参与人的贴现率为 。对 每个t,之前t-1次阶段博弈的结果在t阶段 开始进行前都可以被观测到,每个参与 人在 G(, ) 中的收益都是该参与人在无 限次的阶段博弈中所得收益的贴现值。
重复博弈
主来自百度文库内容:
一、有限次重复博弈 二、无限次重复博弈与无名氏定理 三、重复博弈的社会学含义
• 例子1-越战战场上的潜规则
一名新兵刚上战场,老兵按住他: 别乱开枪!新兵问:为什么?老兵对其 解释:曾有一段时间,双方打得不可开 交,结果大家都躲着,屎尿都撒在猫耳 洞里,由于猫耳洞很潮湿,人呆在里面 很难受,导致有人耳朵都发了霉,最后 是谁也打不着谁,自己却活受罪。此后, 便慢慢达成默契:我出来你不开枪,你 出来我也不开枪。
竞赛的第一个回合交上来的14个程序 中包含了各种复杂的战略。但使爱克斯罗 德和其他人深为吃惊的是,竞赛的桂冠属 于其中最简单的战略:一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托·拉 帕波特提交上来的战略。
一报还一报战略:它总是以合作开局, 但从此以后就采取以其人之道还治其人之 身的战略。也就是说,一报还一报的战略 实行了胡萝卜加大棒的原则。
在相互联系紧密的人际关系中,人 们普遍比较注意礼节、道德,因为合作 和协调对大家都有好处;但是,我们又 常常见到这样的消息:在公共汽车上, 两个陌生人会为一个座位争吵,为什么 会发生这种事情?原因何在?
• 问题2
在“囚徒困境”这一例子中,博弈的 参与人为了追求自身利益的最大化,而陷 入了个人理性与集体理性的冲突中,导致 最优的结果未能出现,即合作没有产生。 如果我们假定博弈可以多次重复进行,结 果是否会发生变化?是否会出现合作的局 面?
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 这说明,无限次重复博弈能够导致帕累托改进。
三、重复博弈的社会学含义
罗伯特·爱克斯罗德(政治科学家)对合作 问题进行了实验性研究,他组织了一场计算 机竞赛。这个竞赛的思路非常简单:任何想 参加这个竞赛的人都扮演“囚徒困境”案例 中的一个囚犯,他们把自己的战略编入计算 机程序,然后他们的程序会被成双成对地融 入不同的组合,分好组以后,参与者就开始 玩“囚徒困境”的游戏。他们每个人都要在 合作与背叛之间做出选择,并且游戏重复多 次。
第二阶段
2
L
R
U 1,1 5,0
1
D 0,5 4,4
第一阶段
2
L
R
U 1,1 5,0
1
D 0,5 4,4
第一阶段
2
L
R
U 1+1,1+1 5+1,0+1 1
D 0+1,5+1 4+1,4+1
• 运用逆推归纳法,可以发现上述重复博弈 的子博弈精炼Nash均衡为:在每次博弈中,
参与人1都选择U,参与人2都选择L。
重复博弈的子博弈精炼纳什均衡:在位者在每一个市场 选择默许,进入者在每一个市场选择进入。
定理:
如果阶段博弈G有唯一的Nash均衡, 则对任意有限的T,重复博弈G(T)有唯 一的子博弈精炼解,即G的Nash均衡结 果在每一个阶段重复进行。
问题:囚徒困境中的囚徒有可能实现高效 的均衡吗?
存在多重纳什均衡的情形
R1 0,0 0,0 3,3
• 现在假设博弈重复两次,可以根据以下原则构造均
衡:由第一阶段的结果,预测第二阶段的均衡。
• 例如:若第一阶段出现(M1,M2)(即出现合作),则第 二阶段为(R1,R2)(即“好的纳什均衡”);若第一阶 段没有出现(M1, M2), 则第二阶段为(L1,L2)(即“差 的纳什均衡”)。
(0,5) (4,4)
(1,1)
(0,0)
(5,0)
无名氏定理的一个解释
在无限次重复博弈中,如果参与人 具有足够的耐心(只要满足一定的条 件),那么任何满足个人理性的可行 收益向量都可以通过一个特定的子博 弈精炼Nash均衡得到。
无名氏定理举例
2
L
R
U 1,1 5,0
1
D 0,5 4,4
• 该博弈中唯一的纳什均衡为(U,L),两个局 中人在此均衡下的收益都是1;所以,只要无限 次重复博弈中参与人可行的平均单期收益不小 于1,这样的收益就是一个可能的均衡收益。
• 真菌从地下的石头中汲取养分,为海藻提 供了食物,而海藻反过来又为真菌提供了 光合作用;
• 金蚁合欢树为一种蚂蚁提供了食物,而这 种蚂蚁反过来又保护了该树;
• 无花果树的花是黄蜂的食物,而黄蜂反过 来又为无花果树传授花粉,将树种撒向四 处。
• 在有限次重复博弈G(T)中,由第t+1阶段开始 的一个子博弈为G、进行T-t次的重复博弈, 可表示为G(T-t)。
• 在无限次重复博弈G(, ) 中,由 t+1 阶段开始 的每个子博弈都等同于初始博弈G(, ) 。
• 和在有限情况下相似,博弈G(, )到 t 阶段为 止有多少不同的可能进行过程,就有多少从 t +1 阶段开始的子博弈。
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 例子2
一个男孩被视为傻瓜,因为每当别 人拿一枚1块硬币和5分硬币让他选的时 候,他总是选5分的,有一个人觉得奇怪, 就问他:“为什么你不拿1块钱的?”, 男孩小声回答:“假若我拿了1块钱的硬 币,下次他们就不会再拿钱让我选了。”
• 威胁和承诺的重要性:以上两个例子带 给我们什么启发?
• 问题1
• 这说明:在两次重复博弈中,高效的均衡 仍无法实现。
• 同样可证明:在n阶段重复博弈(即博弈重 复n次且每次博弈开始时,前面博弈的结 果都已知)中,高效的均衡同样无法实现。
有限重复博弈定义
• 定义: 对于给定的阶段博弈G,令G(T)
表示G重复进行T次的有限重复博弈, 并且在下一次博弈开始前,所有之 前博弈的进程均可被观测到。
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以

2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
• 注意:在重复博弈中,阶段博弈可能 是静态博弈,也可能是动态博弈,因 此,重复博弈可能是完美信息重复博 弈和不完美信息重复博弈。此处我们 仅讨论完美信息重复博弈。
连锁店悖论
• 假定在位者在不同的市场上有20家连锁店, 进入者试图进入这些市场。如果进入者进 入了每一个市场,此时博弈就变成了20次 重复博弈。当进入者进入第1个市场时, 在位者应该如何反应呢?
• S2:第一阶段选择M2;如果第一阶段 结果为(M1,M2) ,则下一阶段选R2; 否则选择L2。
根据上述战略,博弈可表示为:
2
L2
M2
R2
L1 1+1,1+1 5+1,0+1 0+1,0+1
1 M1 0+1,5+1 4+3,4+3 0+1,0+1
R1 0+1,0+1 0+1,0+1 3+1,3+1
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
相关文档
最新文档