博弈论第五章1
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•1988年加拿大发现来访的前苏联外交官
从事侦察活动后采取的措施。
以牙还牙战略(礼尚往来)
囚徒的救赎
• 好莱圬大片《肖申克的救赎》是一
部很好看的电影,主要内容是一个 被冤屈的囚犯如何凭着坚定的信念 和聪明才智逃出牢房。我们的“囚 犯”也可以通过好的策略合作,摆 脱“困境”的诅咒。
囚徒的救赎:一报还一报
因为其他参与人过去的历史总是可以观测到的,因此,一个 参与人可以使自己在某个阶段博弈的选择依赖于其他参与人 过去的行动历史,因此,参与人在重复博弈中的战略空间远 远大于和复杂于每一阶段的战略空间,这意味着,重复博弈 可能带来一些“额外”的均衡结果。 影响重复博弈均衡结果的主要因素是博弈重复的次数和信息 的完备性。
旅行者困境
• 一位富翁的狗在散步时跑丢了,于是他急匆匆到
电视台发了一则启示:有狗丢失,归还者得酬金1 万元,并附有狗的彩照。一个乞丐看到广告后, 第二天一大早就报着狗准备去领酬金,当他经过 一家大商店的墙体屏幕时,发现酬金涨到了3万元 ,乞丐又折回住处,把狗重新栓在那里,在接下 来的几天里,乞丐从来没有离开过这只大屏幕, 当酬金涨到使全市居民感到惊讶时,乞丐返回他 的住处,可是那只狗已经死了---在这个世界上, 金钱一旦被作为筹码,就不会再买到任何东西。
• 以“利己、利他”为例,其博弈中唯一的纳什
均衡为(利己,利己),两个局中人在此均衡
下所得支付都是1;所以,只要无穷重复博弈
中局中人可行的平均单期支付不小于1,这样
的支付就是一个可能的均衡支付。
• 无穷重复博弈能够导致帕雷托改进。
触发战略
触发策略——冷酷战略(grim strategy) 博弈各方首先试探合作,一旦发觉对方不合作则
一报还一报能够赢得竞赛不是靠打击对方,而是靠从对方引
出使双方都有好处的行为。 如果重复博弈多次,就有报复的机会,这种惩罚的规则是: 人家对你怎么做,你就对他怎么做,如果他上次背叛了你, 你这次背叛他,如果上次他与你合作,你这次就选择与他合 作。 艾克谢罗德认为,一报还一报体现了这个策略符合四个优点 :清晰、善意、报复性和宽恕性。 这一法则不会引发作弊,所以是善意的; 它不会让作弊者逍遥法外,所以是报复的; 它不会长时间怀恨在心,只要作弊者改正,就愿意恢复合 作,所以是宽恕的。 • 一报还一报从自己的不可欺负性得到好处,还放弃了占他人 便宜的可能性
一、有限次重复博弈
• 有限次重复博弈
令G为阶段性博弈,G(T)是G重复T次的重复博弈(T<)
• 如果G有唯一的纯策略纳什均衡解,重复博弈G(T)的唯一
子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T 次,各博弈方在G(T)中的总得益为在G中得益的T倍,平 均每阶段得益等于原博弈G中的得益。
• 如囚犯困境。
可实现得益
平均得益
二、无限次重复博弈与无名氏定理
• 无名氏定理
在无限次重复博弈中,如果参与人具有 足够的耐心(即足够大),那么任何 满足个人理性的可行的支付向量都可以 通过一个特定的子博弈精炼均衡得到。
无名氏定理
无名氏定理举例
支付
甲
乙
利己 1,1
0,4
利他 4,0
3,3
利己
利他
无名氏定理举例
连锁店悖论—市场进入博弈
支付
在位者
默许 40,50
斗争 -10,0
进入者
进入
不进入
0,300
0,300
n次重复博弈
支付
甲
乙
利己 1,1
0,4
利他 4,0
3,3
利己
利他
讨论
• “信息完备”是重复博弈的一个必要条件,事实证明,
如果局中人的博弈环境存在不完备信息,或者存在不确 定性,类似于“连锁店悖论”这样的问题多半会消失。
也用不合作相报复,利用有后续阶段博弈的制约作用达
成均衡的策略称为“触发策略”。因此博弈方的这种触 发策略是一个完整的计划,博弃方一旦设定了这样的策 略,就会坚持到底,因此其中的报复威胁是可以相信的 会信守的,因此所构成的均衡都是子博弈精炼的。
下例中就包含这一战略。
触发战略
触发策略:第一阶段采用H,如果 前t-1阶段的结果都是(H,H),则继 续采用H,否则采用L 如果博弈方2采用L,总得益现值为
无限次重复博弈
• 冷酷战略
(1)开始选择抵赖; (2)选择抵赖一直到有一方选择了坦白,然后永远 选择坦白。
• 无限次重复博弈使其走出了囚徒困境,背后的原
因是:
如果博弈重复无穷次而且每个人有足够的耐心, 任何短期机会主义行为的所得都是微不足道的,参 与人有积极性为自己建立一个乐于合作的声誉,同 时也有积极性惩罚对方的机会主义的行为。
• 假定连锁店有高成本、低成本两种情况,就单期博弈看,
面对新厂商进入,高成本厂商最佳反应为容忍,低成本 厂商最佳反应为斗争,那么高成本厂商在博弈的前期阶 段选择斗争,仍是可信的威胁。
有限次重复博弈的民间定理
A 厂 A 商 1 B 3,3 4,1
厂商2
• 个体理性得益:不管其它博弈方
B
1,4 0,0
5 1 1
2
wenku.baidu.com
H
H L 4,4 5,0
L
0,5 1,1
5
1
如果博弈方2采用H,总得益现值为 V 4 V 当 1 / 4 时,此触发策略为 纳什均衡策略.
触发战略
•1987年美国发现前苏联侦察和窃听美国
大使馆后的一系列反应及造成的后果。
• 假定同样的市场有20个(可以理解为在位者
有20个连锁店), 进入者每次进人一个市场, 博弈就成了20次的重复博弈。人们也许会猜 想,尽管从一个市场看,在位者的最优选择 是默许,但因为有20个市场要保护,为了防 止进入者进入其他19个市场,应该选择斗争, 但子博弈完美的结果为进入者在每一市场选 择进入,而在位者总是选择默许。
可实现得益
可实现得益实际上就是阶段博弈各种纯战略 组合得益的加权平均所构成的得益组合,其中权 数非负且总和为1。我们用(x1, x2,… xn)来记一 个可实现得益。不同的权数结构就可构成不同的 可实现得益,一博弈的全体可实现得益组合对应 的坐标平面(两个以上博弈方时就是空间的区域) 上的点构成一定的面积。
引论
• 本章介绍基本博弈重复进行构成的重复博弈。虽然形式
上是基本博弈的重复进行,但重复博弈中博弈方的行为
和博弈结果却不一定是基本博弈的简单重复,因为博弈
方对于博弈会重复进行的意识,会使他们对利益的判断
发生变化,从而使他们在重复博弈过程中的行为选择受
到影响。这意味着不能把重复博弈当作基本博弈的简单 叠加,必须把整个重复博弈过程作为整体进行研究。
最简单的理由是今天的一元钱如果存入银行那么 在明天会变成1+ r,所以明天的一元钱只相当于 今天的1/(1+ r)元钱,1/(1+ r)实际上就是经济 学中的贴现率。如果假设未来没有不确定性,定 义,未来存在收益流R1,R2,R3,…,那么这个 未来收益流的贴现值之和就为 V = • 其中称为贴现因子(Discount factor)。 • 贴现因子既包含了货币的时间价值又包含了博弈 结束的可能性。
厂商1得益
w=(1.1) (1,1)
(4,1)
注:w表示最差均衡得益数组.
二、无限次重复博弈与无名氏定理
• 无限次重复博弈
假设囚徒困境是一个阶段性博弈,并且是无限次重 复博弈,那么任一个囚徒选择抵赖的条件是:0+(6)+2(-6)+…-1+(-1)+2(-1)+…(为贴现因子) 或者-6/(1-)-1/(1-),即 1/6(即局中人具 有足够的耐心),(抵赖、抵赖)(冷酷战略)是 无限次囚徒博弈的一个子博弈精炼纳什均衡.
定付给每个工人的工资额w。
作业
证明:无论公司的利润贴现因子是多少,唯一的子博 弈完美均衡是:在每一项工程中,无论工人是否干活, 公司向工人付的工资额w都是0;工人不干活。
• 如果该建筑公司在未来的10年内每年有一项相同的工程,
• 如果该建筑公司依次有无穷多个工程,而下一期工人又
能看到以前的工资政策。证明:只要充分接近1,每一
期工人都努力干获将是一个子博弈完美均衡战略。
• 在所有子博弈完美均衡中,对公司最有利的是什么样的
均衡?
的行为如何,一博弈方在某个博 弈中只要自己采取某种特定的策 略,最低限度保证能获得的得益。
两市场博弈
厂商2 得益
• 可实现得益:博弈中所有纯策略
组合得益的加权平均数组。
(1,4)
(3,3)
• 定理:设原博弈的一次性博弈有
均衡得益数组优于w,那么在该博 弈的多次重复中所有不小于个体 理性得益的可实现得益,都至少 有一个子博弈完美纳什均衡的极 限的平均得益来实现它们。
博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间 的权衡。 信息的完备性:当一个参与人的支付函数不为其他参与人知道时, 该参与人可能有积极性建立一个“好”的声誉以换取长远利益。
重复博弈和无名氏定理
有限次重复博弈:连锁店悖论 无限次重复博弈和无名氏定理
相关概念
相关概念
相关概念
相关概念
囚徒的救赎
•重复囚徒困境的几个建议:
1、不要嫉妒 2、不要首先背叛 3、对合作和背叛都要给予回报 4、不要耍小聪明
旅行者困境-做人不要太精明
• 哈佛大学巴罗教授: • 两个旅行者从一个以生产细瓷花瓶闻名的地方旅
行回来,在提取行李的时候,发现花瓶被摔坏了 ,就向航空公司索赔。航空公司知道花瓶的价格 大概杂八、九十元,但不知道他们购买的确切价 格。因此航空公司请两位旅客在100元以内写出花 瓶的价格,如果两个人写得一样,就按照写的数 额赔偿,如果不一样,原则上按照低的价格赔偿 ,并认为该旅客讲了真话,奖励2元,而讲假话的 罚款2元。 • 这个博弈的最终结果将是什么?
有限次重复博弈:连锁店悖论
进入者
不进入
进入
在位者
在位者 默许 斗争 -10,0
策略式 进入者 进入 40,50
(0,300)
默许 斗争
不进入
0,300
0,300
(40,50)
(-10,0)
Nash均衡为(进入,默许)和 (不进入,斗争)但后者不是 子博弈完美Nash均衡。
有限次重复博弈:连锁店悖论
第五章 完全信息动态博弈(二): 重复博弈
引论
为何研究重复博弈?
• 经济中的长期关系 • 人们的预见性 • 未来利益对当前行为的制约 • 长期合同、回头客、长客和一次性买卖的区别 • 有无确定的结束时间
引论
人们之间的长期关系与短期关系之间有重要 的性质差别,人们在对待与其有长期关系的人 与对待那些以后不再交往的人可能会有非常 不同的行为。短期难以形成某种默契或合作 关系,而长期可以通过报复、制裁的威胁来 相互约束各方的行动。
重复博弈的基本特征
阶段博弈之间没有“物质上”的联系,即前一阶段的博弈 不改变后一阶段博弈的结构; 所有博弈方都观测到博弈过去的历史;
博弈方的总支付是所有阶段博弈支付的贴现值之和或加权
平均值。
贴现因子:
下一期的一单位支付在这一期的价值。 注意:在每个阶段,参与人可同时行动,也可不同时行动。
作业
一个建筑公司每到有工程合同才雇用临时工人。考虑 某项工程中公司与工人的劳动-工资博弈;工人受雇
于该公司的机会成本是0;工人可以老实地干活,为
公司创造利润y,但这需要付出劳动成本l,y>l>0;
工人也可以受雇后不干活,这不需任何劳动成本,
同时创造的利润也是0。假设公司与工人在工程结束
之前没有任何工资合同,它只是在雇用期满后才决
无限次重复博弈
(1)特征 无限次重复博弈的特征是不存在可作为最后一 阶段的最后一次重复。 (2)分析无限次重复博弈的难点
一是普通的逆推归纳法无法直接运用;
二是在无限次重复中,各博弈方的各阶段得益的 总和常常是趋向无穷大的,在分析无限次重复博弈 时该用什么作判断依据。
贴现因子
• 明天的一元钱和今天的一元钱价值是不一样的,