范里安《微观经济学:现代观点》【教材精讲+考研真题解析】第28章 博弈论 【圣才出品】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第28章博弈论
28.1本章要点
●纳什均衡
●囚徒困境
●序贯博弈
28.2重难点解读
博弈论关注的是对策略互动的一般性分析,它可以应用于研究营业博弈、政治谈判和经济行为等。
一、博弈的收益矩阵
假设两人进行简单的博弈,参与人A在纸上记下“上”或“下”。同时,参与人B独立地在另一张纸上记下“左”或“右”。他们最终获得的收益如表28-1所示。
表28-1博弈的收益矩阵
占优策略:不论其他参与人如何选择,每个参与人都有一个最优策略(there is one optimal choice of strategy for each player no matter what the other player does.)。如果在某个博弈中,每个参与人都有一个占优策略,那么,可以预期这个占优策略组合就是该博弈的均衡结果。
二、纳什均衡
纳什均衡:如果其他参与人不改变自己的策略,任何一个参与人都不会改变自己策略的均衡状态。即如果给定B的选择,A的选择是最优的,并且给定A的选择,B的选择也是最优的。那么,这样一组策略就是一个纳什均衡,即给定其他人的选择,每个参与人都作出了最优的选择(each person is making the optimal choice,given the other person’s choice)。一个纳什均衡可以看作关于每个参与人的策略选择的这样一组预期,这些预期使得当任何一个人的选择被揭示后,没有人愿意改变自己的行为,如表28-2所示。
表28-2一个纳什均衡
纳什均衡的评价:
第一,一个博弈可能会存在一个以上的纳什均衡。表28-2中,策略组合(下,右)与(上,左)都是纳什均衡。
第二,有一些博弈根本不存在纳什均衡,如表28-3所示。
表28-3不存在(纯策略)纳什均衡的博弈
三、混合策略
纯策略:每个参与人只选择一种策略并始终坚持这个选择。
混合策略:参与人随机化按照概率选择策略。
混合策略纳什均衡:给定其他参与人的策略选择概率,每个参与人都为自己确定了选择每一种策略的最优概率。
表28-3所示的例子中,可以证明,如果参与人A以3/4的概率选择策略“上”,以1/4的概率选择策略“下”,参与人B以1/2的概率选择策略“左”,以1/2的概率选择策略“右”,那么,这个混合策略组合就构成一个纳什均衡。
四、囚徒困境
纳什均衡并不一定会导致帕累托有效率的结果。
考虑下面的博弈,两个合伙犯罪的囚徒被逮捕,分别关在不同的地方进行单独审讯。每个囚徒都可以选择坦白或抵赖,如果有一方抵赖,另一方坦白,则抵赖方会受到更严厉的惩罚而坦白方却可以减轻惩罚。收益矩阵如表28-4所示。
表28-4囚徒困境
很容易可以判断最后的纳什均衡是(坦白,坦白),即两个囚徒都选择坦白。但是从收益矩阵可看出(坦白,坦白)并不是一个最好的结果,而(抵赖,抵赖)则是最好的结果,但(抵赖,抵赖)最后却没有被实现,因为一旦一方选择抵赖,另一方的最优策略则是选择坦白。选择坦白是两个囚徒的占优策略。
囚犯博弈的意义在于它可以解释寡头垄断厂商的行为,关键是赋予合作与背叛具体的经济含义。比如在双头垄断的情况下,合作可以解释为“保持索要一个高价”,背叛可解释为“降价以争夺对手的市场”。
五、重复博弈
重复博弈(Repeated Games)是动态博弈的一种特殊情况,即在重复博弈中,同一个博弈被重复多次。影响其结果的主要因素是博弈重复的次数。
1.有限次重复博弈
假定每个局中人都知道博弈将重复一个固定的次数(a fixed number of times)(比如
重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行一次性博弈。
运用倒退归纳法。先从第5次开始,由于这是最后一次博弈,将来不会再有,其结果是局中人双方都选择“背叛”策略。同理不断向后归纳,结果最后一次博弈之前的所有博弈中,合作并不能带来什么长期利益,局中人惟有相信其他局中人将在最后一次移动中背叛,用现在的善意企图去影响未来下一次的博弈是无利可图的。
因此,在重复某一固定次数的囚犯困境重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合作)”。
有限次的重复博弈不能解决囚徒困境中的背叛问题。
2.无限次重复博弈
当博弈的重复次数为无限时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益在望。在这种无限次重复的囚犯博弈中,每个人的策略都是一个函数序列,它表明每个局中人在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。
重复博弈中,局中人的收益是各阶段收益的贴现值之总和——贴现和(向0时刻贴现)。具体地说,设局中人在时刻t 的收益(即第t 局重复中的支付)为t u (t =1,2,3,…),他在重复博弈中的收益就是贴现和()11t t t u r ∞=+∑,其中r 为贴现率。只要贴现率不很高,囚徒困境每一局重复的均衡策略便都是(合作,合作),每个人在各个阶段都会看到合作的利益。
采取针锋相对的策略(tit for tat)——在每一局的博弈中,采取对手在上一局所选择的策略,能够解决无限重复的囚徒困境博弈,是实现有效率结果的极佳机制。
即如果囚徒困境可以重复无数次,那么理性的选择就有可能导致帕累托有效的结果。
六、序贯博弈
序贯博弈存在时序性。在第一个阶段,参与人A选择“上”或者“下”。参与人B先观察A的选择,然后再选择“左”或者“右”,如表28-5所示。
表28-5一个序贯博弈的收益矩阵
单纯分析收益矩阵,共有两个纳什均衡:(上,左)和(下,右)。收益矩阵掩盖了这样一个事实:其中的一个参与人在做出自己的选择以前必须先要了解另一个参与人的选择,具体如图28-1所示扩展式博弈:现实选择次序的表述博弈的方式。通过分析可以看出,策略组合(上,左)并不是一个合理的均衡,原因在于,参与人A不会选择“上”,这就体现了先行者优势。
图28-1博弈的扩展形式
七、遏制进入的博弈