博弈论

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

效用（英文：Utility），是经济学中最常用的概念之一。

一般而言，效用是指对于消费者通过消费或者享受闲暇等使自己的需求、欲望等得到的满足的一个度量。

正和博弈亦称为合作博弈，是指博弈双方的利益都有所增加，或者至少是一方的利益增加，而另一方的利益不受损害，因而整个社会的利益有所增加。

负和博弈，是指双方冲突和斗争的结果，是所得小于所失，就是我们通常所说的其结果的总和为负数，也是一种两败俱伤的博弈，结果双方都有不同程度的损失
那是定理
在一个有n个博弈方的博弈G=﹛S1,…,Sn：u1,…,un}中，如果n是有限的，且Si 都是有限集（对i=1，…，n），则该博弈至少存在一个纳什均衡，但可能包含混合策略。

是由纳什发现的。

美苏争霸的囚徒困境
军备竞赛是囚徒困境的又一个典型例子。

下面讲的，源自30年前美国的博弈论课本，本书不敢掠美。

从军事上看，30多年前，美国和苏联是世界上的两个超级大国，它们相互对垒。

假定每一方都有两种策略选择，一个是扩军，发展战略核武器，甚至实施“星球大战”计划等；另一个是彻底裁军，直至不设军备。

如果双方都扩军，则各花费2 000亿美元用于军费。

彻底裁军，则军费为0。

在一个弱肉强食的世界上，如果美国裁军不设防，但是苏联扩军，苏联就可以任意欺侮和损害美国。

这样，美国会受到很大损失。

损失之大，直至丧失主权。

这使我们可以非正式地把这种情况下美国的赢利记做–∞，即负无穷大。

这时候，欺侮人的一方的赢利是多少呢？你可能想象应该是+∞，即正无穷大。

其实不然。

你想想，砍伐一片森林所造成的损失，难道可以用所得到的木材的价值来补偿吗？更不必说占领甚至炸毁对方一座城市，你所得到的远远低于对方的损失。

被欺侮一方的损失，并不会等量地转化为欺侮人的一方的利益，这常常是对抗的规律。

所以，在一方扩军欺侮别人而另一方裁军任人欺侮的情况下，我们假定欺侮人的一方将只掠夺到一个有限数额的财富，比方说10 000亿美元。

这10 000亿美元的掠夺成本是上面讲的2 000亿美元。

没有这2 000
亿美元的军费来武装到牙齿，就不能征服对方。

所以，在上述数据假设之下，掠夺者之纯赢利应该是8 000亿美元。

可见，如果双方都裁军，各方在这种实际上没有对峙的军事对峙中的赢利都为0。

如果双方都扩军，那么在这场均势的军事对峙中，各方的赢利都等于–2 000亿美元，双方都花了军费嘛。

如果一方扩军另一方裁军不设防，扩军的一方赢利为8 000亿美元，不设防的一方赢利为–∞。

这样，我们就可以写下美苏两家的争霸博弈。

运用劣势策略消去法，我们马上知道，双方都扩军是这个争霸博弈唯一的优势策略均衡，以后我们还会知道，双方都扩军是这个争霸博弈唯一的“纳什均衡”。

30多年前，现实的军备竞赛形势，的确很像左上角格子代表的情形。

这是很可悲的。

人类为什么那么愚蠢，不和平共处于不花费军费的右下角呢？这本来是对双方都比较有利的情况呀。

原因很简单：在一个弱肉强食的世界上，不论对方是扩军还是裁军，站在自己利益的立场，扩军总是比裁军有利。

如果苏联裁军，那么美国也裁军将得0，美国若扩军将得8 000，所以为了自己的利益美国要扩军；如果苏联扩军，那么美国也扩军将损失军费开支2 000，美国若裁军将损失无穷大，所以为了自己的利益美国更要扩军。

反过来也一样，这就造成了实际上和囚徒困境一样的争霸博弈均衡：双方都扩军，双方都损失。

值得一提的是，这是人们30多年前的数据和思维。

现在，世界大势已经和那个时候很不相同。

苏联解体，世界上只剩下美国这个超级大国。

在美国现代史上，里根总统的地位为什么那么高？部分原因就是他的“星球大战”计划，拖垮了苏联的经济，为美国成为世界上唯一的超级大国创造了条件。

读者是否注意到，上面的分析，隐含美苏实力完全相当的假设条件，但是实际情况却是苏联不像美国那么富强。

如果苏联比美国弱一点，情况又怎么样？这里说的“弱一点”，不妨具体想象为军力弱一点点，但是整个经济实力弱很多。

请试试作一个美苏军备博弈分析，
体现苏联比美国弱一点的这种情况。

你会发现，只要一方不是比另外一方弱得太多，两个超
级大国还是要陷入军备竞赛的囚徒困境，直到较弱的一方被拖垮为止。

博弈论简介
博弈论(Game Theory)，博弈论是指研究多个个体或团队之间在特定条件制约下的对局中利用相关方的策略，而实施对应策略的学科。

有时也称为对策论，或者赛局理论，是研究具有斗争或竞争性质现象的理论和方法，它是应用数学的一个分支，既是现代数学的一个新分支，也是运筹学的一个重要学科。

目前在生物学、经济学、国际关系学、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

主要研究公式化了的激励结构（游戏或者博弈（Game））间的相互作用，是研究具有斗争或竞争性质现象的数学理论和方法，也是运筹学的一个重要学科。

博弈论图（点击放大）
博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

表面上不同的相互作用可能表现出相似的激励结构(incentive structure)，所以他们是同一个游戏的特例。

其中一个有名有趣的应用例子是囚徒困境悖论(Prisoner's dilemma)。

具有竞争或对抗性质的行为成为博弈行为。

在这类行为中，参加斗争或竞争的各方各自具有不同的目标或利益。

为了达到各自的目标和利益，各方必须考虑对手的各种可能的行动方案，并力图选取对自己最为有利或最为合理的方案。

比如日常生活中的下棋，打牌等。

博
弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案，以及如何找到这个合理的行为方案的数学理论和方法。

生物学家使用博弈理论来理解和预测进化论的某些结果。

例如：John Maynard Smith和George R. Price在1973年发表于Nature上的论文中提出的“evolutionarily stable strategy”的这个概念就是使用了博弈理论。

还可以参见演化博弈理论（evolutionary game theory）和行为生态学（behavioral ecology）。

博弈论也应用于数学的其他分支，如概率论、统计和线性规划等。

[编辑]
博弈论的发展
博弈论思想古已有之，我国古代的《孙子兵法》就不仅是一部军事著作，而且算是最早的一部博弈论专著。

博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上,没有向理论化发展，正式发展成一门学科则是在20世纪初。

对于博弈论的研究，开始于策墨洛(Zermelo,1913)、波雷尔(Borel,1921)及冯·诺伊曼(von Neumann, 1928)，后来由冯·诺伊曼和奥斯卡·摩根斯坦(von
Neumann and Morgenstern，1944，1947)首次对其系统化和形式化（参照Myerson, 1991）。

随后约翰·福布斯·纳什(John Forbes Nash Jr., 1950, 1951)利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。

此外，塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。

今天博弈论已发展成一门较完善的的学科。

通常认为，现代经济博弈论是在20世纪50年代由美国著名数学家冯·诺依曼（von Neumann）的经济学家奥斯卡·摩根斯坦（Oscar Morgenstern）引入经济学的，目前已成为经济分析的主要工具之一，对产业组织理论、委托代理理论、信息经济学等经济理论的发展做出了非常重要的贡献。

1994年的诺贝尔经济学奖颁发给了约翰·纳什（John Nash）等三位在博弈论研究中成绩卓著的经济学家，1996年的诺贝尔经济学奖又授予在博弈论的应用方面有着重大成就的经济学家。

由于博弈论重视经济主体之间的相互联系及其辨证关系，大大拓宽了传统经济学的分析思路，使其更加接近现实市场竞争，从而成为现代微观经济学的重要基石，也为现代宏观经济学提供了更加坚实的微观基础。

当代博弈论的“三大家”和“四君子”
"三大家" 包括约翰·福布斯·纳什、约翰·C·海萨尼以及莱因哈德·泽尔腾。

这三人同时因为他们对博弈论的突出贡献而获得1994年的瑞典银行经济学奖（也称诺贝尔经济学奖）。

"四君子" 包括罗伯特·J·奥曼、肯·宾摩尔、戴维·克瑞普斯以及阿里尔·鲁宾斯坦。

[编辑]
博弈论的基本概念
博弈要素:
(1)局中人（players）：在一场竞赛或博弈中，每一个有决策权的参与者成为一个局中人。

只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为“多人博弈”。

(2)策略(strategies)：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。

如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则称为“无限博弈”。

(3)得失(payoffs)：一局博弈结局时的结果称为得失。

每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。

所以，一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数，通常称为支付（payoff）函数。

(4)次序（orders）：各博弈方的决策有先后之分，且一个博弈方要作不止一次的决策选择，就出现了次序问题；其他要素相同次序不同，博弈就不同。

(5)博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。

在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。

所谓纳什均衡，它是一稳定的博弈结果。

纳什均衡(Nash Equilibrium)：在一策略组合中，所有的参与者面临这样一种情况，当其他人不改变策略时，他此时的策略是最好的。

也就是说，此时如果他改变策略他的支付将会降低。

在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。

所谓“均衡偶”是在二人零和博弈中，当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人B仍采取b*,而局中人A 却采取另一种策略a，那么局中人A的支付不会超过他采取原来的策略a*的支付。

这一结果对局中人B亦是如此。

这样，“均衡偶”的明确定义为：一对策略a*(属于策略集A)和策略b*（属于策略集B）称之为均衡偶，对任一策略a(属于策略集A)和策略b（属于策略集B），总有：偶对（a, b*）≤偶对(a*,b*)≥偶对（a*，b）。

对于非零和博弈也有如下定义：一对策略a*（属于策略集A）和策略b*（属于策略集B）称为非零和博弈的均衡偶，对任一策略a(属于策略集A）和策略b（属于策略集B），总有：对局中人A的偶对（a, b*）≤偶对(a*,b*);对局中人B的偶对（a*，b）≤偶对(a*,b*)。

有了上述定义，就立即得到纳什定理：
任何具有有限纯策略的二人博弈至少有一个均衡偶。

这一均衡偶就称为纳什均衡点。

纳什定理的严格证明要用到不动点理论，不动点理论是经济均衡研究的主要工具。

通俗地说，寻找均衡点的存在性等价于找到博弈的不动点。

纳什均衡点概念提供了一种非常重要的分析手段，使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。

但纳什均衡点定义只局限于任何局中人不想单方面变换策略，而忽视了其他局中人改变策略的可能性，因此，在很多情况下，纳什均衡点的结论缺乏说服力，研究者们形象地称之为“天真可爱的纳什均衡点”。

塞尔顿（R·Selten)在多个均衡中剔除一些按照一定规则不合理的均衡点，从而形成了两个均衡的精炼概念：子博弈完全均衡和颤抖的手完美均衡。

[编辑]
博弈的类型
∙博弈的分类根据不同的基准也有不同的分类。

一般认为，博弈主要可以分为合作博弈和非合作博弈。

合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

∙从行为的时间序列性，博弈论进一步分为静态博弈、动态博弈两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；
动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。

通俗的理解："囚徒困境"就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈
∙按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。

完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。

不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。

目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。

非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。

与上述四种博弈相对应的均衡概念为：纳什均衡(Nash equilibrium)，子博弈精炼纳什均衡（subgame perfect Nash equilibrium），贝叶斯纳什均衡(Bayesian Nash equilibrium)，精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。

博弈论还有很多分类，比如：以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈；以表现形式也可以分为一般型（战略型）或者展开型，等等。

[编辑]
博弈论的意义
博弈论的研究方法和其他许多利用数学工具研究社会经济现象的学科一样，都是从复杂的现象中抽象出基本的元素，对这些元素构成的数学模型进行分析，而后逐步引入对其形势产影响的其他因素，从而分析其结果。

基于不同抽象水平，形成三种博弈表述方式，标准型、扩展型和特征函数型，利用这三种表述形式,可以研究形形色色的问题。

因此,它被称为“社会科学的数学”从理论上讲，博弈论是研究理性的行动者相互作用的形式理论，而实际上正深入到经济学、政治学、社会学等等，被各门社会科学所应用。

博弈论是指某个个人或是组织，面对一定的环境条件，在一定的规则约束下，依靠所掌握的信息，从各自选择的行为或是策略进行选择并加以实施，并从各自取得相应结果或收益的过程，在经济学上博弈论是个非常重要的理论概念。

什么是博弈论？古语有云，世事如棋。

生活中每个人如同棋手，其每一个行为如同在一张看不见的棋盘上布一个子，精明慎重的棋手们相互揣摩、相互牵制，人人争赢，下出诸多精彩纷呈、变化多端的棋局。

博弈论是研究棋手们“出棋” 着数中理性化、逻辑化的部分，并将其系统化为一门科学。

换句话说，就是研究个体如何在错综复杂的相互影响中得出最合理的策略。

事实上，博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。

数学家们将具体的问题抽象化，通过建立自完备的逻辑框架、体系研究其规律及变化。

这可不是件容易的事情，以最简单的二人对弈为例，稍想一下便知此中大有玄妙：若假设双方都精确地记得自己和对手的每一步棋且都是最“理性” 的棋手，甲出子的时候，为了赢棋，得仔细考虑乙的想法，而乙出子时也得考虑甲的想法，所以甲还得想到乙在想他的想法，乙当然也知道甲想到了他在想甲的想法…
面对如许重重迷雾，博弈论怎样着手分析解决问题，怎样对作为现实归纳的抽象数学问题求出最优解、从而为在理论上指导实践提供可能性呢？现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立，1944年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》，标志着现代系统博弈理论的初步形成。

对于非合作、纯竞争型博弈，诺伊曼所解决的只有二人零和博弈--好比两个人下棋、或是打乒乓球，一个人赢一着则另一个人必输一着，净获利为零。

在这里抽象化后的博弈问题是，已知参与者集合(两方) ，策略集合(所有棋着) ，和盈利集合(赢子输子) ，能否且如何找到一个理论上的“解” 或“平衡” ，也就是对参与双方来说都最“合理” 、最优的具体策略？怎样才是“合理” ？应用传统决定论中的“最小最大” 准则，即博弈的每一方都假设对方的所有功略的根本目的是使自己最大程度地失利，并据此最优化自己的对策，诺伊曼从数学上证明，通过一定的线性运算，对于每一个二人零和博弈，都能够找到一个“最小最大解” 。

通过一定的线性运算，竞争双方以概率分布的形式随机使用某套最优策略中的各个步骤，就可以最终达到彼此盈利最大且相当。

当然，其隐含的意义在于，这套最优策略并不依赖于对手在博弈中的操作。

用通俗的话说，这个著名的最小最大定理所体现的基本“理性” 思想是“抱最好的希望，做最坏的打算” 。

[编辑]
博弈论分析
一、经济学中的“智猪博弈”（Pigs’payoffs）
这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。

猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。

如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。

当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。

对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。

反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。

规则的核心指标是：每次落下的事物数量和踏板与投食口之间的距离。

如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗？试试看。

改变方案一：减量方案。

投食仅原来的一半分量。

结果是小猪大猪都不去踩踏板了。

小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。

谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。

如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。

改变方案二：增量方案。

投食为原来的一倍分量。

结果是小猪、大猪都会去踩踏板。

谁想吃，谁就会去踩踏板。

反正对方不会一次把食物吃完。

小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。

对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。

改变方案三：减量加移位方案。

投食仅原来的一半分量，但同时将投食口移到踏板附近。

结果呢，小猪和大猪都在拼命地抢着踩踏板。

等待者不得食，而多劳者多得。

每次的收获刚好消费完。

对于游戏设计者，这是一个最好的方案。

成本不高，但收获最大。

原版的“智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。

但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。

为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。

而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。

比如，公司的激励制度设计，奖励力度太大，又是持股，又是期权，公司职员个个都成了百万富翁，成本高不说，员工的积极性并不一定很高。

这相当于“智猪博弈”增量方案所描述的情形。

但是如果奖励力度不大，而且见者有份（不劳动的“小猪”也有），一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。

最好的激励机制设计就象改变方案三----减量加移位的办法，奖励并非人人有份，而是直接针对个人（如业务按比例提成），既节约了成本（对公司而言），又消除了“搭便车”现象，能实现有效的激励。

许多人并未读过“智猪博弈”的故事，但是却在自觉地使用小猪的策略。

股市上等待庄家抬轿的散户；等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资；公司里不创造效益但分享成果的人，等等。

因此，对于制订各种经济管理的游戏规则的人，必须深谙“智猪博弈”指标改变的个中道理。

二、囚徒困境博弈
在博弈论中，含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”（prisoners’ dilemma）博弈模型。

该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。

警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。

如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。

如果两人都抵赖，则警方。