运筹学博弈论

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

i a 2 1 3 a c 1 3 a c c 1 3 a c 9 1 a c 2
产量博弈的古诺模型是一种囚徒困境，无法实现博弈方总体和各个博弈方各自最大利益的结论，对于市场经济组织、管理，对于产业组织和社会经济制度的效率判断，都具有非常重要的意义。说明对市场的管理，政府对市场的调控和监管都是必须的。
纳什均衡(Nash Equilibrium)
通俗地说，纳什均衡的含义就是：
给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是你的最好的策略。即双方在给定的策略下不愿意调整自己的策略。
1. 纯战略Nash均衡
策略空间：每个博弈方的全部可选策略的集合 S1,Sn
博弈方 i的第 j个策略： si j Si 博弈方 i的得益：u i
每个参与人都想猜透对方的战略，而每个参与人又不愿意让对方猜透自己的战略。
这种博弈的类型是什么？如何找到均衡？
请举一些这样的例子：
✓石头、剪子、布游戏 ✓老虎、杠子、鸡、虫子游戏 ✓扑克游戏 ✓橄榄球赛 ✓战争中
大猪先到：大猪吃到9个单位，小猪吃到1个单位；小猪先到：小猪吃到4个单位，大猪吃到6个单位；同时到达：大猪吃到7个单位，小猪吃到3个单位。
局中人：大猪和小猪行动：按按钮吃东西
小猪
按
不按
大
猪
按 (5, 1) (4, 4)
不按 (9, -1) (0, 0)
24
大猪按等待
小猪的上策
寡头产量竞争——以两厂商产量竞争为例 Qq1 q2 PP(Q) aQ
u 1 q 1 P ( Q ) c 1 q 1 q 1 [ a ( q 1 q 2 ) c ]1q
u 2 q 2 P ( Q ) c 2 q 2 q 2 [ a ( q 1 q 2 ) c ]2q
假设策略组合（q1*， q2*）是本博弈的纳什均衡，那么
智猪博弈（大小猪博弈）
智猪博弈：假设猪圈里有两头猪，一头大猪，一头小猪，猪圈的一端有一个猪食槽，另一端安装了一个按钮，控制猪食的供应。按一下按钮。将有10个单位的猪食进入猪食槽，供两头猪食用。两头猪面临选择的策略有两个：自己去按按钮或等待另一头猪去按按钮。如果某一头猪作出自己去按按钮的选择，它必须付出如下代价：第一，它需要收益相当于2个单位的成本；第二，由于猪食槽远离猪食，它将比另一头猪后到猪食槽，从而减少吃食的数量。
博弈论：博弈论就是系统研究具有上述特征的博弈问题，寻求各博弈方合理选择战略情况下博弈的解，并对这些解进行讨论分析的理论。
博弈的分类及对应的均衡概念
完全信息
静态
完全信息静态博弈纳什均衡
代表人物：纳什（1950，1951）
不完全信息
不完全信息静态博弈贝叶斯纳什均衡
代表人物：海萨尼（1967-1968）
10.2.2 重复剔除的占优战略均衡
首先找出某一博弈参与人的严格劣战略，将它剔除掉，重新构造一个不包括已剔除战略的新的博弈；然后继续剔除这个新的博弈中某一参与人的严格劣战略；重复进行这一过程，直到剩下唯一的参与人战略组合为止。这个唯一剩下的参与人战略组合，就是这个博弈的均衡解，称为“重复剔除的占优战略均衡”(iterated dominance equilibrium).
博弈方数量对博弈结果和分析有影响
根据博弈方数量分单人博弈、两人博弈、多人博弈等。最常见的是两人博弈，单人博弈是退化的博弈
策略或战略（strategies）：博弈中各博弈方的选择内容。
策略有定性定量、简单复杂之分
不同博弈方之间不仅可选策略不同，而且可选策略数量也可不同
有限博弈：每个博弈方的策略数都是有限的
如果给定其他局中人的战略，每一个局中人的最优
选择是唯一的。即是说是一个强Ns a* sh均衡，当且
仅当对于所有的
，，有si' si* i 1,,n
ui(si*,s *i)ui(si',s *i)
2．求解Nash均衡的方法
（1）划线法
思路：先找出自己针对其他博弈方每种策略或策略组合（对多人博弈）的最佳对策，即自己的可选策略中与其他博弈方的策略或策略组合配合，给自己带来最大得益的策略（这种相对最佳对策总是存在的，不过不一定惟一），然后再此基础上，通过对其他博弈方策略选择的判断，包括对其他博弈方对自己策略判断的判断等，预测博弈的可能结果和确定自己的最优策略。
博弈：G {S1, Sn;u1, un}
定义1在博弈 G { S 1 , S n;u 1 , 中，u n } 如果由各个博弈方的各一
个策略组成的某个策略组合中，任一博弈方的策略，i
都是对其s i*余博弈方策略的组合
(si*,sn*)
的最佳对策，也即 (si *, si * 1 ,si * 1 ,.s .n * .)
性研究。
6. 2005年二位获诺奖的博弈论学者
Robert Aumann
Thomas Shelling
10.1.2 博弈及博弈论
博弈就是策略对抗，或策略有关键作用的游戏
博弈Game，博弈论Game Theory，Game即游戏、竞技游戏和经济等决策竞争较量的共同特征：规则、结果、策
略选择，策略和利益相互依存，策略的关键作用游戏——下棋、猜大小经济——寡头产量决策、市场阻入、投标拍卖政治、军事——美国和伊拉克、以色列和巴勒斯坦
划线法求解纳什均衡
例10.2
B
L
M
R
U
3,2
4,7
5,1
AH
6,1
2,8
1,1
D
3,7
8,9
10,4
（2）反应函数法
例10.3 古诺（Cournot）寡头竞争模型
古诺寡头竞争模型（1838）
企业1
企业2
❖参与人：企业1、企业2 ❖战略：选择产量 ❖得益：利润，利润是两个企业产量的函数
定义：博弈就是参与人（可能是个人，也可能是团体，如国家、企业、国际组织等）在一定得规则下，同时或先或后，一次或多次，从各自允许选择的行动或战略中进行选择并加以实施，而取得相应结果（支付函数）的过程。
都有一定的规则都有一个结果策略至关重要，游戏者不同的策略选择常会带来不同的游戏
结果策略和利益有相互依存性
第一节博弈论概述
一、博弈论的产生和发展
1. 博弈在中国田忌赛马博弈
华容道博弈
从孙子兵法到三十六计从田忌赛马到孙庞斗智从运筹帷幄到韬光养晦从曹刿论战到论持久战
2. 博弈论的开山之作
1943 年，冯 ·诺依曼和摩根斯顿发表《博弈论和经济行为》的一书，
标志着博弈论作为一门独立科学的开始，也标志着新古典经济学进入了一个新的发展阶段。
max（q1[a(q1q2) ]c1q ）
q1
max（
q2
q2[a(q1q2) ]c2q）
q1*，q2*只要能使两式各自对q1，q2的导数为0，就能实现两式的最大值，令：
a － c－ q2*－2 q1*＝0 a － c － q1*－2 q2*＝0
解之， q1*＝ q2*＝1/3(a-c)。因此，策略组合（ 1/3(a-c) ， 1/3(a-c) ）是本博弈唯一的纳什均衡。此时每个企业的利润为
动态
完全信息动态博弈子博弈精炼纳什均衡代表人物：泽尔腾（1965）
不完全信息动态博弈精炼贝叶斯纳什均衡代表人物：泽尔腾（1975）克瑞普斯和威尔逊（1982）费登伯格和泰勒尔（1991）
10.2 完全信息静态博弈
10.2.1 策略型博弈模型及占优战略博弈 10.2.2 重复剔除的占优战略博弈 10.2.3 纳什均衡
小猪
按
等待
5，1 4，4
9，－1 0，0
双方力量不对等时的正确策略
力量强：主动出击力量弱：等待，搭强者的便车。
26
智猪博弈的应用
政治博弈
大国是大猪，小国是小猪
资本市场
大股东是大猪，小股东是小猪
企业创新策略
大企业是大猪，小企业是小猪
27
重复剔除的占优均衡
M优于L 列先生
L
M
R 行：没有占优策略
行先生
U
1，0
1，2
0，1 列：M严格优于R
D
0，3
0，1
2，0 剔除 R
行：U优于D 列：无占优策略剔除 D
（U，M）是重复剔除的占优均衡
10.2.3 纳什（Nash）均衡
纳什均衡概念是现代博弈论的核心概念。它是以美国数学家、经济学家纳什（Nash）的名字命名的，纳什在1950年的一篇论文中提出了纳什均衡的概念。
囚徒困境（ Prisoners’Dilemma ）
只达到效率很差的个体理性解，没有实现团体理性解。前者是稳定的，是自动实施的；尽管团体理性解对大家都好，但它是不能自动实施的，需要改变条件。
提示：该博弈揭示了个体理性与团体理性之间的矛盾。——从个体利益出发的行为往往不能实现团体的最大利益，同时也揭示了个体理性本身的内在矛盾——从个体利益出发的行为最终也不一定能真正实现个体的最大利益，甚至得到相当差的结果。
无限博弈：至少有某些博弈方的策略有无限多个
支付函数(Payoffs function) ：各博弈方从博弈中所获得的利益。
得益对应博弈的结果，也就是各博弈方策略的组合
得益是各博弈方追求的根本目标及行为和判断的主要依据
根据得益的博弈分类：零和博弈、常和博弈、变和博弈
例10.1 囚徒困境博弈
正面
反面
正面合构成纳什均衡
反面
-1 1，
1 -1，
警察与小偷
1万元
酒馆东边
小偷
警察
警察与小偷的最优策略各是什么？
2万元
银行西边
上述博弈的特征是：
在这类博弈中，都不存在纯纳什均衡。
参与人的支付取决于其他参与人的战略；以某种概率分布随机地选择不同的行动
囚徒的困境是图克（Tucker）1950年提出的该博弈是博弈论最经典、著名的博弈该博弈本身讲的是一个法律刑侦或犯罪学方面
的问题，但可以扩展到许多经济问题，以及各种社会问题，可以揭示市场经济的根本缺陷
基本模型
经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监8年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举（互相“背叛”），则二人同样判监5年。
（3）混合战略Nash均衡
例10.4 社会福利博弈
流浪汉
寻找工作流浪
政府
2 救济 3，
1 不救济 -1，
3 -1，
0 0，
没有一个策略组合构成纳什均衡
猜谜游戏
❖两个儿童各拿一枚硬币，
❖若同时正面朝上或朝下， A给B 1分钱，
❖若只有一面朝上，B给A 1分钱。
零和博弈
博弈参与者有输有赢，但结果永远是0。
囚徒困境
坦白是B的占优战略
坦白
囚徒 B
抵赖
坦白
坦白是A的囚徒A 占优战略
抵赖
-5，-5 0，-8
-8，0 -1，-1
占优策略(上策)均衡
占优策略(上策)通俗来说是：
• “我所做的是不管你做什么我所能做的最好的” • “你所做的是不管我做什么你所能做的最好的”
占优策略均衡指博弈中的所有参与者的占优策略组合所构成的均衡。
10.2.1 策略型博弈模型及占优战略博弈
非合作博弈模型从模型自身形式上可分为扩展型和策略型两种，一般用策略型模型描述完全信息静态博弈模型。
构成策略型博弈模型的三个要素: 局中人、策略、支付函数
参与人或局中人(Players) ：独立决策、独立承担博弈结果的个人或组织
博弈规则面前博弈方之间平等，不因博弈方之间权利、地位的差异而改变
3. 1994年三位获诺奖的博弈论学者
John Nash
John Harsany
Leihaden Selten
4. 1996年诺贝尔经济学奖得主：詹姆斯·莫里斯：主要贡献：不对称信息条件下的激励理论
5. 2001年诺贝尔经济学奖得主：迈克尔 ·斯宾塞：在不对称信息市场分析方面所做出开创
u i(s i* , s i* 1 ,s i* ,s i* 1 ,s .n * ). u .i(s i* , s i* 1 ,s i,js i* 1 ,s .n * )..
对任意 si j 都Si成立，则称（Nash Equilibrium）。
(s为i*,的s一n*)个纳什G均衡
定义2：一个Nash均衡是强的（Strict或Strong），