《博弈论》课程课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

20
（五）博弈模型的分类
博弈中最重要的两个因素是信息与顺序。
信息上可以分为完全信息和非完全信息。
在博弈的顺序上则可以分为静态与动态。
21
完全信息和非完全信息，完全和非完全判断的标准就是如果有些信息只有一部分参与者知道，并不是所有的信息都是公共信息，那么博弈就是非完全信息博弈。静态博弈和动态博弈，静态和动态的区别并不在于时间上是否同时，而是在行动上是否同时。如果参与者1在行动时，不知道参与者2的行动，反之也一样，即为同时行动。
2
例2 诺曼底登陆
德军
加来设防加来登陆盟军
诺曼底登陆成功，失败
诺曼底设防成功，失败
失败，成功
失败，成功
3
例3 鸽派和鹰派
美国鸽派政策苏联鹰派政策
鸽派政策
鹰派政策
0，0
+1，–1
–1，+1
– ∞，– ∞
4
从上面的三个例子中，我们可以概括出一个博弈所具有的共同特征：利益相冲突的参与者、参与者总是根据对手可能采取的策略来采取相应的行动----相互依存的策略和行动、参与者总是追求自身利益最大化。根据这些共同特征我们就能给出一个博弈的定义，只要符合这个定义，就可以将其纳入到博弈论的研究范畴之中。

（五）博弈模型的分类
（四）博弈论的两个前提假设
（三）纳什均衡
（二）博弈表达的科学式
（一）什么是博弈论
一、理论准备
1
（一）什么是博弈论
我们首先看几个例子。例1 石头、剪刀、布
猪八戒
石头石头孙悟空剪刀布未定，未定找水，休息休息，找水剪刀休息，找水未定，未定找水，休息布找水，休息休息，找水未定，未定
无独有偶，在古今中外的战争中，破釜沉舟这种策略经常被运用，例如阿兹台克帝国的征服者科尔特斯就是采用这种策略征服美洲大陆的。
破釜沉舟这种策略实际上有很多的变种。
36
3、企业应该在什么时候诚实这里我们考虑一个所谓的诚信企业的动态博弈，
占便宜到诚信公司顾客不到诚信公司诚信公司赚1000元顾客损失2000元
18
（四）博弈论的两个前提假设
博弈论在研究的过程中有两个基本前提假设一是，理性人假设。二是，博弈结构对参与者是公共知识。特别
是，参与者满足完美回忆。
19
例6 旅行者困境两个旅行者在旅游圣地买了两个花瓶，但在回程途中被航空公司打碎。航空公司知道花瓶大约值100元，但并不清楚花瓶的确切价格。于是，航空公司要求两位旅客各自写下花瓶的价格，并按照两个旅客中所写的最低价格进行赔偿（航空公司认为写最低价格的旅客讲的是真话），为了鼓励旅客讲真话，规定对讲真话的旅客奖励2元，对讲假话的旅客罚款2元。容易证明，在理性人的假设下，这个游戏唯一的结果是两人都写0。
10
图1 进攻与防守的基本式 G={N, S, u}，其中N=（1,2)， Si={(0,2),(1,1),(2,0)}，ui (s1, s2) = ri，i = 1, 2。
守方 (0,2) (1,1) (2,0)
(0,2)
攻方 (1,1)
失败，成功
成功，失败
成功，失败
失败，成功
成功，失败
成功，失败
诚信公司公平待客公司赚100元顾客赚100元
交易无法发生，每个人都没有收获
37
4、公司并购与毒丸
不收购收购者收购公司50%股权收购者得到0元
不服用主管
公司收购者获得2500万元
服用毒丸收购者不接管损失3000万元接管损失500万元
38
5、价格竞争
有时候，我们会观察到这样一个现象，在一个垄断市场，存在一位垄断者，但其产品的定价并不高，好像与垄断企业获取垄断利润矛盾。垄断企业之所以这样做，并非出于好意，实际上是为了有效阻止新进入者而采取的一种阻吓定价法。为了表明企业的威胁是可置信的，就采用这种定价方式。
13
例5 取消管制扩展式的一个等价形式就是所谓的博弈树。
政府维持进 2 取消 1
退退
进
退
进
图2 取消管制
14
取消管制的扩展式为 Γ =(N, H, P, u)，其中（1）参与者集合：政府1，企业2和企业3， N={1, 2, 3}。（2）全历史集合：维持为C，取消为D，进入为E，退出为Q，那么全历史集合H ={(C), (D, [E, E]), (D, [E, Q]), (D, [Q, E]), (D, [Q, Q])。（3）参与者函数：P(Ø ) = 1，P(D) = {2, 3}。（4）偏好：对于政府而言，根据五个历史对应的社会福利进行排序，对于企业1和企业2而言，则为五个历史对应的利润排序。
(2,0)
成功，失败
成功，失败
失败，成功
11
2、博弈扩展式
扩展式之所以称为“扩展”根本的原因在于它比基本式“详细”。特别是对博弈中参与者的行动顺序和信息状态做出了比基本式 “详细”得多地刻画。正因为如此，所以扩展式通常被用来描述复杂的动态博弈。通俗地说，我们把博弈中所有从开始到结束的行动序列称为一个play（全历史或完整路径），全历史中从开始到某个阶段就叫子历史或路径。
22
表 1 博弈的分类和均衡概念
完全信息静态非完全信息
完全信息静态博弈非完全信息静态博弈（纳什均衡）（贝叶斯均衡）
完全信息动态博弈非完全信息动态博弈动态（子博弈精炼均衡）（序列均衡）来自23非完全信息动态博弈
非完全信息静态博弈
完全信息动态博弈
完全信息静态博弈
一般均衡
图1-2 四个博弈模型关系图
9
例4 进攻与防守双方争夺一个据点，有两条进攻路线X和Y，攻方有两个军，而防守方也有两个军，只有当守方的兵力不少于攻方时，才能击退进攻，否则据点将会失守。首先可知守方的防守方案（即策略）为(0,2)，(1,1)，(2,0)，即在X 线路和Y线路驻扎军队数，同样可以到的攻方的进攻方案(0,2)，(1,1)和(2,0)。容易看出，行动并非策略，策略是行动方案。
24
附录什么是模型？所谓模型通俗地说，就是一个相对独立的逻辑体系，博弈论的基本研究方法就是一个建立模型的过程。通常观察社会现象，提出假设→进行逻辑推理→得到一定的假说→与实际中的现象对照，看一看是真是伪→如果真，理论得到“某种程度的支持”；如果伪，检查是假设错，还是推理错，从而进行理论修正，或者废弃理论。我们通过一个著名的例子来说明如何建立模型。早在古希腊时代，人们就知道地球是圆的。同学可能会觉得奇怪，古希腊的人是怎么知道地球是圆的呢？这只不过是一个思维实验得出的结论。
30
囚徒困境的博弈矩阵
囚徒2 沉默招供
沉默囚徒1
招供
–1，–1
0 ，– 9
–9，0
– 6 ，– 6
31
（二）用囚徒困境解释各种社会经济现象
a. 全球气候变暖与碳减排 b. 北京交通的拥堵 c. 人民公社为什么垮掉 d. 三个和尚没水喝 e. 为什么社会缺乏信用
f. 合同法能解决囚徒困境吗？
g. 道德的价值
25
这个模型是这样的：
第一个模型假设：地球是圆的已知：光线是按直线行走的（现实中观察到的事实）那么：在港口的人，首先看到远方驶来船只的船桅，并逐渐看到船的下部（与现实中观察到的事实相符）
26
第二个模型
假设：地球是平的已知：光线是按直线行走的（现实中观察到的事实）那么：在港口的人，首先看到的是整个船身（与现实中观察到的事实相悖）
15
（三）博弈论基础的均衡概念——纳什均衡
纳什均衡是博弈论分析的基础，但纳什均衡
的概念实际上却非常简单。为了更好的理解我们将从两个层面来加以理解。
一是，纳什均衡是指这样一种策略组合，其
中没有任何一个参与者有动机单方面改变策略——单边背离。不存在单边背离的策略组合即为纳什均衡。
16
纳什均衡——不存在单边背离
32
三、威胁或是承诺是可置信的吗？
这里我们首先考虑一个极端的例子，故事是
这样的，一个穷人威胁，如果富人不给他三百万，那么穷人就要和富人同归于尽。我们可以将这个博弈变成一个动态博弈，第一阶段，富人首先行动已决定给不给钱（给钱或是不给），第二阶段，穷人根据富人的行动决定是否拉手榴弹。穷人的威胁是可置信的吗？
定义1 博弈是指利益存在冲突的决策主体（个人，企业，集团，政党，国家等等）在相互对抗（或合作）中，对抗双方（或多方）相互依存的一系列策略和行动的过程集合。
5
在定义1中，我们最需要注意的就是策略的相互依存性。对于策略的相互依存性，传统的经济学不是不想研究，而是缺乏有效的工具。从这个意义上而言，博弈论正是为了解决这一问题而产生的。也是从这个意义上讲，我们有了博弈论的定义。定义2 博弈论是专门研究博弈如何出现均衡的规律的学科。
参与者2
左中 1,2 3,3 0,1 右 0,1 1,1 2,0 上中下 1, 0 2,1 0,3
参与者1
参与者2
正面反面 -1， +1 +1， -1
参与者1
正面反面
+1， -1 -1， +1
17
二是，所谓混合策略是指参与者按照概率来选择行动，这个概率分布就是所谓的混合策略。
定义5 如果一个策略组合s* = (s1* , …, sn*) 是博弈G = {N, S, u}的一个纳什均衡，那么对任一参与者i = 1, 2, …, n，对其任一个策略 si，不等式 ui(s*i, s*– i) ≥ ui(si, s*– i) (1) 成立。
正是由于博弈论将博弈如何出现均衡列为核心，因而博弈论对于各门社会科学而言，就具有了方法论意义，成为各门学科的有力分析工具。
6
定义3 博弈表达的基本式（或策略式）由博弈的参与者N，策略空间S和收益函数u三个要素组成，即G = {N, S, u}。其中N为自然数集合{1, …, n}，S为n重笛卡尔集，Si为参与者i的纯策略集合，u为参与者的收益函数集合。完全信息静态博弈是最简单的博弈，所以通常用策略式来描述之，策略式最常见的一种方式就是所谓的“博弈矩阵”。我们在前面已经接触到。
33
手榴弹游戏的扩展式
富人给钱不给钱
穷人
引爆不拉引爆
穷人
不拉
图3-1 不可置信的威胁
34
1、对任性女儿的管教
父母和老师一样，往往试图用威胁的方式来管教子女的行为。比如一对父母担心女儿早恋，甚至可能学坏，然后威胁如果子女这样就断绝父子关系，并把其逐出家门。这种威胁是可置信的吗？你可以用不可置信的威胁来说明“李双江、张国立现象”。
从博弈论的角度来看，父母的关爱越深切反而会进一步削弱父母的威慑力，有趣的是，如果女儿怀疑父母不爱她，反而有可能把对手的威胁当真，这就是中国古语所说“异子而教”。
35
2、破釜沉舟
破釜沉舟这个成语故事对中国人来说妇孺皆知，他之所以2千年了仍被人传唱，根本的原因就是项羽成功的解决了不可置信的难题，并将其变成了一种激励，鞭笞士兵拼命。
12
用参与者函数来表示在每一个全历史上，当博弈进行到某个阶段时谁来行动。因而要完整地描述一个动态博弈，必须具备四个要素：（1）参与者集合；（2）全历史集合；（3）参与者函数；（4）偏好。
定义4 博弈的扩展式为 Γ =(N, H, P, u)，其中N为参与者集合，H为博弈的全历史集合，即H={(a1, a2, …, aK)}，其中K为博弈从开始到结束依次发生的行动次数，行动序列中的每一个a都为向量。P为参与者函数，即P(h)={i: i∈N}，。u为收益函数，表示博弈参与者的偏好。
结论：地球是圆的。
27
图1 地球是圆的？还是平的？。
做出上面这个思维实验的人就是大名鼎鼎的希腊智者——亚里斯多德。
28
会（现二象）用囚徒困境解释各种社

（一）标准的囚徒困境
二、囚徒困境的运用
29
（一）囚徒困境囚徒困境的策略式 1）参与者集合：囚徒1定义为1，囚徒2定义为2，N = {1 , 2}。（2）策略空间：囚徒1的策略空间S1 = {沉默，招供}，囚徒2的策略空间S2 = {沉默，招供}。策略s11 = s21 = 沉默，s12 = s22 = 招供。（3）偏好和收益函数：囚徒1的偏好，从好到差排序为（招供，沉默）……（沉默，招供）。囚徒2与此类似。