中级微观经济学 博弈论
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不完全信息
不完全信息静态博弈; 不完全信息动态博弈;
贝叶斯纳什均衡;
精炼贝叶斯纳什均衡;
海萨尼(1967-1968)
泽尔腾(1975), Kreps和Wilson (1982),Fudenberg 和Tirole(1991)
3
博弈论与策略行为(1):学科概念
博弈论(Game Theory)又名对策论,游戏论。顾名 思义,是一门研究互动关系的游戏中参与者各自选择 策略的科学,换言之,是研究机智而理性的决策者之 间冲突及合作的学科。博弈论把这些复杂关系理论化, 以便分析其中的逻辑和规律,并对实际决策提供指导 或借鉴。
5
博弈论与策略行为(3):支配策略
由于游戏参与者试图实现自身利益最大化并具有机智而理性的决
策能力,加上信息方面的假定,所以上述支付矩阵表示的博弈具 有一个简单而确定的结果。从厂商A角度来说,它采取策略“下” 而得到的支付总是好于“上”(2,1分别对1,0)。同样,对于 B来说,选择策略“左”得到的利益总是优于“右”(1,2分别 对0,1)。因此,我们可以确定预期均衡选择策略是A选择“下” 而B选择“左”的策略。
贝叶斯纳什均衡是这样一种类型依从战略组合:给定自己 的类型和别人类型的概率分布的情况下,每个参与人的期 望效用达到了最大化,也就是说,没有人有积极性选择其 他战略。
在上例中,高成本可能性为x,低成本为1-x。选择不进入 的期望利润为零。则进入者选择进入的期望利润为40x+(10)(1-x),选择不进入的期望利润为零。则只有在x>0.2时, 进入者会选择进入。
因为重复性博弈中选择坦白的机会成本太高,可能成为不利的选 择。例如,A有机会与B组成策略联盟,并对B宣布如下方针:我 将选择沉默,并要求你也如此来增进各自利益;然而,如果你半 途背叛选择坦白,我从下一阶段游戏开始便一直采取坦白。这一 方针与A利益一致,因而是可信的。从B角度来看,如和A合作, 可在每阶段得到1年监禁的较好结果;如中途变卦,固然当期可 得一次3个月的更好结果,但此后便每次面临3年监禁后果,显然 是不利的。因而,重复性博弈中,”沉默+沉默“点可能成为对 双方最佳选择,因而成为纳什均衡点。——由于博弈条件由一次 性变为重复性,均衡状态随之发生变化。
咸饼干 甜饼干
-5,-5 20,10
10,20 -5,-5
15
完全信息动态博弈:子博弈精炼纳 什均衡
市场进入阻挠:这个博弈中有两个纳什均衡,即(进入, 默许)和(不进入,斗争)。但是显然,斗争在这里是一 个不可置信的威胁。因为一旦进入者选择进入,在位者并 不会真的选择斗争,而会默许。
进入者
在位者
12
纳什均衡举例:斗鸡博弈
在这个博弈中,有两个纳什均衡:如果一方进,
另一方的最优战略就是退。两人都进或都退都不 是纳什均衡。但是,就是谁会退下来呢?
B
进
退
进 -3,-3
2,0
A
退
0,2
0,0
13
博弈论与策略行为:重复博弈
上面讨论的“囚徒的困境”暗含的几个假定是静态的一次性博弈, 结果陷入了个体理性决策导致集体非理性结果的困境。现在我们 改变假定条件,讨论博弈可以多次进行的重复博弈(Repeated Game)。这时囚犯同时选择不交代有可能成为纳什均衡点。
坦白
保持 沉默
A坐3年牢 B坐3年牢
A坐10年牢 B坐3个月牢
A坐3个月牢 B坐10年牢
A坐1年牢
B坐1年牢
7
完全信息静态博弈:纳什均衡
支配均衡是一个特例,并非每个博弈都存在支配均衡。下面修改的支付矩阵 表示的博弈中,厂商A,B在选择做广告问题上存在的策略关系。其中厂商A 没有支配策略。因为A的最佳决策取决于B的选择。例如,当B选择做广告时, A应当选择做广告,由此得到10而不是6的支付得益;然而,当B选择不做广告 时,A应当选择不做广告,从而得到20而不是15的支付得益。假定两个厂商需 要同时决策,A应当如何决策?
表示双方在不同策略选择组合下各自得到的支付,较大数字代
表较大利益或效用。例如,在厂商A和B分别选择上和左代表的
策略时,左上角方框的数字“1,2”表示A和B分别得到的支付。
同理, A和B分别选择策略下和右时,它们分别得到右下角方框
数字“1,0”代表的支付。
厂商B
左
右
上
厂商A
下
1,2 2,1
0,1 1,0
默许
斗争
进入 40,50 不进入 0,300
-10,0 0,300
16
完全信息动态博弈:子博弈精炼纳什均衡
Βιβλιοθήκη Baidu
完全信息下动态博弈的均衡,子博弈精炼纳什均衡就是将 纳什均衡中包含的不可置信的威胁战略剔除出去。
我们用扩展型来表述这种博弈形式。扩展型的表述有五个 因素组成(1)参与人,(2)每个参与人选择行动的时点, (3)每个参与人在每次行动时可供选择的行动集合,(4)
上
局中人A 下
局中人B
左
右
2,1
0,0
0,0
1,2
上
局中人A 下
局中人B
左
右
0,0
0,-1
1,0
-1,3
(左)
(右)
10
纳什均衡举例:智猪博弈
在这一例子中,无论大猪选择“按”还是“等 待”,小猪都有一个占优策略“等待”。在给定 小猪选择“等待”的条件下,打住的最优选择只 能是“按”。所以,纳什均衡就是:大猪按,小 猪等待,各得4个单位。多劳者不多得。
这一博弈中每个参与者都存在一个支配策略(Dominant Strategy,
又称占优或超优策略)。不管其它参与者如何选择,每个局中人
自有的那个最优选择称作支配策略,由此实现的均衡是支配均衡
(又称占优或超优均衡)。
厂商B
左
右
上
1,2
0,1
厂商A 下
2,1
1,0
6
博弈论与策略行为(4):囚徒困境
下面支付矩阵表示著名的“囚徒困境(Prisoners’ Dilemma)”游戏。 从博弈论角度看,这是一个存在支配均衡的博弈:因为对囚犯A, B来说,无论对方如何选择“坦白”都是各自的最优选择。
每个参与人在每次行动时有关对手过去行动选择的信息,
(5)支付函数。
下面是扩展型的形象化表述博弈树。
进入
在位者
合作 斗争
40,50
进入者
不进入
0,300
-10,0
17
完全信息动态博弈:子博弈精炼纳什均衡
在动态博弈中,如果所有以前的行动是“共同知识”,那 么给定历史,从每一个行动选择开始至博弈结束又构成一 个博弈,称为“子博弈”。
9
完全信息静态博弈:纳什均衡
一个博弈可能有好几个纳什均衡(即几组稳定并且自我坚持的策 略),有时又可能不存在纳什均衡。下面左表存在两个纳什均衡:
其中“上,左”是纳什均衡(A选上,则B选左;且B选左时A仍 应选上);“下,右”也是纳什均衡(A选下,则B选右;且B选 右时A仍应选下)。如没有更多信息,则无法判断均衡在什么位 置。右表没有纳什均衡。如A选“上”,B则选“左”;然而当B 选“左”时,A却应当选“下”。反之,A选“下”时,B应选 “右”;然而当B选右时,A又应选“上”。没有均衡点。
竞争者的理性反应:它知道不论自己推出那种饼干,B出于自身
利益会推出另一种。因而A推出甜饼干,B在给定A决策时选择咸
饼干;给定B的选择A的选择仍然最佳。结果两个纳什均衡点收
敛为一个(下,左)。其中A由于具有先行者优势(First Mover’s
Advantage)而得到较大利益, 厂商B
咸饼干
甜饼干
厂商A
第九讲 博弈论
1
博弈论
完全信息静态博弈:纳什均衡 完全信息动态博弈:子博弈精炼纳什均衡 不完全信息静态博弈:贝叶斯纳什均衡 不完全信息动态博弈:精炼贝叶斯均衡
2
博弈的分类及对应的均衡概念
行动顺序 信息
完全信息
静态
完全信息静态博弈; 纳什均衡; 纳什(1950,1951)
动态
完全信息动态博弈; 子博弈精炼纳什均衡; 泽尔腾(1965)
一个所谓游戏至少需要三个要素:(1)博弈或游戏 参加者。博弈论分析假定参与者都是机智而理性的。 (2)行动或策略空间。博弈参与者必须知道他自己 及其对手伙伴的策略选择范围,并了解各种策略之间 的因果关系。(3)有可评价优劣高下的决策行为结 果。博弈论用数字表示这类结果,并称之为支付 (Payoff).上述3部分描述了一个博弈的规则或结构。
想一想,在经济现实中智猪博弈的例子。
小猪
按
等待
大猪
按
5,1
等待
9,-1
4,4 0,0
11
纳什均衡举例:性别战
这个博弈中有两个纳什均衡:(足球,足球), (芭蕾,芭蕾)。究竟哪一种纳什均衡会实际发 生?也许一次一次,形成默契;也许由先动优势 形成惯例。
女
足球
芭蕾
足球 男
芭蕾
2,1 0,0
0,0 1,2
虽然从两名囚犯共同利益看,最好的选择是合作,即同时选择保 持沉默,然而,由于猜忌,试图获得更大好处(3个月刑期)等 竞争性动机阻碍了它们达到更好的互利选择,它们面临“囚徒困 境”。我们将看到,寡头垄断厂商经常面临类似的困境。
囚徒困境告诉我们,不满足纳什均衡的协议是无效的。
坦白
囚犯B
保持沉默
囚犯A
做广告 10,5
厂商B 不做广告
15,0
6,8
20,2
8
完全信息静态博弈:纳什均衡
上述均衡结果被称作纳什均衡(The Nash Equilibrium)。纳什均衡 指一组给定对手行为前提下个对各博弈方存在的最佳选择;在纳 什均衡状态下,只要其它参与者不变换策略选择,任何单个参与 者不可能单方面通过变换策略来提高他的所获支付。美国数学家 和统计学家纳什(Nash)50年代提出这一概念,所以称作纳什均 衡。
在上面广告策略关系事例中,给定厂商B做广告的策略,A所能 做的一个最好选择是做广告;而当A做广告时,B的选择仍是它 能做的最好的。因而,纳什均衡条件得到满足。
它与支配策略均衡的区别在于:在纳什均衡下,“我(你)所做 的是给定你(我)的选择我(你)所能做的最好的”,而支配均 衡下, “我(你)所做的是不论你(我)的选择我(你)所能做 的更好的”。支配均衡必然是纳什均衡,但纳什均衡未必是支配 均衡。
14
博弈论与策略行为:序列博弈
至此讨论的博弈是参与者同时选择。在序列博弈(Sequential
Game)中,各博弈方先后依次行动。下面支付矩阵描述了一个博
弈,如果同时行动,它有两个纳什均衡点(“甜,咸”与“咸,
甜”)。假定厂商A可以先推出甜饼干(如较快投入生产),我
们就有了序列博弈:A先作决策,B随后选择。A决策时必须考虑
在位者
默许
斗争
进入者 进入 40,50 -10,0 不进入 0,300 0,300
市场进入:高成本情况
在位者
默许
斗争
进入者 进入 30,100 不进入 0,400
-10,140 0,400
市场进入:低成本情况
19
不完全信息静态博弈:贝叶斯纳什均衡
海萨尼转换:引入一个虚拟的参与人----“自然”,由它选 择参与人的“类型”。被选择的参与人只清楚自己的真实 类型,却不清楚其他参与人的真实类型。但是,各种可能 性的概率分布是一种“共同知识”。在上例中,自然首先 选择了在位者的类型,进入者仅知道在位者是高成本和低 成本的可能性是多少。
解答这一问题,A需要把自己放在B的位置,从B的角度看什么是最好的选择, 并在此基础上考虑自己的选择。支付矩阵表明B有一个支配策略:不论A选择 如何,B选择做广告时利益较大(5,8对0,2),因而A可以判断B会选择做 广告。而在B做广告时,A应当选择做广告。因而,均衡结局是双方都做广告。
厂商A
做广告 不做广告
4
博弈论与策略行为(2):支付矩阵
可以用支付矩阵(Payoff Matrix,又称得益矩阵,收益矩阵,赢
得矩阵等)来描述一个博弈结构。下面这个简单的支付矩阵中,
有两个参与者厂商A和厂商B;它们各自可以选择两种策略,分
别用“左右”和“上下”来标识(它们可以表示生产或不生产
某种商品,提高或不提高价格,做不做广告的选择等);数字
一个纳什均衡称为精炼纳什均衡,当只当参与人的战略在 每一个子博弈中都构成纳什均衡。即组成精炼纳什均衡的 战略必须在每一个子博弈中都是最优的。
不可置信的威胁又引出信息经济学中一个很重要的概念, 即“承诺行动”。它是当事人使自己的威胁战略变得可置 信的行动。
18
不完全信息静态博弈:贝叶斯纳什均衡
在上例中,如果进入者实际上并不完全了解在位者的生产 函数,成本函数及偏好,这就是不完全信息博弈。如果在 位者的成本函数有两种可能,对应于这两种情况的支付矩 阵分别如下面两表所示。
20
不完全信息静态博弈举例:求爱博弈
如果求爱者品德优良的概率为x。求爱者知道这个x为多少,
那么他求爱你接受时你的期望效用为100x+(-100)(1-x),你