第三章:静态博弈与纳什均衡
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
30
两寡头间的囚徒困境博弈
厂 不突破 商 1 突破
厂商2
不突破 4.5,4.5 5,3.75
突破 3.75,5
4,4
以自身最大利益为目标:各生产 2单位产量,各自得益为4
以两厂商总体利益最大:各生产 1.5单位产量,各自得益为4.5
31
进一步研究
两寡头古诺模型,PQ=a Q等与上题相
同,但两个厂商的边际成本不同,分别为 c1和c2。如果0 ci a 2,问纳什均衡产量各 为多少?如果c1 c2 a,但2c2 a c1,则纳 什均衡产量又为多少?
19
KEY
警察
不追
左追
右追
小
左逃
0, 0 -1, 1 1, -1
偷
右逃
0, 0 1 , - 1 -1, 1
20
练习:下雨带伞
丈夫和妻子必须独立决定出门是否带伞, 下雨和不下雨的概率相同。每个人的支付 规则相同,如果下雨,带伞得-2,不带 伞得-5;如果不下雨,带伞得-1,不 带伞得1。求解以上博弈的标准式。
24
双寡头竞争:Cournot博弈
两个企业同时选择产量,价格则由市场决定; 假定需求函数为
P(Q) a (q1 q2 )
其中 q1为企业1的产量,q2 为企业2的产量
假定成本函数为:
C(qi ) ciqi
25
双寡头竞争:Cournot博弈
利润函数为:
1 q1P(Q) cq1 q1(a q1 q2 c) 2 q2P(Q) cq2 q2 (a q1 q2 c)
占优战略均衡的出现只要求所有人都是理性的,但不 要求每个参与人知道其他参与人是否理性。
5
启示
The prisoners’ dilemma provides insight into the difficulty in maintaining cooperation.
囚徒困境说明了保持合作的困难
如果这样的解存在,我们说该博弈是“重复剔除占优 可解的”(iterated dominance solvable).
13
纳什均衡(Nash Equilibrium)
纳什均衡是指每个博弈参与人都确信,在给定 其他参与人战略策略决定的情况下,他选择了 最优战略。
占优战略均衡一定是纳什均衡。 在重复剔除的占优战略均衡中, 最后剩下的唯一战略组合也一 定是纳什均衡。
q1 (a q2 c1) 2 q2 (a q1 c2 ) 2
34
续
当0 ci a 2时,我们根据上述两个厂商的反应函数, 直接求出两个厂商的纳什均衡产量分别为:
q1
a 2c1+c2 3
q2
a+c1 2c2 3
35
续
当c1 c2 a,但2c2 a c1时,根据反应函数求出 来的厂商2产量q2 0。这意味着厂商2不会生产, 这时厂商1成了垄断厂商,厂商1的最优产量选择 是利润最大化的垄断产量
29
具体数值的例子
Q q1 q2 P P(Q) 8 Q
c1 c2 2
u1 q1P(Q) c1q1 q1[8 (q1 q2 )] 2q1 6q1 q1q2 q12
u2 q2P(Q) c2q2 q2[8 (q1 q2 )] 2q2 6q2 q1q2 q22
C1
C2
C3
R1
100,100 0,0
50,101
R2
50,0
1,1 60,0
R3
0,300 0,0 200,200
18
练习:警察抓小偷
在十字路口,小偷选择逃往左还是右边。警察 到达时不知道小偷逃跑方向。他只能选择追过 去还是不追。警察能否抓到小偷完全取决于开 始追的方向是正确还是错误,如果开始追对了 方向则能追到小偷,反之则不能。如果警察停 止追小偷他的支付为零,如果抓到小偷则支付 为1,而如果追了没有追到支付为-1。小偷 被抓到则支付为-1,而没有抓到为1。请写 出该博弈的战略式。(策略型表述标准式)
-1, -1
合作 不合作
合作 T, T R,S
不合作 S, R P,P
两个罪犯的得益矩阵
满足:R>T>P>S; (S+R)<T+T
10
用法律解决“囚徒困境”
合作
不合作
合作
T,T S,R-X
不合作 R-X,S P,P
满足:X>R-T(不合作带来的诱惑 )
11
“智猪博弈”(boxed pigs)
有些博弈没有占优均衡,但通过剔除“坏”战略, 我们可以预测博弈的结果。如“智猪博弈”
q1
q*
a
c1 2
36
Bertrand寡头模型
q1 q1(P1, P2 ) a1 b1P1 d1P2 q2 q2 (P1, P2 ) a2 b2P2 d2P1
在该博弈中, 两博弈方为厂商1和厂商2,
它们各自的策略空间为
s1 0, P1max 和s2 0, P2max
8
公共产品与税收制度
税收制度就是保证公共产品的生产,解决公 共产品生产上的“囚徒困境”
比较私人产品与公共产品的不同:使用上排 他性;
私人产品是自愿购买的,但公共产品可能需 要强制购买;
9
“囚徒困境”的一般表示wenku.baidu.com
囚坦 白 徒 1 不坦白
囚徒 2
坦白
不坦白
-8, -8
0, -10
-10, 0
16
纳什均衡与一致预期
一致预期:如果所有博弈方都预测一个特定博 弈结果会出现,所有博弈方都不会利用该预测 或者这种预测能力选择与预测结果不一致的策 略,即没有哪个博弈方有偏离这个预测结果的 愿望,因此预测结果会成为博弈的最终结果。
基于信念的选择是合理的;支持选择的信念是 正确的;
17
寻找纳什均衡
27
Cournot博弈
纳什均衡产量
q1NE
q2NE
ac 3
纳什均衡利润为
NE 1
NE 2
(a c)2 9
28
垄断产量和垄断利润
垄断企业的目标函数:
M QP(Q) Qc Q(a Q c)
垄断产量: 垄断利润:
QM
ac 2
M
(a c)2 4
Game theory is the study of how people behave in
strategic situations. Strategic decisions are those in which each person,
in deciding what actions to take, must consider how others might respond to that action. Because the number of firms in an oligopolistic market is small, each firm must act strategically. Each firm knows that its profit depends not only on how much it produces but also on how much the other firms produce.
38
Bertrand寡头模型
P1*
1 2b1
(a1
b1c1 d1P2* )
P2*
1 2b2
(a2
b2c2
d 2 P1* )
更一般的情况是有N个寡头的价格决定,并且产 品也可以是无差别的。对产品无差别的情况, 我们必须考虑消费者对价格的敏感性问题。
“囚徒困境”表明个人理性与集体理性的冲突。 这样的例子很多:寡头竞争,军备竞赛,团队
生产中的劳动供给,公共产品的供给等等; 许多的制度就是为解决“囚徒困境”而存在的;
7
公共产品(public goods)
提供 不提供
提供 4,4 5,-1
不提供 -1,5 0,0
无论对方如何选择,每个人的最优选择:不提供。所以, 我们可以预测,结果将是(不提供,不提供)
21
KEY
丈夫
带伞
不带伞
妻 子
带伞 -1.5 , -1.5 -1.5 , -2
不带伞 -2 , - 1.5 -2 , -2
22
无限策略分析和反应函数
古诺的寡头模型 反应函数 伯特兰德寡头模型 公共资源问题 反应函数的问题和局限性
23
GAME THEORY AND THE ECONOMICS OF COOPERATION
Often people (firms) fail to cooperate with one another even when cooperation would make them better off.
即使合作会使它们变好,但是通常人们(企业) 却不能互相合作
6
个人理性与集体理性的冲突
32
续
两个厂商的利润函数为:
i pqi ciqi (a qi q j )qi ciqi
将利润函数对产量求导并令其为0得:
i
qi
aqj
ci
2qi
0
33
续
解得两个厂商的反应函数为:
qi (a q j ci ) 2
或具体写成:
JOHN F.NASH
14
通俗理解
纳什均衡含义就是:给定你的策略,我的策略 是最好的策略;给定我的策略,你的策略也是 你最好的策略。即双方在对方给定的策略下不 愿意调整自己的策略。
15
哲学思考
如果参与人事前达成一个协议,在不存 在外部强制的情况下,每个人都有积极 性遵守这个协议,这个协议就是纳什均 衡。
那么,最优化的一阶条件分别为:
1
q1
a q1
q2 q1
c
0
2
q2
a q1 q2 q2
c 0
26
Cournot博弈
反应函数为:
q
1
R1(q2 )
1 2
a
q2
c
q
2
R2 (q1)
1 2
a
q1
c
反应函数意味着每个企业的最优战略(产量) 是另一个企业产量的函数,两个反映函数的 交叉点就是纳什均衡产量。
最简单的博弈:所有参与人同时选择行动, 并且只选择一次;
“同时”是一个信息概念,而不一定与日历 上的时间一致;
3
囚徒困境(prisoners’ dilemma)
囚徒1:坦白 囚徒2:坦白
囚 坦白 徒
1 不坦白
囚徒 2
坦白
不坦白
-8, -8
0, -10
-10, 0
-1, -1
两个罪犯的得益矩阵
37
Bertrand寡头模型
u1 u1(P1, P2 ) P1q1 c1q1
(P1 c1)q1 (P1 c1)a1 b1P1 d1P2
u2 u2 (P1, P2 ) P2q2 c2q2
(P2 c2 )q2 (P2 c2 )a2 b2P2 d2P1
第三章
静态博弈与纳什均衡
1
博弈模型的表述方式
博弈模型的两种基本表述方式:策略型表述 与扩展型表述。
一个策略型博弈由以下三种基本要素组成:
局中人(players) 策略(strategies)
• 纯策略和混合策略(mixed stategy)
支付(payoffs)
2
静态博弈 (Static game)
按 等待
按 3,1 7,-1
等待 2,4 0,0
按按钮的猪
大猪 小猪 两猪同时
吃到的猪食数量 大猪 小猪
4单位
4单位
7单位
1单位
5单位
3单位
12
重复剔除占优均衡
Iterated elimination of strictly dominated strategy的思路:首先找出博弈参与人的劣战略 (dominated strategy)(假定存在的话),把这个劣 战略剔除后,剩下的是一个不包含已剔除劣战略的新 的博弈;然后再剔除这个新的博弈中的劣战略;继续 这个过程,直到没有劣战略存在。如果剩下的战略组 合是唯一的,这个唯一的战略组合就是“重复剔除占 优均衡”(iterated dominance equilibrium)。
4
占优均衡 (dominant-strategy equilibrium)
The dominant strategy is the best strategy for a player to follow regardless of the strategies chosen by the other players. 如果无论另一个参与者采用什么策略,它都是一个参 与者所遵循的最好的策略,那么这个策略就是占优策 略。
两寡头间的囚徒困境博弈
厂 不突破 商 1 突破
厂商2
不突破 4.5,4.5 5,3.75
突破 3.75,5
4,4
以自身最大利益为目标:各生产 2单位产量,各自得益为4
以两厂商总体利益最大:各生产 1.5单位产量,各自得益为4.5
31
进一步研究
两寡头古诺模型,PQ=a Q等与上题相
同,但两个厂商的边际成本不同,分别为 c1和c2。如果0 ci a 2,问纳什均衡产量各 为多少?如果c1 c2 a,但2c2 a c1,则纳 什均衡产量又为多少?
19
KEY
警察
不追
左追
右追
小
左逃
0, 0 -1, 1 1, -1
偷
右逃
0, 0 1 , - 1 -1, 1
20
练习:下雨带伞
丈夫和妻子必须独立决定出门是否带伞, 下雨和不下雨的概率相同。每个人的支付 规则相同,如果下雨,带伞得-2,不带 伞得-5;如果不下雨,带伞得-1,不 带伞得1。求解以上博弈的标准式。
24
双寡头竞争:Cournot博弈
两个企业同时选择产量,价格则由市场决定; 假定需求函数为
P(Q) a (q1 q2 )
其中 q1为企业1的产量,q2 为企业2的产量
假定成本函数为:
C(qi ) ciqi
25
双寡头竞争:Cournot博弈
利润函数为:
1 q1P(Q) cq1 q1(a q1 q2 c) 2 q2P(Q) cq2 q2 (a q1 q2 c)
占优战略均衡的出现只要求所有人都是理性的,但不 要求每个参与人知道其他参与人是否理性。
5
启示
The prisoners’ dilemma provides insight into the difficulty in maintaining cooperation.
囚徒困境说明了保持合作的困难
如果这样的解存在,我们说该博弈是“重复剔除占优 可解的”(iterated dominance solvable).
13
纳什均衡(Nash Equilibrium)
纳什均衡是指每个博弈参与人都确信,在给定 其他参与人战略策略决定的情况下,他选择了 最优战略。
占优战略均衡一定是纳什均衡。 在重复剔除的占优战略均衡中, 最后剩下的唯一战略组合也一 定是纳什均衡。
q1 (a q2 c1) 2 q2 (a q1 c2 ) 2
34
续
当0 ci a 2时,我们根据上述两个厂商的反应函数, 直接求出两个厂商的纳什均衡产量分别为:
q1
a 2c1+c2 3
q2
a+c1 2c2 3
35
续
当c1 c2 a,但2c2 a c1时,根据反应函数求出 来的厂商2产量q2 0。这意味着厂商2不会生产, 这时厂商1成了垄断厂商,厂商1的最优产量选择 是利润最大化的垄断产量
29
具体数值的例子
Q q1 q2 P P(Q) 8 Q
c1 c2 2
u1 q1P(Q) c1q1 q1[8 (q1 q2 )] 2q1 6q1 q1q2 q12
u2 q2P(Q) c2q2 q2[8 (q1 q2 )] 2q2 6q2 q1q2 q22
C1
C2
C3
R1
100,100 0,0
50,101
R2
50,0
1,1 60,0
R3
0,300 0,0 200,200
18
练习:警察抓小偷
在十字路口,小偷选择逃往左还是右边。警察 到达时不知道小偷逃跑方向。他只能选择追过 去还是不追。警察能否抓到小偷完全取决于开 始追的方向是正确还是错误,如果开始追对了 方向则能追到小偷,反之则不能。如果警察停 止追小偷他的支付为零,如果抓到小偷则支付 为1,而如果追了没有追到支付为-1。小偷 被抓到则支付为-1,而没有抓到为1。请写 出该博弈的战略式。(策略型表述标准式)
-1, -1
合作 不合作
合作 T, T R,S
不合作 S, R P,P
两个罪犯的得益矩阵
满足:R>T>P>S; (S+R)<T+T
10
用法律解决“囚徒困境”
合作
不合作
合作
T,T S,R-X
不合作 R-X,S P,P
满足:X>R-T(不合作带来的诱惑 )
11
“智猪博弈”(boxed pigs)
有些博弈没有占优均衡,但通过剔除“坏”战略, 我们可以预测博弈的结果。如“智猪博弈”
q1
q*
a
c1 2
36
Bertrand寡头模型
q1 q1(P1, P2 ) a1 b1P1 d1P2 q2 q2 (P1, P2 ) a2 b2P2 d2P1
在该博弈中, 两博弈方为厂商1和厂商2,
它们各自的策略空间为
s1 0, P1max 和s2 0, P2max
8
公共产品与税收制度
税收制度就是保证公共产品的生产,解决公 共产品生产上的“囚徒困境”
比较私人产品与公共产品的不同:使用上排 他性;
私人产品是自愿购买的,但公共产品可能需 要强制购买;
9
“囚徒困境”的一般表示wenku.baidu.com
囚坦 白 徒 1 不坦白
囚徒 2
坦白
不坦白
-8, -8
0, -10
-10, 0
16
纳什均衡与一致预期
一致预期:如果所有博弈方都预测一个特定博 弈结果会出现,所有博弈方都不会利用该预测 或者这种预测能力选择与预测结果不一致的策 略,即没有哪个博弈方有偏离这个预测结果的 愿望,因此预测结果会成为博弈的最终结果。
基于信念的选择是合理的;支持选择的信念是 正确的;
17
寻找纳什均衡
27
Cournot博弈
纳什均衡产量
q1NE
q2NE
ac 3
纳什均衡利润为
NE 1
NE 2
(a c)2 9
28
垄断产量和垄断利润
垄断企业的目标函数:
M QP(Q) Qc Q(a Q c)
垄断产量: 垄断利润:
QM
ac 2
M
(a c)2 4
Game theory is the study of how people behave in
strategic situations. Strategic decisions are those in which each person,
in deciding what actions to take, must consider how others might respond to that action. Because the number of firms in an oligopolistic market is small, each firm must act strategically. Each firm knows that its profit depends not only on how much it produces but also on how much the other firms produce.
38
Bertrand寡头模型
P1*
1 2b1
(a1
b1c1 d1P2* )
P2*
1 2b2
(a2
b2c2
d 2 P1* )
更一般的情况是有N个寡头的价格决定,并且产 品也可以是无差别的。对产品无差别的情况, 我们必须考虑消费者对价格的敏感性问题。
“囚徒困境”表明个人理性与集体理性的冲突。 这样的例子很多:寡头竞争,军备竞赛,团队
生产中的劳动供给,公共产品的供给等等; 许多的制度就是为解决“囚徒困境”而存在的;
7
公共产品(public goods)
提供 不提供
提供 4,4 5,-1
不提供 -1,5 0,0
无论对方如何选择,每个人的最优选择:不提供。所以, 我们可以预测,结果将是(不提供,不提供)
21
KEY
丈夫
带伞
不带伞
妻 子
带伞 -1.5 , -1.5 -1.5 , -2
不带伞 -2 , - 1.5 -2 , -2
22
无限策略分析和反应函数
古诺的寡头模型 反应函数 伯特兰德寡头模型 公共资源问题 反应函数的问题和局限性
23
GAME THEORY AND THE ECONOMICS OF COOPERATION
Often people (firms) fail to cooperate with one another even when cooperation would make them better off.
即使合作会使它们变好,但是通常人们(企业) 却不能互相合作
6
个人理性与集体理性的冲突
32
续
两个厂商的利润函数为:
i pqi ciqi (a qi q j )qi ciqi
将利润函数对产量求导并令其为0得:
i
qi
aqj
ci
2qi
0
33
续
解得两个厂商的反应函数为:
qi (a q j ci ) 2
或具体写成:
JOHN F.NASH
14
通俗理解
纳什均衡含义就是:给定你的策略,我的策略 是最好的策略;给定我的策略,你的策略也是 你最好的策略。即双方在对方给定的策略下不 愿意调整自己的策略。
15
哲学思考
如果参与人事前达成一个协议,在不存 在外部强制的情况下,每个人都有积极 性遵守这个协议,这个协议就是纳什均 衡。
那么,最优化的一阶条件分别为:
1
q1
a q1
q2 q1
c
0
2
q2
a q1 q2 q2
c 0
26
Cournot博弈
反应函数为:
q
1
R1(q2 )
1 2
a
q2
c
q
2
R2 (q1)
1 2
a
q1
c
反应函数意味着每个企业的最优战略(产量) 是另一个企业产量的函数,两个反映函数的 交叉点就是纳什均衡产量。
最简单的博弈:所有参与人同时选择行动, 并且只选择一次;
“同时”是一个信息概念,而不一定与日历 上的时间一致;
3
囚徒困境(prisoners’ dilemma)
囚徒1:坦白 囚徒2:坦白
囚 坦白 徒
1 不坦白
囚徒 2
坦白
不坦白
-8, -8
0, -10
-10, 0
-1, -1
两个罪犯的得益矩阵
37
Bertrand寡头模型
u1 u1(P1, P2 ) P1q1 c1q1
(P1 c1)q1 (P1 c1)a1 b1P1 d1P2
u2 u2 (P1, P2 ) P2q2 c2q2
(P2 c2 )q2 (P2 c2 )a2 b2P2 d2P1
第三章
静态博弈与纳什均衡
1
博弈模型的表述方式
博弈模型的两种基本表述方式:策略型表述 与扩展型表述。
一个策略型博弈由以下三种基本要素组成:
局中人(players) 策略(strategies)
• 纯策略和混合策略(mixed stategy)
支付(payoffs)
2
静态博弈 (Static game)
按 等待
按 3,1 7,-1
等待 2,4 0,0
按按钮的猪
大猪 小猪 两猪同时
吃到的猪食数量 大猪 小猪
4单位
4单位
7单位
1单位
5单位
3单位
12
重复剔除占优均衡
Iterated elimination of strictly dominated strategy的思路:首先找出博弈参与人的劣战略 (dominated strategy)(假定存在的话),把这个劣 战略剔除后,剩下的是一个不包含已剔除劣战略的新 的博弈;然后再剔除这个新的博弈中的劣战略;继续 这个过程,直到没有劣战略存在。如果剩下的战略组 合是唯一的,这个唯一的战略组合就是“重复剔除占 优均衡”(iterated dominance equilibrium)。
4
占优均衡 (dominant-strategy equilibrium)
The dominant strategy is the best strategy for a player to follow regardless of the strategies chosen by the other players. 如果无论另一个参与者采用什么策略,它都是一个参 与者所遵循的最好的策略,那么这个策略就是占优策 略。