纳什均衡ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不检查 0,0
A,-A
3.2 多重纳什均衡博弈
1)夫妻之争的混合策略纳什均衡
丽娟 足球
芭蕾
妻子的混合策略
大海 足球 2 , 1 0 , 0 芭蕾 0 , 0 1 , 2
pw(F)2 pw(B)0 pw(F)0 pw(B)1
守卫
睡
不睡
小偷 偷
不偷
V,-D 0,S
-P,0 0,0
假设小偷选择偷的概率为 ;守卫选择睡觉的概率
为 r ;则
U1(, r) Vr P(1 r) U2(, r) D S(1 )r
分析得到纳什均衡 ( *, r*) ( S , P )
DS V P
守卫
守卫 得益((睡)
睡 不睡
S
小 偷 V,-D -P,0
芭蕾 0,0 1,2
p 1
2/3
0来自百度文库1/3
1q
例4 (激励的悖论)有一家公司为了防止盗窃聘请了一名门 卫,但是长期以来却发现仍有盗窃案件发生,公司讨论了两 种方案,一是只要有失窃案件,则加重惩罚门卫,另一方案 是,只要抓住小偷,则联合公安机关加重对小偷的惩罚。请 分析哪种方法对降低盗窃率有长效作用?
3 混合策略纳什均衡
主要内容
3.1 混合策略纳什均衡 3.2 多重纳什均衡博弈 3.3 多重纳什均衡博弈的分析
3.1 混合策略纳什均衡
猜硬币博弈
盖 正面 硬 币 反面 方
猜硬币方
正面
反面
-1, 1
1, -1
1, -1
-1, 1
(1)不存在前面定义的纳什均衡策略组合 (2)关键是不能让对方猜到自己策略
这类博弈很多,引出混合策略纳什均衡概念
s11
行
s
1 2
参
与
人
s
1 m
s12
a b, 11 11
a b, 21 21
a b, m1 m1
列参与人
s
2 2
a b, 12 12
a b, 22 22
a b, m2 m2
s
2 n
a b, 1n 1n
a b, 21 21
a b, mn mn
混合策略:在博弈 G {S1,Sn;u1,un} 中,博弈方i 的策
则 0.5, 0.2
例2
博 弈A 方B 1
博弈方2
C
D
2, 3 5, 2
3, 1 1, 5
博弈方1的混合策略
p1 3 (1 p1)1 p1 2 (1 p1)5
博弈方2的混合策略
p2 2 (1 p2 )5 p2 3 (1 p2 )1
策略
得益
博弈方1 (0.8,0.2) 2.6
博弈方2 (0.8,0.2) 2.6
注意:在纳什均衡下,没有参与人有积极性单独偏离或改 变该策略或策略组合。
例1 政府 救济
不救济
流浪汉
找工作
游荡
3,2 -1 , 1
-1 , 3 0,0
假设政府救济的概率为 ;流浪汉找工作的概率为 ;
则
maxu1 [3 (1 )] (1 )( )
maxu2 [2 (1 )] 3(1 )
p 1
0 1/2
1q
同理
UB ( p, q) 2q(2 p 1) (2 p 1)
因此A的最佳反应函数为
p
1
1, 当p 1/ 2
q [0,1],当p 1/ 2
1/2
0, 当p 1/ 2
0
1q
p 1
(P*, q*) (1/ 2,1/ 2)
1/2
纳什均衡是:A和B出红牌还
是出黑牌的概率都是1/2.
1, 当r 1/ 5
1, 当 1/ 2 r [0,1],当 1/ 2
0, 当 1/ 2
1
( *, r*) (1/ 2,1/ 5)
纳什均衡是:政府以1/2的概
1/2
率选择救助,流浪汉以1/5的
概率选择找工作。
0 1/5
1r
练习2:利用反应函数法找出情侣博弈的所有纳什均衡
丽娟 足球
大海 足球 2 , 1 芭蕾 0 , 0
设行参与人的策略选择概率为 P ( p1, p2,, pm ) ,列参与人的
策略选择概率为 Q (q1, q2,, qn )
mn
则参与人1的期望支付为 ( p, q) 1
piq j aij
i1 j1
mn
则参与人2的期望支付为 ( p, q) 2
piq jbij
i1 j1
混合策略纳什均衡
偷不偷 0,S 0,0
0
小偷
1 偷的概率
-D
- D’
加重对守卫的处罚:短期中的效果是使守卫尽职 在长期中并不能使守卫更尽职,但会降低盗窃发生的概率
( *, r*) ( S , P )
DS V P
小偷 偷不偷
守卫 睡 不睡 V,-D -P,0 0,S 0,0
小偷 得益(偷)
0
-P
V
守卫
1 睡的概率
设 P* (P1*,, Pi*,, Pn* ) 是 n 人策略式博弈 G {S1,Sn;u1,un} 的一个混合策略组合,如果对于所有的 i 1,, n ,
i (Pi*, P*i ) i (Pi , P*i ) 对于每一个 Pi i 都成立,则称
混合策略组合 P* (P1*,, Pi*,, Pn*) 是这个博弈的一个纳什 均衡。
0
1/2 1 q
反应函数法
练习1:利用反应函数法找出政府与流浪汉博弈的纳什均衡
流浪汉
找工作
游荡
政府 救济 不救济
3,2 -1 , 1
-1 , 3 0,0
假设政府救济的概率为 ;流浪汉找工作的概率为 ;
则
u1 (5 1) ,u2 [1 2 ] 3
0, 当r 1/ 5
[0,1],当r 1/ 5
略空间为 Si {s1i ,sim} ,则博弈方 i 以概率分布
Pi
( pi , pi )
1
m
随机在其m个可选策略中选择的“策略”,称为一个“混合
策略”,其0中 pij 1 j 对1,, m
都成立,p且i pi 1
1
m
混合策略扩展博弈:博弈方在混合策略的策略空 间(概率分布空间)的选择看作一个博弈,就是原 博弈的“混合策略扩展博弈。
例3 扑克牌对色游戏
B
红
黑
A
红 黑
-1 , 1 1 , -1
1 , -1 -1 , 1
假设A出红牌的概率为 p;B出红牌的概率为 q ;则
U A( p, q) 2 p(1 2q) (2q 1)
因此A的最佳反应函数为
0, 当q 1/ 2 p [0,1],当q 1/ 2
1, 当q 1/ 2
- P’
加重对小偷的处罚:短期内能抑制盗窃发生率 长期并不能降低盗窃发生率,但会使得守卫更多的偷懒睡觉
监督博弈的纳税检查
• A 为应纳税款,C为检查成本, F是偷税罚款。 假定 C<A+F。不存在纯战略纳什均衡。请问: 如何才能降低纳税人逃税的可能性
纳税人
逃税
不逃税
税收机关 检查 A-C+F,-A-F A-C, -A