混合策略纳什均衡
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
–若各参与人最终确定的组合(纯策略组合)为
(s1 j1 , s2 j2 , snjn ) Si {si1,, simi )
–参与人的支付为
ui (s1 j1 , s2 j2 , snjn )
–发生此情况的概率为 p1 j p2 j pnj 1 2 n
• 参与人的期望效用:
Ei ( p) p1 j1 p2 j2 pnjn ui (s1 j1 , s2 j2 , snjn )
2013-8-9 11
既然参与人在构成混合策略时选择不同纯策略之间是无差异的,他 为什么不选择一个特定的纯策略而要以特定的概率随机地选择不同的纯 策略呢?一个参与人选择混合策略目的是给其他参与人造成不确定性。 海萨尼(Harsanyi,1973)对混合战略的解释是,混合策略均衡等价于不完 全信息下的纯策略均衡:如社会福利博弈中,假定有两类特征的流浪汉, 一类选择寻找工作,另一类选择游荡;每个流浪汉都知道自己的特征, 但政府并不知道流浪汉的准确特征,只知道流浪汉20%概率属第一类, 80%概率属第二类。在这种情况下,政府在选择自己的策略时似乎面临 的是一位选择混合策略的流浪汉。
3, 2 -1,1
-1, 3 0, 0
是政府的最优选择,一定意味着政 府在救济与不救济之间是无差异的
4 1
2013-8-9
=0.2
21
3. 最优反应函数法求纳什均衡
• 在讨论连续纯策略均衡时(如古诺模型),我们使用了反应 函数的概念。 • 现在我们可以使用反应对应的概念来描述一个参与人对应 于其他参与人混合策略的最优选择。 • 两个概念的区别仅仅在于: – 反应函数表示的是一个参与人只有一个特定的策略是 其他人给定策略的最优选择; – 反应对应允许一个参与人有多个(甚至无穷多个)策略是 其他人给定策略的最优选择。
参与人1的选取正面的期望效用为 E1(正面)=(-1)× r + 1 ×(1-r) = 1-2 r 参与人1的选取反面的期望效用为 E1(反面)=1× r + (-1)×(1-r) = 2 r-1 令纯策略期望效用相等: 1 2r 2r 1 得 r
1 2
类似地,令参与人2的纯战略期望效用相等得:q
参与人2
正面 参与人1 正面 反面 反面
-1, 1
1,-1
1,-1
-1, 1
由划线法可知,该博弈不存在纳什均衡。 所以采取纯策略不存在稳定的纳什均衡解。
2013-8-9 2
上述博弈的特征是:
在这类博弈中,不存在纯策略纳什均衡。
参与人的支付取决于其他参与人的策略; 以某种概率分布随机地选择不同的行动。 每个参与人都想猜透对方的策略,而每个 参与人又不愿意让对方猜透自己的策略。
* * ui( i* , i ) ui( i , i ), i Si
其中,ui 表示参与人i的期望效用。
2013-8-9
6
3. 期望效用(Expected Payoff)
• 对于任意混合策略组合:
p ( p1, p2 ,, pn ), pi ( pi1,, p imi ) P i
这种博弈的类型是什么?如何找到均衡?
2013-8-9
3
2. 混合策略、混合策略博弈和混合策略纳什均衡
•
–
策略:
参与人在给定信息集的情况下选择行动的规则,它规定参与人在 什么情况下选择什么行动,是参与人的“相机行动方案”。
•
–
纯策略:
如果一个策略规定参与人在每一个给定的信息情况下只选择一种 特定的行动,称为纯策略,简称“策略” ,即参与人在其策略空 间中选取唯一确定的策略。
1 2
20
2013-8-9
社会福利博弈
假定最优混合策略存在,给定流浪汉选择混合策略
( ,1 )
政府选择纯策略救济的期望效用为:
3 (1)(1 ) 4 1
政 救济 府 不救济 如果一个混合策略(而不是纯策略)
流浪汉 寻找工作
流浪
选择纯策略不救济的效用为: 1 0(1 )
j1 1 j2 1 jn 1
2013-8-9 7
m1
m2
mn
• 由于混合策略伴随的是支付的不确定性,因此参
与人关心的是其期望效用。 • 最优混合策略:是指在给定对方的混合策略的情 况下,使期望效用函数最大的混合策略。 • 在两人博弈里,混合策略纳什均衡是两个参与人
的最优混合策略的组合。
2013-8-9
2013-8-9
22
• 纯策略均衡:反应函数(reaction function) 在纯策略的范畴内,最优反应函数是各博弈方选择的纯策略 对其他博弈方纯策略的反应。纯策略纳什均衡是博弈方反应 函数的交叉点。
• 混合策略均衡:反应对应(reaction correspondence) 在混合策略的范围内,博弈方的决策内容为选择概率分布, 最优反应函数就是一方对另一方的概率分布的反应。由于纯 策略可以理解为混合策略,因此实际上最优反应函数的概念, 也可以在混合策略概率分布之间反应的意义上统一起来。混 合战略纳什均衡也是反应函数的交叉点。
2013-8-9
18
2. 支付等值法求纳什均衡
由上面的例子可以看出,参与人选择的混合策略均使对方选 择纯策略的期望效用相等,促使各方均采取严格策合策略。
所以求解混合策略纳什均衡也可以采取如下方法:
求出参与人的每个纯策略的期望效用,令其相等即可得到混
合策略纳什均衡。
2013-8-9
19
猜硬币博弈
择的“策略”,称为一个“混合策略”,其中 1 对 j 1,, k 都 0 pij 成立,且 pi1 pik 1 – 纯策略可以理解为混合策略的特例,即在诸多策略中,选择该纯 策略的概率为1,选其他纯策略的概率为0. – 为何参与人可能会选择带不确定性的混合策略而放弃确定性的纯 策略? • 参与人主观因素造成的犹豫不决 • 外在客观因素的不确定性带来应对策略的不确定性 • 迷惑对手:为了让其它参与人不能清楚了解自己的选择
2013-8-9
5
• 混合策略扩展博弈:
博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈,就 是原博弈的“混合策略扩展博弈”。
• 混合策略纳什均衡(MNE):
由最优的混合策略构成的混合策略组合:
* ( * , * , , * ) 1 2 n
即,如果对于所有的 i 1,, ,n,有 2
混合策略纳什均衡
Mixed Strategy Nash Equilibrium
理学院 顾聪 gucong@yeah.net
4.1 严格竞争博弈和混合策略
1. 混合策略的提出——猜硬币博弈
两个参与人各拿一枚硬币,并选择出正面向上还是反面向上。若两枚硬币 是一致的(即全部正面或全部反面),则参与人2赢走参与人1的硬币;若两 枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。支付矩阵如下:
寻找工作γ
游荡1-γ
3 , -1 ,
2 1
-1 , 0 ,
3 0
救济:
3 0.2 1 0.8 0.2
不救济1-θ
不救济: 1 0.2 0 0.8 0.2
• 如果流浪汉选择这个混合策略,政府的任何策略(混合的或纯的)带给 政府的期望效用为-0.2。特别的,以1/2的概率分别选择救济和不救济 当然也是政府对于流浪汉所选择的混合策略的最有反应。 • 这样,我们得到一个混合策略组合,每一个参与人的混合策略都是给 定对方混合策略是的最优选择,从而构成混合策略纳什均衡。 策略 期望收益 政府 (0.5, 0.5) -0.2 流浪汉 (0.2, 0.8) 1.5
E E2 由一阶条件: 1 2(1 2r ) 0, 2(1 2q) 0 q r 1 1 r , q 2 2 1 1 1 1 1* ( , )和 2 * ( , )分别是参与人1和参与人2的
2013-8-9
2 2 2 2 * 混合纳什均衡策略, ( 1* , 2 )为猜币博弈的纳什均衡。
• 对 θ*= 0.5 的解释:
– 如果政府救济的概率大于0.5,流浪汉的最优选择是流浪;如果 政府救济的概率小于0.5,流浪汉的最优选择是寻找工作。
• 混合策略纳什均衡的含义:
– 纳什均衡要求每个参与人的混合战略是给定对方的混合战略下的 最优选择。因此在社会福利博弈中,γ*= 0.2 ,θ*= 0.5 是唯一的 混合策略纳什均衡。
参与人1选取反面的期望效用为 E1(反面)=1×r+(-1)×(1-r)=2r-1
2013-8-9 15
参与人1的期望效用为 E1= E1(正面)×q + E1(反面)×(1- q ) =(1-2r)(2q-1) 类似地,得到参与人2的期望效用为 E2= E2(正面)×r + E2(反面)×(1- r ) =(1-2q)(2r-1)
8
4. 一个例子——社会福利博弈
流浪汉 寻找工作 流浪
救济
政府 不救济
2
3, 1 -1,
3 -1, 0 0,
虽这模型没有PNE,却有下述的MNE:参与人以一定的概率选择某种 策略,然后计算相应于不同概率的期望效用。
2013-8-9 9
设:政府救济的概率θ=1/2 ; 不救济的概率1-θ=1/2。 流浪汉寻找工作的期望效用: 1/2×2+1/2 ×1=1.5 流浪的期望效用: 1/2×3+1/2 ×0=1.5
2013-8-9
23
混合策略反应函数
猜硬币博弈
猜硬币方 r 1
r R1(q)
q R 2( r )
盖 硬 正面 币 反面 方
参与人1
q 正面 1-q 反面
-1, 1 1,-1
1,-1 -1, 1
2013-8-9
14
参与人2 r 正面 1-r 反面 参与人1
q 正面
1-q 反面
-1, 1 1,-1
1,-1 -1, 1
当给定参与人2选择混合策略σ1=(r, 1-r)时,
参与人1的选取正面的期望效用为
E1(正面)=(-1)×r+1×(1-r)=1-2r
•
–
混合策略:
如果一个策略规定参与人在给定的信息情况下以某种概率分布随 机地选择不同的行动,称为混合策略。参与人采取的不是明确唯 一的策略,而是其策略空间上的一种概率分布。
2013-8-9
4
• 混合策略 vs.纯策略 (不确定性 vs.确定性) – 在博弈 G {S1,Sn ; u1,un }中,博弈方i 的策略空间Si {si1 ,sik } , 则博弈方i 以概率分布pi ( pi1 ,, p ik )随机在其 k个可选策略中选
16
社会福利博弈
假定政府的混合策略是 G ( ,1 );
流浪汉
工作γ 流浪1- γ
流浪汉的混合策略是 L ( , )。 1 政府的期望效用函数为: v( G , L ) (3 (1)(1 ) (1 )( 0(1 ) (5 1) 求微分,得到政府最优化的一阶条件: vG 5 1 0 故 * 0.2
寻找工作γ 救济θ 不救济1-θ
游荡1-γ
3 , -1 ,
2 1
-1 , 0 ,
3 0
• 此时,流浪汉选择任何混合策略的期望效用都是1.5,则流浪汉的任 何一种策略(纯的γ=1或γ=0或混合的0<γ<1)都是政府所选择的混合策
略的最优反应。
2013-8-9
10
而当
γ=0.2 游荡
1-γ=0.8 寻找工作 救济θ
政 府
救济θ
2 3, -1, 1 -1, 0,
3 0
不救济 1- θ
即:流浪汉以0.2的概率选择寻找工作,0.8的概率选择流浪。 同理可以根据流浪汉的期望效用函数找到政府的最优混合策略。
2013-8-9 17
• 对γ*= 0.2 的解释:
– 如果流浪汉寻找工作的概率小于0.2,政府的最优选择是不救济; 如果流浪汉寻找工作的概率大于0.2,政府的最优选择是救济 。
4.2 混合策略纳什均衡的求解
支付最大化法 支付等值法 最优反应函数法
2013-8-9
13
1Biblioteka Baidu 支付最大化法求纳什均衡——猜硬币博弈
参与人1的混合策略为σ1=(q, 1-q)(分别以概率q和1-q选择正面 和反面) , 参与人2的混合策略为σ2=(r, 1-r) (分别以概率r和1-r选择正面 和反面)。 参与人2 r 正面 1-r 反面
(s1 j1 , s2 j2 , snjn ) Si {si1,, simi )
–参与人的支付为
ui (s1 j1 , s2 j2 , snjn )
–发生此情况的概率为 p1 j p2 j pnj 1 2 n
• 参与人的期望效用:
Ei ( p) p1 j1 p2 j2 pnjn ui (s1 j1 , s2 j2 , snjn )
2013-8-9 11
既然参与人在构成混合策略时选择不同纯策略之间是无差异的,他 为什么不选择一个特定的纯策略而要以特定的概率随机地选择不同的纯 策略呢?一个参与人选择混合策略目的是给其他参与人造成不确定性。 海萨尼(Harsanyi,1973)对混合战略的解释是,混合策略均衡等价于不完 全信息下的纯策略均衡:如社会福利博弈中,假定有两类特征的流浪汉, 一类选择寻找工作,另一类选择游荡;每个流浪汉都知道自己的特征, 但政府并不知道流浪汉的准确特征,只知道流浪汉20%概率属第一类, 80%概率属第二类。在这种情况下,政府在选择自己的策略时似乎面临 的是一位选择混合策略的流浪汉。
3, 2 -1,1
-1, 3 0, 0
是政府的最优选择,一定意味着政 府在救济与不救济之间是无差异的
4 1
2013-8-9
=0.2
21
3. 最优反应函数法求纳什均衡
• 在讨论连续纯策略均衡时(如古诺模型),我们使用了反应 函数的概念。 • 现在我们可以使用反应对应的概念来描述一个参与人对应 于其他参与人混合策略的最优选择。 • 两个概念的区别仅仅在于: – 反应函数表示的是一个参与人只有一个特定的策略是 其他人给定策略的最优选择; – 反应对应允许一个参与人有多个(甚至无穷多个)策略是 其他人给定策略的最优选择。
参与人1的选取正面的期望效用为 E1(正面)=(-1)× r + 1 ×(1-r) = 1-2 r 参与人1的选取反面的期望效用为 E1(反面)=1× r + (-1)×(1-r) = 2 r-1 令纯策略期望效用相等: 1 2r 2r 1 得 r
1 2
类似地,令参与人2的纯战略期望效用相等得:q
参与人2
正面 参与人1 正面 反面 反面
-1, 1
1,-1
1,-1
-1, 1
由划线法可知,该博弈不存在纳什均衡。 所以采取纯策略不存在稳定的纳什均衡解。
2013-8-9 2
上述博弈的特征是:
在这类博弈中,不存在纯策略纳什均衡。
参与人的支付取决于其他参与人的策略; 以某种概率分布随机地选择不同的行动。 每个参与人都想猜透对方的策略,而每个 参与人又不愿意让对方猜透自己的策略。
* * ui( i* , i ) ui( i , i ), i Si
其中,ui 表示参与人i的期望效用。
2013-8-9
6
3. 期望效用(Expected Payoff)
• 对于任意混合策略组合:
p ( p1, p2 ,, pn ), pi ( pi1,, p imi ) P i
这种博弈的类型是什么?如何找到均衡?
2013-8-9
3
2. 混合策略、混合策略博弈和混合策略纳什均衡
•
–
策略:
参与人在给定信息集的情况下选择行动的规则,它规定参与人在 什么情况下选择什么行动,是参与人的“相机行动方案”。
•
–
纯策略:
如果一个策略规定参与人在每一个给定的信息情况下只选择一种 特定的行动,称为纯策略,简称“策略” ,即参与人在其策略空 间中选取唯一确定的策略。
1 2
20
2013-8-9
社会福利博弈
假定最优混合策略存在,给定流浪汉选择混合策略
( ,1 )
政府选择纯策略救济的期望效用为:
3 (1)(1 ) 4 1
政 救济 府 不救济 如果一个混合策略(而不是纯策略)
流浪汉 寻找工作
流浪
选择纯策略不救济的效用为: 1 0(1 )
j1 1 j2 1 jn 1
2013-8-9 7
m1
m2
mn
• 由于混合策略伴随的是支付的不确定性,因此参
与人关心的是其期望效用。 • 最优混合策略:是指在给定对方的混合策略的情 况下,使期望效用函数最大的混合策略。 • 在两人博弈里,混合策略纳什均衡是两个参与人
的最优混合策略的组合。
2013-8-9
2013-8-9
22
• 纯策略均衡:反应函数(reaction function) 在纯策略的范畴内,最优反应函数是各博弈方选择的纯策略 对其他博弈方纯策略的反应。纯策略纳什均衡是博弈方反应 函数的交叉点。
• 混合策略均衡:反应对应(reaction correspondence) 在混合策略的范围内,博弈方的决策内容为选择概率分布, 最优反应函数就是一方对另一方的概率分布的反应。由于纯 策略可以理解为混合策略,因此实际上最优反应函数的概念, 也可以在混合策略概率分布之间反应的意义上统一起来。混 合战略纳什均衡也是反应函数的交叉点。
2013-8-9
18
2. 支付等值法求纳什均衡
由上面的例子可以看出,参与人选择的混合策略均使对方选 择纯策略的期望效用相等,促使各方均采取严格策合策略。
所以求解混合策略纳什均衡也可以采取如下方法:
求出参与人的每个纯策略的期望效用,令其相等即可得到混
合策略纳什均衡。
2013-8-9
19
猜硬币博弈
择的“策略”,称为一个“混合策略”,其中 1 对 j 1,, k 都 0 pij 成立,且 pi1 pik 1 – 纯策略可以理解为混合策略的特例,即在诸多策略中,选择该纯 策略的概率为1,选其他纯策略的概率为0. – 为何参与人可能会选择带不确定性的混合策略而放弃确定性的纯 策略? • 参与人主观因素造成的犹豫不决 • 外在客观因素的不确定性带来应对策略的不确定性 • 迷惑对手:为了让其它参与人不能清楚了解自己的选择
2013-8-9
5
• 混合策略扩展博弈:
博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈,就 是原博弈的“混合策略扩展博弈”。
• 混合策略纳什均衡(MNE):
由最优的混合策略构成的混合策略组合:
* ( * , * , , * ) 1 2 n
即,如果对于所有的 i 1,, ,n,有 2
混合策略纳什均衡
Mixed Strategy Nash Equilibrium
理学院 顾聪 gucong@yeah.net
4.1 严格竞争博弈和混合策略
1. 混合策略的提出——猜硬币博弈
两个参与人各拿一枚硬币,并选择出正面向上还是反面向上。若两枚硬币 是一致的(即全部正面或全部反面),则参与人2赢走参与人1的硬币;若两 枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。支付矩阵如下:
寻找工作γ
游荡1-γ
3 , -1 ,
2 1
-1 , 0 ,
3 0
救济:
3 0.2 1 0.8 0.2
不救济1-θ
不救济: 1 0.2 0 0.8 0.2
• 如果流浪汉选择这个混合策略,政府的任何策略(混合的或纯的)带给 政府的期望效用为-0.2。特别的,以1/2的概率分别选择救济和不救济 当然也是政府对于流浪汉所选择的混合策略的最有反应。 • 这样,我们得到一个混合策略组合,每一个参与人的混合策略都是给 定对方混合策略是的最优选择,从而构成混合策略纳什均衡。 策略 期望收益 政府 (0.5, 0.5) -0.2 流浪汉 (0.2, 0.8) 1.5
E E2 由一阶条件: 1 2(1 2r ) 0, 2(1 2q) 0 q r 1 1 r , q 2 2 1 1 1 1 1* ( , )和 2 * ( , )分别是参与人1和参与人2的
2013-8-9
2 2 2 2 * 混合纳什均衡策略, ( 1* , 2 )为猜币博弈的纳什均衡。
• 对 θ*= 0.5 的解释:
– 如果政府救济的概率大于0.5,流浪汉的最优选择是流浪;如果 政府救济的概率小于0.5,流浪汉的最优选择是寻找工作。
• 混合策略纳什均衡的含义:
– 纳什均衡要求每个参与人的混合战略是给定对方的混合战略下的 最优选择。因此在社会福利博弈中,γ*= 0.2 ,θ*= 0.5 是唯一的 混合策略纳什均衡。
参与人1选取反面的期望效用为 E1(反面)=1×r+(-1)×(1-r)=2r-1
2013-8-9 15
参与人1的期望效用为 E1= E1(正面)×q + E1(反面)×(1- q ) =(1-2r)(2q-1) 类似地,得到参与人2的期望效用为 E2= E2(正面)×r + E2(反面)×(1- r ) =(1-2q)(2r-1)
8
4. 一个例子——社会福利博弈
流浪汉 寻找工作 流浪
救济
政府 不救济
2
3, 1 -1,
3 -1, 0 0,
虽这模型没有PNE,却有下述的MNE:参与人以一定的概率选择某种 策略,然后计算相应于不同概率的期望效用。
2013-8-9 9
设:政府救济的概率θ=1/2 ; 不救济的概率1-θ=1/2。 流浪汉寻找工作的期望效用: 1/2×2+1/2 ×1=1.5 流浪的期望效用: 1/2×3+1/2 ×0=1.5
2013-8-9
23
混合策略反应函数
猜硬币博弈
猜硬币方 r 1
r R1(q)
q R 2( r )
盖 硬 正面 币 反面 方
参与人1
q 正面 1-q 反面
-1, 1 1,-1
1,-1 -1, 1
2013-8-9
14
参与人2 r 正面 1-r 反面 参与人1
q 正面
1-q 反面
-1, 1 1,-1
1,-1 -1, 1
当给定参与人2选择混合策略σ1=(r, 1-r)时,
参与人1的选取正面的期望效用为
E1(正面)=(-1)×r+1×(1-r)=1-2r
•
–
混合策略:
如果一个策略规定参与人在给定的信息情况下以某种概率分布随 机地选择不同的行动,称为混合策略。参与人采取的不是明确唯 一的策略,而是其策略空间上的一种概率分布。
2013-8-9
4
• 混合策略 vs.纯策略 (不确定性 vs.确定性) – 在博弈 G {S1,Sn ; u1,un }中,博弈方i 的策略空间Si {si1 ,sik } , 则博弈方i 以概率分布pi ( pi1 ,, p ik )随机在其 k个可选策略中选
16
社会福利博弈
假定政府的混合策略是 G ( ,1 );
流浪汉
工作γ 流浪1- γ
流浪汉的混合策略是 L ( , )。 1 政府的期望效用函数为: v( G , L ) (3 (1)(1 ) (1 )( 0(1 ) (5 1) 求微分,得到政府最优化的一阶条件: vG 5 1 0 故 * 0.2
寻找工作γ 救济θ 不救济1-θ
游荡1-γ
3 , -1 ,
2 1
-1 , 0 ,
3 0
• 此时,流浪汉选择任何混合策略的期望效用都是1.5,则流浪汉的任 何一种策略(纯的γ=1或γ=0或混合的0<γ<1)都是政府所选择的混合策
略的最优反应。
2013-8-9
10
而当
γ=0.2 游荡
1-γ=0.8 寻找工作 救济θ
政 府
救济θ
2 3, -1, 1 -1, 0,
3 0
不救济 1- θ
即:流浪汉以0.2的概率选择寻找工作,0.8的概率选择流浪。 同理可以根据流浪汉的期望效用函数找到政府的最优混合策略。
2013-8-9 17
• 对γ*= 0.2 的解释:
– 如果流浪汉寻找工作的概率小于0.2,政府的最优选择是不救济; 如果流浪汉寻找工作的概率大于0.2,政府的最优选择是救济 。
4.2 混合策略纳什均衡的求解
支付最大化法 支付等值法 最优反应函数法
2013-8-9
13
1Biblioteka Baidu 支付最大化法求纳什均衡——猜硬币博弈
参与人1的混合策略为σ1=(q, 1-q)(分别以概率q和1-q选择正面 和反面) , 参与人2的混合策略为σ2=(r, 1-r) (分别以概率r和1-r选择正面 和反面)。 参与人2 r 正面 1-r 反面