纳什均衡

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（-8，0）
（-1，-1）
精品课程《运筹学》
第二节纳什均衡
对囚徒l来说，囚徒2有坦白和不坦白两种选择，假设囚徒2选择的不坦白，则对囚徒l来说，不坦白得益为一l，坦白得益为O，应该选择坦白；假设囚徒2选择的是坦白，则囚徒1不坦白得益为一8，坦白得益为一5，他更应该选择坦白。囚徒2唯一的选择也是坦白。例8.2.2 设某村庄有3个农户，该村有一片大家都可自由牧羊的公共草地。由于这片草地的面积有限，草的数量只能让数量有限的羊吃饱，如果在此草地上放牧的羊的实际数量超
人的策略集为Si Si1,,Sik ，则他以概率分布
pi pi1, pik 随机在其k 个可选策略中选择的
“策略”称为一个混合策略，其中
精品课程《运筹学》
第二节纳什均衡
O≤ pij≤1对 k
j=1，…， k都成立，且
pij =1。
j 1
由定义可以看出，纯策略也可看作混合策略。
定义8.2.3 如果一个策略 G =S1,S2,Sn;h1,h2,hn中，
S1*
,
S
* i
,
S
* i1
S
* n
的最佳策略，即
hi
(S1*
, S i*1
,
Si*
,
S
* i1
,
S
* n
)
hi (S1*,Si*1, Sij , Si*1,Sn*)
对任意 S ij Si 都成立则称
S1*
,
S
* 2
,
S
* n
为
一个纯策略纳什均衡。
精品课程《运筹学》
第二节纳什均衡
例8.2.1 “囚徒的困境” 警察抓住了两个罪犯，但是警察局缺乏足够的证据指证他们所犯的罪行。如果罪犯中至少有一人供认犯罪，就能确认罪名成立。为了得到所需的口供，警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟，并分别跟他们讲清了他们的处境和面临的选择：如果他们两人都拒不认罪，则他们会被以较轻的妨碍公务罪各判1年徒刑；如果两人中有一人坦白认罪，则坦白者立即释放而另一人将重判8年徒刑；如果两人都坦白认罪，则他们将被各判 5年监禁。
49
第二节纳什均衡
与古诺模型相比，此时总产量
Q*
3 4
98
>
2 3
98，
此时价格更低，利润更少。这说明垄断的效果
不如自由竞争。
当然并非所有的对策都有纳什均衡，如石头、剪子、布就没有均衡。
§2.3 混合策略和混合纳什均衡
定义8.2.2 在对策 G =S1,S2,Sn;h1,h2,hn 中，局中
农户数量如何，第一人总希望自己收益最大。
由此得出：
0 P1
q1
每个农户都得出与此相同的结论：
q1
56
1 2
q2
1 2
q3
q2
56
1 2
q1
1 2
q3
q3
56
1 2
q1
1 2
q2
精品课程《运筹学》
第二节纳什均衡
三条曲线的交点(q1*, q2*, q3* )就是纳什均衡。联
立解之：
q1* q2* q3* 28 （只）
精品课程《运筹学》
第二节纳什均衡
参与人2
参
左
中
右
与上人下 1
（1，0）（1，2）（0，1）（0，3）（0，1）（2，0）
图8.2.2
参
参与人2
与
左中
人上
1
（1，0）（1，2）
下（0， 3）（0，1）图8.2.3
精品课程《运筹学》
第二节纳什均衡
参与人2
左
中
1
上（1，0）（1，2）
称此函数为厂商1对厂商2的产量的反应函数记
为
R1 : q2 。同q1 理，厂商2对厂商1的产量的
反应函数记为
R2 : q1 。 q2
用反应函数表示两厂商之间的产量关系为
精品课程《运筹学》
第二节纳什均衡
R1 (q2
)
1 2
(98
q2 )
R2 (q1 )
1 2
(98
q1 )
与
(0,98)
R1(q2 )
后行动。设厂商1是领头厂商先行选择，厂商 2追随其后，其他条件不变。
厂商1的产量 q1 为已经确定，厂商2为使利润
最大，应选择
q2
1 2
(98
q1
)
，厂商1知道厂商
2的决策思路P1
q1 (98
(q1
1 2
(98
q1 )))
=
3 2
(98
q1
)q1
求其最大得：q1* 49
精品课程《运筹学》
q2*
1 2
第二节纳什均衡
§2.1 纳什均衡的概念 §2.2 纳什均衡的求解 §2.3 混合策略和混合纳什均衡
精品课程《运筹学》
第二节纳什均衡
纳什均衡是对策论中一个重要的概念。尤其在非合作对策分析中具有十分关键的作用。通过对经典对策模型的分析知道:对于对策中的每一个局中人，真正成功的措施应该是针对其他局中人所采取的每次行动，相应地采取有利于自己的策略。于是，每一个局中人应采取的策略必定是他对其他局中人策略的预测的最佳反应。Nash均衡正是体现这一基本原则。
本相等，c1 c2 2 ，两厂家同时决定各自产量，
使利润最大。
设第个厂商的利润为Pi qi ( pi ci )=qi (98 (q1 q2 ))
精品课程《运筹学》
第二节纳什均衡
反应函数的概念：对厂商1来说，给定厂商2 的任意产量 q2 ，厂商1的最佳反应为
q1
1 2
(98
q2 )
即厂商1的最佳产量为厂商2的产量的连续函数，
0
，解之得
Q*
=56（只），总收益
P =3136。这说明纳什均衡常是低效的。
§2.2 纳什均衡的求解
1.箭头法：纳什均衡是最优的，任何单方面的改变都将使改变者自己受损。这是箭头法的基
础。箭头法对每个策略组合判断，看各博弈方
能否通过改变自己的策略而改善其得益，如能，
则从所考察的策略组合引一箭头到改变后的策
精品课程《运筹学》
第二节纳什均衡
过这个限度，每只羊都无法吃饱，从而羊的产出就会减少，甚至只能勉强存活或要饿死。假设这些农户只有夏天才到公共草地放羊，而每年春天决定养羊的数量，各农户在决定自己养羊的数量时是不知道其他农户的养羊数量的，各农户养羊数的决策是同时作出的。假设下面信息知道的：每只羊的产出（价格）是羊只总
精品课程《运筹学》
第二节纳什均衡
局中人为两个囚徒，两个人都有两种策略（坦白、不坦白），两人的策略集共有四个
元素。我们用-1、-5、-8分别表示被判刑的得
益，用0表示被释放的得益，则可由下面的得
益矩阵将此对策予以表示：表8.2.1
囚
徒
囚
1
徒
2
策略坦白
不坦白
策略
坦白
（-5，-5）
（0，-8）
不坦白
排除了
S1*
,
S
* 2
,
S
* n
以外的所有策略组合，则一定
S1*
,
S
一的纳什均衡。
定理8.2.2 在个博弈方的博弈G = S1, S2,Sn;h1,h2,hn
中，如果
S1*
,
S
* 2
,
S
n*是G的一个纳什均衡，则严
格下策反复消去法一定不会将它消去。
3.反应函数法
（适应于变量为产量等这样连续变化的情况）
精品课程《运筹学》
第二节纳什均衡
例8.2.4（古诺的两寡头模型）设市场有1、2两
家厂商，他们生产相同的产品。设厂商1的产
量为 q1 ，厂商2的产量为 q2 ，则市场总产量
为全部Q 卖q1出 q去2 的。价p 为格市)，场的p 出=1清00价- Q格
(可以将产品。再假设
两厂商的生产无固定成本，两厂家边际生产成
数的减函数，p 120 Q，Q q1 q2 q3, qi 为第i 个农
户饲养羊的数量，每只羊的饲养成本为8元。
精品课程《运筹学》
第二节纳什均衡
第一个农户是这样决策的：
自己养羊的得益为P1 =q1 p - 8q1
=q1120 (q1 q2 q3 ) -8q1
为方便起见，设羊数量是可分的。不管其他
此为三农户同时独立决定数量时所获得的
稳定结果。任何单方面的擅自改变会使自己受
损。各自得益为784，三农户总收益为2352。
从总体利益的角度来考察公共草地上羊的最佳数量。设羊的总数为 Q，则总得益为：
精品课程《运P筹学=》Q(120 Q) 8Q =112 - Q 2
第二节纳什均衡
由
dP dQ
略组合。对每个可能的策略组合进行判断
精品课程《运筹学》
第二节纳什均衡
求得最优解。如在囚徒的困境博弈中有，可从任一策略组
合开始考察。先看策略组合(不坦白，不坦白)，在该策略组合时，囚徒l和囚徒2都会发觉，如果自己单独改变策略就能增加自己的得益(从一 1到O)，因此囚徒1原来的(不坦白，不坦白)变为(坦白，不坦白)，囚徒2也有同样的结论。
是各对策方策略的多元函数个局中人的对策常写成精品课程运筹学第二节纳什均衡定义821在对策如果有由各个对策方的各选取一个策略组成的某个策略组合中任一对策方的策略为都是对其余策略方策略的组合的最佳策略即对任意都成立则称精品课程运筹学第二节纳什均衡例821囚徒的困境警察抓住了两个罪犯但是警察局缺乏足够的证据指证他们所犯的罪行
(0,49)
R2 (q1)
q1
(49,0)
(98,0)
图8.2.5
在双方反应函数对应直线交点上，才是双方都满
意的最佳反应组合，此时，
。
q1*
q2*
1 3
98
精品课程《运筹学》
第二节纳什均衡
将上面模型略作修改，即为斯塔克博格模型。
两个厂商中，一方较强，一方较弱。强的一方
领先行动，而较弱的一方则跟在较强的一方之
G = S1, S2 ,Sn ; h1, h2 ,hn
精品课程《运筹学》
第二节纳什均衡
定义8.2.1 在对策 G =S1, S2 ,Sn ;h1, h2 ,h中n，
如某略果个为有策由略，各组S都i*个合是对对策其S方1余*,的S策2*,各中略S选，n*方取任策一一略个对的策策组略方合组的成策的i
精品课程《运筹学》
第二节纳什均衡
§2.1 纳什均衡的概念
用G 表示一个对策，若一个对策中有 n 个局
中人，每个局中人可选策略的集合分别用
S1, S2 ,Sn 表示；Sij 表示局中人 i 的第 j 个
策略，其中 j 可取有限个值、也可取无限个
值；对策方 i 的得益用 hi表示；hi是各对策方
策略的多元函数，n 个局中人的对策 G 常写成
精品课程《运筹学》
囚徒 2
坦白不坦白
第二节纳什均衡
囚徒1
坦白
不坦白
（-5，-5）
（0，-8）
（-8，0）
（-1，-1）
（图8.2.1） 2.严格下策反复消去法
不管其他人策略如何变化，自己某一策略带
精品课程《运筹学》
第二节纳什均衡
来的收益总被其他某些策略带来的收益要小，称这某一策略为相对于其他某些策略的严格下策策略。决策者是不可能选择任何严格下策的。如果发现某策略是相对于其他某些策略的严格下策，就可以将它从对策方的策略空间中去掉，这样就只需要在剩下的较小的策略空间中进行分析了。例8.2.3这是一个抽象对策问题：
S
* n
)
(
S1*
,
S
* 2
,,
S
* i1
,
S
ij
,,
S
* n
)
精品课程《运筹学》i
i
第二节纳什均衡
对任意Sij Si
都成立，则称G*
S1*
,
S
* 2
,
S
* n
为 G 的一个混合策略纳什均衡。
精品课程《运筹学》
图8.2.4
对参与人2，左又成为严格劣战略，仅剩的 (上，中)就是此博弈的结果。通过上面的讨
论可以看出，严格下策反复消去法与纳什
均衡之间有密切的关系。下面的两个定理
就是表明这种关系的。
精品课程《运筹学》
第二节纳什均衡
定理8.2.1 在个博弈方的博弈在对策 G =
S1, S2,Sn;h1,h2,hn中，如果严格下策反复消去法
参与者i 的策略集为 Si Si1,, Sik ，如果由各个
对策方的策略组成策略集合 G*
S1*
,
S
* 2
,
S
* n
式中 S
* i
xi
E mi
xi
0,i 1,2,mi ,
mi
xi
1
都是对其余对策方策略组合i的1 最佳策略，即
(S1*
,
S
* 2
,,
Si*1 ,
S
* i
,,