第二讲纳什均衡

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

上次的作业
• 画出田忌赛马的得益矩阵 • 画出猜硬币博弈的得益矩阵 • 画出石头、剪子、布的得益矩阵 • 能否用我们今天的几种方法得到均衡解? • 你觉得它们的最佳应对策略是什么?
此时您正浏览在第28页,共50页。
严格竞争博弈和混合策略的引进
一、猜硬币博弈
盖 正面 硬 币 反面 方
猜硬币方
正面
反面
博弈方1的混合策略
博 弈A 方B 1
p A 3 p B 1 p A 2 p B 5
博弈方2
C
D
2, 3 5, 2
3, 1 1, 5
博弈方2的混合策略
p C 2 p D 5 p C 3 p D 1
pA+pB=1;
pC+pD=1
策略
得益
博弈方1 (0.8,0.2) 2.6
博弈方2 (0.8,0.2) 2.6
– 如果能,则从所分析的策略组合对应的得益数组引一箭头,到改 变策略后策略组合对应的得益数组
– 最后,只有指向,没有离开的策略组合为均衡解--稳定--没有 人愿意单独改变
此时您正浏览在第22页,共50页。
箭头法
1, 0 0, 4
1, 3 0, 2
0, 1 2, 0


-3,-3
0, -6
情 侣

-6, 0
– 反之,不具有一致预测性的博弈结果,则难以避免预测和行为之间的矛盾, 甚至是自我否定的。
•只有纳什均衡才具有一致预测的性质 •一致预测性是纳什均衡的本质属性 •一致预测并不意味着一定能准确预测,因为有多重均衡,预测不一致的可能
此时您正浏览在第25页,共50页。
寻找纳什均衡
C1
C2
C3
R1
100,100 0,0
此时您正浏览在第24页,共50页。
纳什均衡的一致预测性质
•一致预测: – 如果所有博弈方都预测一个特定博弈结果会出现,所有博弈方都不会利用 该预测或者这种预测能力,选择与预测结果不一致的策略,即没有哪个博 弈方有偏离这个预测结果的愿望,因此预测结果会成为博弈的最终结果
– 稳定的和自我强制的,所以是真正可预测的
发”,他就要被撤职查办, 不受贿一方得8 • 画出得益矩阵
此时您正浏览在第9页,共50页。
博弈论故事之五--高薪养廉
• 我们把数据改变一下,变成薪水只有2, 两个串谋,同时受贿还是得9;一方受贿, 一方不受贿,则分别为2,3。
• 得益矩阵?
此时您正浏览在第10页,共50页。
高薪养廉的得益矩阵

受贿
• 但是,许多博弈根本不不存在确定性的结果,划线法失效,比如猜硬币--没有 一个策略组合是双方同时愿意接受的,这样的博弈根本不可能有可以预言的博弈 结果
• 也有时:情侣博弈中,用划线法有两个策略组合同时下面划线,这意味着两个策略组 合中的双方策略都是对对方策略的最佳对策--都具有内在的稳定性--但具体那一 个会出现,无法确定。
• 上策均衡不是普遍存在的,所以该方法失效
• 失效原因:
此时您正浏览在第13页,共50页。
囚 坦白 徒
1 不坦白
囚徒 2
坦白
不坦白
-3, -3
0, -6
-6, 0
-1, -1
两个罪犯的得益矩阵
此时您正浏览在第14页,共50页。
严格下策反复消去法
• 严格下策:不管其它博弈方的策略如何变化,给一个博弈方带来的收益总是比另一种策略给 他带来的收益小的策略
划线法
• 思路:
– 以策略之间的相对优劣关系,而不是绝对优劣关系为基础
– 先找出自己针对其他博弈方每种策略或策略组合(多人博弈)的最佳对策, 然后在此 基础上,通过对其他博弈方策略选择的判断, 预测可能的结果和确定自己的最优策略
• 只有,两方均被划线的策略组合,才是稳定的策略--表明给定一方采用该 策略组合中的策略,则另一方也愿意采用该策略组合中的策略,该策略组合 具有稳定性。
50,101
R2
50,0 1,1
60,0
R3
0,300 0,0 200,200
此时您正浏览在第26页,共50页。
纳什均衡:举例
• 广告博弈
企业2
战略
做广告 不做广告
企业1
做 广 告 4, 4 15, 1 不 做 广 告 1, 15 10, 10
• 纳什均衡:(做广告,做广告)
此时您正浏览在第27页,共50页。
“混pi合策(p略i1,” ,pi其k)中随机在其对0个 可pkij 选1策都略成j中立1,选 ,,择k且的“策略”,称为一个
pi1 pik1
• 混合策略扩展博弈:博弈方在混合策略的策略空间(概率分布空间)
的选择看作一个博弈,就是原博弈的“混合策略扩展博弈)
• 混合策略纳什均衡:包含混合策略的策略组合,构成纳什均衡—任
• 假设行走顺利,每人获益为1,相撞,则获益为-1,
• 画出得益矩阵
此时您正浏览在第3页,共50页。
交通博弈

靠左行
靠右行
靠左行 甲
靠右行
1,1 -1,-1
-1,-1 1,1
此时您正浏览在第4页,共50页。
经典博弈故事之三--智猪博弈
• 笼子里面有两只猪,一只比较大,一只比较小。笼子很长,一头有一 个按钮,另一头是饲料的出口和食槽。按一下按钮,将有相当于10个 单位的猪食进槽,但是按按钮以后跑到食槽所需要付出“劳动”,加 起来要消耗相当于2个单位的猪食。问题是按钮和食槽分置笼子的两端,按
按钮的猪付出劳动跑到食槽的时候,坐享其成的另一头猪早已吃了不少。如果
大猪先到,大猪呼啦啦吃到9个单位,小猪只能吃到1个单位;如果同时到达, 大猪吃到7个单位;小猪吃到3个单位;如果小猪先到,小猪可以吃到4个单位, 而大猪吃到6个单位。
• 画出智猪博弈的得益矩阵
此时您正浏览在第5页,共50页。
“智猪博弈”(boxed pigs)
-1, -1




-1, 1


1, -1
1, -1 -1, 1
2, 1 0, 0
0, 0 1, 3
此时您正浏览在第23页,共50页。
纳什均衡的定义
•纳什均衡:所有参与人的最优策略的组合--给定该策略中 别人的选择,没有人有积极性改变自己的选择。 •策略空间:S1,Sn
•博弈方 i的第 个j 策略: si j Si •博弈方 i的得益: u i ••各略的都博纳最成一,i弈什佳立个都:均对,策是衡G s策则略对i :j,称{ 组其在S 也1 S成余,博即 i 的博弈Sn 某弈;G u u 个 方1i ,( s 策 策{ i * S 为u , 1 略 略,n }组 的s S i * 的n 1 合 组;,u s 一(1 i * 合,s, 个s i*i * ,u 纳1 n ,} 什中(s s.sn * 均n*i*) ,中,). 衡如,u . si( 果n*(任s )si * Gi* 由, 一, 各博s si * 个i* 弈1 1 ,对,s 博方sii* , 任 j 弈s 1i * , 的意1 方.,s策.n * 的s .).n * ) ..
• 思路:
– 任何理性的博弈方都不可能选择严格下策
– 把不可能选择的严格下策先排除掉--排除法,从而留下较好的策略 • 做法:
– 首先找出某博弈人的严格下策,把这个严格下策剔除后,剩下的是一个不 包含已剔除劣策略的新的博弈;然后再剔除这个新的博弈中的严格下策; 继续这个过程,直到没有劣策略存在。如果剩下的策略组合是唯一的,这 个唯一的策略组合就是严格下策反复消去法的均衡
此时您正浏览在第15页,共50页。
严格下策反复消去法
左中



上 1,0 1,3 0,1
1,0 1,3
下 0,4 0,2 2,0
0,4 0,2


1,0 1,3
此时您正浏览在第16页,共50页。
严格下策反复消去法
• 智猪博弈
小猪
按 等待


5,1 4,4

等待 9,-1 0,0
此时您正浏览在第17页,共50页。
严格下策反复消去法
• 适用面:
– 严格下策反复消去法的适用面比上策均衡要更大些
– 但也有很多博弈问题没有严格下策:田忌赛马、猜硬币、情侣博弈、交通博 弈、石头剪刀布、、、--此时,该方法失效。
– 最大的用处:简化博弈
• 失效原因
– 不同策略之间没有绝对的优劣,而只存在相对的、有条件的优劣
此时您正浏览在第18页,共50页。
何博弈一方单独改变自己的策略,或者随机选择各个纯策略的概率分布, 都不能给自己增加任何利益
此时您正浏览在第30页,共50页。
求混合策略纳什均衡
• 思路:
– 各个博弈方选择的纯策略的概率分布,要求 满足使对方或其他博弈方采用不同策略的期 望收益相同
此时您正浏览在第31页,共50页。
一个例子
该博弈无纯策略纳什按 等待


5,1 4,4

等待 9,-1 0,0
此时您正浏览在第6页,共50页。
经典博弈之四--猎人博弈

设想在古代的一个地方,有两个猎人。那时候,狩猎是人们的主要生计。为了
简单起见,假设主要的猎物只有两种: 鹿,兔子。在古代,人类的狩猎手段还比较
落后,弓箭威力也有限。在这样的条件下,我们可以进一步假设,两个猎人一起去
此时您正浏览在第32页,共50页。
齐威王田忌赛马
Pa 上中下
齐 Pb 上下中

Pc
Pd
王 Pe
中上下 中下上
猎鹿,才能猎获一只鹿,如果一个猎人单兵作战,他只能打到4只兔子。如果他
打兔子,你去猎鹿,他可以打到4只兔子,而你一无所获,得0。
• 假设打到一只鹿,两家平分,每家管10天;打到4只兔子,只能供一家 吃4天。
• 画出得益矩阵
此时您正浏览在第7页,共50页。
猎人博弈得益矩阵

猎鹿
打兔
10
4
甲 猎鹿 10
0
0
4
打兔 4
4
此时您正浏览在第8页,共50页。
博弈论故事之五--高薪养廉
• “高薪养廉”是公务员制度方面的一种理论,我们分析一下“高 薪”为什么能养廉?
• 假设甲乙为一家单位的主任和书记关系密切的国家公务员,7代 表现在政府给他们的高薪。如果两人受贿,因为串谋而 一时不被人发现,他们可以达到9的位置;而一旦“东窗事
C1
C2
C3
R1
0,4 4,0 5,3
R2 4,0 0,4 5,3
R3 3,5 3,5 6,6
此时您正浏览在第21页,共50页。
箭头法
• 思路:
– 对博弈中的每一个策略组合进行分析,考察在每个策略组合处各个博弈方能 否通过单独改变自己的策略而增加得益
– 与划线法一样都是基于策略之间的相对优劣关系进行分析的,所得到的结果 也是一致的。
此时您正浏览在第19页,共50页。
划线法
1, 0 0, 4
1, 3 0, 2
0, 1 2, 0
囚 徒
-5, -5
0, -8
情 侣

-8, 0

-1, -1



-1, 1


1, -1
1, -1 -1, 1
2, 1 0, 0
0, 0 1, 3
此时您正浏览在第20页,共50页。
课堂习题
• 用划线法求出均衡解
不受贿

9
贿
甲9
不 受
0
贿8
8 0
7

7
受贿
不受贿

贿
9



贿3
9 0
0 2
此时您正浏览在第11页,共50页。
完全信息静态博弈
• 完全信息:各博弈方都完全了解所有博弈方各种情况下得益 • 静态:博弈方是同时决策的,或者虽然各博弈方决策的时间
不一定真正一致,但他们在做决策时互相不知道其他博弈方 的策略。 • 完全信息静态博弈:各博弈方同时决策,且所有博弈方对各方得 益都了解的博弈。 • 如何求这一类博弈的解呢?--博弈的结果如何?--博弈各方 最终的策略组合?
第二讲纳什均衡
此时您正浏览在第1页,共50页。
情侣博弈的得益矩阵
足球
小丽
芭蕾
足球
1
2
0 0
芭蕾
-1
-1
2 1
大海
此时您正浏览在第2页,共50页。
靠左走还是靠右走
• 在一个没有交通规范的农村小路骑自行车,你应该走在道路的哪 一边?
• 假如别人靠右(左)走,你也 靠右(左)走,则不会相撞; 反之,假如别人靠右(左)走,而你却反其道而行之,偏要靠 左(右)走,则必然相撞。
此时您正浏览在第12页,共50页。
上策均衡法
• 上策均衡:一个博弈的某个策略组合中的所有策略都是各个博弈方 各自的上策
– 上策:不管其它博弈方选择什么策略,一博弈方的某个策略给他带 来的得益始终高于其它的策略,至少不低于其他策略的策略
– 囚徒的困境中的“坦白”;双寡头削价中“低价”。
• 上策均衡反应了所有方的绝对偏好,因此是非常稳定 ,可以作出最 肯定的预测。
-1, 1
1, -1
1, -1
-1, 1
(1)不存在前面定义的纳什均衡策略组合 (2)关键是不能让对方猜到自己策略--保持随机性
这类博弈很多,引出混合策略纳什均衡概念
此时您正浏览在第29页,共50页。
混合策略、混合策略博弈 和混合策略纳什均衡
• 混合策略:在博弈 G {S1, Sn;u1, u中n},博弈方 的i策略空 间为 Si {si1,, 则si博k}弈方 以概i 率分布
相关文档
最新文档