第三讲_混合策略纳什均衡

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

混合策略均衡
( p ◆参与人1和参与人2的混合策略组合 , q ) 构成均
衡的必要条件:
V1 ( p , q ) V1 ( p , q )
V2 ( p , q ) V2 ( p , q)
混合战略均衡的求解方法
◆方法1:支付最大化法
给定其他参与人的混合战略,自己选择行动的 概率分布要使自己期望支付最大化。
其中,博弈方1的期望得益为:
u1e pqu1 A, C p(1 q)u1 A, D (1 p)qu1 B, C (1 p)(1 q)u1 B, D 0.8 0.8 2 0.8 0.2 5 0.2 0.8 3 0.2 0.2 1 2.6
由 VA =VB 可得 :q=0.8 博弈方2:
VB =3q (1 q)
博 弈 方 1
A B
VC =3 p (1 p)
VD =2 p 5(1 p)
由 VC =VD 可得 :p=0.8
策略 期望得益 得双方的策略及相应得益: 博弈方1 (0.8,0.2) 2.6 博弈方2 (0.8,0.2) 2.6

不存在前面定义的纳什均衡策略组合。
这类博弈很多,引出混合策略纳什均衡概念。
混合策略的相关概念
◆混合策略是一种按照什么概率选择这个纯策略、
按照什么概率选择那种纯策略的策略选择指示。 ◆混合策略表明:参与人可以按照一定的概率,随 机地从纯策略集合中选择一种纯策略的实际行动 。 ◆期望值:假定存在 n 个可能的取值 X1, X 2 ,, X n , p1 , p2 ,, pn ,则期 并且这些取值发生的概率分别为: 望值为: p1 X1 p2 X 2 pn X n
工人选择
混合策略均衡
什么情况下达到纳什均衡状态? 假定存在一个概率q,老板选择混合策略(q,1-q) 工人选择“偷懒”期望收益为(-1)×q+3×(1-q)=3-4q 工人选择“不偷懒”收益为2 如果老板真的以概率q选择监督,1-q选择不监督,那么意 味着他不会始终重复地选择某个纯策略,而他不重复选择的 条件必须是工人也不会重复地选择纯策略。 因此,老板以概率q选择监督必然意味着在这种情况下 工人没有合适的纯策略选择。====老板的选择必须使工人 在两个纯策略之间随机选择。 工人什么情况下随机选择?
第三讲 混合策略纳什均衡
主讲人:李美娟
引言
◆有些博弈不存在纳什均衡,或者纳什均衡不唯
一,如猜硬币博弈,前述纳什均衡分析就无法 对博弈方的选择和博弈结果作明确的预测。 ◆这部分对不存在纳什均衡和存在多个纳什均衡 的博弈作一些讨论。
混合策略的引进
一、扑克牌对色游戏 红 甲
红 -1, 1 1, -1 乙 黑 1, -1 -1, 1
例子2 田忌赛马新编
春秋战国时期,齐威王常与旗下大将田 忌赛马。规则是:每次赛三局,每一局齐威王 与田忌各出一匹马比赛奔跑速度。每一局中的 胜者赢败方一千斤铜。田忌有上、中、下三匹 马,而齐威王也有上、中、下三匹马。每次比 赛,第一局田忌出上马,齐威王也出上马;第 二局田忌出中马,齐威王也出中马;第三局, 田忌出下马,齐威王也出下马。齐威王的上马 比田忌的上马好,齐威王的中马也比田忌的中 马好,齐威王的下马还是比田忌的下马好。于 是,每次比赛的结果都是田忌连输三局。
的 k 1, , K ,0 pik 1, 1K pik 1

◆ 显然,纯策略可以理解为混合策略的特例,比如说,纯 1,0, ,0 ,即选择纯策略 si ' 策略 si ' 等价于混合策略 pi 的概率为1,选择任何其他纯策略的概率为0。 ◆混合策略纳什均衡:包含混合策略的策略组合,构成纳什 均衡。
多重均衡博弈和混合策略
一、夫妻之争的混合策略纳什均衡
◆首先,该博弈有两个纳什均衡,本博弈的两个博弈方 不会害怕对方猜到自己的选择,他们主观上并不想隐 藏自己的选择。因此,该博弈中两博弈方的决策思路 和原则应该与没有纳什均衡的严格竞争博弈有所不同。 丈夫 时装 足球 妻 子 时装 足球 2, 1 0, 0 0, 0 1, 3
混合策略博弈
小孩玩的游戏“石头,剪子,布” ,也是一种博弈。但是,这个博弈有一 种有趣的特征,即给定一方的任何选择 ,另一方都有制胜对方的战略,因而这 个战略不是最优的。任何“纯战略”都 不是最优的,纯战略是“石头,剪子, 布”中的任何一个。
石头、剪刀、布
博弈方2 石
博 弈 方 1 石 头 剪 子 布
混合战略均衡的求解方法
◆方法2:支付等值法
自己选择策略概率分布使对方不会偏好于任何行 动,即选择每一个策略都会得到相同的收益。
例子
例:博弈方1的混合策略(p,1-p) 博弈方2的混合策略(q,1-q) 博弈方1:
博弈方2 C D
2, 3 3, 1 5, 2 1, 5
VA =2q 5(1 q)
混合策略均衡
例:监督博弈
工人 偷懒 老板 监督 不监督 1,-1 -2,3 不偷懒 -1,2 2,2
给定工人偷懒,老板的最优 选择是监督;给定老板监督, 工人的最优选择是不偷懒; 给定工人不偷懒,老板的最 优选择是不监督;给定老板 不监督,工人的最优选择是 偷懒;如此循环。
混合策略均衡
工人 偷懒 监督 老板 不监督 1,-1 不偷懒 -1,2
这个故事曾经被很多人当作博弈论的例 子来演绎,但实际上这个故事与博弈论无关。 博弈论会假定所有局中人都是理性的,不能假 定一些局中人聪明而另一些局中人却是傻子。 当田忌出下马时,齐威王最好的选择是出下马 而不是上马。孙膑的计谋中假定齐威王是傻子 ,当田忌出下、上、中马时,他仍然按上、中 、下马出,当然要输了。事实上,当田忌出下 马时,齐威王应出下马,但齐威王出下马时, 田忌不应出下马而是出中马,但此时齐威王又 应出中马而不是下马了,……。这样,博弈不 会有纯战略的均衡。
对于大企业,因一旦偷税数额就巨大,所 以,税务部门在随机检查时放在大企业上的可 能性就大一些;而给定税务部门检查大企业的 可能性较大,大企业偷漏税的行为就较少,否 则就容易被逮个正着。所以,偷漏税较多的就 是一些中小企业,大企业纳税的积极性较高。 同样的道理,在犯罪或对错误的监督惩罚博弈 中,也是混合博弈,人们可能总是大错不犯小 错不断。
混合策略均衡
◆当工人选择任何一个策略的期望支付相等时,只能随机 选择。于是,3-4q=2 ,即q*=1/4,1- q*=3/4。这样,当老板选 择(1/4,3/4)的混合战略时,可以使工人在两个纯战略之 间无差异。 ◆ 同理,假设工人选择(p,1-p),(p,1-p)成为其最优混合战略 的条件是老板百度文库选择监督与选择不监督之间无差异,即 1×p+(-1)(1-p)=(-2)p+2(1-p),即p*=1/2,1- p*=1/2。 ◆当老板选择(1/4,3/4),工人选择(1/2,1/2)时,刚 好互为彼此的最优反应,达到纳什均衡状态,称为混合战略 纳什均衡。

-2,3
2,2
假定老板选择混合战略(0.2,0.8) 工人选择“偷懒”期望支付为(-1)×0.2+3×0.8=2.2 工人选择“不偷懒”(期望)支付为2×0.2+2×0.8=2 工人应选择“偷懒” 老板选择“监督” “不偷懒’……

假定老板选择混合战略(0.5, 0.5) 工人选择“偷懒”期望支付 0.5 为 (-1)×0.5+3×0.5=1 工人选择“不偷懒”期望支 0.5 付为2×0.5+2×0.5=2 工人应选择“不偷懒” 老板选择“不监督” 工人选择“偷懒’……
两人只能玩混合战略博弈,齐威
王分别以 1/6 随机的概率选择出上、中 、下马的任一排列,田忌也如此。由于 齐威王存在绝对优势,他平均看来仍然 会赢田忌一千斤铜。
混合策略均衡
◆纯策略与纯策略纳什均衡 纯策略:肯定会被选择——以100%的概率——被 选择的策略。 ◆混合策略 混合策略:以一定的概率分布选择某几个行动的 策略。




0, 0 1, -1 -1, 1 -1, 1 0, 0 1, -1 1, -1 -1, 1 0, 0
但是,我们知道,玩这个游戏总是 以对方不易猜出的随机方式出招。事实 上,可以通过数学证明,当双方都以每 个战略按 1/3 的概率出招时,达成一种 双方都不愿改变这种概率分布的局面。 这被称为“混合战略纳什均衡”,而这 种以随机方式选择纯战略的博弈被称为 “混合战略博弈”。 以混合战略博弈我们来看下面几个 例子。
例子1 为什么一般人总是小错不断,大 错不犯;偷税漏税的一般是中小企业, 大企业会老老实实地交税?
税务部门不会对所有企业的交税情 况每一次都去检查,因为这样做的成本 太高,得不偿失。所以,税务部门总是 随机地对企业的交税情况进行检查。
企业也是随机地在交税与偷漏税之 间进行选择。税收部门与企业间进行的 是混合战略博弈。因为如果企业总是交 税,税务部门就最好不检查;但给定不 检查,企业就会偷漏税。所以,两者只 有在随机地检查与不检查,企业随机地 在偷漏税与交税之间选择,才会达成均 衡。
混合策略
◆混合策略定义:在n人博弈的策略式表述 G S1, , Sn ; u1, , un Si Si1, , SiK ,那么,概率 中,假定参与人 i 有K个纯策略: 分布 pi pi1 , , piK 称为 i 的一个混合策略,这里
pik p(sik ) 是 i 选择 sik 的概率,对于所有
S11 p S12 1-p
u1,u2 u5,u6
u3,u4 u7,u8
p[qu1 (1 q)u3 ] (1 p)[qu5 (1 q)u7 ]
◆参与人2的期望支付: EV2(p,q)=
EV1(p,q)=
q[ pu2 (1 p)u4 ] (1 q)[ pu6 (1 p)u8 ]
田忌的谋士孙膑了解了田忌的困境 后,就打听到这样一个消息:尽管齐威 王的上、中、下三匹马都要比田忌的对 应上、中、下三匹马好,但碰巧的是田 忌的上马可胜齐威王的中马,田忌的中 马可胜齐威王的下马。于是,孙膑为田 忌献计:下一次比赛中第一局时田忌出 下马对齐威王的上马输一局,第二局田 忌出上马对齐威王的中马,第三局田忌 出中马对齐威王的下马,这样可连赢两 局,最后净胜一千斤铜。田忌依计而行 ,果真赢回一千斤铜。
支付最大化法求混合战略纳什均衡
工人 偷懒 老板 监督 不监督 1,-1 -2,3 p 不偷懒 -1,2 2,2 1-p q 1-q
给定工人的混合战 略为(p,1-p),老板的 混合战略为(q,1-q)
工人的期望支付函数为 (-1)pq+2(1-p)q+3p(1-q)+2(1-p)(1-q)=-4pq+p-2q+2 最优化一阶条件为:-4q+1=0 q*=1/4
p ( p1 ,, pi ,, pn )
期望支付
例:
参与人2
◆参与人1的混合策略:(p,1-p) 参与人2的混合策略:(q,1-q) ◆参与人1的期望支付: 如果参与人1选择S11:
1-q
S21
参与 人2
q
S22
qu1 (1 q)u3
如果参与人1选择S12:
qu5 (1 q)u7
混合策略均衡
设 是n人策略式博弈 G S1, , Sn ; u1, , un 的一个混合策略组合。如果对于所有的i 1,, n , Vi ( pi , pi ) Vi ( pi , pi ) 对于每一个 pi 都成立,则称混 p ( p , , p , , p 合策略组合 1 i n ) 是这个博弈的一 个纳什均衡。

博弈方2的期望得益为:
u1e pqu2 A, C p(1 q)u2 A, D (1 p)qu2 B, C (1 p)(1 q)u2 B, D 0.8 0.8 3 0.8 0.2 1 0.2 0.8 2 0.2 0.2 5 2.6
相关文档
最新文档