第三讲混合策略纳什均衡

合集下载

第三讲_混合策略纳什均衡

第三讲_混合策略纳什均衡

混合策略
◆混合策略定义:在n人博弈的策略式表述 G S1, , Sn ; u1, , un Si Si1, , SiK ,那么,概率 中,假定参与人 i 有K个纯策略: 分布 pi pi1 , , piK 称为 i 的一个混合策略,这里
pik p(sik ) 是 i 选择 sik 的概率,对于所有
这个故事曾经被很多人当作博弈论的例 子来演绎,但实际上这个故事与博弈论无关。 博弈论会假定所有局中人都是理性的,不能假 定一些局中人聪明而另一些局中人却是傻子。 当田忌出下马时,齐威王最好的选择是出下马 而不是上马。孙膑的计谋中假定齐威王是傻子 ,当田忌出下、上、中马时,他仍然按上、中 、下马出,当然要输了。事实上,当田忌出下 马时,齐威王应出下马,但齐威王出下马时, 田忌不应出下马而是出中马,但此时齐威王又 应出中马而不是下马了,……。这样,博弈不 会有纯战略的均衡。

-2,3
2,2
假定老板选择混合战略(0.2,0.8) 工人选择“偷懒”期望支付为(-1)×0.2+3×0.8=2.2 工人选择“不偷懒”(期望)支付为2×0.2+2×0.8=2 工人应选择“偷懒” 老板选择“监督” “不偷懒’……

假定老板选择混合战略(0.5, 0.5) 工人选择“偷懒”期望支付 0.5 为 (-1)×0.5+3×0.5=1 工人选择“不偷懒”期望支 0.5 付为2×0.5+2×0.5=2 工人应选择“不偷懒” 老板选择“不监督” 工人选择“偷懒’……
由 VA =VB 可得 :q=0.8 博弈方2:
VB =3q (1 q)
博 弈 方 1
A B
VC =3 p (1 p)
VD =2 p 5(1 p)

博弈论-混合策略纳什均衡.ppt

博弈论-混合策略纳什均衡.ppt

游闲
政府
救济 不救济
政府和流浪汉的博弈
• 思考:政府会采用纯策略吗?流浪汉呢?这 个博弈有没有纯策略的纳什均衡?
• ——跟你玩剪子石头布游戏一样,你会一直 采用纯策略吗?
• 那么政府和流浪汉最有可能采用什么策略? • ——使自己的预期支付最大化。 • ——若能够猜的对方的策略,就可以采用针
对性的策略,使自己的支付增加。
§剪刀、石头、布的游戏
• 因此,秘决在于—— • 自己的策略选择不能预先被对手方知道或猜
测到,在该博弈的多次重复中,博弈方一定 要避免自己的选择具有规律性; • 观察对手方策略选择是否具有规律或者偏好, 预先猜测对手策略,从而采用针对性策略赢 得这个博弈。
§ 第三章 混合策略纳什均衡
• 纯策略(pure strategies):如果一个策略规 定参与人在一个给定的信息情况下只选择一 种特定的行动。
求解混合策略纳什均衡
1、假定政府采用混合策略:
G,1 即政府 的以 概率选1择 的 救概 济率 ,选择不
2、流浪汉的混合策略为:
L,1 即流浪 的汉 概以 率选择 1寻 的找 概工 率作 选, 择
解一:支付最大化
那么,政府的期望效用函数为:
v G G , L 3 1 1 1 0 1 5 1
• 政府选择救济策略
• 政府选择不救济策略
1
期望效用
0 期望效用
vG1, 3 11 vG0, 1 01
4 1
如果一个混合策略是流浪汉的最优选择,那一定意味 着政府在救济与不救济之间是无差异的,即:
v G 1 ,4 1 v G 0 , 0 .2
• 解二:支付等值法
如果一个混合策略是政府的最优选择,那一定意 味着流浪汉在寻找工作与游闲之间是无差异的, 即:

第3章混合战略Nash均衡

第3章混合战略Nash均衡

All Rights Reserved, 2007, Luo Yunfeng
一、混合战略
• “猜硬币”博弈
两个参与人各握有一枚硬币,双方同时 选择是正面向上(记作O)还是背面向上(记作R), 即他们的战略空间都是{O, R}。若两枚硬币是 一致的(即全部背面向上或者全部正面向上), 参与人2赢得参与人1的硬币;若两枚硬币不一 致,则参与人1赢得参与人2的硬币。
二、混合战略Nash均衡
• 提一个问题: 在“猜硬币”游戏中,我们往往会以50%
的概率选择正面(O),以50%的概率选择反面 (R),即选择混合战略σ=(0.5,0.5)。那么有没 有参与人会偏离混合战略σi=(0.5,0.5)呢?
Control Science and Engineering, HUST
个概率分布 i

(
1 i
,
...,

K i
)
其中

j i
(
j

1,...,
K)
表示参与人i选择战略
sij
的概率,即 ij 满足:
K
0


j i
1
,

j i
1
j 1
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
All Rights Reserved, 2007, Luo Yunfeng
第三章混合战略Nash均衡
主要内容: 一、混合战略; 二、混合战略Nash均衡; 三、混合战略Nash均衡的求解。
Control Science and Engineering, HUST

混合策略纳什均衡

混合策略纳什均衡

03 混合策略纳什均衡的证明 方法
反证法
总结词
通过假设不成立来证明均衡的存在。
详细描述
反证法是一种常用的证明方法,它首先假设与结论相反的命题成立,然后通过逻辑推理和数学推导,得出矛盾的 结论,从而证明原命题的正确性。在证明混合策略纳什均衡的存在时,反证法可以用来证明当其他玩家采取了最 优策略时,某个玩家采取混合策略能够达到最优结果。
唯一性意味着在给定对手策略的情况下,每个参与者都只有一个最优反应,从而 避免了复杂的策略互动和不确定性。
存在性
混合策略纳什均衡的存在性是指在某 些博弈中,至少存在一个策略组合, 使得每个参与者在给定其他参与者策 略的情况下,采用混合策略是最优的 。
存在性通常通过数学证明和计算机搜 索等方法来证明,但并不是所有博弈 都有混合策略纳什均衡。
混合策略纳什均衡
目录
CONTENTS
• 混合策略纳什均衡的定义 • 混合策略纳什均衡的特性 • 混合策略纳什均衡的证明方法 • 混合策略纳什均衡的应用场景 • 混合策略纳什均衡的局限性 • 混合策略纳什均衡的发展前景
01 混合策略纳什均衡的定义
定义
混合策略纳什均衡是一种博弈论中的均衡概念,它描述了在 给定对手策略的情况下,参与者如何选择最优策略以最大化 自己的期望收益。
代数法是一种通过数学符号和公式进行推 理和证明的方法。在证明混合策略纳什均 衡的存在时,代数法可以用来推导和证明 纳什均衡的条件和性质,利用代数性质和 技巧来证明均衡的存在。
04 混合策略纳什均衡的应用 场景
经济学
竞争策略分析
混合策略纳什均衡在经济学中被用于分析竞 争策略,特别是在不完全竞争市场和寡头垄 断市场中。通过混合策略纳什均衡,可以研 究企业在不确定环境下的最优反应,以及企 业如何通过调整其策略来应对竞争对手的行 为。

混合策略纳什均衡

混合策略纳什均衡

混合策略纳什均衡混合策略纳什均衡是博弈论中一个重要的概念。

纳什均衡是指在一个博弈中,每个参与者都选择了最优的策略,而且即使其他参与者知道其他参与者的策略,他们也无法从自己的策略中获得更大的利益。

而混合策略则是指参与者通过随机化选择不同策略的概率来达到最优策略。

本文将深入探讨混合策略纳什均衡的概念、特点以及计算方法。

首先,混合策略纳什均衡是指参与者通过一定概率选择不同策略的方式达到最优策略。

在混合策略中,每个参与者都拥有一个策略概率分布,表示他们在不同策略下的选择概率。

这样,在博弈中,每个参与者将根据其策略概率分布中的概率随机选择其中一种策略。

对于每个参与者而言,他们的目标是通过选择最优的策略概率分布来最大化自己的期望收益或最小化自己的期望损失。

其次,混合策略纳什均衡与纳什均衡相比具有以下特点。

首先,混合策略纳什均衡可以推翻完全信息博弈中的固定策略均衡结果。

在完全信息博弈中,参与者可以根据对其他参与者策略的了解来做出精确决策,因此均衡状态是唯一确定的。

而在混合策略博弈中,由于参与者通过概率选择不同策略,他们无法准确地预测其他参与者的策略,因此均衡状态不再是唯一确定的。

其次,混合策略纳什均衡可以引入不确定性,增加博弈的复杂性。

参与者无法准确地预测其他参与者的策略,因此他们需要通过一定的概率选择策略来平衡风险与收益。

最后,混合策略纳什均衡可以通过均衡态的共同选择来实现长期的稳定状态。

在混合策略纳什均衡中,参与者通过随机化选择策略,从而消除了其他参与者可以预测自己策略的可能性,增加了稳定性。

最后,计算混合策略纳什均衡的方法主要有以下两种。

一种是通过计算参与者的最优策略概率分布来确定混合策略纳什均衡。

这种方法主要基于线性规划技术,通过最大化或最小化参与者的期望收益或损失来确定最优的策略概率分布。

另一种方法是通过迭代算法来求解混合策略纳什均衡。

这种方法主要是通过反复更新参与者的策略概率分布,直到达到均衡状态。

3 混合策略纳什均衡(1)

3 混合策略纳什均衡(1)
UB ( p, q) 2q(2 p 1) (2 p 1)
扩展:二人博弈标准型
n人参与的策略式博弈混合策略定义
• i 表示局中人 i 的混合策略空间
• p ( p1,..., pi ,..., pn ), pi i 表示博弈的一个混合策
略组合
• i ( p) i ( p1,..., pi ,..., pn ) 表示局中人 i 在混合策略 组合 p ( p1,..., pi ,..., pn ) 下的期望支付,它是混 合策略组合 p 的函数。
3-2 反应函数法
• 寻找同时决策有限博弈的混合策略纳什均衡
• B的混合策略设定为(q,1-q)时,A的最佳 反应函数是:
UA( p, q) 2 p(1 2q) (2q 1)
• A的混合策略设定为(p,1-p)时,B的最 佳反应函数是:
UB ( p, q) 2q(2 p 1) (2 p 1)
游戏; • 另外4名同学负责以下工作
– 1名同学记录A分别出锤子剪子布的次数; – 1名同学记录A输和赢的次数 – 1名同学记录B分别出锤子剪子布的次数; – 1名同学记录B输和赢的次数
• 共进行30次 • 每个小组写下实验报告,内容包括:A和B选 择不同策略的次数;输赢的次数;怎么才能赢?
3-1混合策略、混合纳什均衡与期望 支付
数学语言表达
• 如果主体人对确定性收益x的效用为u(x),那么主体 人对不确定性收益X的效用就为E(u(X))。
• E(u(X))称为X的期望效用,常记为EU(X)。将X看作 自变量, EU(X)称为期望效用函数。
• 如果不确定性收益X退化成确定性收益x,则EU(X)= u(x),所以EU(X)可以同时表达主体人对确定性收益 和不确定性收益的效用。

混合策略和混合策略纳什均衡

混合策略和混合策略纳什均衡

混合策略和混合策略纳什均衡这种博弈方以一定的概率分布在可选策略中随机选择的策略选择方式,被称为混合策略(Mixed Strategies )。

定义:在博弈{}1,,;,,n i n G S S u u =⋅⋅⋅⋅⋅⋅中,博弈方i 的策略空间为{}1,,i i ik S s s =⋅⋅⋅,则博弈方i 以概率分布{}1,,i i ik p p p =⋅⋅⋅随机在其k 个可选策略中选择的“策略”,称为一个“混合策略”,其中0≤p ij ≤1对j=1,…,k 都成立,且p i1+…+p ik =1。

1、混合策略和严格下策反复消去法(1)任何博弈方都不会采用任何严格下策,不管它们是纯策略还是混合策略;(2)严格下策反复消去法不会消去任何纳什均衡,包括纯策略纳什均衡和混合策略纳什均衡;(3)如果经过反复消去后留下的策略组合是唯一的,那么一定是纳什均衡。

练习2:求取“剪刀、石头、布”博弈的策略均衡解该博弈无纯策略解,但可求取混合策略解。

设甲选择三种策略的概率分别为q 1,q 2和1-q 1-q 2,乙选择其三种策略的概率分别为p 1,p 2和1-p 1-p 2给定乙的选择(概率p 一定),甲方选择三种策略的支付如下:π11=0×p 1+(-1)×p 2+1×(1-p 1-p 2)=1-p 1-2p 2 π12=1×p 1+0×p 2+(-1)×(1-p 1-p 2)=-1+2 p 1+ p 2 π13=(-1)×p 1+1×p 2+0×(1-p 1-p 2)=-p 1+p 2要存在混合策略均衡,则以上三种策略选择的支付应相等,即有:1-p 1-2p 2=-p 1+p 2 -1+2p 1+p 2=-p 1+p 2 所以,p 1+p 2=1/3同理,给定甲方的选择(概率q 一定),可有:π21=0×q 1+(-1)×q 2+1×(1-q 1-q 2)=1-q 1-2q 2 π22=1×q 1+0×q 2+(-1)×(1-q 1-q 2)=-1+2q 1+q 2 π23=(-1)×q 1+1×q 2+0×(1-q 1-q 2)=-q 1+q 2同样可求得:q1=q2=1/3因此,该博弈的混合策略均衡解为(1/3,1/3,1/3)练习3:试分析斗鸡博弈的混合策略均衡该博弈的两个纯策略解分别为:(2 ,0)和(0 ,2)还可求出其混合策略解。

博弈论-混合策略纳什均衡

博弈论-混合策略纳什均衡
• 思考一下:在这个博弈中,检查成本C,罚款F和应纳 税款数额a对纳税人逃税的影响是怎么样的?为什 么会有这样的影响?
整理版ppt
29
• 在这个博弈中,检查成本C越高,纳税人逃税的概率 越大;罚款F越高,纳税人逃税的概率越小;应纳税款 越大,纳税人逃税的概率反而越小。
• 应纳税款越大,纳税人逃税的概率反而越小?这
整理版ppt
15
讨论
• 上面的均衡要求每个参与人以特定的概率 选择纯策略。也就是说,一个参与人选择 不同策略的概率不是由他自己的支付决定 的,而是由他的对手的支付决定的。
• 正是由于这个原因,许多人认为混合策略 纳什均衡是一个难以令人满意的概念。
• 事实上,正是因为它在几个(或全部)策 略之间是无差异的,他的行为才难以预测, 混合策略纳什均衡才会存在。
不检查。
整理版ppt
26
之二
• 假设采用混合策略是税务机关的最优选择 那么给定p ,纳税人选择逃税和不逃税的期 望收益相等:
• -(a+F) p +0(1- p)= -a • 得p *=a/(a+F)
整理版ppt
27
说明
• 如果税收机关检查概率小于p*, • 即p<a/(a+F),纳税人的最优选择是逃税; • 如果税收机关检查的概率大于p*, • 即p=a/(a+F),纳税人的最优选择是不逃税; • 如果税收机关检查的概率等于p*, • 即p=a/(a+F),纳税人的选择无差异。
整理版ppt
33
夫妻之争的混合策略纳什均衡
看看这个博弈有几个均衡?
时装
丈夫
时装 妻 子
足球
2, 1 0, 0
足球 0, 0 1, 3

03 混合策略纳什均衡

03 混合策略纳什均衡

博弈论 第三章 混合策略纳什均衡
第一节 混合策略与期望支付
二、期望支付 3、数学刻画 、 博弈G={S1,…,Sn;u1,…,un}, 参与人 的纯策略空间为 参与人i的纯策略空间为 博弈 … Si= {si1,…,sik} … 混合策略p 表示参与人i选择纯 混合策略 i=(pi1,…,pik) , pik=p(sik )表示参与人 选择纯 … 表示参与人 策略s 的概率, 策略 ik的概率,0≤ pik ≤1,∑ pik=1 , 在纯策略情形下, 支付u 在纯策略情形下 支付 i=ui(s),对任何一个给定纯策略 , 组合s=(s1,s2,…sn), ui取-确定值 组合 与混合策略相伴的是得益(支付 的不确定性。这时: 与混合策略相伴的是得益 支付)的不确定性。这时 支付 的不确定性 混合策略组合p=( … … 混合策略组合 (p1,…,pi,…,pn) 对应混合策略组合的期望支付 期望支付为 对应混合策略组合的期望支付为:πi(p)=πi(pi, p-i) 4、两个局中人的期望支付 、
i =1 j =1 j =1 i =1
m
n
n
m
小 偷
例:小偷与守卫的猫鼠博弈 π小偷=8rq+(-2)r(1-q)+0⋅ (1-r)q+0⋅ (1-r)(1-q) ⋅ ⋅
=r[q⋅8+(1-q)(-2)]+ (1-r)[q⋅0+(1-q)⋅0] ⋅ ⋅ ⋅ =2r(5q-1) π守卫= (-2)rq+0⋅ r(1-q)+8(1-p)q+0⋅ (1-p)(1-q) ⋅ ⋅ =q [r⋅(-2)+(1-r)8]+ (1-q)[r⋅0+(1-r)⋅0] ⋅ ⋅ ⋅ =2q(4-5r)

3 混合策略纳什均衡(2)

3 混合策略纳什均衡(2)

判断
• 在帕累托标准和风险标准之间,理论给帕 累托优势以优先权,而风险优势只有在局 中人面临不知道选哪个均衡好的不确定性 的时候,才变得重要。当一个均衡具有帕 累托优势的时候,局中人一定选择这个均 衡,不确定性就不存在了。
3.聚点均衡
• 基本思想:在现实生活中,局中人可能会使用某 些被博弈模型抽象掉的信息来达到一个均衡。这 些信息往往跟社会文化习惯、局中人过去博弈的 历史和经历有关。
帕累托标准与风险优势的关系
• 如果在一个博弈中,按照帕累托效率的标 准筛选出的纳什均衡,与按照风险优势标 准筛选出来的纳什均衡不一致时,应当选 择哪一个呢?
• 帕累托优势标准:
–A
• 风险优势:
– 期望赢利比较法:
•B
– 损失偏离比较法:
•B
• 很多人会选择B。理由一:人是会犯错误的; 理由二:人不喜欢冒大的风险(风险厌 恶)。
– 因此,警方最终得到报告 的概率是0.49+0.42= 0.91。
• 如果博弈的参与人不是两个,而是很多个的时候, 情况就会有所变化。
• 假设存在N个参与人,若张三选择旁观,则无人报 警时张三的赢利为0,有人报警时张三的赢利为10; 若张三选择报警,则无论其他人报警与否张三的赢 利都为7。假设张三认为其他人旁观的概率为q,则:
– 如果甲采用下策略,他的期望赢 利将是(8+7)/2=7.5。
– 所以,从期望赢利来看,甲采用下策略是比较稳妥的:至少 可以得7,运气好可以得8。如果采用上策略,运气好固然可 以得9,但是运气不好可就将得0。为了稳妥起见,还是不要 冒得0的风险好。
– 可以说:右下角的“甲下乙右”的纳什均衡具有风险优势。
吉诺维斯谋杀案:混合策略的低效率

博弈论第三章混合策略纳什均衡.

博弈论第三章混合策略纳什均衡.

如果一个混合策略是流浪汉的最优选择,那一定意味 着政府在救济与不救济之间是无差异的,即:
vG 1,

4
1 vG 0,


0.2
• 解二:支付等值法
如果一个混合策略是政府的最优选择,那一定意 味着流浪汉在寻找工作与游闲之间是无差异的, 即:
vL 1, 1 3 vL 0, 0.5
游闲
(3,2) (-1,3)
(-1,1) (0,0)
政府和流浪汉的博弈
• 思考:政府会采用纯策略吗?流浪汉呢?这 个博弈有没有纯策略的纳什均衡? • ——跟你玩剪子石头布游戏一样,你会一直 采用纯策略吗? • 那么政府和流浪汉最有可能采用什么策略? • ——使自己的预期支付最大化。 • ——若能够猜的对方的策略,就可以采用针 对性的策略,使自己的支付增加。
L 2 1 0


0.5
解二:支付等值法
• 政府选择救济策略 • 政府选择不救济策略
0 1 期望效用 期望效用 vG 1, 3 11 vG 0, 1 01 4 1
EUA p1 X 1 p 2 X 2 ... pnXn
政府和流浪汉的博弈
• 政府想帮助流浪汉,但前提是后者必须试图寻 找工作,否则,不予帮助;而流浪汉若知道政 府采用救济策略的话,他就不会寻找工作。他 们只有在得不到政府救济时才会寻找工作。他 们获得的支付如图所示:
流浪汉
寻找工作
救济 政府 不救济
乙 红q 红p 甲 黑1-p -1, 1 1, -1 黑1-q 1, -1 -1, 1
§ 反应函数
• A的目标是期望支付越大越好。我们之所以把A的 期望支付整理成不含p的一项和含p的一项这个样 子,是因为A只能选择p而不能q,因此,A能通过 选择p来影响第一项,而不能直接影响第二项。 (1-2q)>0即q<1/2时,A把p选择等于1最好;当 (1-2q)<0即q>1/2时,A把p选择等于0最好;当 (1-2q)=0即q=1/2时,A可以在[0,1]之间随便 选择一个p。这样我们可以得到A的反应函数是, 同样道理我们可以得到B的反应函数。 • 0, 如果q>1/2 1, 如果p>1/2 • p [0,1], 如果q=1/2 q [0,1], 如果p=1/2 • 1, 如果q<1/2 0, 如果p<1/2

03 混合策略纳什均衡

03 混合策略纳什均衡

相关均衡例子 三个纳什均衡: 三个纳什均衡 (U,L)、(D,R) 和混合策略均衡[(1/2,1/2), (1/2,1/2)] 结果都不理想,不如(D,L)。
5)防联盟均衡 ) 博弈中若有三个及三个以上的局中人,就有可能部分人结 成“联盟”,在极大化联盟成员利益的同时损害了其他局 中人的利益。
甲 乙
2
( p, q ) = ∑∑ pi q j bij
i =1 j =1
混合策略纳什均衡 设 P * = ( P * , L, Pi* , L, Pn* ) 是 n 人策略式博弈 G = {S1 ,LSn ; u1 ,Lun } 1 的一个混合策略组合,如果对于所有的
i = 1, L , n ,
π i ( Pi* , P−*i ) ≥ π i ( Pi , P−*i ) 对于每一个 Pi ∈ ∑i 都成立,则称
i i
随机在其m个可选策略中选择的“策略”,称为一个“混合 策略”,其中 p ij 0≤
≤1
j 对,L, m =1
p 1i 都成立,且 + L + p im = 1
混合策略扩展博弈:博弈方在混合策略的策略空 混合策略扩展博弈 间(概率分布空间)的选择看作一个博弈,就是原 博弈的“混合策略扩展博弈。
L 0,0,10 -5,-5,0 A
R -5,-5,0 1,1,-5
乙 甲
L -2,-2,0 -5,-5,0 B
R -5,-5,0 -1,-1,5
U D
U D 丙
)、(D, , ) (U,L,A)、( ,R,B)——纯策略纳什均衡 , , )、( 纯策略纳什均衡 优于( , , ) (U,L,A) Pareto优于(D,R,B) , , ) 优于
2)制式问题

03 混合战略Nash均衡

03 混合战略Nash均衡

1
三、混合战略Nash均衡的求解
1. 支付最大化法; 2. 支付等值法;
• 社会福利博弈
流浪汉 寻找工作 流浪
救济 政府 不救济
3,2 -1,1
-1,3 0,0
没有一个策略组合构成纳什均衡
1、支付最大化法 、 流浪汉
寻找工作 流浪
假定政府的混合策略是 σ G = θ,− θ); ( 1 流浪汉的混合策略是 σ L = γ,− γ)。 ( 1 政府的期望效用函数为 : ( v( σ G, σ L) θ(3γ + − 1)(1 − γ)) = ( 0 + 1 − θ)( − γ + (1 − γ)) = θ(5γ − 1) γ − 求微分,得到政府最优 化的一阶条件: ∂ vG = 5γ − 1 = 0 ∂θ 故 γ * = 0 .2
• 例:
2
q b1 p
1
1−q b2 x2 , y2 x4 , y4

a1
x1 , y1 x3 , y3
1 − p a2
• 参与人1 的混合战略σ 1 = ( p,1 − p) ,参与人2 的 混合战略 σ 2 = (q,1 − q ) ; • 在混合战略组合σ = (σ 1 , σ 2 )下,战略组合 (a1 , b1 ) (a1 , b2 ) 、(a2 , b1 ) 、和 (a2 , b2 ) 出现的概率就分别 为 pq 、p (1 − q ) 、 − p ) q和(1 − p )(1 − q ) 。 (1
= pqy1 + (1 − p)qy3 + p (1 − q ) y2 + (1 − p)(1 − q) y4
二、混合战略Nash均衡
• 问题: 问题: 在“猜硬币”游戏中,参与人往往会以50%的概 率选择正面(O),以50%的概率选择反面(R),即 选择混合战略σ=(0.5,0.5)。如我们在介绍Nash 均衡的概念时一样,我们想知道,有没有参与 有没有参与 人会偏离混合战略σ 人会偏离混合战略 i=(0.5,0.5)呢? , 呢

经济博弈论第三讲混合博弈

经济博弈论第三讲混合博弈

• 2.市场机会 设两个厂商都发现了一个市场机会,但市场 容量不大。若只有一家进入,能赚100,若同时进入,则 各亏50. • 厂商2 • 进 不进 • 进 -50,-50 100, 0 • 厂商1 • 不进 0 ,100 0 , 0,0 • 本博弈也有两个纯策略纳什均衡(不进,进),(进,不 进)但它们分别有利于两个厂商,因此这两个均衡都不容 易实现,都应采取混合策略。 • 请同学们自己计算混合策略纳什均衡及得益。
在包括混合策略的情况下,严格劣策略消去 法有时仍然使用。因为严格劣策略消去法 不会消去任何纳什均衡。如下面的例子: • 乙 • A B • C 3,1 0,2 • 甲 D 0,2 3,3 •
• 甲、乙的策略没有好坏之分。但若甲以混合策略 (0.5,0.5,0)选择C、D、E,则博弈方乙选择 纯策略A时,甲期望得益 • 0.5×3+0.5×0+0×1=1.5 • 乙选择纯策略B时,甲期望得益 • 0.5×0+0.5×3+0×1=1.5 • 乙选择混合策略(q,1-q) 时,甲期望得益 • 0.5×q×3+0.5×(1-q) ×0+0.5×q×0 • +0.5×(1-q) ×3=1.5
• 1.制式问题 彩电有不同的制式,采用相同的制 式,则不同厂商间的零部件可以通用,相关设备 可以相互匹配,对大家有一定的好处,但也有互 相竞争的压力和损失。设两个厂商要引进生产线, 面临A、B 两个制式,其得益矩阵如下: • 厂商2 • A B • A 1,3 0,0 • 厂商1 • B 0,0 2,2

• • • •
救济 政府 不救济
流浪汉
找工作 3,2
-1,1
游荡 -1,3
0,0
• 设想政府以1/2的概率选择救济,1/2的概率选择不救济。对流浪汉来 说,选择寻找工作的期望效用是1/2×2+ 1/2×1=1.5,选择游荡带来 的期望效用为1/2×3+ 1/2×0=1.5。所以流浪者的任何一种策略(纯 的或混合)都是对政府所选择的混合策略的最优反应。 • 如果流浪汉以0.2的概率选择找工作,以0.8的概率选择游荡,政府的 任何一种策略(纯的或混合)都是对流浪汉所选择的混合策略的最优 反应。每一个参与人的混合策略都是给定对方混合策略时的最佳选择, 这一混合策略组合就是一个纳什均衡

第三章混合策略纳什均衡(博弈论教程石家庄经济学院,

第三章混合策略纳什均衡(博弈论教程石家庄经济学院,

博弈论第三章
15
第一讲 概念与方法
第二节 研究方法:反应函数法
➢——最佳反应函数曲线交叉法
➢一、案例:麦琪的礼物

Dela

剪发q 保留(1-q)

卖表p
-2,-2
2,2
➢Jim
2,2
0,0
➢ 保留(1-p)
2021年6月30日
博弈论第三章
16
第一讲 概念与方法
二、研究方法:反应函数法
➢二、期望支付 ➢1.UJim=(-2)pq+2p(1-q)+2(1-p)q+0(1-
p
➢1.交点(1,0) 1
互相为对方着 想,期望支付
变小
➢双方支付为2
➢2.交点(0,1)
➢双方支付为2 1/3
➢3.交点(1/3,1/3)
➢双方支付为2/3
1/3
q 1
2021年6月30日
博弈论第三章
20
第一讲 概念与方法
作业
➢利用反应函数法求解“社会福利博弈” ➢是否需要调整数据? ➢可得出有关社会保障体系改革的结 论?
Dela 剪发越好
➢UDel=2q(1-3p)+2p
1,ifp 1/ 3,此时1 3p 0, q越大越好 q [0,1],ifp 1/ 3
0,ifp 1/ 3,此时1 3p 0, q越小越好
2021年6月30日
博弈论第三章
19
第一讲 概念与方法
二、研究方法:反应函数法
➢四、反应函数曲
线
p)(1-q)=2p(1-3q)+2q ➢整理原则:一项含p,一项不含p ➢2.UDel=(-2)pq+2p(1-q)+2(1-p)q+0(1p)(1-q)=2q(1-3p)+2p ➢整理原则:一项含q,一项不含q

第三讲混合策略纳什均衡

第三讲混合策略纳什均衡

这个故事曾经被很多人当作博弈论的例 子来演绎,但实际上这个故事与博弈论无关。 博弈论会假定所有局中人都是理性的,不能假 定一些局中人聪明而另一些局中人却是傻子。 当田忌出下马时,齐威王最好的选择是出下马 而不是上马。孙膑的计谋中假定齐威王是傻子 ,当田忌出下、上、中马时,他仍然按上、中 、下马出,当然要输了。事实上,当田忌出下 马时,齐威王应出下马,但齐威王出下马时, 田忌不应出下马而是出中马,但此时齐威王又 应出中马而不是下马了,……。这样,博弈不 会有纯战略的均衡。
0.8 0.8 2 0.8 0.25 0.2 0.83 0.2 0.21 2.6
博弈方2的期望得益为:
u1e pqu2 A,C p(1 q)u2 A, D (1 p)qu2 B,C (1 p)(1 q)u2 B, D
0.8 0.83 0.8 0.21 0.2 0.8 2 0.2 0.25 2.6
田忌的谋士孙膑了解了田忌的困境 后,就打听到这样一个消息:尽管齐威 王的上、中、下三匹马都要比田忌的对 应上、中、下三匹马好,但碰巧的是田 忌的上马可胜齐威王的中马,田忌的中 马可胜齐威王的下马。于是,孙膑为田 忌献计:下一次比赛中第一局时田忌出 下马对齐威王的上马输一局,第二局田 忌出上马对齐威王的中马,第三局田忌 出中马对齐威王的下马,这样可连赢两 局,最后净胜一千斤铜。田忌依计而行 ,果真赢回一千斤铜。
◆参与人1的期望支付:
参与人2
S21 q
S22
1-q
如果参与人1选择S11:
qu1 (1 q)u3
如果参与人1选择S12:
参与 S11 p
人2
S12 1-p
u1,u2 u5,u6
u3,u4 u7,u8
qu5 (1 q)u7

3 混合策略纳什均衡(1)

3 混合策略纳什均衡(1)
– 纯策略是每个局中人具体明确了一个非随机性 的行动计划。 – 混合策略是局中人可以按照一定的概率,随机 地从纯策略集合中选择一种纯策略作为实际的 行动。
• 例:从局中人甲的角度看,他有出红牌和出黑牌 两种“纯策略”,还有以p的概率出红牌和以1-p的 概率出黑牌的“混合策略”。
– 若p=0.4,则甲的混合策略是(p,1-p),即(0.4, 0.6),甲以40%的概率出红牌,以60%的概率出黑牌。 – 甲的混合策略(0,1) 就是纯策略(只出黑牌)。 – 因此,混合策略概念是纯策略概念的推广。
补充:埃奇沃斯图与帕雷Edgeworth图 • 禀赋点e为假设自主交换能够实现帕累托改进,达到更优的 配置点
– 对消费者1,其所偏好的区域为红色区域,最终的配置点必须在这一 区域内,否则,他拒绝交换或抵制这一配置。 – 对消费者2,其所偏好的区域为蓝色区域,最终的配置点必须在这一 区域内,否则,他拒绝交换或抵制这一配置。
• 3-1混合策略与期望支付 • 3-2 反应函数法 • 3-3埃奇沃斯图与帕雷托有效
3-1混合策略与期望支付
• 两人博弈。每人从自己的扑克牌中抽一张,一起 翻开。如果颜色一样。甲输给乙一根火柴;如果 颜色不一样,甲赢得乙的一根火柴。试分析该博 弈纳什均衡的情况。
混合策略和纯策略
• 每个局中人最合理的做法。是随机地出红牌 或出黑牌。然后看能不能凭运气击败对手。 局中人这种随机化自己可选策略的做法,就 是采取“混合策略”的思想。 • 混合策略和纯策略
• 因此,最终的配置点必须在重叠的区域中——凸透镜区域内和 边上。在这一区域里,双方或至少一方的福利能够提高。
• 交换过程持续下去,凸透镜越来越小,最终变为一 个点:两条无差异曲线的切点。此时,双方进一步 交换会使某一方福利下降。所以,双方的交换一旦 达到了切点位置,就不会有交换发生。实现了帕累 托最优。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三讲混合策略纳什均 衡
PPT文档演模板
2020/12/8
第三讲混合策略纳什均衡
引言
◆有些博弈不存在纳什均衡,或者纳什均衡不唯
一,如猜硬币博弈,前述纳什均衡分析就无法 对博弈方的选择和博弈结果作明确的预测。 ◆这部分对不存在纳什均衡和存在多个纳什均衡 的博弈作一些讨论。
PPT文档演模板
第三讲混合策略纳什均衡
被选择的策略。 ➢ ◆混合策略 ➢ 混合策略:以一定的概率分布选择某几个行动的
策略。
PPT文档演模板
第三讲混合策略纳什均衡
混合策略
•◆混合策略定义:在n人博弈的策略式表述
中,假定参与人 有K个纯策略:
,那么,概率
分布
称为 的一个混合策略,这里
是 选择 的概率,对于所有


•◆ 显然,纯策略可以理解为混合策略的特例,比如说,
PPT文档演模板
第三讲混合策略纳什均衡
混合策略均衡
•工人
假定老板选择混合战略(0.5,
•监督 •老板
•不监督
•偷懒 1,-1 -2,3
•不偷懒
0.5) 工人选择“偷懒”期望支付
-1,2 •0. 为 (-1)×0.5+3×0.5=1
2,2
5 工人选择“不偷懒”期望支 •0. 付为2×0.5+2×0.5=2
n 博弈方2的期望得益为:
PPT文档演模板
第三讲混合策略纳什均衡
多重均衡博弈和混合策略
一、夫妻之争的混合策略纳什均衡
◆首先,该博弈有两个纳什均衡,本博弈的两个博弈方 不会害怕对方猜到自己的选择,他们主观上并不想隐 藏自己的选择。因此,该博弈中两博弈方的决策思路
和原则应该与没有纳什均衡的严格竞争博弈有所不同。
第三讲混合策略纳什均衡
两人只能玩混合战略博弈,齐威 王分别以1/6随机的概率选择出上、中 、下马的任一排列,田忌也如此。由于 齐威王存在绝对优势,他平均看来仍然 会赢田忌一千斤铜。
PPT文档演模板
第三讲混合策略纳什均衡
混合策略均衡
◆纯策略与纯策略纳什均衡 纯策略:肯定会被选择——以100%的概率——
•如果参与人1选择S12:
•EV1(p,q)=
•◆参与人2的期望支付: •EV2(p,q)=
PPT文档演模板
第三讲混合策略纳什均衡
混合策略均衡
例:监督博弈
•老 •监 板督
•不监 督
•工
•偷 人 •不偷
1懒,-1
懒-1,2
-2,3
2,2
•给定工人偷懒,老板的最优 •选择是监督;给定老板监督, •工人的最优选择是不偷懒; •给定工人不偷懒,老板的最 •优选择是不监督;给定老板 •不监督,工人的最优选择是 •偷懒;如此循环。
混合策略的引进
一、扑克牌对色游戏 •乙
•红
•黑
•红 •甲
•黑
•-1, 1 •1, -1
•1, -1 •-1, 1
•不存在前面定义的纳什均衡策略组合。
•这类博弈很多,引出混合策略纳什均衡概念。
PPT文档演模板
第三讲混合策略纳什均衡
混合策略的相关概念
◆混合策略是一种按照什么概率选择这个纯策略、
按照什么概率选择那种纯策略的策略选择指示。
•支付最大化法求混合战略纳什均衡
•监 •老 督 板 •不监

•工 •偷 人 1懒,-1
-2,3
•p
•不偷 懒-1,2
2,2 •1-p
•给定工人的混合战 略为(p,1-p),老板的 •q 混合战略为(q,1-q)
•1-q
•工人的期望支付函数为
•(-1)pq+2(1-p)q+3p(1-q)+2(1-p)(1-q)=-4pq+p-2q+2
PPT文档演模板
第三讲混合策略纳什均衡
混合策略均衡
◆参与人1和参与人2的混合策略组合 构成均
衡的必要条件:
PPT文档演模板
第三讲混合策略纳什均衡
混合战略均衡的求解方法
◆方法1:支付最大化法
给定其他参与人的混合战略,自己选择行动的概 率分布要使自己期望支付最大化。
பைடு நூலகம்
PPT文档演模板
第三讲混合策略纳什均衡
以混合战略博弈我们来看下面几个 例子。
PPT文档演模板
第三讲混合策略纳什均衡
例子1 为什么一般人总是小错不断,大 错不犯;偷税漏税的一般是中小企业, 大企业会老老实实地交税?
税务部门不会对所有企业的交税情
况每一次都去检查,因为这样做的成本
太高,得不偿失。所以,税务部门总是
随机地对企业的交税情况进行检查。
忌出上马对齐威王的中马,第三局田忌
出中马对齐威王的下马,这样可连赢两
局,最后净胜一千斤铜。田忌依计而行
PPT文档演模板 ,果真赢回一千斤铜。
第三讲混合策略纳什均衡
这个故事曾经被很多人当作博弈论的例
子来演绎,但实际上这个故事与博弈论无关。
博弈论会假定所有局中人都是理性的,不能假
定一些局中人聪明而另一些局中人却是傻子。
PPT文档演模板
•得:q=1/3
•夫妻之争博弈的混合策略纳什均衡

策略
得益
•妻子 (0.75,0.25) 0.67
•丈夫 (1/3,2/3) 0.75
第三讲混合策略纳什均衡
◆可见,这个结果明显不如夫妻双方能交流协商
•最优化一阶条件为:-4q+1=0 q*=1/4
PPT文档演模板
第三讲混合策略纳什均衡
混合战略均衡的求解方法
◆方法2:支付等值法
自己选择策略概率分布使对方不会偏好于任何行 动,即选择每一个策略都会得到相同的收益。
PPT文档演模板
第三讲混合策略纳什均衡
例子
例:博弈方1的混合策略(p,1-p)
博弈方2的混合策略(q,1-q) •博弈方2
条件必须是工人也不会重复地选择纯策略。
因此,老板以概率q选择监督必然意味着在这种情况下 工人没有合适的纯策略选择。====老板的选择必须使工人 在两个纯策略之间随机选择。
n 工人什么情况下随机选择?
PPT文档演模板
第三讲混合策略纳什均衡
混合策略均衡
◆当工人选择任何一个策略的期望支付相等时,只能随机 选择。于是,3-4q=2 ,即q*=1/4,1- q*=3/4。这样,当老板选 择(1/4,3/4)的混合战略时,可以使工人在两个纯战略之 间无差异。 ◆ 同理,假设工人选择(p,1-p),(p,1-p)成为其最优混合战略 的条件是老板在选择监督与选择不监督之间无差异,即 1×p+(-1)(1-p)=(-2)p+2(1-p),即p*=1/2,1- p*=1/2。 ◆当老板选择(1/4,3/4),工人选择(1/2,1/2)时,刚 好互为彼此的最优反应,达到纳什均衡状态,称为混合战略 纳什均衡。
PPT文档演模板
第三讲混合策略纳什均衡
企业也是随机地在交税与偷漏税之 间进行选择。税收部门与企业间进行的 是混合战略博弈。因为如果企业总是交 税,税务部门就最好不检查;但给定不 检查,企业就会偷漏税。所以,两者只 有在随机地检查与不检查,企业随机地 在偷漏税与交税之间选择,才会达成均 衡。
PPT文档演模板
◆混合策略表明:参与人可以按照一定的概率,随 机地从纯策略集合中选择一种纯策略的实际行动 。
◆期望值:假定存在 个可能的取值 ,
并且这些取值发生的概率分别为: 值为:
,则期望
PPT文档演模板
第三讲混合策略纳什均衡
••混合策略博弈
小孩玩的游戏“石头,剪子,布” ,也是一种博弈。但是,这个博弈有一 种有趣的特征,即给定一方的任何选择 ,另一方都有制胜对方的战略,因而这 个战略不是最优的。任何“纯战略”都 不是最优的,纯战略是“石头,剪子, 布”中的任何一个。
•丈 夫
•时 装 •足 球
•妻 •时装 •子 •足球
•2, 1 •0, 0
•0, 0 •1, 3
PPT文档演模板
•夫妻之争第三讲混合策略纳什均衡
◆但显然,双方的偏好不同,妻子喜欢前一个,丈夫喜欢
后一个。故在纯策略的范围内,该博弈也是无法对两博 弈方的选择提出确定性建议,因此也需要考虑博弈方采 用混合策略的可能性。
PPT文档演模板
第三讲混合策略纳什均衡
期望支付
例:
•参与 •S11 人2 p
•S12 p
•参与人2
•S21 •q
•S22 •1-q
u1,u2
u3,u4
1- u5,u6
u7,u8
•◆参与人1的混合策略:(p,1-p) • 参与人2的混合策略:(q,1-q) •◆参与人1的期望支付: •如果参与人1选择S11:
PPT文档演模板
第三讲混合策略纳什均衡
石头、剪刀、布
•博弈方2
•石 头 •剪 子 •布
•博 •石 头 •0, 0 •1, -1 •-1, 1
•弈 •方 •1
•剪 子 •-1, 1 •0, 0 •1, -1 •布 •1, -1 •-1, 1 •0, 0
PPT文档演模板
第三讲混合策略纳什均衡
但是,我们知道,玩这个游戏总是 以对方不易猜出的随机方式出招。事实 上,可以通过数学证明,当双方都以每 个战略按1/3的概率出招时,达成一种 双方都不愿改变这种概率分布的局面。 这被称为“混合战略纳什均衡”,而这 种以随机方式选择纯战略的博弈被称为 “混合战略博弈”。
第三讲混合策略纳什均衡
对于大企业,因一旦偷税数额就巨大,所 以,税务部门在随机检查时放在大企业上的可 能性就大一些;而给定税务部门检查大企业的 可能性较大,大企业偷漏税的行为就较少,否 则就容易被逮个正着。所以,偷漏税较多的就 是一些中小企业,大企业纳税的积极性较高。 同样的道理,在犯罪或对错误的监督惩罚博弈 中,也是混合博弈,人们可能总是大错不犯小 错不断。
相关文档
最新文档