第三讲_混合策略纳什均衡

合集下载

3-混合策略的纳什均衡

3-混合策略的纳什均衡

博弈论教学/混合策略的纳什均衡出自MyKnowledgeBase< 博弈论教学Bread crumbs: Main Page > 博弈论教学/混合策略的纳什均衡目录■1 复习■2 混合策略(Mixed strategy)■2.1 举例/Example■2.2 概念■2.3 纯策略和混合策略■2.4 混合策略的争议■3 混合策略的纳什均衡■3.1 基本概念■3.2 混合策略纳什均衡的存在性/纳什定理■3.3 学术争议与批评■4 混合策略纳什均衡举例■4.1 社会福利博弈Social Welfare Game■4.1.1 博弈分析(方法1:收益无差异)■4.1.2 博弈分析(方法2:图形分析法)■4.1.3 博弈分析(方法3:导数(Derivative)极值法)■4.2 普通例子■4.3 审计博弈(Tax Game)■4.4 激励的悖论[5]■4.5 求解纳什均衡的一般方法■5 多重纳什均衡■5.1 多重纳什均衡举例■5.1.1 夫妻之争■5.1.2 制式问题■5.1.3 市场机会博弈■5.2 多重纳什均衡分析■5.2.1 帕累托上策均衡(Pareto Dominated Equilibrium)■5.2.1.1 帕累托最优Pareto optimality■5.2.1.2 帕累托上策均衡(Pareto Dominated Equilibrium)■5.2.1.3 举例分析■5.2.2 风险上策均衡(Risk-dominant Equilibrium)■5.2.3 聚点均衡(Focal Points Equilibrium)■5.2.4 相关均衡■5.2.5 抗共谋均衡(coalition-proof Nash equilibrium)■6 纳什均衡的意义■7 作业■8 参考文献pure strategy)相对应。

混合策略:在博弈中,博弈方的策略空间为,则博弈方i以概率分布随机在其选策略中选择的“策略”,称为一个“混合策略”,其中,对都成立,且。

3 混合纳什均衡

3 混合纳什均衡

13
混合Nash均衡的解释(2)
纳什均衡要求每个参与人的混合战略是给定对方的混合战略下的最 优选择。因此在社会福利博弈中,* 0 . 2 , *=0.5是唯一的混合战略 纳什均衡。 从反面来说,如果政府认为流浪汉选择寻找工作的概率严格小于0.2, 那么政府的唯一最优选择是纯战略:不救济;
如果政府以1的概率选择不救济,流浪汉的最优选择是寻找工作,这 又将导致政府选择救济的战略,流浪汉则选择游荡。如此等等。
14
混合Nash均衡的解释(3)
流浪汉
政府
流浪汉
寻找工作的概率小于0.2
概率为1:不救济
寻找工作
政府 救济
15
猜谜游戏
求该猜谜游戏 的混合战略纳什 均衡
正面
1 -1, -1
5
社会福利博弈
寻找工作
2
流浪
3 -1,
救济
3, 1
0 0,
不救济
-1,
设:政府救济的概率:1/2 ;不救济的概率:1/2。
流浪汉:寻找工作的期望效用:1/2×2+1/2 ×1=1.5 流浪的期望效用: 1/2×3+1/2 ×0=1.5
因此,流浪汉的任何一种策略都是都是对政府混合战略的最优反应
6
社会福利博弈(2)
寻找工作
2 3, 1
流浪
3 -1, 0 0,
3r+(-1)(1-r)=4r-1
选择纯战略不救济的效用为:
-1r+0(1-r)=-r
如果一个混合战略(而不是纯战略) 是政府的最优选择,一定意味着政府 在救济与不救济之间是无差异的。
救济
不救济
-1,
4r-1=-r

博弈论混合策略纳什均衡 ppt课件

博弈论混合策略纳什均衡 ppt课件
• 经济学上的监督博弈也是这样一个例子。如税收 检查、质量检查、惩治犯罪、雇主监督雇员等都 可以看成猜谜博弈。
博弈论混合策略纳什均衡
纳什定理:在一个由n个博弈方的博弈G { S 1 , S n ;u 1 , 中u n ,}
如果n是有限的,且 都S是i 有限集(对 i1,) ,n则该博弈
至少存在一个纳什均衡,但可能包含混合策略。 • 证明过程省略,主要根据是布鲁威尔和角谷的不动点定理。 • 纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析
E A U p 1 X 1 p 2 X 2 . .p .n X n
博弈论混合策略纳什均衡
• 政府想帮助流浪汉,但前提是后者必须试图寻 找工作,否则,不予帮助;而流浪汉若知道政 府采用救济策略的话,他就不会寻找工作。他 们只有在得不到政府救济时才会寻找工作。他 们获得的支付如图所示:
流浪汉
寻找工作
博弈论混合策略纳什均衡
• 因此,秘决在于—— • 自己的策略选择不能预先被对手方知道或猜
测到,在该博弈的多次重复中,博弈方一定 要避免自己的选择具有规律性; • 观察对手方策略选择是否具有规律或者偏好, 预先猜测对手策略,从而采用针对性策略赢 得这个博弈。
博弈论混合策略纳什均衡
• 纯策略(pure strategies):如果一个策略规 定参与人在一个给定的信息情况下只选择一 种特定的行动。
游闲
政府
救济 不救济
博弈论混合策略纳什均衡
• 思考:政府会采用纯策略吗?流浪汉呢?这 个博弈有没有纯策略的纳什均衡?
• ——跟你玩剪子石头布游戏一样,你会一直 采用纯策略吗?
• 那么政府和流浪汉最有可能采用什么策略? • ——使自己的预期支付最大化。 • ——若能够猜的对方的策略,就可以采用针

第3章混合战略Nash均衡

第3章混合战略Nash均衡

All Rights Reserved, 2007, Luo Yunfeng
一、混合战略
• “猜硬币”博弈
两个参与人各握有一枚硬币,双方同时 选择是正面向上(记作O)还是背面向上(记作R), 即他们的战略空间都是{O, R}。若两枚硬币是 一致的(即全部背面向上或者全部正面向上), 参与人2赢得参与人1的硬币;若两枚硬币不一 致,则参与人1赢得参与人2的硬币。
二、混合战略Nash均衡
• 提一个问题: 在“猜硬币”游戏中,我们往往会以50%
的概率选择正面(O),以50%的概率选择反面 (R),即选择混合战略σ=(0.5,0.5)。那么有没 有参与人会偏离混合战略σi=(0.5,0.5)呢?
Control Science and Engineering, HUST
个概率分布 i

(
1 i
,
...,

K i
)
其中

j i
(
j

1,...,
K)
表示参与人i选择战略
sij
的概率,即 ij 满足:
K
0


j i
1
,

j i
1
j 1
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
All Rights Reserved, 2007, Luo Yunfeng
第三章混合战略Nash均衡
主要内容: 一、混合战略; 二、混合战略Nash均衡; 三、混合战略Nash均衡的求解。
Control Science and Engineering, HUST

第三章混合策略纳什均衡(博弈论教程石家庄经济学院,

第三章混合策略纳什均衡(博弈论教程石家庄经济学院,

博弈论第三章
15
第一讲 概念与方法
第二节 研究方法:反应函数法
➢——最佳反应函数曲线交叉法
➢一、案例:麦琪的礼物

Dela

剪发q 保留(1-q)

卖表p
-2,-2
2,2
➢Jim
2,2
0,0
➢ 保留(1-p)
2021年6月30日
博弈论第三章
16
第一讲 概念与方法
二、研究方法:反应函数法
➢二、期望支付 ➢1.UJim=(-2)pq+2p(1-q)+2(1-p)q+0(1-
p
➢1.交点(1,0) 1
互相为对方着 想,期望支付
变小
➢双方支付为2
➢2.交点(0,1)
➢双方支付为2 1/3
➢3.交点(1/3,1/3)
➢双方支付为2/3
1/3
q 1
2021年6月30日
博弈论第三章
20
第一讲 概念与方法
作业
➢利用反应函数法求解“社会福利博弈” ➢是否需要调整数据? ➢可得出有关社会保障体系改革的结 论?
Dela 剪发越好
➢UDel=2q(1-3p)+2p
1,ifp 1/ 3,此时1 3p 0, q越大越好 q [0,1],ifp 1/ 3
0,ifp 1/ 3,此时1 3p 0, q越小越好
2021年6月30日
博弈论第三章
19
第一讲 概念与方法
二、研究方法:反应函数法
➢四、反应函数曲
线
p)(1-q)=2p(1-3q)+2q ➢整理原则:一项含p,一项不含p ➢2.UDel=(-2)pq+2p(1-q)+2(1-p)q+0(1p)(1-q)=2q(1-3p)+2p ➢整理原则:一项含q,一项不含q

混合策略纳什均衡

混合策略纳什均衡

03 混合策略纳什均衡的证明 方法
反证法
总结词
通过假设不成立来证明均衡的存在。
详细描述
反证法是一种常用的证明方法,它首先假设与结论相反的命题成立,然后通过逻辑推理和数学推导,得出矛盾的 结论,从而证明原命题的正确性。在证明混合策略纳什均衡的存在时,反证法可以用来证明当其他玩家采取了最 优策略时,某个玩家采取混合策略能够达到最优结果。
唯一性意味着在给定对手策略的情况下,每个参与者都只有一个最优反应,从而 避免了复杂的策略互动和不确定性。
存在性
混合策略纳什均衡的存在性是指在某 些博弈中,至少存在一个策略组合, 使得每个参与者在给定其他参与者策 略的情况下,采用混合策略是最优的 。
存在性通常通过数学证明和计算机搜 索等方法来证明,但并不是所有博弈 都有混合策略纳什均衡。
混合策略纳什均衡
目录
CONTENTS
• 混合策略纳什均衡的定义 • 混合策略纳什均衡的特性 • 混合策略纳什均衡的证明方法 • 混合策略纳什均衡的应用场景 • 混合策略纳什均衡的局限性 • 混合策略纳什均衡的发展前景
01 混合策略纳什均衡的定义
定义
混合策略纳什均衡是一种博弈论中的均衡概念,它描述了在 给定对手策略的情况下,参与者如何选择最优策略以最大化 自己的期望收益。
代数法是一种通过数学符号和公式进行推 理和证明的方法。在证明混合策略纳什均 衡的存在时,代数法可以用来推导和证明 纳什均衡的条件和性质,利用代数性质和 技巧来证明均衡的存在。
04 混合策略纳什均衡的应用 场景
经济学
竞争策略分析
混合策略纳什均衡在经济学中被用于分析竞 争策略,特别是在不完全竞争市场和寡头垄 断市场中。通过混合策略纳什均衡,可以研 究企业在不确定环境下的最优反应,以及企 业如何通过调整其策略来应对竞争对手的行 为。

博弈论混合策略纳什均衡

博弈论混合策略纳什均衡

博弈方1 (0.8,0.2) 2.6
博弈方2 (0.8,0.2) 2.6
夫妻之争的混合策略纳什均衡
看看这个博弈有几个均衡?
时装 妻 子
足球
时装 2, 1
丈夫
足球 0, 0
0, 0
1, 3
夫妻之争
存在两个纯策略均衡
时装 妻 子
足球
时装 2, 1
丈夫
足球 0, 0
0, 0
1, 3
夫妻之争
还存在混合策略纳什均衡
vL1,13vL0, 0.5
政府和流浪汉的博弈
• 如果政府救济的概率小于0.5; • 则流浪汉的最优选择是寻找工作; • 如果政府救济的概率大于0.5; • 则流浪汉的最优选择是游闲等待救济。 • 如果政府救济的概率正好等于0.5; • 流浪汉的选择无差异。
讨论
• 上面的均衡要求每个参与人以特定的概率选择纯策略。也就是说,一个参与人选择不同策略 的概率不是由他自己的支付决定的,而是由他的对手的支付决定的。
n
• 证明过程省略,主要根据是布鲁威尔和角谷i 的不动点定理。
• 纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析核心概念的根本原因之一。
§扑克牌对色游戏
• 甲乙玩扑克牌对色游戏,每人都有红黑两张扑克牌,约定如果出牌颜色一样,甲输乙赢,如果 出牌颜色不一样,则甲赢乙输。
• 找到这个博弈的纳什均衡。
字母说明
• 此博弈不存在纯策略纳什均衡。 • 我们用p代表税收机关检查的概率;q代表纳税人逃税的概率。
求解:混合战略纳什均衡之一
• 假定纳税人采用混合策略达到最优选择时,则税收机关在检查和不检查两种策略的期望收益 相等:
• (a-C+F) q+(a-C)(1- q)=a(1- q) • q*=C/(a+F)

混合策略纳什均衡正式版PPT文档

混合策略纳什均衡正式版PPT文档

• 混合策略 vs.纯策略 (不确定性 vs.确定性)
•在博弈 G { S 1 , S n ;u 1 , u n } 中,博弈方i 的策略空Si {si1, sik }

i ,那么p博i 弈(p 方i1, 以,p 概ik)率分布 k
随机在其 个可p 选i1 策略 中p 选ik择1 的“策略〞0,p称ij 为1一个j “1,混 ,合k策
略〞,其中

都成立,且
•纯策略可以理解为混合策略的特例,即在诸多策略中,选择 该纯策略的概率为1,选其他纯策略的概率为0.
•为何参与人可能会选择带不确定性的混合策略而放弃确定性 的纯策略?
•参与人主观因素造成的犹豫不决
•外在客观因素的不确定性带来应对策略的不确定性
•迷惑对手:为了让其它参与人不能清楚了解自己的选择
混合策略的提出——猜硬币博弈
混检合查策 成•略本纳C 此什越均高时衡,的纳,含税流义人:逃浪税的汉概选率就择越大任。何混合策略的期望效用都是1.5,那么流浪汉的 税收机关以任何的一概种率检策查,略纳(税纯人以的γ=1的或概率γ选=择0逃或税混。 合的0<γ<1)都是政府所选择的混合 策略的最优反响。 E1(反面)=1× r + (-1)×(1-r) = 2 r-1
•参与人的支付为
ui(s1j1,s2j2 ,snjn)
p p 1j1 2j2
pnjn
•发生此情况的概率为
• 参E 与i(人p )的期m 1望m 2 效用m n :p 1j1p 2j2 p n jnu i(s1j1,s2j2 ,sn jn) j1 1j2 1 jn 1
• 由于混合策略伴随的是支付的不确定性,因此参 与人关心的是其期望效用。
设:政府救济的概率θ=1/2 ;

混合策略纳什均衡

混合策略纳什均衡
11
田忌的谋士孙膑了解了田忌的困境
后,就打听到这样一个消息:尽管齐威
王的上、中、下三匹马都要比田忌的对
应上、中、下三匹马好,但碰巧的是田
忌的上马可胜齐威王的中马,田忌的中
马可胜齐威王的下马。于是,孙膑为田
忌献计:下一次比赛中第一局时田忌出
下马对齐威王的上马输一局,第二局田
忌出上马对齐威王的中马,第三局田忌
9
对于大企业,因一旦偷税就数目巨大,所 以,税务部门在随机检查时放在大企业上的可 能性就大一些;而给定税务部门检查大企业的 可能性较大,大企业偷漏税的行为就较少,否 则就容易被逮个正着。所以,偷漏税较多的就 是一些中小企业,大企业纳税的积极性较高。 同样的道理,在犯罪或对错误的监督惩罚博弈 中,也是混合博弈,人们可能总是大错不犯小 错不断。
15
混合策略均衡
◆混合策略定义:在n人博弈的策略式表述G S1,, Sn;u1,,un 中,假定参与人 i 有K个纯策略:Si Si1,, SiK ,那么,概率
分布 pi pi1,, piK 称为参与人 i 的一个混合策略,这里
pik p(sik ) 是参与人 i 选择sik 的概率,对于所有
14
混合策略均衡
◆纯策略与纯策略纳什均衡 ➢ 纯策略:肯定会被选择——以100%的概率——被
选择的策略。
➢ 纯策略纳什均衡:各个参与人都选择纯策略的纳 什均衡。
◆混合策略与混合策略纳什均衡
➢ 混合策略:以一定的概率分布选择某几个行动的 策略。
➢ 混合策略纳什均衡:由参与人的混合策略构成的 纳什均衡。
当田忌出下、上、中马时,他仍然按上、中、
下马出,当然要输了。事实上,当田忌出下马
时,齐威王应出下马,但齐威王出下马时,田

混合策略纳什均衡

混合策略纳什均衡

友军博弈
英 国 支持巴顿 支持蒙帅 支持巴顿 4,3 2,2 美国 1,1 3,4 支持蒙帅
友军博弈特征
两个(多个)纳什均衡 问题:博弈的最终结果?
第三章 混合策略纳什均衡
第三节 多重纳什均衡的选择 标准
第三节 多重纳什均衡的选择标准
一、帕累托优势标准:得益更大 (一)案例:战争与和平 C国 鹰战略 鸽战 略 -5,-5 8,-10 鹰战略 -10,8 10,10 A国 鸽战略
混合策略
小偷的混合策略 以p的概率偷,(p,1-p) 守卫的混合策略 以q的概率睡(q,1-q)
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 2.相对概念:纯策略 每个参与人的非随机性选择 纯粹行动计划,p=100%,1-p=0
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 3.数学刻画 给定博弈G={S1,…,Sn;u1,…,un}以及参 与人i的纯策略Si= {si1,…,sik} 概率分布pi=(pi1,…,pik)为混合策略 其中:0≤ pik ≤1,∑ pik=1, pik=p( sik ) 混合策略组合p=(p1,…,pi,…pn)
第三节 多重纳什均衡的选择标准
一、帕累托优势标准:得益更大 (二)纳什均衡的选择标准 帕累托优势标准 按照支付大小筛选纳什均衡
-5,-5 -10,8 8,-10 10,10
第三节多重纳什均衡的选择标准
二、风险优势标准:风险更小? (一)案例:串通作弊博弈 帕累托优 学生乙 势? 作弊 不作弊 作弊 9,9 0,8 学生甲 8,0 7,7 不作弊
第一节 混合策略与期望支付
二、期望支付 (二)数学刻画
1 ( p, q ) pi q j aij

03 混合策略纳什均衡

03 混合策略纳什均衡

博弈论 第三章 混合策略纳什均衡
第一节 混合策略与期望支付
二、期望支付 3、数学刻画 、 博弈G={S1,…,Sn;u1,…,un}, 参与人 的纯策略空间为 参与人i的纯策略空间为 博弈 … Si= {si1,…,sik} … 混合策略p 表示参与人i选择纯 混合策略 i=(pi1,…,pik) , pik=p(sik )表示参与人 选择纯 … 表示参与人 策略s 的概率, 策略 ik的概率,0≤ pik ≤1,∑ pik=1 , 在纯策略情形下, 支付u 在纯策略情形下 支付 i=ui(s),对任何一个给定纯策略 , 组合s=(s1,s2,…sn), ui取-确定值 组合 与混合策略相伴的是得益(支付 的不确定性。这时: 与混合策略相伴的是得益 支付)的不确定性。这时 支付 的不确定性 混合策略组合p=( … … 混合策略组合 (p1,…,pi,…,pn) 对应混合策略组合的期望支付 期望支付为 对应混合策略组合的期望支付为:πi(p)=πi(pi, p-i) 4、两个局中人的期望支付 、
i =1 j =1 j =1 i =1
m
n
n
m
小 偷
例:小偷与守卫的猫鼠博弈 π小偷=8rq+(-2)r(1-q)+0⋅ (1-r)q+0⋅ (1-r)(1-q) ⋅ ⋅
=r[q⋅8+(1-q)(-2)]+ (1-r)[q⋅0+(1-q)⋅0] ⋅ ⋅ ⋅ =2r(5q-1) π守卫= (-2)rq+0⋅ r(1-q)+8(1-p)q+0⋅ (1-p)(1-q) ⋅ ⋅ =q [r⋅(-2)+(1-r)8]+ (1-q)[r⋅0+(1-r)⋅0] ⋅ ⋅ ⋅ =2q(4-5r)

03 混合策略纳什均衡

03 混合策略纳什均衡

相关均衡例子 三个纳什均衡: 三个纳什均衡 (U,L)、(D,R) 和混合策略均衡[(1/2,1/2), (1/2,1/2)] 结果都不理想,不如(D,L)。
5)防联盟均衡 ) 博弈中若有三个及三个以上的局中人,就有可能部分人结 成“联盟”,在极大化联盟成员利益的同时损害了其他局 中人的利益。
甲 乙
2
( p, q ) = ∑∑ pi q j bij
i =1 j =1
混合策略纳什均衡 设 P * = ( P * , L, Pi* , L, Pn* ) 是 n 人策略式博弈 G = {S1 ,LSn ; u1 ,Lun } 1 的一个混合策略组合,如果对于所有的
i = 1, L , n ,
π i ( Pi* , P−*i ) ≥ π i ( Pi , P−*i ) 对于每一个 Pi ∈ ∑i 都成立,则称
i i
随机在其m个可选策略中选择的“策略”,称为一个“混合 策略”,其中 p ij 0≤
≤1
j 对,L, m =1
p 1i 都成立,且 + L + p im = 1
混合策略扩展博弈:博弈方在混合策略的策略空 混合策略扩展博弈 间(概率分布空间)的选择看作一个博弈,就是原 博弈的“混合策略扩展博弈。
L 0,0,10 -5,-5,0 A
R -5,-5,0 1,1,-5
乙 甲
L -2,-2,0 -5,-5,0 B
R -5,-5,0 -1,-1,5
U D
U D 丙
)、(D, , ) (U,L,A)、( ,R,B)——纯策略纳什均衡 , , )、( 纯策略纳什均衡 优于( , , ) (U,L,A) Pareto优于(D,R,B) , , ) 优于
2)制式问题

03 混合战略Nash均衡

03 混合战略Nash均衡

1
三、混合战略Nash均衡的求解
1. 支付最大化法; 2. 支付等值法;
• 社会福利博弈
流浪汉 寻找工作 流浪
救济 政府 不救济
3,2 -1,1
-1,3 0,0
没有一个策略组合构成纳什均衡
1、支付最大化法 、 流浪汉
寻找工作 流浪
假定政府的混合策略是 σ G = θ,− θ); ( 1 流浪汉的混合策略是 σ L = γ,− γ)。 ( 1 政府的期望效用函数为 : ( v( σ G, σ L) θ(3γ + − 1)(1 − γ)) = ( 0 + 1 − θ)( − γ + (1 − γ)) = θ(5γ − 1) γ − 求微分,得到政府最优 化的一阶条件: ∂ vG = 5γ − 1 = 0 ∂θ 故 γ * = 0 .2
• 例:
2
q b1 p
1
1−q b2 x2 , y2 x4 , y4

a1
x1 , y1 x3 , y3
1 − p a2
• 参与人1 的混合战略σ 1 = ( p,1 − p) ,参与人2 的 混合战略 σ 2 = (q,1 − q ) ; • 在混合战略组合σ = (σ 1 , σ 2 )下,战略组合 (a1 , b1 ) (a1 , b2 ) 、(a2 , b1 ) 、和 (a2 , b2 ) 出现的概率就分别 为 pq 、p (1 − q ) 、 − p ) q和(1 − p )(1 − q ) 。 (1
= pqy1 + (1 − p)qy3 + p (1 − q ) y2 + (1 − p)(1 − q) y4
二、混合战略Nash均衡
• 问题: 问题: 在“猜硬币”游戏中,参与人往往会以50%的概 率选择正面(O),以50%的概率选择反面(R),即 选择混合战略σ=(0.5,0.5)。如我们在介绍Nash 均衡的概念时一样,我们想知道,有没有参与 有没有参与 人会偏离混合战略σ 人会偏离混合战略 i=(0.5,0.5)呢? , 呢

第三讲混合策略纳什均衡

第三讲混合策略纳什均衡
0.8 0.8 2 0.8 0.25 0.2 0.83 0.2 0.21 2.6
博弈方2的期望得益为:
u1e pqu2 A,C p(1 q)u2 A, D (1 p)qu2 B,C (1 p)(1 q)u2 B, D
0.8 0.83 0.8 0.21 0.2 0.8 2 0.2 0.25 2.6
假定老板选择混合战略(0.2,0.8)
工人选择“偷懒’……
工人选择“偷懒”期望支付为(-1)× 0.2+3×0.8=2.2
工人选择“不偷懒”(期望)支付为2×0.2+2×0.8=2
工人应选择“偷懒”
懒’……
老板选择“监督”
工人选择“不偷
混合策略均衡
什么情况下达到纳什均衡状态? 假定存在一个概率q,老板选择混合策略(q,1-q) 工人选择“偷懒”期望收益为(-1)×q+3×(1-q)=3-4q 工人选择“不偷懒”收益为2 如果老板真的以概率q选择监督,1-q选择不监督,那么意 味着他不会始终重复地选择某个纯策略,而他不重复选择的 条件必须是工人也不会重复地选择纯策略。
那么概率分布称为的一个混合策略这里选择的概率对于所有ikikikik显然纯策略可以理解为混合策略的特例比如说纯策略等价于混合策略即选择纯策略的概率为1选择任何其他纯策略的概率为0
第三讲 混合策略纳什均衡
引言
◆有些博弈不存在纳什均衡,或者纳什均衡不唯
一,如猜硬币博弈,前述纳什均衡分析就无法 对博弈方的选择和博弈结果作明确的预测。 ◆这部分对不存在纳什均衡和存在多个纳什均衡 的博弈作一些讨论。
两人只能玩混合战略博弈,齐威 王分别以1/6随机的概率选择出上、中 、下马的任一排列,田忌也如此。由于 齐威王存在绝对优势,他平均看来仍然 会赢田忌一千斤铜。

经济博弈论第三讲混合博弈

经济博弈论第三讲混合博弈

• 2.市场机会 设两个厂商都发现了一个市场机会,但市场 容量不大。若只有一家进入,能赚100,若同时进入,则 各亏50. • 厂商2 • 进 不进 • 进 -50,-50 100, 0 • 厂商1 • 不进 0 ,100 0 , 0,0 • 本博弈也有两个纯策略纳什均衡(不进,进),(进,不 进)但它们分别有利于两个厂商,因此这两个均衡都不容 易实现,都应采取混合策略。 • 请同学们自己计算混合策略纳什均衡及得益。
在包括混合策略的情况下,严格劣策略消去 法有时仍然使用。因为严格劣策略消去法 不会消去任何纳什均衡。如下面的例子: • 乙 • A B • C 3,1 0,2 • 甲 D 0,2 3,3 •
• 甲、乙的策略没有好坏之分。但若甲以混合策略 (0.5,0.5,0)选择C、D、E,则博弈方乙选择 纯策略A时,甲期望得益 • 0.5×3+0.5×0+0×1=1.5 • 乙选择纯策略B时,甲期望得益 • 0.5×0+0.5×3+0×1=1.5 • 乙选择混合策略(q,1-q) 时,甲期望得益 • 0.5×q×3+0.5×(1-q) ×0+0.5×q×0 • +0.5×(1-q) ×3=1.5
• 1.制式问题 彩电有不同的制式,采用相同的制 式,则不同厂商间的零部件可以通用,相关设备 可以相互匹配,对大家有一定的好处,但也有互 相竞争的压力和损失。设两个厂商要引进生产线, 面临A、B 两个制式,其得益矩阵如下: • 厂商2 • A B • A 1,3 0,0 • 厂商1 • B 0,0 2,2

• • • •
救济 政府 不救济
流浪汉
找工作 3,2
-1,1
游荡 -1,3
0,0
• 设想政府以1/2的概率选择救济,1/2的概率选择不救济。对流浪汉来 说,选择寻找工作的期望效用是1/2×2+ 1/2×1=1.5,选择游荡带来 的期望效用为1/2×3+ 1/2×0=1.5。所以流浪者的任何一种策略(纯 的或混合)都是对政府所选择的混合策略的最优反应。 • 如果流浪汉以0.2的概率选择找工作,以0.8的概率选择游荡,政府的 任何一种策略(纯的或混合)都是对流浪汉所选择的混合策略的最优 反应。每一个参与人的混合策略都是给定对方混合策略时的最佳选择, 这一混合策略组合就是一个纳什均衡

混合策略纳许均衡课件

混合策略纳许均衡课件

策略纳什均衡的算法优化。
混合策略纳什均衡与人工智能
02
随着人工智能的发展,可以尝试将混合策略纳什均衡应用于机
器学习和人工智能领域,以实现更高效和智能的决策。
混合策略纳什均衡与演化博弈论的结合
03
研究混合策略纳什均衡与演化博弈论的结合,可以更好地解释
现实生活中的动态博弈现象。
06
参考文献
参考文献
定义
混合策略纳什均衡课件
CONTENTSБайду номын сангаас
• 混合策略纳什均衡简介 • 混合策略纳什均衡的数学模型 • 混合策略纳什均衡的求解方法 • 混合策略纳什均衡的应用实例 • 混合策略纳什均衡的挑战与展
望 • 参考文献
01
混合策略纳什均衡简介
定义与概念
混合策略纳什均衡是一种博弈论中的概念,它描述了在给定对手策略的情况下,参 与者如何选择最优的行动方案。
定义策略空间
为每个参与人定义一个策略选 择的空间,这些策略可以是离 散的、连续的或混合的。
定义支付函数
根据每个参与人的策略选择, 定义他们的支付函数,即每个 参与人在该策略下的期望收益。
构建博弈矩阵
根据参与人的策略空间和支付 函数,构建一个博弈矩阵,用 以表示每个参与人选择不同策
略时的收益。
模型参数解 释
纳什均衡点或满足一定的收敛条件。
优化算法
优化算法是一种基于数学优化的方法,用于求解混合策略纳什均衡。
优化算法的基本步骤包括:定义一个目标函数,然后使用优化算法(如 梯度下降法、牛顿法等)寻找目标函数的最大值或最小值,从而得到纳
什均衡点。
优化算法的优点是能够快速找到纳什均衡点,适用于大规模问题。但缺 点是需要对问题进行数学建模,且对初始点的选择敏感。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

混合策略
◆混合策略定义:在n人博弈的策略式表述 G S1, , Sn ; u1, , un Si Si1, , SiK ,那么,概率 中,假定参与人 i 有K个纯策略: 分布 pi pi1 , , piK 称为 i 的一个混合策略,这里
pik p(sik ) 是 i 选择 sik 的概率,对于所有
这个故事曾经被很多人当作博弈论的例 子来演绎,但实际上这个故事与博弈论无关。 博弈论会假定所有局中人都是理性的,不能假 定一些局中人聪明而另一些局中人却是傻子。 当田忌出下马时,齐威王最好的选择是出下马 而不是上马。孙膑的计谋中假定齐威王是傻子 ,当田忌出下、上、中马时,他仍然按上、中 、下马出,当然要输了。事实上,当田忌出下 马时,齐威王应出下马,但齐威王出下马时, 田忌不应出下马而是出中马,但此时齐威王又 应出中马而不是下马了,……。这样,博弈不 会有纯战略的均衡。

-2,3
2,2
假定老板选择混合战略(0.2,0.8) 工人选择“偷懒”期望支付为(-1)×0.2+3×0.8=2.2 工人选择“不偷懒”(期望)支付为2×0.2+2×0.8=2 工人应选择“偷懒” 老板选择“监督” “不偷懒’……

假定老板选择混合战略(0.5, 0.5) 工人选择“偷懒”期望支付 0.5 为 (-1)×0.5+3×0.5=1 工人选择“不偷懒”期望支 0.5 付为2×0.5+2×0.5=2 工人应选择“不偷懒” 老板选择“不监督” 工人选择“偷懒’……
由 VA =VB 可得 :q=0.8 博弈方2:
VB =3q (1 q)
博 弈 方 1
A B
VC =3 p (1 p)
VD =2 p 5(1 p)
由 VC =VD 可得 :p=0.8
策略 期望得益 得双方的策略及相应得益: 博弈方1 (0.8,0.2) 2.6 博弈方2 (0.8,0.2) 2.6
多重均衡博弈和混合策略
一、夫妻之争的混合策略纳什均衡
◆首先,该博弈有两个纳什均衡,本博弈的两个博弈方 不会害怕对方猜到自己的选择,他们主观上并不想隐 藏自己的选择。因此,该博弈中两博弈方的决策思路 和原则应该与没有纳什均衡的严格竞争博弈有所不同。 丈夫 时装 足球 妻 子 时装 足球 2, 1 0, 0 0, 0 1, 3
对于大企业,因一旦偷税数额就巨大,所 以,税务部门在随机检查时放在大企业上的可 能性就大一些;而给定税务部门检查大企业的 可能性较大,大企业偷漏税的行为就较少,否 则就容易被逮个正着。所以,偷漏税较多的就 是一些中小企业,大企业纳税的积极性较高。 同样的道理,在犯罪或对错误的监督惩罚博弈 中,也是混合博弈,人们可能总是大错不犯小 错不断。
两人只能玩混合战略博弈,齐威
王分别以 1/6 随机的概率选择出上、中 、下马的任一排列,田忌也如此。由于 齐威王存在绝对优势,他平均看来仍然 会赢田忌一千斤铜。
混合策略均衡
◆纯策略与纯策略纳什均衡 纯策略:肯定会被选择——以100%的概率——被 选择的策略。 ◆混合策略 混合策略:以一定的概率分布选择某几个行动的 策略。
其中,博弈方1的期望得益为:
u1e pqu1 A, C p(1 q)u1 A, D (1 p)qu1 B, C (1 p)(1 q)u1 B, D 0.8 0.8 2 0.8 0.2 5 0.2 0.8 3 0.2 0.2 1 2.6
例子1 为什么一般人总是小错不断,大 错不犯;偷税漏税的一般是中小企业, 大企业会老老实实地交税?
税务部门不会对所有企业的交税情 况每一次都去检查,因为这样做的成本 太高,得不偿失。所以,税务部门总是 随机地对企业的交税情况进行检查。
企业也是随机地在交税与偷漏税之 间进行选择。税收部门与企业间进行的 是混合战略博弈。因为如果企业总是交 税,税务部门就最好不检查;但给定不 检查,企业就会偷漏税。所以,两者只 有在随机地检查与不检查,企业随机地 在偷漏税与交税之间选择,才会达成均 衡。
p ( p1 ,, pi ,, pn )
期望支付
例:
参与人2
◆参与人1的混合策略:(p,1-p) 参与人2的混合策略:(q,1-q) ◆参与人1的期望支付: 如果参与人1选择S11:
1-q
S21
参与 人2
q
S22
qu1 (1 q)u3
如果参与人1选择S12:
qu5 (1 q)u7
混合策略均衡
例:监督博弈
工人 偷懒 老板 监督 不监督 1,-1 -2,3 不偷懒 -1,2 2,2
给定工人偷懒,老板的最优 选择是监督;给定老板监督, 工人的最优选择是不偷懒; 给定工人不偷懒,老板的最 优选择是不监督;给定老板 不监督,工人的最优选择是 偷懒;如此循环。
混合策略均衡
工人 偷懒 监督 老板 不监督 1,-1 不偷懒 -1,2
支付最大化法求混合战略纳什均衡
工人 偷懒 老板 监督 不监督 1,-1 -2,3 p 不偷懒 -1,2 2,2 1-p q 1-q
给定工人的混合战 略为(p,1-p),老板的 混合战略为(q,1-q)
工人的期望支付函数为 (-1)pq+2(1-p)q+3p(1-q)+2(1-p)(1-q)=-4pq+p-2q+2 最优化一阶条件为:-4q+1=0 q*=1/4




0, 0 1, -1 -1, 1 -1, 1 0, 0 1, -1 1, -1 -1, 1 0, 0
但是,我们知道,玩这个游戏总是 以对方不易猜出的随机方式出招。事实 上,可以通过数学证明,当双方都以每 个战略按 1/3 的概率出招时,达成一种 双方都不愿改变这种概率分布的局面。 这被称为“混合战略纳什均衡”,而这 种以随机方式选择纯战略的博弈被称为 “混合战略博弈”。 以混合战略博弈我们来看下面几个 例子。
混合策略博弈
小孩玩的游戏“石头,剪子,布” ,也是一种博弈。但是,这个博弈有一 种有趣的特征,即给定一方的任何选择 ,另一方都有制胜对方的战略,因而这 个战略不是最优的。任何“纯战略”都 不是最优的,纯战略是“石头,剪子, 布”中的任何一个。
石头、剪刀、布
博弈方2 石
博 弈 方 1 石 头 剪 子 布
工Байду номын сангаас选择
混合策略均衡
什么情况下达到纳什均衡状态? 假定存在一个概率q,老板选择混合策略(q,1-q) 工人选择“偷懒”期望收益为(-1)×q+3×(1-q)=3-4q 工人选择“不偷懒”收益为2 如果老板真的以概率q选择监督,1-q选择不监督,那么意 味着他不会始终重复地选择某个纯策略,而他不重复选择的 条件必须是工人也不会重复地选择纯策略。 因此,老板以概率q选择监督必然意味着在这种情况下 工人没有合适的纯策略选择。====老板的选择必须使工人 在两个纯策略之间随机选择。 工人什么情况下随机选择?
的 k 1, , K ,0 pik 1, 1K pik 1

◆ 显然,纯策略可以理解为混合策略的特例,比如说,纯 1,0, ,0 ,即选择纯策略 si ' 策略 si ' 等价于混合策略 pi 的概率为1,选择任何其他纯策略的概率为0。 ◆混合策略纳什均衡:包含混合策略的策略组合,构成纳什 均衡。

不存在前面定义的纳什均衡策略组合。
这类博弈很多,引出混合策略纳什均衡概念。
混合策略的相关概念
◆混合策略是一种按照什么概率选择这个纯策略、
按照什么概率选择那种纯策略的策略选择指示。 ◆混合策略表明:参与人可以按照一定的概率,随 机地从纯策略集合中选择一种纯策略的实际行动 。 ◆期望值:假定存在 n 个可能的取值 X1, X 2 ,, X n , p1 , p2 ,, pn ,则期 并且这些取值发生的概率分别为: 望值为: p1 X1 p2 X 2 pn X n

博弈方2的期望得益为:
u1e pqu2 A, C p(1 q)u2 A, D (1 p)qu2 B, C (1 p)(1 q)u2 B, D 0.8 0.8 3 0.8 0.2 1 0.2 0.8 2 0.2 0.2 5 2.6
例子2 田忌赛马新编
春秋战国时期,齐威王常与旗下大将田 忌赛马。规则是:每次赛三局,每一局齐威王 与田忌各出一匹马比赛奔跑速度。每一局中的 胜者赢败方一千斤铜。田忌有上、中、下三匹 马,而齐威王也有上、中、下三匹马。每次比 赛,第一局田忌出上马,齐威王也出上马;第 二局田忌出中马,齐威王也出中马;第三局, 田忌出下马,齐威王也出下马。齐威王的上马 比田忌的上马好,齐威王的中马也比田忌的中 马好,齐威王的下马还是比田忌的下马好。于 是,每次比赛的结果都是田忌连输三局。
第三讲 混合策略纳什均衡
主讲人:李美娟
引言
◆有些博弈不存在纳什均衡,或者纳什均衡不唯
一,如猜硬币博弈,前述纳什均衡分析就无法 对博弈方的选择和博弈结果作明确的预测。 ◆这部分对不存在纳什均衡和存在多个纳什均衡 的博弈作一些讨论。
混合策略的引进
一、扑克牌对色游戏 红 甲
红 -1, 1 1, -1 乙 黑 1, -1 -1, 1
混合策略均衡
设 是n人策略式博弈 G S1, , Sn ; u1, , un 的一个混合策略组合。如果对于所有的i 1,, n , Vi ( pi , pi ) Vi ( pi , pi ) 对于每一个 pi 都成立,则称混 p ( p , , p , , p 合策略组合 1 i n ) 是这个博弈的一 个纳什均衡。
混合策略均衡
◆当工人选择任何一个策略的期望支付相等时,只能随机 选择。于是,3-4q=2 ,即q*=1/4,1- q*=3/4。这样,当老板选 择(1/4,3/4)的混合战略时,可以使工人在两个纯战略之 间无差异。 ◆ 同理,假设工人选择(p,1-p),(p,1-p)成为其最优混合战略 的条件是老板在选择监督与选择不监督之间无差异,即 1×p+(-1)(1-p)=(-2)p+2(1-p),即p*=1/2,1- p*=1/2。 ◆当老板选择(1/4,3/4),工人选择(1/2,1/2)时,刚 好互为彼此的最优反应,达到纳什均衡状态,称为混合战略 纳什均衡。
相关文档
最新文档