_混合策略纳什均衡(张克勇XXXX)
混合策略纳什均衡

(混合策略纳什均衡)
一个不存在纳什均衡的例子
硬币配对——“零和博弈”(zero sum game)
甲乙各持一枚硬币,同时选择手中硬币的正反面。 若他们硬币的朝向相同,乙将赢得甲的硬币。反之,甲将赢得乙的硬币。
参与人乙 正面H
正面H -1,+1 +1,-1
反面T
+1,-1 -1,+1
按照无差异原则,均衡中的q应使这两个表达式相等。
硬币配对博弈的混合策略均衡
参与人2
正面H(q) 参与人1 正面H 反面T -1,+1 +1,-1 反面T(1-q) +1,-1 -1,+1
• 也就是:1-2q=2q-1,即q=0.5 • 对称地,可以得到参与人1的最佳应对p=0.5 • 因此,(0.5,0.5)是这个硬币配对博弈的混合策略纳什均衡(符合直
在各自概率策略的选择下,双方的期望收益互为最大(任何单方面 改变不会增加其收益) 纳什证明:具有有限参与者和有限纯策略集的博弈一定存在纳什均 衡(包括混合策略均衡) 一般来说,找到混合策略的纳什均衡是很困难的,但在某些特定条 件下能有系统的方法。
双人双策略、不含纯策略均衡的博弈——混合策略纳 什均衡
考虑硬币面向的博弈
他 正面H H 你 T +1,-1 -1,+1 -1,+1 反面T +1,-1
• 你若知道对方的策略是以0.7的 概率出H,你会采取什么策略? 如果他的概率是0.2呢?
• 你若知道对方的策略是以0.5的概率 出H,你会采取什么策略?
“0.5”策略在此有什么特别?
如果对方用0.5,我出什么都
混合策略的收益计算例子
混合策略纳什均衡名词解释

混合策略纳什均衡名词解释
嘿,朋友们!今天咱来聊聊混合策略纳什均衡!这可不是什么晦涩难懂的概念哦。
想象一下,在一个竞争的场景里,就像一场激烈的游戏,大家都在绞尽脑汁地想着怎么出招。
混合策略纳什均衡呢,就是在这种情况下,各方参与者都没办法通过单独改变自己的策略来获得更好的结果。
它就好像是一场微妙的平衡舞蹈!每个人都要在不同的选择之间跳跃,找到那个最合适的组合。
不是单纯地选择一个固定的策略,而是有时候这样,有时候那样,让对手捉摸不透。
好比是下棋,你不能总是走同样的几步,得灵活多变,根据对手的反应随时调整。
而且啊,这个均衡可不是那么容易达到的哦,需要各方参与者不断地试探、博弈。
它不是那种一眼就能看穿的简单玩意儿,而是隐藏在复杂的互动之中。
就像在迷雾中寻找方向,需要耐心和智慧。
在现实生活中,混合策略纳什均衡也无处不在呢!商业竞争中,企业要考虑怎么定价、怎么推广,不就是在寻找这种微妙的平衡吗?政治博弈中,各方势力也在不断调整策略,试图达到对自己最有利的状态。
甚至在我们的日常生活中,比如和朋友玩游戏,或者在一些选择中纠结,都能看到混合策略纳什均衡的影子。
它让我们明白,有时候没有绝对的最佳策略,只有在不断变化中找到的相对平衡。
混合策略纳什均衡就是这么神奇,这么有趣!它让我们看到了竞争和互动的复杂性,也让我们更加懂得如何在各种情况下做出明智的选择。
所以啊,别小瞧了这个概念,它可是有着大用处呢!。
博弈论-混合策略纳什均衡

政治学的案例分析
总结词:国际关系
详细描述:在国际关系中,混合策略纳什均衡可以用来解释 国家之间的竞争和合作。例如,两个国家可能会以一定的概 率选择不同的外交政策,例如结盟、中立或对抗,以达到各 自的利益最大化。
生物学的案例分析
总结词
捕食者-猎物博弈
详细描述
在生物学中,混合策略纳什均衡可以用来解释捕食者与猎物之间的博弈。例如,捕食者 可能会采用追逐和放弃两种策略来捕猎猎物,而猎物也可能会采用逃跑和装死两种策略 来避免被捕食。最终,捕食者和猎物都以一定的概率随机选择不同的策略,以达到均衡
非合作博弈论
研究个体如何在不知道其 他个体如何行动的情况下 做出最优决策。
博弈论的基本概念
参与者
参与博弈的决策主体, 可以是个人、组织或国
家。
行动
参与者根据给定的信息 所做出的决策。
信息
参与者在进行决策时所 拥有的数据、情报或知
识。
策略
参与者为达到最优结果 而采取的一系列行动的
方案。
博弈论的应用场景
状态。
生物学的案例分析
总结词:繁殖竞争
VS
详细描述:在生物种群中,不同个体 之间会存在繁殖竞争。为了最大化自 己的遗传贡献,个体可能会采用不同 的交配策略,例如追求高繁殖成功率 的策略或避免过度竞争的策略。混合 策略纳什均衡可以用来描述这种竞争 状态下的交配行为。
THANKS FOR WATCHING
繁殖博弈
在繁殖博弈中,生物个体通过选择不同的繁殖和竞争策略来繁衍后代。混合策略纳什均衡可以用来分 析繁殖过程的均衡结果,解释生物多样性的形成机制。
05 混合策略纳什均衡的案例 分析
经济学的案例分析
博弈论混合策略纳什均衡名词解释

博弈论混合策略纳什均衡名词解释博弈论混合策略纳什均衡是指在博弈论中,当参与者不能确定选
择某一个策略时,采取混合策略的情况下达到的均衡状态。
具体来说,混合策略是指在一个博弈中,参与者以一定的概率选
择不同的纯策略。
而纳什均衡是指在一个博弈中,参与者无法通过单
独改变自己的选择来获得更好的结果,即不存在任何参与者可以通过
改变自己的策略来让其他参与者不再选择当前策略。
混合策略纳什均衡是指游戏中所有参与者以一定的概率选择不同
的纯策略,并且这种概率分配对于所有参与者都是最优的。
也就是说,在混合策略纳什均衡下,参与者没有更好的选择可供其采取,而其他
参与者也没有更好的概率分配可供其选择。
拓展:
在博弈论中,还有许多其他类型的均衡概念,例如纯策略纳什均衡、帕累托均衡、部分均衡等等。
纯策略纳什均衡是指游戏中参与者
以确定性的纯策略进行选择,使得没有参与者可以通过改变其策略来
获得更好的结果。
帕累托均衡是指在一个博弈中,不存在可以改善任
何一个参与者的情况。
部分均衡是指只有某些参与者达到均衡状态,而其他参与者未达到均衡状态。
博弈论是研究决策制定者在相互影响下进行决策的数学工具。
通过分析不同的博弈策略和可能的结果,博弈论可以帮助我们理解冲突和合作的情况,并提供一些决策建议。
混合策略纳什均衡

类似地,令参与人2的纯战略期望效用相等得q : 1 2
2019/11/29
20 EXIT
社会福利博弈
假定最优混合策略存在,给定流浪汉选择混合策略
( ,1 )
政府选择纯策略救济的期望效用为:
3 (1)(1 ) 4 1
理学院 顾聪 gucong@
EXIT
4.1 严格竞争博弈和混合策略
1. 混合策略的提出——猜硬币博弈
两个参与人各拿一枚硬币,并选择出正面向上还是反面向上。若两枚硬币 是一致的(即全部正面或全部反面),则参与人2赢走参与人1的硬币;若两 枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。支付矩阵如下:
• 这样,我们得到一个混合策略组合,每一个参与人的混合策略都是给 定对方混合策略是的最优选择,从而构成混合策略纳什均衡。
策略 期望收益 政府 (0.5, 0.5) -0.2 流浪汉 (0.2, 0.8) 1.5
2019/11/29
11 EXIT
既然参与人在构成混合策略时选择不同纯策略之间是无差异的,他 为什么不选择一个特定的纯策略而要以特定的概率随机地选择不同的纯 策略呢?一个参与人选择混合策略目的是给其他参与人造成不确定性。
2019/11/29
5 EXIT
• 混合策略扩展博弈:
博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈,就 是原博弈的“混合策略扩展博弈”。
• 混合策略纳什均衡(MNE):
由最优的混合策略构成的混合策略组合:
* (* , * ,, * )
12
n
即,如果对于所有的 i 1,2, ,n,有
E1(正面)=(-1)×r+1×(1-r)=1-2r 参与人1选取反面的期望效用为
混合策略纳什均衡

0 1/4 1 q 钟信德语) (钟信德语)
博弈论 第三章 混合策略纳什均衡
第三节 寻找多重纳什均衡
德语 r
二、反应对应法:情侣博弈 反应对应法:
陈明 法语 1-r
钟信 德语 q 法语 1-q 2 1 3 1 0 3 0 2
反应对应曲线有三个交点:三个 : 反应对应曲线有三个交点:三个NE: r*=0, q*=0 纯策略(确定性) 纯策略(确定性)
(红) r 红 1 1/2 0 1/2 1 q (红) r*=R(q) q*=R(r)
博弈论 第三章 混合策略纳什均衡
第二节 混合策略纳什均衡的求解方法
二、反应对应法
作业:社会福利博弈。使用反应对应法找到纳什均衡。 作业:社会福利博弈。使用反应对应法找到纳什均衡。
流浪汉 寻找工作 游荡 救济 政府 不救济
s1
第四节 纳什均衡的存在性
问题:是否所有的博弈都存在 (纯的或混合的)? 问题:是否所有的博弈都存在NE(纯的或混合的)? (纯策略)纳什均衡的存在性定理(Debreu,1952; 纯策略)纳什均衡的存在性定理 ; Glicksberg,1952;Fan,1952): ; : 考虑一个n人策略式博弈, 考虑一个n人策略式博弈,如果每个参与人的纯策略 空间S 是欧氏空间中的非空、 闭而有界)的凸集, 空间Si是欧氏空间中的非空、紧(闭而有界)的凸集,支 付函数u 连续且对 拟凹,则博弈存在一个纯策略Nash 连续且对s 付函数 i(s)连续且对si拟凹,则博弈存在一个纯策略Nash 均衡。 均衡。 (混合策略)纳什均衡的存在性定理 (Glicksberg,1952): 混合策略) : 在n人策略式博弈中,如果每个参与人的纯粹策略空 人策略式博弈中, 是欧氏空间中的非空、 闭而有界)的凸集, 间Si是欧氏空间中的非空、紧(闭而有界)的凸集,如果 支付函数u 为连续函数 为连续函数, 支付函数 i(s)为连续函数,那么博弈至少存在一个混合策 Nash均衡 均衡. 略Nash均衡.
混合策略纳什均衡

博弈论 第三章 混合策略纳什均衡
r*=R(q)
反应对应曲线
第二节 混合策略纳什均衡的求解方法
二、反应对应法
例:扑克牌对色游戏(p77)
再看乙的最优反应,记为q*=R(r): 观察π乙(p甲, p乙)= 2q(2r-1)-(2r-1)
若r 1 / 2 2r 1 0, q越大越好 1, q* R( r ) [0,1], 若r 1 / 2 2r 1 0,无论q选什么都无影响 0, 若r 1 / 2 2r 1 0, q越小越好
博弈论 第三章 混合策略纳什均衡
第二节 混合策略纳什均衡的求解方法
二、反应对应法
例:扑克牌对色游戏(p77)
先看甲的最优反应,记为r*=R(q): 观察π甲(p甲, p乙)= 2r(1-2q)+(2q-1)
若q 1 / 2 1 2q 0, r越小越好 0, r* R( q) [0,1], 若q 1 / 2 1 2q 0,无论r选什么都无影响 1, 若q 1 / 2 1 2q 0, r越大越好
解:Max π甲(p甲, p乙) r Max π乙(p甲, p乙) q
f.o.c. 2r-1=0
r*=1/2
混合策略纳什均衡是甲在策略空间{红,黑}上以概率分布 p甲*= (1/2,1/2)进行选择,乙也在策略空间{红,黑}上以概率p乙*= (1/2,1/2)进行选择
博弈论 第三章 混合策略纳什均衡
第二节 混合策略纳什均衡的求解方法
二、支付最大化法
例:扑克牌对色游戏(p77)
无纯策略NE 给定混合策略p甲=(r,1-r); p乙=(q,1-q) π甲(p甲, p乙)=r[q(-1)+(1-q) 1]+ (1-r)[q1+(1-q)(-1)] = 2r(1-2q)+(2q-1) π乙(p甲, p乙)=q [r1+(1-r)(-1)]+ (1-q)[r(-1)+(1-r)1] =2q(2r-1)-(2r-1) f.o.c. 1-2q=0 q*=1/2
混合策略纳什均衡

03 混合策略纳什均衡的证明 方法
反证法
总结词
通过假设不成立来证明均衡的存在。
详细描述
反证法是一种常用的证明方法,它首先假设与结论相反的命题成立,然后通过逻辑推理和数学推导,得出矛盾的 结论,从而证明原命题的正确性。在证明混合策略纳什均衡的存在时,反证法可以用来证明当其他玩家采取了最 优策略时,某个玩家采取混合策略能够达到最优结果。
唯一性意味着在给定对手策略的情况下,每个参与者都只有一个最优反应,从而 避免了复杂的策略互动和不确定性。
存在性
混合策略纳什均衡的存在性是指在某 些博弈中,至少存在一个策略组合, 使得每个参与者在给定其他参与者策 略的情况下,采用混合策略是最优的 。
存在性通常通过数学证明和计算机搜 索等方法来证明,但并不是所有博弈 都有混合策略纳什均衡。
混合策略纳什均衡
目录
CONTENTS
• 混合策略纳什均衡的定义 • 混合策略纳什均衡的特性 • 混合策略纳什均衡的证明方法 • 混合策略纳什均衡的应用场景 • 混合策略纳什均衡的局限性 • 混合策略纳什均衡的发展前景
01 混合策略纳什均衡的定义
定义
混合策略纳什均衡是一种博弈论中的均衡概念,它描述了在 给定对手策略的情况下,参与者如何选择最优策略以最大化 自己的期望收益。
代数法是一种通过数学符号和公式进行推 理和证明的方法。在证明混合策略纳什均 衡的存在时,代数法可以用来推导和证明 纳什均衡的条件和性质,利用代数性质和 技巧来证明均衡的存在。
04 混合策略纳什均衡的应用 场景
经济学
竞争策略分析
混合策略纳什均衡在经济学中被用于分析竞 争策略,特别是在不完全竞争市场和寡头垄 断市场中。通过混合策略纳什均衡,可以研 究企业在不确定环境下的最优反应,以及企 业如何通过调整其策略来应对竞争对手的行 为。
混合策略纳什均衡正式版PPT文档

• 混合策略 vs.纯策略 (不确定性 vs.确定性)
•在博弈 G { S 1 , S n ;u 1 , u n } 中,博弈方i 的策略空Si {si1, sik }
间
i ,那么p博i 弈(p 方i1, 以,p 概ik)率分布 k
随机在其 个可p 选i1 策略 中p 选ik择1 的“策略〞0,p称ij 为1一个j “1,混 ,合k策
略〞,其中
对
都成立,且
•纯策略可以理解为混合策略的特例,即在诸多策略中,选择 该纯策略的概率为1,选其他纯策略的概率为0.
•为何参与人可能会选择带不确定性的混合策略而放弃确定性 的纯策略?
•参与人主观因素造成的犹豫不决
•外在客观因素的不确定性带来应对策略的不确定性
•迷惑对手:为了让其它参与人不能清楚了解自己的选择
混合策略的提出——猜硬币博弈
混检合查策 成•略本纳C 此什越均高时衡,的纳,含税流义人:逃浪税的汉概选率就择越大任。何混合策略的期望效用都是1.5,那么流浪汉的 税收机关以任何的一概种率检策查,略纳(税纯人以的γ=1的或概率γ选=择0逃或税混。 合的0<γ<1)都是政府所选择的混合 策略的最优反响。 E1(反面)=1× r + (-1)×(1-r) = 2 r-1
•参与人的支付为
ui(s1j1,s2j2 ,snjn)
p p 1j1 2j2
pnjn
•发生此情况的概率为
• 参E 与i(人p )的期m 1望m 2 效用m n :p 1j1p 2j2 p n jnu i(s1j1,s2j2 ,sn jn) j1 1j2 1 jn 1
• 由于混合策略伴随的是支付的不确定性,因此参 与人关心的是其期望效用。
设:政府救济的概率θ=1/2 ;
混合策略纳什均衡计算方法(一)

混合策略纳什均衡计算方法(一)混合策略纳什均衡计算方法什么是混合策略纳什均衡混合策略纳什均衡是博弈论中的一个概念,指的是每个玩家都选择一定的概率来执行每一个可行的行动。
这样,游戏的结果不再是唯一的,而是有一定的概率分布。
如何计算混合策略纳什均衡计算混合策略纳什均衡需要用到线性规划的方法,具体步骤如下:1.确定每个玩家的策略空间,即每个玩家可选的所有策略。
2.建立概率分布矩阵,即每个玩家选择每个策略的概率。
3.利用概率分布矩阵和游戏的收益矩阵计算出每个玩家的期望收益。
4.建立线性规划模型来最大化每个玩家的期望收益。
5.求解线性规划模型得到混合策略纳什均衡。
混合策略纳什均衡的应用混合策略纳什均衡在实际应用中有广泛的应用。
比如在围棋、国际象棋等棋类游戏中,人类选手常常会使用混合策略来应对对手的不确定性。
同时,在市场竞争、拍卖、投资等领域,混合策略也可以用来帮助决策者做出最优的决策。
总结混合策略纳什均衡是博弈论中的重要概念,在实际应用中具有广泛的应用前景。
计算混合策略纳什均衡需要用到线性规划的方法,但具体计算步骤并不复杂。
我们可以通过深入理解和应用混合策略纳什均衡,来帮助我们更好地应对不确定性和竞争。
混合策略纳什均衡的优势混合策略纳什均衡作为一种考虑不确定性的策略,相较于确定性策略有以下优势:1.能够应对对手的随机性,减小被对手利用的风险;2.能够在一定程度上改变游戏的结果分布,增加自己的收益,同时降低失败的风险。
混合策略纳什均衡的局限性尽管混合策略纳什均衡具有很多优点,但是也存在以下局限性:1.混合策略需要玩家具有一定的判断力和计算能力,否则可能难以计算出最优解;2.没有一个确定的策略来保证获胜,更多地要依靠概率和运气;3.当游戏中有多个混合策略纳什均衡时,玩家可能难以选择最优的策略。
结语混合策略纳什均衡是一个重要的博弈论概念,应用范围广泛。
尽管混合策略存在一些局限性,但是这并不妨碍我们充分应用这一理论来帮助我们在不确定性和竞争中取得更好的结果。
《博弈论与信息经济学》混合战略纳什均衡--ppt课件全篇

放荡
32
-1 3
-1 1 0 0
1
ppt课件
假定父母选择支助的概率为p1,选择不支助的概率为p2 1- p1 ; 儿子选择立志的概率为q1,选择不立志的概率为q2 1- q1 。那么
对两个参与人,各自的盈利函数为:
v1
3 p1q1
1
p1q2
1
p2q1
5
p1q1
p1
q1
v2 2 p1q1 p2q1 3 p1q2 2 p1q1 q1 3 p1
一个混合战略均衡:p*, q* 3 4,1 4。
p
甲
1
3/4 乙
O 1/4
12
1q
ppt课件
▪ 解法2:代数法
甲和乙的期望盈利:v甲 v乙
p 4q q4p
1 2q 1 3 3 2 p
v甲
p
v乙
q
4q 1 0 4p 3 0
p*
q*
3 4 1 4
13
ppt课件
▪ 例3(三人博弈)
K
pik 1,pik p sik 是i选择战略sik的概率,pi称为参与人i的混合战略。
k 1
i 代表i的混合战略空间,pi i 。
▪ (2)期望盈利
对于博弈G S1,..., Si ,..., Sn;u1,..., ui ,..., un,对应于s s1,..., si,..., sn 有p p1,..., pi ,..., pn ,pi i ,p表示局中人i的混合战略组合,那么,
2
即q 1 ,则p越小越好,而p的最小值只能取0;如果1 2q 0,
2
即q 1 ,则p能取任意值,即p 0,1。
2
对于乙来说,为使盈利达到最大,只有调整q。如果2 p 1 0,
3 混合策略纳什均衡(2)

判断
• 在帕累托标准和风险标准之间,理论给帕 累托优势以优先权,而风险优势只有在局 中人面临不知道选哪个均衡好的不确定性 的时候,才变得重要。当一个均衡具有帕 累托优势的时候,局中人一定选择这个均 衡,不确定性就不存在了。
3.聚点均衡
• 基本思想:在现实生活中,局中人可能会使用某 些被博弈模型抽象掉的信息来达到一个均衡。这 些信息往往跟社会文化习惯、局中人过去博弈的 历史和经历有关。
帕累托标准与风险优势的关系
• 如果在一个博弈中,按照帕累托效率的标 准筛选出的纳什均衡,与按照风险优势标 准筛选出来的纳什均衡不一致时,应当选 择哪一个呢?
• 帕累托优势标准:
–A
• 风险优势:
– 期望赢利比较法:
•B
– 损失偏离比较法:
•B
• 很多人会选择B。理由一:人是会犯错误的; 理由二:人不喜欢冒大的风险(风险厌 恶)。
– 因此,警方最终得到报告 的概率是0.49+0.42= 0.91。
• 如果博弈的参与人不是两个,而是很多个的时候, 情况就会有所变化。
• 假设存在N个参与人,若张三选择旁观,则无人报 警时张三的赢利为0,有人报警时张三的赢利为10; 若张三选择报警,则无论其他人报警与否张三的赢 利都为7。假设张三认为其他人旁观的概率为q,则:
– 如果甲采用下策略,他的期望赢 利将是(8+7)/2=7.5。
– 所以,从期望赢利来看,甲采用下策略是比较稳妥的:至少 可以得7,运气好可以得8。如果采用上策略,运气好固然可 以得9,但是运气不好可就将得0。为了稳妥起见,还是不要 冒得0的风险好。
– 可以说:右下角的“甲下乙右”的纳什均衡具有风险优势。
吉诺维斯谋杀案:混合策略的低效率
混合策略纳什均衡

目录[隐藏]1 什么是混合策略纳什均衡2 解混合策略纳什均衡的方法3 混合策略纳什均衡的经典博弈——猜谜博弈[1]4 混合策略纳什均衡博弈与其他均衡的关系[1]5 参考文献[编辑][编辑][编辑]混合策略纳什均衡混合策略纳什均衡(Mixed Strategy Nash Equilibrium )什么是混合策略纳什均衡混合策略纳什均衡:在n 个参与人的博弈G={S 1 ,... S n ; u 1,...u n }中,混合策略组合构成一个纳什均衡,如果对于所有的i =1,2...,n 下式成立:也就是说,如果一个策略组合使任何一个参与人的策略都是相对于其他参与人的策略的最佳策略,这个策略就构成一个纳什均衡,不管这个策略是混合策略还是纯策略。
混合策略纳什均衡是面对其他博弈者选择的不确定性的一个理性对策,其主要特征是作为混合策略一部分的每一个纯策略有相同的期望值,否则,一个博弈者会选择那个期望值最高的策略而排除所有其他策略,这意味着原初的状态不是一个均衡。
解混合策略纳什均衡的方法1、最大化支付法:即最大化各个参与人的效用函数。
2、支付相等法:根据前面分析的猜硬币博弈中参与人的策略的思路,每个参与人的混合策略都使其余参与人的任何纯策略的期望支付相等,因此,解混合策略纳什均衡可以令参与人的各个纯策略支付相等,构成方程组求解。
混合策略纳什均衡的经典博弈——猜谜博弈[1]两个局中人A 、B 手里各拿一枚硬币,每人可以选择正面向上或反面向上,然后同时亮出,如果两枚硬币正反面相同,B 付给A1元钱,如果两枚硬币正反面不相同,A 付给B1元钱。
在这种情况下,局中人A 、B 如何选择呢?下图给出这个博弈的双变量收益矩阵。
这是一个两人零和博弈,在每一个结局中一方所得即为另一方所失,即两个局中人的收益之和恰好等于零。
在双变量收益矩阵中采用画线的方法,在这个博弈中找不到纯策略纳什均衡。
那么,猜谜博弈是否存在混合策略纳什均衡呢?1950年纳什证明了任何有限博弈都至少存在一个纳什均衡(包括纯策略纳什均衡和混合策略纳什均衡)。
第三讲混合策略纳什均衡

博弈方2的期望得益为:
u1e pqu2 A,C p(1 q)u2 A, D (1 p)qu2 B,C (1 p)(1 q)u2 B, D
0.8 0.83 0.8 0.21 0.2 0.8 2 0.2 0.25 2.6
假定老板选择混合战略(0.2,0.8)
工人选择“偷懒’……
工人选择“偷懒”期望支付为(-1)× 0.2+3×0.8=2.2
工人选择“不偷懒”(期望)支付为2×0.2+2×0.8=2
工人应选择“偷懒”
懒’……
老板选择“监督”
工人选择“不偷
混合策略均衡
什么情况下达到纳什均衡状态? 假定存在一个概率q,老板选择混合策略(q,1-q) 工人选择“偷懒”期望收益为(-1)×q+3×(1-q)=3-4q 工人选择“不偷懒”收益为2 如果老板真的以概率q选择监督,1-q选择不监督,那么意 味着他不会始终重复地选择某个纯策略,而他不重复选择的 条件必须是工人也不会重复地选择纯策略。
那么概率分布称为的一个混合策略这里选择的概率对于所有ikikikik显然纯策略可以理解为混合策略的特例比如说纯策略等价于混合策略即选择纯策略的概率为1选择任何其他纯策略的概率为0
第三讲 混合策略纳什均衡
引言
◆有些博弈不存在纳什均衡,或者纳什均衡不唯
一,如猜硬币博弈,前述纳什均衡分析就无法 对博弈方的选择和博弈结果作明确的预测。 ◆这部分对不存在纳什均衡和存在多个纳什均衡 的博弈作一些讨论。
两人只能玩混合战略博弈,齐威 王分别以1/6随机的概率选择出上、中 、下马的任一排列,田忌也如此。由于 齐威王存在绝对优势,他平均看来仍然 会赢田忌一千斤铜。
混合策略纳什均衡计算方法

混合策略纳什均衡计算方法
混合策略纳什均衡是博弈论中的一种解决方法,它指的是在博弈中每个玩家都使用多种策略的概率分布,使得任何一个玩家单独改变自己的策略都不会导致自己的收益增加。
计算混合策略纳什均衡需要使用到线性规划的方法。
具体来说,可以通过列出每个玩家的收益矩阵和概率分布向量的线性规划问题,然后求解这些线性规划问题的最优解从而得到混合策略纳什均衡。
在求解线性规划时,通常使用单纯形法或内点法等算法。
这些算法的基本思想是从某个初始解开始,逐步移动到更优的解,直到不能找到更优解为止。
需要注意的是,在实际应用中,混合策略纳什均衡的计算可能比较复杂,特别是当博弈参与者数量较多或者策略空间较大时。
此外,即使得到了混合策略纳什均衡,也不一定能保证博弈的稳定性,因此需要对结果进行进一步的分析和评估。
总之,混合策略纳什均衡是博弈论中的一种重要解决方法,对于理解和分析博弈问题具有重要的意义。
第四章 混合策略纳什均衡

第四章 混合策略纳什均衡攻而必取者,攻其所不守也;守而必固者,守其所必攻也。
故善攻者,敌不知其所守;善守者,敌不知其所攻;不乎神乎,至于无声,故能为敌之司命。
——孙子故事模型假设你在地面逃亡,而你的敌人正在空中对你实施打击。
你可以选择躲到坚固的掩体下面,也可以选择躲到一间民房里。
你首先可能想到躲到坚固掩体下面是更好的,因为更坚固的地方会更安全。
但是,你可能马上意识到,你的敌人很可能也会猜测到你将躲到最坚固的地方,所以他们也就会集中火力轰炸那些坚固的掩体——最安全的地方反而变成了最危险的地方;于是你决定还是到民房,但是你的敌人也会想到这一点而进攻民房……最后,你想不出究竟该躲在哪里,你的敌人也不知道你究竟会躲在哪里,于是大家都在碰运气。
这样的局势并非假想,现实中的确存在诸多类似的情形,我们称之为混合对策情形。
§4-1 策略混合动机1、懦夫博弈中的策略混合回想一下上一章图3-5的懦夫博弈。
当时我们得到了两个纯策略纳什均衡:(向前,转向)和(转向,向前)。
为了更方便,我们将这个博弈的赢利在这里再画一遍(见图4-1)。
司机乙 转向 向前司机甲(你)转向向前图4-1 懦夫博弈但问题可以想得更复杂些。
假如你是司机甲,你究竟会转向还是继续向前?这很可能取决于你对司机乙的判断:司机乙选择转向还是选择向前决定着你的选择。
但是你无法肯定司机乙是否会转向,因为他的行为取决于他对你的揣摩。
所以,最终你也许只能猜测司机乙有多少可能转向、有多少可能向前。
假如,你认为司机乙转向的可能性为50%,向前的可能性也为50%,那么你应该选择转向还是向前?这取决于你采取不同策略的预期赢利,它们可以计算如下:◆你选择转向的预期赢利:1×50%+(-2)×50%= - 0.5◆你选择向前的预期赢利:2 × 50%+(-4)×50% =-1你将发现,当司机乙转向、向前的可能性各为50%的时候,你选择转向是最合适的,因为转向的预期贏利(—0.5)比向前的预期赢利( -1)要大一些。
混合策略纳许均衡课件

策略纳什均衡的算法优化。
混合策略纳什均衡与人工智能
02
随着人工智能的发展,可以尝试将混合策略纳什均衡应用于机
器学习和人工智能领域,以实现更高效和智能的决策。
混合策略纳什均衡与演化博弈论的结合
03
研究混合策略纳什均衡与演化博弈论的结合,可以更好地解释
现实生活中的动态博弈现象。
06
参考文献
参考文献
定义
混合策略纳什均衡课件
CONTENTSБайду номын сангаас
• 混合策略纳什均衡简介 • 混合策略纳什均衡的数学模型 • 混合策略纳什均衡的求解方法 • 混合策略纳什均衡的应用实例 • 混合策略纳什均衡的挑战与展
望 • 参考文献
01
混合策略纳什均衡简介
定义与概念
混合策略纳什均衡是一种博弈论中的概念,它描述了在给定对手策略的情况下,参 与者如何选择最优的行动方案。
定义策略空间
为每个参与人定义一个策略选 择的空间,这些策略可以是离 散的、连续的或混合的。
定义支付函数
根据每个参与人的策略选择, 定义他们的支付函数,即每个 参与人在该策略下的期望收益。
构建博弈矩阵
根据参与人的策略空间和支付 函数,构建一个博弈矩阵,用 以表示每个参与人选择不同策
略时的收益。
模型参数解 释
纳什均衡点或满足一定的收敛条件。
优化算法
优化算法是一种基于数学优化的方法,用于求解混合策略纳什均衡。
优化算法的基本步骤包括:定义一个目标函数,然后使用优化算法(如 梯度下降法、牛顿法等)寻找目标函数的最大值或最小值,从而得到纳
什均衡点。
优化算法的优点是能够快速找到纳什均衡点,适用于大规模问题。但缺 点是需要对问题进行数学建模,且对初始点的选择敏感。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
猎人2
兔
0, 3 3, 3
猎鹿博弈
聚点均衡
• 聚点均衡是利用博弈设定以外的信息和依据选择 的均衡。文化、习惯、心理或者其他各种特征都 可能是聚点均衡的依据。
§扑克牌对色游戏
• AB玩扑克牌对色游戏,每人都有红黑两张 扑克牌,约定如果出牌颜色一样,A输B赢, 如果出牌颜色不一样,则A赢B输。
• 找到这个博弈的纳什均衡。
红 A
黑
红 -1, 1 1, -1
B 黑
1, -1 -1, 1
例 扑克牌对色游戏
B
红
黑
A
红 黑
-1 , 1 1 , -1
1 , -1 -1 , 1
(2 1) 3
uL 2 1 0
0.5
max uG [3 (1 )] (1 )( )
max uL [2 (1 )] 3(1 )
则 0.5, 0.2
解二: 支付等值法
• 政府选择救济策略
• 政府选择不救济策略
1
0
期望效用
期望效用
uG 1, 3 11 uG 0, 1 01
则 政府的期望效用函数为:
uG 3 11 1 01
5 1
解一: 支付最大化
uG 3 11 1 01
5 1
对上述效用函数求微分,得到政府最优化的一阶条 件为:
uG 5 1 0 0.2
就是说,从政府的最优化条件找到流浪汉混 合策略——流浪汉以0.2的概率选择寻找工作,0 .8 的概率选择游闲。
讨论
• 尽管混合策略不像纯策略那样直观,但它确实是 一些博弈中参与人的合理行为方式。扑克比赛、 垒球比赛、划拳就是这样的例子,在这一类博弈 中,参与比赛的总是随机行动以使自己的行为不 被对方所预测。
• 经济学上的监督博弈也是这样一个例子。如税收 检查、质量检查、惩治犯罪、雇主监督雇员等都 可以看成猜谜博弈。
流浪汉
找工作
游荡
政府 救济 不救济
3,2 -1 , 1
-1 , 3 0,0
假设政府救济的概率为 ;流浪汉找工作的概率为 ;
则
u1 (5 1) ,u2 [1 2 ] 3
0, 当r 1/ 5
[0,1],当r 1/ 5
1, 当r 1/ 5
1, 当 1/ 2 r [0,1],当 1/ 2
S
Sp
0
p*
S
S
D
激励的悖论
• 用支付最大化值求出:
q* A VA
V11
A
当加大对小偷的处罚,守卫 偷懒的概率会增加 A q*
p*
S
S
D
1 1 D
S
当加大对守卫的处罚,小 偷偷东西的概率会减小 S p*
激励的悖论
• 从道理上讲,小偷偷东西是一种犯罪行为,而守恒不负责仅 是失职行为;从性质上讲,犯罪的性质比失职的性质严重得 多,理所当然应该加重对小偷的处罚,但从上面的分析可看 出,为了减少偷窃的现象,反而是加重对守卫处罚效果更好. 这就是激励的悖论!
激励的悖论
• 小偷与守卫博弈
小偷
偷p 不偷1-p
守卫
睡q
小睡1-q
V,-D 0,S
-A,0 0,0
激励的悖论
• 用支付最大化值求出:
U1 Vpq Ap(1 q) p(Vq A Aq)
U1 '
Vq
A
Aq
0
q*
V
A
A
U2 Dpq S(1 p)q q( pD S Sp)
U2'
pD
解一:支付最大化
政府 救济 不救济
流浪汉
找工作
游荡
3,2 -1 , 1
-1 , 3 0,0
假设政府救济的概率为 ;流浪汉找工作的概率为 ;
则流浪汉的期望效用函数为:
uL 2 11 1 3 01
(2 1) 3
解一:支付最大化
• 流浪汉的期望效用函数为:
uL 2 11 1 3 01
国家2
战争
和平
-5, -5 -10, 8
8, -10 10, 10
战争与和平博弈
风险优势标准
若考虑到或者说是顾忌到其他博弈方可能发生错误的原因, 帕累托上策均衡并不一定是最优选择,还需要比较风险优势。 下面就是两个例子。
博弈方2
博 弈U 方 1D
L 9, 9 8, 0
R 0, 8 7, 7
风险上策均衡(D,R)
夫妻之争博弈的混合策略纳什均衡
策略
得益
博弈方1 (0.75,0.25) 0.67
博弈方2 (1/3,2/3) 0.75
§ 多重纳什均衡及其甄别
• 帕累托优势标准 • 风险优势标准 • 帕累托优势标准和风险优势标准 • 聚点均衡 • 相关均衡 • 抗共谋均衡
帕累托优势标准
• 看看这个博弈有几个纯策略纳什均衡?
EUA p1X 1 p2 X 2 ... pnXn
政府和流浪汉的博弈
• 政府想帮助流浪汉,但前提是后者必须试图寻找工
作,否则,不予帮助;而流浪汉若知道政府采用救
济策略的话,他就不会寻找工作。他们只有在得不
到政府救济时才会寻找工作。他们获得的支付如图
所示:
流浪汉
寻找工作
游闲
救济 (3,2) (-1,3)
纳税人
逃税
不逃税
税收机关 检查 A-C+F,-A-F A-C, -A
不检查 0,0
A,-A
课后作业:以“监督博弈”为关键词在学术期刊网上查找文献, 浏览至少三篇论文并精读一篇,写下笔记。
夫妻之争的混合策略纳什均衡
看看这个博弈有几个均衡?
时装 妻 子
足球
时装
丈夫
足球
2, 1
0, 0
0, 0
1, 3
夫妻之争
1q
激励的悖论
• 一小偷欲偷有守卫看守的仓库,若小偷去偷时 守卫睡觉(不负责),则小偷偷窃成功(令其 价值是V),若守卫没有睡觉(尽职尽责), 则小偷会被抓住坐牢(设其效用为-A);再假 设守卫睡觉而未被偷的效用为S,守卫睡觉而 被偷则被解雇,其效用为-D。写出得益矩阵, 并分析如果想减少小偷偷东西的现象发生,如何 做效果更好?
3,2 -1 , 1
-1 , 3 0,0
uL 1, 1 3 uL 0,
0.5政府和流ຫໍສະໝຸດ 汉的博弈• 如果政府救济的概率小于0.5; • 则流浪汉的最优选择是寻找工作; • 如果政府救济的概率大于0.5; • 则流浪汉的最优选择是游闲等待救济。 • 如果政府救济的概率正好等于0.5; • 流浪汉的选择无差异。
1、假定政府采用混合策略:
G ,1 即政府以的概率选择救济,1 的概率选择不救济。
2、流浪汉的混合策略为:
L ,1 即流浪汉以的概率选择寻找工作,1 的概率选择游闲。
解一: 支付最大化
政府 救济 不救济
流浪汉
找工作
游荡
3,2 -1 , 1
-1 , 3 0,0
假设政府救济的概率为 ;流浪汉找工作的概率为 ;
因此B的最佳反应函数为
p
1
1, 当p 1/ 2
q [0,1],当p 1/ 2
1/2
0, 当p 1/ 2
0
1q
p 1
(P*, q*) (1/ 2,1/ 2)
1/2
纳什均衡是:A和B出红牌还
是出黑牌的概率都是1/2.
0
1/2 1 q
反应函数法
练习1:利用反应函数法找出政府与流浪汉博弈的纳什均衡
国家2
战争
和平
国 战争 家 1 和平
-5, -5 -10, 8
8, -10 10, 10
战争与和平博弈
帕累托优势标准
这个博弈中有两个纯策略
纳什均衡,(战争,战争)
和(和平,和平),显然 后者帕累托优于前者,所 以,(和平,和平)是本
国 战争 家 1 和平
博弈的一个按帕累托优势
标准筛选出来的纳什均衡。
第二章 完全信息静态信息博弈-纳什均衡
一 博弈的基本概念及战略表述 二 占优战略均衡 三 重复剔除的占优均衡 四 纳什均衡 五 混合战略纳什均衡 六 纳什均衡存在性及相关讨论
五 混合策略纳什均衡
• 混合策略与期望支付 • 计算混合策略纳什均衡的三种方法 • 支付最大值法 • 支付等值法 • 反应函数法 • 多重纳什均衡及其甄别 • 混合博弈在现实经济中的运用案例
五 混合策略纳什均衡
• 纯策略(pure strategies):如果一个策略规 定参与人在一个给定的信息情况下只选择一 种特定的行动。
• 混合策略(mixed strategies):如果一个策 略规定参与人在给定的信息情况下,以某种 概率分布随机地选择不同的行动。
• 在静态博弈里,纯策略等价于特定的行动, 混合策略是不同行动之间的随机选择。
4 1
如果一个混合策略是流浪汉的最优选择,那一定意味 着政府在救济与不救济之间是无差异的,即:
uG 1, 4 1 uG 0,
0.2
• 解二: 支付等值法
如果一个混合策略是政府的最优选择,那一定意
味着流浪汉在寻找工作与游闲之间是无差异的,
即:
流浪汉
找工作
游荡
政府 救济 不救济
• 在社会经济现象中,存在着许多激励的悖论的现象,如为了 减少考试作弊的现象,应加大对监考人员失职的处罚其效 果更好等等.
• 激励的悖论对我们制定政策和规章制度时带来了有益的思 考.
练习:混合策略的纳什均衡
下面的博弈是否存在纯策略的纳什均衡,如果没有采用混合
策略纳什均衡分析。试用支付最大化法和支付等值法两种
0, 当 1/ 2