混合策略博弈例
博弈论-混合策略纳什均衡
政治学的案例分析
总结词:国际关系
详细描述:在国际关系中,混合策略纳什均衡可以用来解释 国家之间的竞争和合作。例如,两个国家可能会以一定的概 率选择不同的外交政策,例如结盟、中立或对抗,以达到各 自的利益最大化。
生物学的案例分析
总结词
捕食者-猎物博弈
详细描述
在生物学中,混合策略纳什均衡可以用来解释捕食者与猎物之间的博弈。例如,捕食者 可能会采用追逐和放弃两种策略来捕猎猎物,而猎物也可能会采用逃跑和装死两种策略 来避免被捕食。最终,捕食者和猎物都以一定的概率随机选择不同的策略,以达到均衡
非合作博弈论
研究个体如何在不知道其 他个体如何行动的情况下 做出最优决策。
博弈论的基本概念
参与者
参与博弈的决策主体, 可以是个人、组织或国
家。
行动
参与者根据给定的信息 所做出的决策。
信息
参与者在进行决策时所 拥有的数据、情报或知
识。
策略
参与者为达到最优结果 而采取的一系列行动的
方案。
博弈论的应用场景
状态。
生物学的案例分析
总结词:繁殖竞争
VS
详细描述:在生物种群中,不同个体 之间会存在繁殖竞争。为了最大化自 己的遗传贡献,个体可能会采用不同 的交配策略,例如追求高繁殖成功率 的策略或避免过度竞争的策略。混合 策略纳什均衡可以用来描述这种竞争 状态下的交配行为。
THANKS FOR WATCHING
繁殖博弈
在繁殖博弈中,生物个体通过选择不同的繁殖和竞争策略来繁衍后代。混合策略纳什均衡可以用来分 析繁殖过程的均衡结果,解释生物多样性的形成机制。
05 混合策略纳什均衡的案例 分析
经济学的案例分析
Chapter08混合策略同时博弈II:非零和博弈
混合策略同时博弈II:非零和博弈 和III:一般性讨论 Simultaneous-Move Games with Mixed Strategies II: Non-Zero-Sum Games and III: General Discussion 第8章 Chapter 08混合策略同时博弈:非零和博弈 Simultaneous-Move Games with Mixed Strategies: Non-Zero-Sum Games 在非零和博弈中,参与者之间没有明显的利益 冲突,也就没有普遍的理由来对对手隐藏其利 益所在。
In non-zero-sum games, player do not have clearly conflicting interests and have no general reason to want to conceal their interests from others. 因此,迷惑对手就不一定有道理。
As a result, there is no general argument for keeping the other player guessing.Slide 2由于不确定的信念导致的混合策略 Mixing Sustained by Uncertain Beliefs不过,由于是同时博弈,参与者可能不得不持 有对对手行动的某种不确定性的信念,因而也 就不能确定地给出自己的最优行动。
However, Simultaneous play can still lead players to have uncertain beliefs about the actions of a rival player and therefore to be uncertain about their own best actions.Slide 3哈里和萨莉能否会面? Will Harry Meet Sally?SALLY Starbucks Starbucks HARRY Local Latte 0, 0 2, 2 1, 1 Local Latte 0, 0Slide 4哈里和萨莉能否会面? Will Harry Meet Sally?Sally’s Payoffs2Local LatteSally’s best-response1Starbucks0 2/3Harry’s p-mix1Slide 5哈里和萨莉能否会面? Will Harry Meet Sally?Sally’s 1 q-mix2/33 Nash EquilibriaHarry’s best response02/3Harry’s p-mixSlide 61Sally’s best response哈里和萨莉能否会面? Will Harry Meet Sally?混合策略均衡下每个人的期望收益为2/3,小于任何 一个纯策略均衡(2或1)。
第三讲_混合策略纳什均衡
混合策略
◆混合策略定义:在n人博弈的策略式表述 G S1, , Sn ; u1, , un Si Si1, , SiK ,那么,概率 中,假定参与人 i 有K个纯策略: 分布 pi pi1 , , piK 称为 i 的一个混合策略,这里
pik p(sik ) 是 i 选择 sik 的概率,对于所有
这个故事曾经被很多人当作博弈论的例 子来演绎,但实际上这个故事与博弈论无关。 博弈论会假定所有局中人都是理性的,不能假 定一些局中人聪明而另一些局中人却是傻子。 当田忌出下马时,齐威王最好的选择是出下马 而不是上马。孙膑的计谋中假定齐威王是傻子 ,当田忌出下、上、中马时,他仍然按上、中 、下马出,当然要输了。事实上,当田忌出下 马时,齐威王应出下马,但齐威王出下马时, 田忌不应出下马而是出中马,但此时齐威王又 应出中马而不是下马了,……。这样,博弈不 会有纯战略的均衡。
-2,3
2,2
假定老板选择混合战略(0.2,0.8) 工人选择“偷懒”期望支付为(-1)×0.2+3×0.8=2.2 工人选择“不偷懒”(期望)支付为2×0.2+2×0.8=2 工人应选择“偷懒” 老板选择“监督” “不偷懒’……
假定老板选择混合战略(0.5, 0.5) 工人选择“偷懒”期望支付 0.5 为 (-1)×0.5+3×0.5=1 工人选择“不偷懒”期望支 0.5 付为2×0.5+2×0.5=2 工人应选择“不偷懒” 老板选择“不监督” 工人选择“偷懒’……
由 VA =VB 可得 :q=0.8 博弈方2:
VB =3q (1 q)
博 弈 方 1
A B
VC =3 p (1 p)
VD =2 p 5(1 p)
博弈论—混合策略与随机行动
第十六页,共46页。
混合策略—案例(àn lì)
• 混合战略NE • 随着(suízhe)人数n的增加,p减小,即人越
多,每个人选择报案的概率就会越小,如果n= 1,则p=1 • 社会心理学与博弈分析
混合策略—案例(àn lì)
• 报案(reporting a crime) • n个人目睹一桩罪行,每个人都希望报警,
但是都倾向于其他人打电话。特别的, 假定能从报警中得到v单位的收益,而打 电话的人需要付出c单位的成本,v>c>0。 分析这个(zhè ge)问题的纯战略NE和混 合战略NE。
第十四页,共46页。
第十二页,共46页。
怎样(zěnyàng)随机行动?
实验(shíyàn)抛硬币 抛硬币翻出正面之后再抛一次,这时出正面的可能性与抛 出反面(fǎnmiàn)的可能性相等。
无规律的随机行动(点名4/18=22%,不点名78%)。
例如:一个秘密的、足够复杂以致让人难以破解的规则。 举例:秘密
第十三页,共46页。
如果守门员选择(xuǎnzé)左边,你混合策略成功的概率: x*58%+ (1-x)* 93% 如果守门员选择(xuǎnzé)右边,你混合策略成功的概率: x*95%+ (1-x) * 70% 两者相等,求得选x=0.383
第九页,共46页。
混合策略
不管守门员选择他的左边还是右边,你的最佳混合(hùnhé) 比例都会使你得到相等的成功率 (4)以0.383:0.617的比例随机(suí jī)地选择左边或右边。 如果守门员选择左边,你混合策略成功的概率: 0.383*58%+ 0.617* 93%=79.6% 如果守门员选择右边,你混合策略成功的概率: 0.383*95%+ 0.617 * 70% =79.6%
混合策略纳什均衡
博弈论 第三章 混合策略纳什均衡
r*=R(q)
反应对应曲线
第二节 混合策略纳什均衡的求解方法
二、反应对应法
例:扑克牌对色游戏(p77)
再看乙的最优反应,记为q*=R(r): 观察π乙(p甲, p乙)= 2q(2r-1)-(2r-1)
若r 1 / 2 2r 1 0, q越大越好 1, q* R( r ) [0,1], 若r 1 / 2 2r 1 0,无论q选什么都无影响 0, 若r 1 / 2 2r 1 0, q越小越好
博弈论 第三章 混合策略纳什均衡
第二节 混合策略纳什均衡的求解方法
二、反应对应法
例:扑克牌对色游戏(p77)
先看甲的最优反应,记为r*=R(q): 观察π甲(p甲, p乙)= 2r(1-2q)+(2q-1)
若q 1 / 2 1 2q 0, r越小越好 0, r* R( q) [0,1], 若q 1 / 2 1 2q 0,无论r选什么都无影响 1, 若q 1 / 2 1 2q 0, r越大越好
解:Max π甲(p甲, p乙) r Max π乙(p甲, p乙) q
f.o.c. 2r-1=0
r*=1/2
混合策略纳什均衡是甲在策略空间{红,黑}上以概率分布 p甲*= (1/2,1/2)进行选择,乙也在策略空间{红,黑}上以概率p乙*= (1/2,1/2)进行选择
博弈论 第三章 混合策略纳什均衡
第二节 混合策略纳什均衡的求解方法
二、支付最大化法
例:扑克牌对色游戏(p77)
无纯策略NE 给定混合策略p甲=(r,1-r); p乙=(q,1-q) π甲(p甲, p乙)=r[q(-1)+(1-q) 1]+ (1-r)[q1+(1-q)(-1)] = 2r(1-2q)+(2q-1) π乙(p甲, p乙)=q [r1+(1-r)(-1)]+ (1-q)[r(-1)+(1-r)1] =2q(2r-1)-(2r-1) f.o.c. 1-2q=0 q*=1/2
博弈论---混合战略纳什均衡
义为:
n
vi ( i , i ) ( j (s j ))ui (s) sS j1
n个参与人的混合战略纳什均衡
让我们以两人博弈为例说明这一点。假定S1 (s11, , s1K ) ,
即参S2与人(s12有1 ,K 个, s2纯J )战略,参与人2有J个纯战略。若参与人1相
1k
2 j u1 ( s1k , s2 j )
1k 2 j u1 ( s1k , s2 j )
K 1
j 1
K 1 j1
这里,1k 2 j 是参与人1选择 s1k 且参与人2选择 s2 j 的概率,即纯 战略组合 (s1k , s2 j )发生的概率。
n个参与人的混合战略纳什均衡
混合战略纳什均衡
用上述方法:求该猜谜游 戏的混合战略纳什均衡
正面 反面
正面
1 -1,
-1 1,
反面
-1 1,
1 -1,
如何理解混合战略 ——虚张声势
一个参与人选择混合战略的目的是给其 他参与人造成不确定性,这样尽管其他 参与人知道他选择某个特定纯战略的概 率是多少,但不知道实际上对手会采用 哪个战略。正是因为它在几个战略之间 的无差异性,他的行为才难以预测,混 合战略均衡才会出现。
小猪
大猪
按 等待
按 5,1 9,-1
等待 4,4 0,0
正面
1
正面 -1,
反面
-1 1,
-1
反面 1,
1 -1,
混合战略纳什均衡
在n个参与人博弈的战略式表述 G S1,, Sn;u1,,un
中,假定参与人 i 有K个纯战略:Si Si1, , Sik ,那么,
与人关心的是其期望效用。 最优混合战略:是指使期望效用函数最大的混合
混合策略
第一节 混合策略与期望支付
二、期望支付 (一)分析 1.概率 (偷,睡)的概率:pq (偷,不睡)的概率:p(1-q) (不偷,睡)的概率:(1-p)q (不偷,不睡)的概率:(1-p)(1-q)
第一节 混合策略与期望支付
二、期望支付 (一)分析 2.期望支付 U小偷=8pq+(-2)p(1-q)+0(1-p)q+0(1p)(1-q)=2p(5q-1) U守卫= (-2) pq+0p(1-q)+8(1p)q+0(1-p)(1-q)=2q(4-5p)
小偷与守卫博弈
无纳什均衡,如何分析?
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 1.表述 参与人按照一定概率,随机从策略 组合中选择一种策略作为实际行动 随机行动的目的:使自己的行为不被 对手预测
混合策略
小偷的混合策略 以p的概率偷,(p,1-p) 守卫的混合策略 以q的概率睡(q,1-q)
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 2.相对概念:纯策略 每个参与人的非随机性选择 纯粹行动计划,p=100%,1-p=0
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 3.数学刻画 给定博弈G={S1,…,Sn;u1,…,un}以及参 与人i的纯策略Si= {si1,…,sik} 概率分布pi=(pi1,…,pik)为混合策略 其中:0≤ pik ≤1,∑ pik=1, pik=p( sik ) 混合策略组合p=(p1,…,pi,…pn)
两情若是久长时
足球 John 芭蕾 Candy 足球 芭蕾
2,1 0,0
-1,-1
1,2
研究方法:支付等价法
博弈论混合策略纳什均衡
博弈方1 (0.8,0.2) 2.6
博弈方2 (0.8,0.2) 2.6
夫妻之争的混合策略纳什均衡
看看这个博弈有几个均衡?
时装 妻 子
足球
时装 2, 1
丈夫
足球 0, 0
0, 0
1, 3
夫妻之争
存在两个纯策略均衡
时装 妻 子
足球
时装 2, 1
丈夫
足球 0, 0
0, 0
1, 3
夫妻之争
还存在混合策略纳什均衡
vL1,13vL0, 0.5
政府和流浪汉的博弈
• 如果政府救济的概率小于0.5; • 则流浪汉的最优选择是寻找工作; • 如果政府救济的概率大于0.5; • 则流浪汉的最优选择是游闲等待救济。 • 如果政府救济的概率正好等于0.5; • 流浪汉的选择无差异。
讨论
• 上面的均衡要求每个参与人以特定的概率选择纯策略。也就是说,一个参与人选择不同策略 的概率不是由他自己的支付决定的,而是由他的对手的支付决定的。
n
• 证明过程省略,主要根据是布鲁威尔和角谷i 的不动点定理。
• 纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析核心概念的根本原因之一。
§扑克牌对色游戏
• 甲乙玩扑克牌对色游戏,每人都有红黑两张扑克牌,约定如果出牌颜色一样,甲输乙赢,如果 出牌颜色不一样,则甲赢乙输。
• 找到这个博弈的纳什均衡。
字母说明
• 此博弈不存在纯策略纳什均衡。 • 我们用p代表税收机关检查的概率;q代表纳税人逃税的概率。
求解:混合战略纳什均衡之一
• 假定纳税人采用混合策略达到最优选择时,则税收机关在检查和不检查两种策略的期望收益 相等:
• (a-C+F) q+(a-C)(1- q)=a(1- q) • q*=C/(a+F)
混合的策略纳什均衡
流浪汉 寻找工作 流浪
救济 政府
不救济
2 3,
1 -1,
3 -1,
0 0,
虽这模型没有PNE,却有下述的MNE:参与人以一定的概率选择某种 策略,然后计算相应于不同概率的期望效用。
2020/6/17
9
设:政府救济的概率θ=1/2 ; 不救济的概率1-θ=1/2。 流浪汉寻找工作的期望效用: 1/2×2+1/2 ×1=1.5 流浪的期望效用: 1/2×3+1/2 ×0=1.5
✓ 每个参与人都想猜透对方的策略,而每个 参与人又不愿意让对方猜透自己的策略。
这种博弈的类型是什么?如何找到均衡?
2020/6/17
3
2. 混合策略、混合策略博弈和混合策略纳什均衡
• 策略:
– 参与人在给定信息集的情况下选择行动的规则,它规定参与人在 什么情况下选择什么行动,是参与人的“相机行动方案”。
E1(正面)=(-1)×r+1×(1-r)=1-2r 参与人1选取反面的期望效用为
E1(反面)=1×r+(-1)×(1-r)=2r-1
2020/6/17
15
参与人1的期望效用为 E1= E1(正面)×q + E1(反面)×(1- q ) =(1-2r)(2q-1)
类似地,得到参与人2的期望效用为
E2= E2(正面)×r + E2(反面)×(1- r ) =(1-2q)(2r-1)
参与人2
正面
反面
参与人1
正面 反面
-1, 1 1,-1
1,-1 -1, 1
由划线法可知,该博弈不存在纳什均衡。 所以采取纯策略不存在稳定的纳什均衡解。
2020/6/17
2
混合策略纳什均衡
第二节 混合策略纳什均衡的求解方法
二、反应对应法
例:扑克牌对色游戏(p77)
先看甲的最优反应,记为r*=R(q): 观察π甲(p甲, p乙)= 2r(1-2q)+(2q-1)
若q 1 / 2 1 2q 0, r越小越好 0, r* R( q) [0,1], 若q 1 / 2 1 2q 0,无论r选什么都无影响 1, 若q 1 / 2 1 2q 0, r越大越好
纯策略(确定性)
q*=R(r)
(陈明德语) r 1 3/4
r*=R(q)
0 1/4 1 q (钟信德语)
博弈论 第三章 混合策略纳什均衡
第三节 寻找多重纳什均衡
二、反应对应法:情侣博弈
支付的帕累托优势:初步印象 π陈明=r(4q-1)+2(1-q),π钟信=q(4r-3)+(3-2r) r*=0, q*=0 纯策略(确定性)
第三节 寻找多重纳什均衡
例:情侣博弈
两个(多个)纯策略纳什均衡 问题:纳什均衡找完了吗?有无混合策略纳什均衡?
一、支付最大化法
给定混合策略p陈明=(r,1-r); p钟信=(q,1-q) Max π陈明(p陈明, p钟信)=r[3q+(1-q) ]+ (1-r)[0+2(1-q)] =r(4q-1)+2(1-q) r Max π钟信(p陈明, p钟信)=q (2r+0)+ (1-q)[r+3(1-r)] =q(4r-3)+(3-2二节 混合策略纳什均衡的求解方法
二、反应对应法
例:扑克牌对色游戏(p77) 无纯策略NE 给定混合策略p甲=(r,1-r); p乙=(q,1-q)
03 混合策略纳什均衡
小偷的混合策略 (5%,95%) , ) 守卫的混合策略 (10%,90%) , )
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 4、数学刻画 、 给定博弈G={ 以及参与人i的纯策 给定博弈 {S1,…,Sn;u1,…,un}以及参与人 的纯策 … 略空间为S 略空间为 i= {si1,…,sik}, … },i=1,…, K … 定义参与人i以概率分布 以概率分布p 随机地在其k个可 定义参与人 以概率分布 i=(pi1,…,pik)随机地在其 个可 … 随机地在其 选策略中选择的“策略” 混合策略, 选策略中选择的“策略”为混合策略, pik=p(sik )表示 表示 参与人i选择纯策略 选择纯策略s 参与人 选择纯策略 ik的概率 其中: , 其中:0≤ pik ≤1,∑ pik=1 纯策略s 可以看作是混合策略p 纯策略 i1可以看作是混合策略 i =(1,0,…0) 混合策略组合p=( … … 混合策略组合 (p1,…,pi,…pn) 对应混合策略组合的期望支付 期望支付为 对应混合策略组合的期望支付为πi(p)=πi(pi,p-i)
博弈论 第三章 混合策略纳什均衡
第一节 混合策略与期望支付
一、混合策略
(二)混合策略
-2 0 1、纯策略:偷,不偷;睡,不睡 、纯策略: 不偷; 偷r 8 -2 小 纯策略空间{ 不偷} 小偷的 纯策略空间{偷,不偷} 偷 8 0 纯策略空间{ 不睡} 守卫的 纯策略空间{睡,不睡} 不偷1-r 0 不偷 0 2、混合策略 、 就一次游戏而言,猜测对方的策略,保密自己的策略。 就一次游戏而言,猜测对方的策略,保密自己的策略。在多次反复 游戏中, 游戏中,避免任何的倾向性和规律性 怎样才能让对方彻底猜不透?连自己也不知道即将会采用哪个策略; 怎样才能让对方彻底猜不透?连自己也不知道即将会采用哪个策略; 把对方搞糊涂! 把对方搞糊涂! 随机地选择策略,即采用混合策略 随机地选择策略,即采用混合策略 参与人按照一定概率 按照一定概率, 参与人按照一定概率,随机从策略组合中选择一种策略作为实际行 动 随机行动的目的: 随机行动的目的:使自己的行为不被对手预测 守卫 不睡 1-q 睡q
《博弈论与信息经济学》混合战略纳什均衡--ppt课件全篇
放荡
32
-1 3
-1 1 0 0
1
ppt课件
假定父母选择支助的概率为p1,选择不支助的概率为p2 1- p1 ; 儿子选择立志的概率为q1,选择不立志的概率为q2 1- q1 。那么
对两个参与人,各自的盈利函数为:
v1
3 p1q1
1
p1q2
1
p2q1
5
p1q1
p1
q1
v2 2 p1q1 p2q1 3 p1q2 2 p1q1 q1 3 p1
一个混合战略均衡:p*, q* 3 4,1 4。
p
甲
1
3/4 乙
O 1/4
12
1q
ppt课件
▪ 解法2:代数法
甲和乙的期望盈利:v甲 v乙
p 4q q4p
1 2q 1 3 3 2 p
v甲
p
v乙
q
4q 1 0 4p 3 0
p*
q*
3 4 1 4
13
ppt课件
▪ 例3(三人博弈)
K
pik 1,pik p sik 是i选择战略sik的概率,pi称为参与人i的混合战略。
k 1
i 代表i的混合战略空间,pi i 。
▪ (2)期望盈利
对于博弈G S1,..., Si ,..., Sn;u1,..., ui ,..., un,对应于s s1,..., si,..., sn 有p p1,..., pi ,..., pn ,pi i ,p表示局中人i的混合战略组合,那么,
2
即q 1 ,则p越小越好,而p的最小值只能取0;如果1 2q 0,
2
即q 1 ,则p能取任意值,即p 0,1。
2
对于乙来说,为使盈利达到最大,只有调整q。如果2 p 1 0,
混合战略博弈的例子
混合战略博弈的例子偷税漏税的一般是中小企业,大企业会老老实实地交税税务部门不会对所有企业的交税情况每一次都去检查,因为这样成本太高。
所以,税务部门总是随机地对企业的交税情况进行检查。
企业也是随机地在交税与偷漏税之间进行选择。
对于大企业,一旦偷税数目巨大,税务部门在随机检查时放在大企业上的可能性就大一些;而给定税务部门检查大企业的可能性较大,大企业偷漏税的行为就较少,否则就容易被逮个正着。
所以,偷漏税较多的就是一些中小企业,大企业纳税的积极性较高。
税收部门与企业间进行的是混合战略博弈。
因为如果企业总是交税,税务部门就最好不检查;但给定不检查,企业就会偷漏税。
所以,两者只有在随机地检查与不检查,企业随机地在偷漏税与交税之间选择,才会达成均衡。
混合战略是指博弈的参与者以一定的概率去选择某种战略。
这类博弈虽然在一次操作中有输有赢,但将这个博弈多次重复进行,可以研究各个战略应赋予多大的概率,能获得最大的期望(平均)收益。
某个小镇上只有一名警察,他负责整个镇的治安。
现在我们假定,小镇的一头有一家酒馆,另一头有一家银行。
再假定该地只有一个小偷。
因为分身乏术,警察一次只能在一个地方巡逻;而小偷也只能去一个地方。
若警察选择了小偷偷盗的地方巡逻,就能把小偷抓住;而如果小偷选择了没有警察巡逻的地方偷盗,就能够偷窃成功。
假定银行需要保护的财产价格为2万元,酒馆的财产价格为1万元。
警察怎么巡逻才能使效果最好?一种最容易被警察采用而且确实也更为常见的做法是,警察对银行进行巡逻。
这样,警察可以保住2万元的财产不被偷窃。
但是假如小偷去了酒馆,偷窃一定成功。
这种做法是警察的最好做法吗?答案是否定的,因为我们完全可以通过博弈论的知识,对这种策略加以改进。
警察的一个最好的策略是,抽签决定去银行还是酒馆。
因为银行的价值是酒馆的两倍,所以用两个签代表,比如抽到1、2号签去银行,抽到3号签去酒馆。
这样警察有2/3的机会去银行进行巡逻,1/3的机会去酒馆。
03 混合策略纳什均衡
相关均衡例子 三个纳什均衡: 三个纳什均衡 (U,L)、(D,R) 和混合策略均衡[(1/2,1/2), (1/2,1/2)] 结果都不理想,不如(D,L)。
5)防联盟均衡 ) 博弈中若有三个及三个以上的局中人,就有可能部分人结 成“联盟”,在极大化联盟成员利益的同时损害了其他局 中人的利益。
甲 乙
2
( p, q ) = ∑∑ pi q j bij
i =1 j =1
混合策略纳什均衡 设 P * = ( P * , L, Pi* , L, Pn* ) 是 n 人策略式博弈 G = {S1 ,LSn ; u1 ,Lun } 1 的一个混合策略组合,如果对于所有的
i = 1, L , n ,
π i ( Pi* , P−*i ) ≥ π i ( Pi , P−*i ) 对于每一个 Pi ∈ ∑i 都成立,则称
i i
随机在其m个可选策略中选择的“策略”,称为一个“混合 策略”,其中 p ij 0≤
≤1
j 对,L, m =1
p 1i 都成立,且 + L + p im = 1
混合策略扩展博弈:博弈方在混合策略的策略空 混合策略扩展博弈 间(概率分布空间)的选择看作一个博弈,就是原 博弈的“混合策略扩展博弈。
L 0,0,10 -5,-5,0 A
R -5,-5,0 1,1,-5
乙 甲
L -2,-2,0 -5,-5,0 B
R -5,-5,0 -1,-1,5
U D
U D 丙
)、(D, , ) (U,L,A)、( ,R,B)——纯策略纳什均衡 , , )、( 纯策略纳什均衡 优于( , , ) (U,L,A) Pareto优于(D,R,B) , , ) 优于
2)制式问题
混合策略
参与人 1 正面
背面
-1,
1, -1
– 因为当且仅当 q < ½ 时,1-2q >2q-1成立, 则
• 如果q < 1/2, 参与人1的最优纯策略为出正面; • 如果q > 1/2,参与人1的最优纯策略为出背面; • 如果 q = ½,参与人1出正面与出背面没有差别。
猜硬币
参与人 2
• 没有一组策略 满足 (NE)
参与人 1
正面
正面 背面 -1, 1
背面
1, -1 -1, 1
1, -1
• 如果参与人的策略一致——(正面,正面) 或 (反面,反 面)—则参与人1会偏向于改变策略; • 但是如果两者策略不一致—(正面, 反面) 或 (反面, 正 面)—则参与人2偏向于改变策略。
• 参与人 2: ( q, 1-q ) • 参与人 1: ( r, 1- r ) q∈[0,1]
r*(q) = arg max 2(q-1/2)+4r(1/2-q)
1 * r ( q ) 0 [0,1]
q <1/2 q > 1/2 q 1/2
图 1.3.3
• 当参与人 i不确定参与人 j 会如何行动时,他可以把 参与人 j的混合策略作为 参与人 j行动的一个解释。
例如: 猜硬币
假设参与人1相信参与人会以q 的概率出正面, 以1 - q 的概率出背面;也就是说,1 相信2的混合策 略是 ( q, 1-q )。
参与人 2 正面 q 参与人 1 正面 背面 -1, 1 1, -1 背面 1-q 1, -1 -1, 1
• 参与人 2: ( q, 1-q ) • 参与人 1: ( r, 1- r ) • 求解 r*(q)
3.2.5警察与小偷的博弈:混合策略下的随机方式
警察与小偷的博弈:混合策略下的随机方式在美国西部的一个城镇,镇上只有一个警察负责全镇的治安状况。
现在我们假定,小镇的一头有一家超市,另一头有一家银行。
同时,我们再假定该地只有一个小偷。
因为只有一个人,所以警察一次只能在一个地方巡逻;同理,小偷一次也只能去一个地方,要么是超市,要么是银行。
如果警察恰好选择了小偷进行偷盗的地方巡逻,就能当场把这个小偷抓个正着;而如果这个小偷选择了没有经常巡逻的地方偷盗,那么他这一次就能够偷盗成功。
假设银行需要保护的财产价格为2万元,超市的财产价格为1万元。
那么警察怎么巡逻才能使效果最好?也可反过来说,小偷采取怎样的策略才能偷到最多的钱呢?一种最容易被警察采用且确实也更为常见的做法是,警察对银行进行巡逻。
这样的话,警察就可以保住2万元的财产不被偷窃。
但是假如小偷没有选择去银行,而是选择去了超市,那么小偷的偷窃一定就能成功,1万元就到手了。
思考一下,这种做法是警察的最好选择,策略吗?答案当然是否定的,现在我们完全可以通过博弈论的知识,对这种策略加以改进。
我们用抽签来决定警察去银行还是去超市。
因为银行的价值是超市的两倍,所以用两个签代表银行,如抽到1、2号签去银行,抽到3号签去超市。
这样警察便有2/3的机会去银行进行巡逻,1/3的机会去超市巡逻。
这种情况下,小偷的最优策略是:也以同样抽签的办法决定去银行还是去超市偷盗。
与警察相反,小偷如果抽到1、2号签就去超市偷盗,如果抽到3号签就去银行偷。
这样的话,小偷有1/3的机会去银行, 2/3的机会去超市。
结果似乎有些滑稽,警察的策略是使小偷最大得手率降至最低,而小偷谋求的是最小得手率的最大化,也就是说,警察的最优策略将把小偷的最差策略改良!这便是著名学家,“数学经济学”的奠基人冯·诺依曼提出的“最小最大定律”。
警察与小偷的博弈,提供了混合策略的思路。
所谓混合策略,就是指参与者采取的不是唯一的策略,而是其策略空间上的一种概率分布。