混合策略与随机行动概论
混合策略纳什均衡
02
混合策略纳什均衡的基本理论
纳什均衡的定义与性质
纳什均衡的定义
在博弈中,如果每个玩家都采取自己的最优策略,那么整个博弈会达到一种均 衡状态,即所有参与者的利益达到最大化。
纳什均衡的性质
纳什均衡是一种自我稳定的状态,即使受到外部干扰,也会迅速恢复到原始状 态。此外,纳什均衡也是最优的,因为它使得每个参与者的利益都达到最大化 。
其次,现有的研究往往只关注特定的博弈模型, 对于更一般化的博弈模型,尤其是对于连续型博 弈和多阶段博弈的研究还比较缺乏。
首先,混合策略纳什均衡的概念和性质仍需进一 步深化和研究。例如,对于非完全信息博弈,如 何准确地刻画混合策略纳什均衡点的数量和分布 等问题仍需探索。
最后,现有的研究主要集中在理论层面,对于如 何将混合策略纳什均衡应用到实际问题中,如何 设计和制定有效的混合策略等问题还需要进一步 探讨。
未来研究方向与挑战
未来研究可以进一步拓展混合策略纳什均衡的应用领域,例如在经济学、政治学、社会学等领域的应 用。
另外,针对现有的研究不足,未来研究可以深入探索混合策略纳什均衡的性质和计算方法,以及如何设 计和制定有效的混合策略等问题。
此外,未来的研究还可以进一步拓展混合策略纳什均衡的理论框架,例如在多阶段博弈、不完全信息博 弈、非线性博弈等领域的研究。
略纳什均衡来分析。
在生物学领域的应用
在生物学中,混合策略纳什均衡可以用来研究生物种 群的进化稳定性和生态平衡。
在生态系统中,生物种群可以通过选择不同的繁殖、 迁徙、捕食等策略来适应环境变化,这种博弈关系可 以通过混合策略纳什均衡来分析。
在其他领域的应用
在社会学中,混合策略纳什均衡可以用来研究社会群 体中的合作与竞争关系。
09 第九讲 混合战略博弈
谢谢大家!
依《三国演义》的作者罗贯中的逻辑,孔 明总是比曹操计高一筹,按博弈论的术语来说, 就是孔明的理性程度要比曹操高上一阶。 孔明也知道“曹操知道孔明的打算”,于 是命令关羽在点火的华容道上等着曹操。 《三国演义》中的这个故事很可能是作者 编造的,因为在《三国志》中并无这一情节。
在这里,罗贯中假设了曹操在智力上比 孔明差一些,才有华容道上被关羽抓住,要不 是关羽旧情难忘,曹操就死无葬身之地了。
田忌的谋士孙膑了解了田忌的困境后, 就打听到这样一个消息:尽管齐威王的上、 中、下三匹马都要比田忌的对应上、中、 下三匹马好,但碰巧的是田忌的上马可胜 齐威王的中马,田忌的中马可胜齐威王的 下马。 于是,孙膑为田忌献计:下一次比赛 中第一局时田忌出下马对齐威王的上马输 一局,第二局田忌出上马对齐威王的中马, 第三局田忌出中马对齐威王的下马,这样 可连赢两局,最后净胜一千两黄金。田忌 依计而行,果真赢回一千斤两黄金。
当曹操冲破赵云、张飞的阻截后,来到 华容道前,看见华容道上静悄悄的,但有 烟火萦绕。
曹操大笑道:“孔明以为我会上他的当, 故意叫人在华容道上点火让我走另一条道, 而他却伏兵于这条道上好逮住我呢!我偏 不上他的当!” 于是,曹操令大军径直上华容道上而去, 结果与关羽大军撞个正着。
曹操为何进了孔明的圈套呢?这里的道理 是这样的: 孔明知道曹操是聪明人,而聪明人见华容 道上有烟火会认为华容道上有伏兵,于是会避 开华容道而走另一条路。如果孔明令关羽在另 一条路等着,曹操就被逮住了。 但是,曹操不仅聪明,而且还聪明过人, 他也知道孔明的如此盘算来诱他上钩,他偏不 上当,知道点火的华容道上无人,孔明的队伍 在另一条道上呢!于是他会选择走华容道。
当时,第一批拦截大军是赵云率领的,第 二批拦截大军是张飞带队的,第三批才是关羽 率部伏击。 由于曹军兵多将广,前二批伏击军不能逮 住曹操,只是抢劫一些军械马匹之类。
第二讲 混合策略与连续策略
贫民的期望支付
π p = θ a [2γ w + 3(1 − γ w )] + (1 − θ a )[1γ w + 0(1 − γ w )] = 3θ a − γ w (2θ a − 1)
求一阶条件,得
0= dπ p dγ w = −(2θ a − 1) ⇒ θ a = 0.5
在该博弈中,政府以50%的概率选择救济,贫民以 20%的概率选择找工作,构成混合策略纳什均衡。
福利博弈 贫民 工作 救济 政府 不救济
(-1,1) (0,0) (3,2)
游手好闲
(-1,3)
该博弈是否存在优势策略均衡?是否存在纳什均衡?
福利博弈 贫民 工作 救济 政府 不救济
(-1,1) (0,0) (3,2)
游手好闲
(-1,3)
如果政府选择救济的概率是 θa ,而贫民选择工作的 概率是 γ w,则政府的期望支付是
π(避让) = π(坚持)
π (避让) = π (坚持) θ ⋅ 0 + (1−θ ) ⋅1=θ ⋅ (−3) + (1−θ ) ⋅ 2 ⇒θ =0.25
请计算A、B两个人都安然无恙的概率。
市民责任博弈(Kitty谋杀案)
B 袖手旁观 袖手旁观 A 报警
(7,10) (7,7) (0,0)
报警
πg = θa [3γ w + (−1)(1−γ w )] + (1−θa )[−1γ w + 0(1− γ w )] = θa [5γ w −1] −γ w
求一阶条件,得
0= dπ g dθ a = 5γ w − 1 ⇒ γ w = 0.2
上述结论意味着: 1,对政府来说存在一个最优的混合策略; 2,若贫民选择工作的概率大于20%,则政府总是选 择救济;若小于20%,则政府总是选择不救济; 3,若对政府而言混合策略是最优的,则贫民选择工 作的概率恰好为20%。
混合策略
第一节 混合策略与期望支付
二、期望支付 (一)分析 1.概率 (偷,睡)的概率:pq (偷,不睡)的概率:p(1-q) (不偷,睡)的概率:(1-p)q (不偷,不睡)的概率:(1-p)(1-q)
第一节 混合策略与期望支付
二、期望支付 (一)分析 2.期望支付 U小偷=8pq+(-2)p(1-q)+0(1-p)q+0(1p)(1-q)=2p(5q-1) U守卫= (-2) pq+0p(1-q)+8(1p)q+0(1-p)(1-q)=2q(4-5p)
小偷与守卫博弈
无纳什均衡,如何分析?
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 1.表述 参与人按照一定概率,随机从策略 组合中选择一种策略作为实际行动 随机行动的目的:使自己的行为不被 对手预测
混合策略
小偷的混合策略 以p的概率偷,(p,1-p) 守卫的混合策略 以q的概率睡(q,1-q)
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 2.相对概念:纯策略 每个参与人的非随机性选择 纯粹行动计划,p=100%,1-p=0
第一节 混合策略与期望支付
一、混合策略 (二)混合策略 3.数学刻画 给定博弈G={S1,…,Sn;u1,…,un}以及参 与人i的纯策略Si= {si1,…,sik} 概率分布pi=(pi1,…,pik)为混合策略 其中:0≤ pik ≤1,∑ pik=1, pik=p( sik ) 混合策略组合p=(p1,…,pi,…pn)
两情若是久长时
足球 John 芭蕾 Candy 足球 芭蕾
2,1 0,0
-1,-1
1,2
研究方法:支付等价法
管理经济学10博弈论详解
定义1: 给定其它局中人的策略s,局中人i的最优反应 记为s,是指能给他带来最大收益的策略,即
ui (s , si ) ui (s , si ) s s
* i ' i ' i
* i
当每个局中人都选择了自己的最优反应策略,并 且这些最优反应形成一个策略组合,便形成了纳什均 衡。
博弈论和对策行为
设局中人a使用混合策略x局中人b使用最优混合策略y这时局中人b的期望支付若局中人b使用某种混合策略而局中人a使用最优混合策略这时局中人a的收益的期望值为博弈论和对策行为混合策略和重复性博弈这说明当局中人a使用最优策略时不管局中人b使用何种策略他的收入的期望值不变从而保持有利的竞争地位
10 讲
博奕论和对策行为
博弈论和对策行为
策略型博弈的实例和解(性别战)
例2. 性别战(battle of the sexes)
一男一女恋爱,有些业余活动要安排,或者去看 足球比赛,或者去看芭蕾舞演出。男的偏好足球,女 的则更喜欢芭蕾舞,但他们都宁愿在一起,不愿分开 。下表给出收益矩阵: 女 足球 芭蕾 足球 2,1 0,0 男 芭蕾 0,0 1,2
纳什均衡
定义2: 一个策略组合s*=(s1*,s2*,…,sn*)被称为纳什均 衡是指,对于所有 的 i,
ui (s , s ) ui (s , s ) s Si
* i * i ' i * i ' i
纳什均衡的思想就是,博奕的理性结局是这样一 种策略组合,其中每个局中人选择的策略都已是对其 它局中人所选策略的最优反应,所以,谁也没有积极 性去选择其它策略。因为每一个局中人均不能因为单 方面改变自己的策略而获利,于是谁也没有兴趣主动 打破这种均衡。
混合策略纳什均衡
03 混合策略纳什均衡的证明 方法
反证法
总结词
通过假设不成立来证明均衡的存在。
详细描述
反证法是一种常用的证明方法,它首先假设与结论相反的命题成立,然后通过逻辑推理和数学推导,得出矛盾的 结论,从而证明原命题的正确性。在证明混合策略纳什均衡的存在时,反证法可以用来证明当其他玩家采取了最 优策略时,某个玩家采取混合策略能够达到最优结果。
唯一性意味着在给定对手策略的情况下,每个参与者都只有一个最优反应,从而 避免了复杂的策略互动和不确定性。
存在性
混合策略纳什均衡的存在性是指在某 些博弈中,至少存在一个策略组合, 使得每个参与者在给定其他参与者策 略的情况下,采用混合策略是最优的 。
存在性通常通过数学证明和计算机搜 索等方法来证明,但并不是所有博弈 都有混合策略纳什均衡。
混合策略纳什均衡
目录
CONTENTS
• 混合策略纳什均衡的定义 • 混合策略纳什均衡的特性 • 混合策略纳什均衡的证明方法 • 混合策略纳什均衡的应用场景 • 混合策略纳什均衡的局限性 • 混合策略纳什均衡的发展前景
01 混合策略纳什均衡的定义
定义
混合策略纳什均衡是一种博弈论中的均衡概念,它描述了在 给定对手策略的情况下,参与者如何选择最优策略以最大化 自己的期望收益。
代数法是一种通过数学符号和公式进行推 理和证明的方法。在证明混合策略纳什均 衡的存在时,代数法可以用来推导和证明 纳什均衡的条件和性质,利用代数性质和 技巧来证明均衡的存在。
04 混合策略纳什均衡的应用 场景
经济学
竞争策略分析
混合策略纳什均衡在经济学中被用于分析竞 争策略,特别是在不完全竞争市场和寡头垄 断市场中。通过混合策略纳什均衡,可以研 究企业在不确定环境下的最优反应,以及企 业如何通过调整其策略来应对竞争对手的行 为。
博弈论2:混合策略
案例:纳税人与税官的博弈,利益函数: 案例:纳税人与税官的博弈,利益函数:
1.税务机关不查账,纳税人不逃税:税务机关得到 税务机关不查账,纳税人不逃税: 税务机关不查账 税金a, 纳税人纳税a:( :(a,- ) 税金 纳税人纳税 :( -a) 2.税务机关查账,纳税人不逃税:税务机关得税 , 税务机关查账, 税务机关查账 纳税人不逃税:税务机关得税a, 查账付出成本为C,纳税人纳税a - - 查账付出成本为 ,纳税人纳税 :(a-C,-a) 3.税务机关不查账,纳税人逃税:税务机关未得税 税务机关不查账, 税务机关不查账 纳税人逃税: 纳税人未缴税金:( 金,纳税人未缴税金 0, 0) 4.税务机关查账,纳税人逃税:纳税人罚款 ,税务 税务机关查账, 税务机关查账 纳税人逃税:纳税人罚款F, 机关得到F,付出成本C,故利益函数分别为:( 机关得到 ,付出成本 ,故利益函数分别为 a ,-a- ) +F-C,- -F) - ,-
2. 税务机关混合策略(查账率)分析 税务机关混合策略(查账率)
• 税务机关的策略空间:查账与不查账 • 要取得最大利益,不能采取纯策略,而是有时 查账,有时不查账,即采取查账率为r,此数即 是我们要求解的税务机关的博弈策略。 • 这个最大利益必须通过分析纳税人的利益函数 才能得到阵)中所采取利益最大化策略 • 所以,税务机关必须通过查账率对纳税人的行 为的影响,来决定其策略:查账率
混合策略的普遍意义
上述方法可以被用于很多管理事务中,如: 警察与小偷; 贪官与检察官 不确定性的价格战 制造污染的企业与环境部门 违纪职工与领导,等等,等等 • 加大惩罚系数,减少平均检查成本,是减少违 加大惩罚系数,减少平均检查成本, 法现象发生概率的基本途径, 法现象发生概率的基本途径,从而真正实现 “管理的经济”。 管理的经济”
4.混合战略纳什均衡
vJ (1,0; ,1 ) 0.9 0.2(1 )
vJ (0,1; ,1 ) 0.3 0.6(1 )
由
vJ (0,1; ,1 ) vJ (1,0; ,1 )
得: 同理得: 0.4 0.3
问题:
例4、监督博弈——税收
监督博弈是猜谜博弈的变种,它概括了诸如税收检查、 质量检查、惩罚犯罪、顾主监督雇员等;这里以税收为例进 纳税人 行讨论。 支付矩阵 逃税 不逃税 参与人 纯战略 税 检查 a-C+F , -a-F a-C , -a 税收机关 检查,不检查 收 机 不检查 0, 0 a , -a 纳税人 逃税,不逃税 关 右表概括了对应不同纯战略组合的支付矩阵,其中,a是 应纳税款;C是检查成本;F是罚款,假定C<a+F。 用 代表税收机关检查的概率, 代表纳税人逃税的 概率。给定 ,税收机关选择检查( =1)和不检查 ( =0)的期望收益分别为:………….. 给定 ,………… a C * , * 混合战略纳什均衡为:
aF aF
税收讨论:
一、监督博弈的纳什均衡与应纳税款a、对逃税的惩罚F、 以及检查成本C有关。 二、逃税者可制造虚假逃税信息,浪费查税人的资源。 类似的有战争中发射真假弹的问题。 三、有的博弈只有混合战略纳什均衡,但有的既有纯战 略又有混合战略纳什均衡,如性别战博弈。 四、奇数定理:几乎所有有限博弈都有有限奇数个纳什 均衡。
vG ( G , L ) [3 (1)(1 )] (1 )[ 0(1 )]
vG 效用最大化条件: 5 1 0
(5 1)
同理,流浪汉的期望效用函数: vL ( G , L ) 3 2 效用最大化条件为: vL 1 2 0 * 故: * 0.5 0.2
03 混合策略纳什均衡
博弈论 第三章 混合策略纳什均衡
第一节 混合策略与期望支付
二、期望支付 3、数学刻画 、 博弈G={S1,…,Sn;u1,…,un}, 参与人 的纯策略空间为 参与人i的纯策略空间为 博弈 … Si= {si1,…,sik} … 混合策略p 表示参与人i选择纯 混合策略 i=(pi1,…,pik) , pik=p(sik )表示参与人 选择纯 … 表示参与人 策略s 的概率, 策略 ik的概率,0≤ pik ≤1,∑ pik=1 , 在纯策略情形下, 支付u 在纯策略情形下 支付 i=ui(s),对任何一个给定纯策略 , 组合s=(s1,s2,…sn), ui取-确定值 组合 与混合策略相伴的是得益(支付 的不确定性。这时: 与混合策略相伴的是得益 支付)的不确定性。这时 支付 的不确定性 混合策略组合p=( … … 混合策略组合 (p1,…,pi,…,pn) 对应混合策略组合的期望支付 期望支付为 对应混合策略组合的期望支付为:πi(p)=πi(pi, p-i) 4、两个局中人的期望支付 、
i =1 j =1 j =1 i =1
m
n
n
m
小 偷
例:小偷与守卫的猫鼠博弈 π小偷=8rq+(-2)r(1-q)+0⋅ (1-r)q+0⋅ (1-r)(1-q) ⋅ ⋅
=r[q⋅8+(1-q)(-2)]+ (1-r)[q⋅0+(1-q)⋅0] ⋅ ⋅ ⋅ =2r(5q-1) π守卫= (-2)rq+0⋅ r(1-q)+8(1-p)q+0⋅ (1-p)(1-q) ⋅ ⋅ =q [r⋅(-2)+(1-r)8]+ (1-q)[r⋅0+(1-r)⋅0] ⋅ ⋅ ⋅ =2q(4-5r)
数据库系统概论第五版第七章习题解答和解析
第七章习题解答和解析1. 试述数据库设计过程。
答:这里只概要列出数据库设计过程的六个阶段:(1) 需求分析;(2) 概念结构设计;(3) 逻辑结构设计;(4) 数据库物理设计;(5) 数据库实施;(6) 数据库运行和维护。
这是一个完整的实际数据库及其应用系统的设计过程。
不仅包括设计数据库本身,还包括数据库的实施、运行和维护。
设计一个完善的数据库应用系统往往是上述六个阶段的不断反复。
解析:希望读者能够认真阅读《概论》7.1 的内容,了解并掌握数据库设计过程。
2.试述数据库设计过程中结构设计部分形成的数据库模式。
答:数据库结构设计的不同阶段形成数据库的各级模式,即:(1) 在概念设计阶段形成独立于机器特点,独立于各个DB MS 产品的概念模式,在本篇中就是E-R 图;(2) 在逻辑设计阶段将E-R 图转换成具体的数据库产品支持的数据模型,如关系模型,形成数据库逻辑模式,然后在基本表的基础上再建立必要的视图(View), 形成数据的外模式;(3) 在物理设计阶段,根据DB MS 特点和处理的需要,进行物理存储安排,建立索引,形成数据库内模式。
读者可以参考《概论》上图7.4。
图中概念模式是面向用户和设计人员的,属于概念模型的层次;逻辑模式、外模式、内模式是DBMS 支持的模式,属于数据模型的层次,可以在DBMS 中加以描述和存储。
3.需求分析阶段的设计目标是什么? 调查的内容是什么?答需求分析阶段的设计目标是通过详细调查现实世界要处理的对象(组织、部门、企业等),充分了解原系统(手工系统或计算机系统)工作概况,明确用户的各种需求,然后在此基础上确定新系统的功能。
调查的内容是“数据”和“处理”,即获得用户对数据库的如下要求:(1) 信息要求,指用户需要从数据库中获得信息的内容与性质,由信息要求可以导出数据要求,即在数据库中需要存储哪些数据;(2) 处理要求,指用户要完成什么处理功能,对处理的响应时间有什么要求,处理方式是批处理还是联机处理;(3) 安全性与完整性要求。
混合策略
参与人 1 正面
背面
-1,
1, -1
– 因为当且仅当 q < ½ 时,1-2q >2q-1成立, 则
• 如果q < 1/2, 参与人1的最优纯策略为出正面; • 如果q > 1/2,参与人1的最优纯策略为出背面; • 如果 q = ½,参与人1出正面与出背面没有差别。
猜硬币
参与人 2
• 没有一组策略 满足 (NE)
参与人 1
正面
正面 背面 -1, 1
背面
1, -1 -1, 1
1, -1
• 如果参与人的策略一致——(正面,正面) 或 (反面,反 面)—则参与人1会偏向于改变策略; • 但是如果两者策略不一致—(正面, 反面) 或 (反面, 正 面)—则参与人2偏向于改变策略。
• 参与人 2: ( q, 1-q ) • 参与人 1: ( r, 1- r ) q∈[0,1]
r*(q) = arg max 2(q-1/2)+4r(1/2-q)
1 * r ( q ) 0 [0,1]
q <1/2 q > 1/2 q 1/2
图 1.3.3
• 当参与人 i不确定参与人 j 会如何行动时,他可以把 参与人 j的混合策略作为 参与人 j行动的一个解释。
例如: 猜硬币
假设参与人1相信参与人会以q 的概率出正面, 以1 - q 的概率出背面;也就是说,1 相信2的混合策 略是 ( q, 1-q )。
参与人 2 正面 q 参与人 1 正面 背面 -1, 1 1, -1 背面 1-q 1, -1 -1, 1
• 参与人 2: ( q, 1-q ) • 参与人 1: ( r, 1- r ) • 求解 r*(q)
混合策略纳许均衡课件
策略纳什均衡的算法优化。
混合策略纳什均衡与人工智能
02
随着人工智能的发展,可以尝试将混合策略纳什均衡应用于机
器学习和人工智能领域,以实现更高效和智能的决策。
混合策略纳什均衡与演化博弈论的结合
03
研究混合策略纳什均衡与演化博弈论的结合,可以更好地解释
现实生活中的动态博弈现象。
06
参考文献
参考文献
定义
混合策略纳什均衡课件
CONTENTSБайду номын сангаас
• 混合策略纳什均衡简介 • 混合策略纳什均衡的数学模型 • 混合策略纳什均衡的求解方法 • 混合策略纳什均衡的应用实例 • 混合策略纳什均衡的挑战与展
望 • 参考文献
01
混合策略纳什均衡简介
定义与概念
混合策略纳什均衡是一种博弈论中的概念,它描述了在给定对手策略的情况下,参 与者如何选择最优的行动方案。
定义策略空间
为每个参与人定义一个策略选 择的空间,这些策略可以是离 散的、连续的或混合的。
定义支付函数
根据每个参与人的策略选择, 定义他们的支付函数,即每个 参与人在该策略下的期望收益。
构建博弈矩阵
根据参与人的策略空间和支付 函数,构建一个博弈矩阵,用 以表示每个参与人选择不同策
略时的收益。
模型参数解 释
纳什均衡点或满足一定的收敛条件。
优化算法
优化算法是一种基于数学优化的方法,用于求解混合策略纳什均衡。
优化算法的基本步骤包括:定义一个目标函数,然后使用优化算法(如 梯度下降法、牛顿法等)寻找目标函数的最大值或最小值,从而得到纳
什均衡点。
优化算法的优点是能够快速找到纳什均衡点,适用于大规模问题。但缺 点是需要对问题进行数学建模,且对初始点的选择敏感。
04博弈论—混合策略与随机行动
怎样随机行动?
实验抛硬币
抛硬币翻出正面之后再抛一次,这时出正面的可能性与抛 出反面的可能性相等。
无规律的随机行动(点名4/18=22%,不点名78%)。 例如:一个秘密的、足够复杂以致让人难以破解的规则。 举例ng a crime)
– n个人目睹一桩罪行,每个人都希望报警, 但是都倾向于其他人打电话。特别的,假定 能从报警中得到v单位的收益,而打电话的 人需要付出c单位的成本,v>c>0。分析这 个问题的纯战略NE和混合战略NE。
• 辜鸿铭曾用西文出版过一本书,书名为《中国人 的精神》,其中将中国人的民族性格归结为三大 特征:“deep, bright, simple”,译成中文是 “深沉、聪明、淳朴”。
延伸:联合营销
• 深沉就是含而不露,静水流深,但这种性 格与联盟的阳光与规则的透明背道而驰。 聪明更多是为人为事的创造力与洞察,但 似乎缺少更大气的哲学和价值观思考,这 样也不利于建立通用的制度规则,大家思 考的更多是彼此之间的利益而非联盟共事 致力追求的长远目标—这也是战国时期秦 国以连横成功打破六国合纵政策的原因所 在。
但是,如果我们不假定曹操比孔明 要笨一些,而是相反假定曹操与孔明一 样聪明,则曹操又知道孔明知道曹操知 道孔明的打算,曹操就会知道关羽在华 容道上等着他呢?此时曹操就避开华容 道走另一条路。但是,这还没有完,因 为若孔明知道曹操知道孔明知道……。 显然,最终的结果是曹操与孔明玩混合 战略博弈,曹操随机地以1/2的概率选择 走华容道和另一条路,孔明也以1/2的概 率令关羽守华容道或另一条路。
商业与其他对抗中的混合策略
• 例1:折扣券博弈问题 • 目的? • 1、都不发行 • 2、都发行 • 3、一个发行,另一个不发行
如何占得先机?
混合策略
混合策略(mixed strategy ):表示采用每个纯策略的概率。
(注:混合策略可以赋予一个纯策略以1或0的概率,纯策略是一种特殊的混合策略。
) 混合策略的收益:预期收益Eu 是每个纯策略预期收益的加权平均数。
EG :),(甲5451=P 51=A P 54=B P ⎪⎪⎭⎫ ⎝⎛=2121,乙Q 21=a Q 21=b Q计算预期收益Eu①、Eu 中每个纯策略的预期收益 Eu (A,,Q )=2*1/2+0*1/2=1Eu (B ,Q )=0*1/2+1*1/2=1/2 (表示参与人甲在选A (B )对Q 的预期收益) ②、Eu (P ,Q )1/5*Eu (A ,Q )+4/5*Eu (B ,Q )=3/5结论:一、混合策略的预期收益一定介于该混合策略所包含的纯策略的预期收益之间。
二、如果一个混合策略是BR ,那么混合策略中的每个纯策略必须也是BR 。
也就是说,它们的收益必须相同。
(不是BR 的策略最终会被排除在外)三、一个混合策略组合(N P P P ,...,,21),当且仅当对于任意参与人I ,在面对P-i 时他的混合策略i P 是该参与者的BR ,那么称之为混合策略NE 。
含义:如果i P 中某个纯策略被赋予正概率(策略被采用),那么本身是一个BR 。
→找出每个纯策略中的BR 将是寻找混合策略NE 的捷径。
Eg :网球场上的应用假如有两位网球手V 和S ,他们的策略是打左手球和打右手球,现在是V 作为进攻方发乙甲a bA 2, 1 0, 0B 0, 0 1, 2球,S 作为防守方。
两人的收益如下:注:数据代表得分概率,V (L ,R )和( R ,L )的20%和10%表示V 发球出界。
(L ,L )和(R ,R )的不同在于个人左右手的习惯。
解:1)、博弈中没有纯策略均衡 2)、寻找混合策略NE、寻找S 的混合策略(q,1-q ),捷径在于分析V 的收益。
V 的收益:L : 50q+80(1-q ) R : 90q+20(1-q)假设V 同样混合策略,可选左也可选右,那么满足其这样做的动机根据结论三,那么左右都是她的BR 才不会使她排除其一。
第六 混合策略
而当
或当下式成立时,参与人2进行混合,
这可以得到我们第三个纳什均衡 :
。
• 我们可以看到,所有三个均衡都可以以最优反应函数的形式予
以细致绘出。使用支付函数
和
,我们有:
• 同样,使用支付函数
和
,我们有:
• 我们可以得到三个纳什均衡:
其中
对应这纯策略(M,R),而
略(D,C)。
都是纳什均衡, 对应着纯策
支撑。
• 我们来看古诺双寡头博弈的例子,其中每
个企业的生产能力限制在100个生产单位上,
因此对于
有
。考虑参与人i在
30到50之间选择混合策略,其分布是均匀
分布。也即:
•
和
D、混合策略的信念
参与人i的一个混合策略信念是由定义在其
对手策略上的概率分布
来给出。我们
用 来标示参与人i赋予其对手采取 的概率。这样以来,参与人i的一个信念就 是其对手策略上的一个概率分布。
续证明,对于每个参与人具有有限策略集的博弈而言,应用下 面这个定理是可能的:
• 定理(角谷不动点定理) 对应
有一个不动点
,如
果以下四个条件可以被满足:(1)X是 的一个非空、紧凸
集;(2)对于所有x,C(x)非空;(3)C(x)对于所有x为
凸;(4)C具有封闭的图像。
• 集合 是凸的,如果对于任何两个点
和
• 参与人1出价
的期望支付是
,因为他确定
会赢,但是这可能不是多么明智的选择。出价
的
期望支付是
• 这样一来,当参与人2在使用0到1之间上的均匀分布来 出价时,则参与人1无法从其给出的任何出价上得到任 一正的期望支付:任一小于1的出价给出的期望支付为0, 而任一大于1的出价则确保会在抬高后的价格上得到这 一美元。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
70,30
得益:进球得分的百分比。根据1995-2000年间 意大利、西班牙和英国最高联盟的数据
严格竞争博弈
就一次游戏而言,猜测对方的策略,保密自己的策略 。在多次反复游戏中,避免任何的倾向性和规律性。
路漫漫其修远兮, 吾将上下而求索
பைடு நூலகம்
零和博弈
实 验
办法是将行动随机化。
混合策略
混合策略:
参与人在每一个给定信息的情况下以某种概率分布随机地 选择不同的行动。
例如:乒乓球员以60%的概率选择正手发球,40%的概 率选择反手发球。
什么是纯策略?
路漫漫其修远兮, 吾将上下而求索
混合策略
如果你是踢球人,这两个纯策略中你更喜欢哪一种?( 70%)
你能不能做得更好? (1)以50:50(抛硬币)的比例随机地选择左边或右边。
如果守门员选择左边,你混合策略成功的概率: ½*58%+ ½* 93%= 75.5% 如果守门员选择右边,你混合策略成功的概率: ½*95%+ ½* 70%= 82.5%
路漫漫其修远兮, 吾将上下而求索
混合策略
法则
在纯冲突博弈(零和博弈)中,如果让你的对手事先看清 楚你的真实选择对你不利,那么你可以通过随机选择自己 备选的纯策略而获益。你的混合比例应该是这样的:对手 采取任何特定的备选纯策略,都不可能利用你的选择, 即,当你以混合策略对付他的混合策略中任一纯策略时, 你得到的平均赢利都相等。
• 参与人:n个 • 每个参与人的战略集:{打电话,不打电话} • 效用:没有任何人打,所有人0支付;
打,v-c; 不打,但其他人至少有一个人打,v
路漫漫其修远兮, 吾将上下而求索
混合策略—案例
– 纯战略NE
• 当只有两个参与人的时候(公共产品提供的斗 鸡博弈)——两个NE
• n个人的时候: 假设有m个人提供,m>1 or m=1 n个NE
路漫漫其修远兮, 吾将上下而求索
混合策略—案例
• 混合战略NE • 随着人数n的增加,p减小,即人越多,每
个人选择报案的概率就会越小,如果n=1, 则p=1 • 社会心理学与博弈分析
路漫漫其修远兮, 吾将上下而求索
混合策略—案例
小孩玩的游戏“石头,剪子,布”, 也是一种博弈。但是,这个博弈有一种 有趣的特征,即给定一方的任何选择, 另一方都有制胜对方的战略,所以,给 定一方任何一个战略,对方都有制胜这 个战略的战略,因而这个战略不是最优 的。任何“纯战略”都不是最优的,纯战略 是“石头,剪子,布”中的任何一个。
如果守门员选择左边,你混合策略成功的概率: 0.383*58%+ 0.617* 93%=79.6% 如果守门员选择右边,你混合策略成功的概率: 0.383*95%+ 0.617 * 70% =79.6%
路漫漫其修远兮, 吾将上下而求索
混合策略
那么守门员的策略怎样?
守门员的最佳策略是使踢球者选择左边和选择右边的成功 率相等的策略。 守门员应当分别以41.7%和58.3%的比例选择自己的左边 和右边,使踢球者成功的概率为79.6%. 混合策略纳什均衡?
路漫漫其修远兮, 吾将上下而求索
混合策略
你的连续更优的混合策略比例就是如何使自己在守门 员选择左边时和选择右边的成功概率差距缩小。
58%--70%--12%
75.5%-- 82.5%--7.3% 79% --80%--1% x--y--0
路漫漫其修远兮, 吾将上下而求索
混合策略
不管守门员选择他的左边还是右边,你的最佳混合比 例都会使你得到相等的成功率 (3)以x:1-x的比例随机地选择左边或右边。
路漫漫其修远兮, 吾将上下而求索
混合策略
50:50是你最佳混合策略吗?
(2)以40:60(在你的口袋里放一本书,如果页眉最后一位 数是1到4选左,0到5则选右)的比例随机地选择左边 或右边。
如果守门员选择左边,你混合策略成功的概率: 0.4*58%+ 0.6* 93%= 79% 如果守门员选择右边,你混合策略成功的概率: 0.4*95%+ 0.6* 70%= 80%
混合策略与随机行动概 论
路漫漫其修远兮, 吾将上下而求索
2020年4月2日星期四
赛场
路漫漫其修远兮, 吾将上下而求索
混合策略提出
点球射门 攻方的策略是:攻左边,或攻右边 守方的策略是:守左边,或守右边(以守方的方向为准)
守
左边 右边
路漫漫其修远兮, 吾将上下而求索
左边 58,42
95,5
攻
右边 93,7
• 报案(reporting a crime)
– n个人目睹一桩罪行,每个人都希望报警, 但是都倾向于其他人打电话。特别的,假定 能从报警中得到v单位的收益,而打电话的 人需要付出c单位的成本,v>c>0。分析这 个问题的纯战略NE和混合战略NE。
路漫漫其修远兮, 吾将上下而求索
混合策略—案例
– 分析:
如果守门员选择左边,你混合策略成功的概率: x*58%+ (1-x)* 93% 如果守门员选择右边,你混合策略成功的概率: x*95%+ (1-x) * 70% 两者相等,求得选x=0.383
路漫漫其修远兮, 吾将上下而求索
混合策略
不管守门员选择他的左边还是右边,你的最佳混合比 例都会使你得到相等的成功率 (4)以0.383:0.617的比例随机地选择左边或右边。
路漫漫其修远兮, 吾将上下而求索
但是,我们知道,玩这个游戏是总 是以对方不易猜出的随机方式出招。事 实上,可以通过数学证明,当双方都以 每个战略按1/3的概率出招时,达成一种 双方都不愿改变这种概率分布的局面。 这被称为“混合战略纳什均衡”,而这种以 随机方式选择纯战略的博弈被称为“混合 战略博弈”。
路漫漫其修远兮, 吾将上下而求索
实验显示: “陷入无意识但仍可预测的模式” 例如:官僚作风--连续出“布”
雪崩---连续出石头 排除策略--省略一个
随机:秘密的,足够复杂以至难以让人破解的规则
路漫漫其修远兮, 吾将上下而求索
怎样随机行动?
实验抛硬币
抛硬币翻出正面之后再抛一次,这时出正面的可能性与抛 出反面的可能性相等。
无规律的随机行动(点名4/18=22%,不点名78%)。 例如:一个秘密的、足够复杂以致让人难以破解的规则。 举例:秘密
路漫漫其修远兮, 吾将上下而求索
混合策略—案例