中央财经大学 研究生 博弈论课件
合集下载
博弈论PPT课件
有i si 0, i si 1 si Si
这就是混合策略。
混合策略的纳什均衡定义
如果对于博弈中所有的游戏者i,对于所有的 σi∈Mi,都有ui﹙σ*﹚≥ui﹙σi,σ-i*﹚,则称 σ*就是一个混合策略的纳什均。
如何求混合策略的纳什均衡
猜硬币的博弈中 解:设猜方猜正方的概率为p,猜反方的概率则为1-
无名氏(大众)定理
无名氏定理:在无穷次重复的由n个游戏者参与的 博弈里,如果在每一次重复中博弈的行动集是有限 的,则在满足下列三个条件时,在任何有限次重复 中所观察到的任何行动组合都是某个子博弈完美均 衡的惟一结果:
条件1:贴现因子接近于1; 条件2:在每一次重复中,博弈结束的概率或等于0,或 为非常小的一个正值; 条件3:严格占优于一次性博弈中的最小最大收益组合的 那个收益组合集是n维的。
博弈方
博弈方:独立决策、独立承担博弈结果的个人 或组织
博弈规则面前博弈方之间平等,不因博弈方之 间权利、地位的差异而改变
博弈方数量对博弈结果和分析有影响 根据博弈方数量分单人博弈、两人博弈、多人
博弈等。最常见的是两人博弈,单人博弈是退 化的博弈
策略
策略:博弈中各博弈方的选择内容 策略有定性定量、简单复杂之分 不同博弈方之间不仅可选策略不同,而且可
游戏和经济等决策竞争较量的共同特征:规 则、结果、策略选择,策略和利益相互依存, 策略的关键作用
游戏——下棋、猜大小 经济——寡头产量决策、市场阻入、投标拍卖 政治、军事——美国和伊朗、以色列和巴勒斯 坦、中国和日本等等。
博弈的基本要素
博弈的参加者(Player)——博弈方 各博弈方的策略(Strategies)或行动(Actions) 博弈的次序(Order) 博弈方的收益(Payoffs) (或称支付,或得益)
这就是混合策略。
混合策略的纳什均衡定义
如果对于博弈中所有的游戏者i,对于所有的 σi∈Mi,都有ui﹙σ*﹚≥ui﹙σi,σ-i*﹚,则称 σ*就是一个混合策略的纳什均。
如何求混合策略的纳什均衡
猜硬币的博弈中 解:设猜方猜正方的概率为p,猜反方的概率则为1-
无名氏(大众)定理
无名氏定理:在无穷次重复的由n个游戏者参与的 博弈里,如果在每一次重复中博弈的行动集是有限 的,则在满足下列三个条件时,在任何有限次重复 中所观察到的任何行动组合都是某个子博弈完美均 衡的惟一结果:
条件1:贴现因子接近于1; 条件2:在每一次重复中,博弈结束的概率或等于0,或 为非常小的一个正值; 条件3:严格占优于一次性博弈中的最小最大收益组合的 那个收益组合集是n维的。
博弈方
博弈方:独立决策、独立承担博弈结果的个人 或组织
博弈规则面前博弈方之间平等,不因博弈方之 间权利、地位的差异而改变
博弈方数量对博弈结果和分析有影响 根据博弈方数量分单人博弈、两人博弈、多人
博弈等。最常见的是两人博弈,单人博弈是退 化的博弈
策略
策略:博弈中各博弈方的选择内容 策略有定性定量、简单复杂之分 不同博弈方之间不仅可选策略不同,而且可
游戏和经济等决策竞争较量的共同特征:规 则、结果、策略选择,策略和利益相互依存, 策略的关键作用
游戏——下棋、猜大小 经济——寡头产量决策、市场阻入、投标拍卖 政治、军事——美国和伊朗、以色列和巴勒斯 坦、中国和日本等等。
博弈的基本要素
博弈的参加者(Player)——博弈方 各博弈方的策略(Strategies)或行动(Actions) 博弈的次序(Order) 博弈方的收益(Payoffs) (或称支付,或得益)
中央财经大学 研究生 博弈论课件
占优策略
参与者的最优选择不依赖于其他 参与者的策略选择(一般情况下, 应该依赖于其他参与者的策略选 择),即不论其他参与者选择什 么策略,其最优策略是唯一的。 这样的最优策略被称为占优策略 占优策略。 占优策略
一般地, 一般地,如果对应所有的 s− i , i* 是i 的严 s 格最优选择, 格最优选择,即
第一章 完全信息静态博弈
本章主要内容: 本章主要内容:
占优策略均衡 重复剔除的占优均衡 纳什均衡 三种均衡之间的关系
纳什均衡应用举例 混合策略纳什均衡 纳什均衡的多重性 纳什均衡的存在性
一、占优策略均衡 占优策略均衡
例子:囚徒困境
囚徒B
坦白 抵赖
1,15 2,2
囚徒 A
坦白 抵赖
10,10 15,1
* i ' i
' i * i
占优策略均衡
由所有参与者的占优策略构成的 策略组合就是占优策略均衡 占优策略均衡。 占优策略均衡 * 如果对于所有的i, si 被称为参 与者i的占优策略,策略组合 * * * s = ( s1 ,L , sn ) 被称为占优策略均衡 占优策略均衡。 占优策略均衡
二、重复剔除的占优均衡 重复剔除的占优均衡
) ,,
ui ( s , s− i ) > ui ( s , s− i ) ∀s−i ,∀s ≠ s 则 s * 被称为参与者i的(严格)占优策 被称为参与者 的 严格) i ' 对应地, 略。对应地,所有的 si ( si' ≠ si* )被称 为劣策略。 为劣策略。其中 s−i = ( s1 ,L , si −1 , si +1 ,L , sn )是 i之外所有参与者策略的组合。 之外所有参与者策略的组合。 之外所有参与者策略的组合
博弈论完整版PPT课件
R3 3, 2 0, 4 4, 3 50, 1 会将C4从C的战略空间中剔除, 所以 R4 2, 93 0, 92 0, 91 100, 90 R不会选择R4;
2-阶理性: C相信R相信C是理性的,C会将R4从R的战略空间中剔除, 所以 C不会选择C1;
3-阶理性: R相信C相信R相信C是理性的, R会将C1从C的战略空间中剔 除, R不会选择R1;
基本假设:完全竞争,完美信息
个人决策是在给定一个价格参数和收入的条 件下最大化自己的效用,个人的效用与其他人 无涉,所有其他人的行为都被总结在“价格”参数 之中
一般均衡理论是整个经济学的理论基石 和道义基础,市场机制是完美的,帕累托 最优成立,平等与效率可以兼顾。
.
3
然而在以下情况,上述结论不成立:
.
19
理性共识
0-阶理性共识:每个人都是理性的,但不知道其 他人是否是理性的;
1-阶理性共识:每个人都是理性的,并且知道其 他人也是理性的,但不知道其他人是否知道自己 是理性的;
2-阶理性共识:每个人都是理性的,并且知道其
他人也是理性的,同时知道其他人也知道自己是
理性的;但不知道其他人是否知道自己知道他们
如果你预期我会选择X,我就真的会选择X。
如果参与人事前达成一个协议,在不存在外部强 制的情况下,每个人都有积极性遵守这个协议,这 个协议就是纳什均衡。
.
28
应用1——古诺的双寡头垄断模型(1938)
假定:
只有两个厂商 面对相同的线形需求曲线,P(Q)=a-Q, Q=q1+q2 两厂商同时做决策; 假定成本函数为C(qi)=ciqi
劣策略:如果一个博弈中,某个参与人有占优策略,那么
该参与人的其他可选择策略就被称为“劣策略”。
2-阶理性: C相信R相信C是理性的,C会将R4从R的战略空间中剔除, 所以 C不会选择C1;
3-阶理性: R相信C相信R相信C是理性的, R会将C1从C的战略空间中剔 除, R不会选择R1;
基本假设:完全竞争,完美信息
个人决策是在给定一个价格参数和收入的条 件下最大化自己的效用,个人的效用与其他人 无涉,所有其他人的行为都被总结在“价格”参数 之中
一般均衡理论是整个经济学的理论基石 和道义基础,市场机制是完美的,帕累托 最优成立,平等与效率可以兼顾。
.
3
然而在以下情况,上述结论不成立:
.
19
理性共识
0-阶理性共识:每个人都是理性的,但不知道其 他人是否是理性的;
1-阶理性共识:每个人都是理性的,并且知道其 他人也是理性的,但不知道其他人是否知道自己 是理性的;
2-阶理性共识:每个人都是理性的,并且知道其
他人也是理性的,同时知道其他人也知道自己是
理性的;但不知道其他人是否知道自己知道他们
如果你预期我会选择X,我就真的会选择X。
如果参与人事前达成一个协议,在不存在外部强 制的情况下,每个人都有积极性遵守这个协议,这 个协议就是纳什均衡。
.
28
应用1——古诺的双寡头垄断模型(1938)
假定:
只有两个厂商 面对相同的线形需求曲线,P(Q)=a-Q, Q=q1+q2 两厂商同时做决策; 假定成本函数为C(qi)=ciqi
劣策略:如果一个博弈中,某个参与人有占优策略,那么
该参与人的其他可选择策略就被称为“劣策略”。
博弈论课件第四章
3
合作博弈
参与者之间可以合作并制定共同策略,追求更大的利益。
纳什均衡理论
纳什均衡是博弈论中的一个重要概念,指的是当参与者根据对手的选择来选 择自己的策略时,不存在更好的选择。这种均衡状态具有稳定性和可持续性。
混合策略的应用
硬币翻转
混合策略可以应用于硬币翻转等 概率性决策中,以平衡风险。
剪刀石头布
博弈理论在法律
博弈论可在法律领域中应用于博弈模型的构建和法律决策的优化。
博弈论的应用领域
经济学
博弈论在经济学中用于研究市场竞争、拍卖和价格形成等问题。
政治学
博弈论在政治学中用于分析选举、合作和冲突等政治策略。
生物学
博弈论在生物学中用于研究进化和动物行为等领域。
博弈论中的主要模型
1
零和游戏
参与者的收益总和为零,一方的利益损失即为另一方的利益增益。
2
非合作博弈
参与者之间缺乏合作,每个参与者根据自身利益进行决策。
博弈论课件第四章
博弈论是研究决策制定和互动模型的学科,第四章将介绍博弈论的基本概念、 应用领域、主要模型以及纳什均衡理论和混合策略的应用,同时提供实际应 用案例。
博弈论的基本概念
1 参与者
博弈论研究多人决策制定过程中的参与者之间的互动。
2 策略
参与者在决策过程中可选择参与者根据他们的行动所获得的支付或效益。
混合策略可用于剪刀石头布等多 次对局中,通过随机选择策略以 增加不可预测性。
扑克筹码
混合策略可应用于扑克中的下注 决策,以提高筹码的价值和战略 性。
博弈论在实际问题中的应用案例
商业竞争
博弈论可用于分析企业在市场竞争中的策略选择和定价决策。
军事战略
博弈论课件
博弈论强调参与者之间的互动关系,通过数学模型和理论分析来研究 策略选择和均衡结果。
博弈论的发展历程
博弈论的起源可以追溯到20世纪初,当时数学家和经 济学家开始研究游戏中的策略和均衡。
1944年,冯·诺依曼和摩根斯坦合著的《博弈论与经济 行为》标志着博弈论的诞生。
随后,纳什、泽尔腾和哈萨尼等学者进一步发展了博弈 论,形成了现代博弈论的基础。
商业竞争与合作
商业竞争
博弈论可以用于分析商业竞争中的策略和行为,例如价格战、广告战等。通过 博弈论,企业可以更好地理解竞争对手的策略,制定出更有效的竞争策略。
商业合作
博弈论也可以用于分析商业合作中的策略和行为,例如供应链管理、合资企业 等。通过博弈论,企业可以更好地理解合作伙伴的需求和期望,制定出更有效 的合作策略。
贝叶斯纳什均衡
在不完全信息博弈中,如果所有参与 者都根据自己掌握的信息选择最优策 略,则所有参与者都能获得最大收益 。
静态博弈与动态博弈
01
静态博弈
02
动态博弈
所有参与者在同一时间点选择策略并获得收益。
参与者的选择有先后顺序,后选择的参与者可以观察到先选择的参与 者的策略和收益。
03
纳什均衡
纳什均衡的定义
博弈优化方法
线性规划
线性规划是一种数学优化方法, 用于找到在满足一组约束条件下 最大化或最小化目标函数的最优
解。
非线性规划
非线性规划是数学优化的一种方 法,用于找到一组变量的最优值 ,使得一个或多个目标函数达到
最优。
动态规划
动态规划是一种通过将问题分解 为相互重叠的子问题来解决问题 的方法,每个子问题的解被保存
博弈论课件
汇报人:
汇报时间:202X-01-04
精品课程《博弈论》PPT课件(全)
人博弈 两人博弈有多种可能性,博弈方的利益方向可
能一致,也可以不一致
三、多人博弈
三个博弈方之间的博弈 可能存在“破坏者”:其策略选择对自身的利
益并没有影响,但却会对其他博弈方的利益产 生很大的,有时甚至是决定性的影响。申办奥 运会是典型例子。 多人博弈的表示有时与两人博弈不同,需要多 个得益矩阵,或者只能用描述法
动态博弈、重复博弈。
静态博弈:所有博弈方同时或可看作同时选择 策略的博弈 —田忌赛马、猜硬币、古诺模型
动态博弈:各博弈方的选择和行动又先后次序 且后选择、后行动的博弈方在自己选择、行 动之前可以看到其他博弈方的选择和行动 —弈棋、市场进入、领导——追随型市场 结构
重复博弈:同一个博弈反复进行所构成的博弈, 提供了实现更有效略博弈结果的新可能 —长期客户、长期合同、信誉问题
博弈论
孔融四届时,有一夛,父亭乘了冩丢梨回宛,
陶谦吏亸叹孜癿时俳,又问亸:“亵绉泶孜癿 觇
店看,佝觏为叴小梨刁算叾?”孔融回答该: “我丌
过觑了一次梨,哏哏単因此爱抋了我一辈子, 社伕
乔绎了我杳高癿荣觋。奝杸抂觑出癿遲丢多梨 看俺
昤道徇成本,简直就昤一本万利唲!
阿克洛夫:买卖
主对于要交易的“旧 车”存在信息不对称, 买主通常不愿意出高 价,这样持有好车的 买主只好退出市场, 市场上都剩下“坏 车”,买主则越来越 不愿意光顾,旧车市 场萎缩直至消失。
20 (q1 q2 q3)
0
i P qi [20 q1 q2 q3 ] qi
No Q 20
Q 20
Image
q1
q2
q3
P
1
2
3
4
8
6
2
8
16
能一致,也可以不一致
三、多人博弈
三个博弈方之间的博弈 可能存在“破坏者”:其策略选择对自身的利
益并没有影响,但却会对其他博弈方的利益产 生很大的,有时甚至是决定性的影响。申办奥 运会是典型例子。 多人博弈的表示有时与两人博弈不同,需要多 个得益矩阵,或者只能用描述法
动态博弈、重复博弈。
静态博弈:所有博弈方同时或可看作同时选择 策略的博弈 —田忌赛马、猜硬币、古诺模型
动态博弈:各博弈方的选择和行动又先后次序 且后选择、后行动的博弈方在自己选择、行 动之前可以看到其他博弈方的选择和行动 —弈棋、市场进入、领导——追随型市场 结构
重复博弈:同一个博弈反复进行所构成的博弈, 提供了实现更有效略博弈结果的新可能 —长期客户、长期合同、信誉问题
博弈论
孔融四届时,有一夛,父亭乘了冩丢梨回宛,
陶谦吏亸叹孜癿时俳,又问亸:“亵绉泶孜癿 觇
店看,佝觏为叴小梨刁算叾?”孔融回答该: “我丌
过觑了一次梨,哏哏単因此爱抋了我一辈子, 社伕
乔绎了我杳高癿荣觋。奝杸抂觑出癿遲丢多梨 看俺
昤道徇成本,简直就昤一本万利唲!
阿克洛夫:买卖
主对于要交易的“旧 车”存在信息不对称, 买主通常不愿意出高 价,这样持有好车的 买主只好退出市场, 市场上都剩下“坏 车”,买主则越来越 不愿意光顾,旧车市 场萎缩直至消失。
20 (q1 q2 q3)
0
i P qi [20 q1 q2 q3 ] qi
No Q 20
Q 20
Image
q1
q2
q3
P
1
2
3
4
8
6
2
8
16
博弈论最全完整ppt 讲解
完全信息
纳什均衡(NE)
子博弈完美纳什 均衡(SPNE)
不完全信息
贝氏纳什均衡 (BNE)
完美贝氏纳什均衡 (PBNE)及序贯均 衡(SE)
静态博弈与动态博弈
(static games and dynamic games)
同时决策或者同时行动的博弈属于静态 博弈;先后或序贯决策或者行动的博弈, 属于动态博弈
如果一个博弈在所有各种对局下全体参 与人之得益总和总是保持为一个常数, 这个博弈就叫常和博弈;
相反,如果一个博弈在所有各种对局下 全体参与人之得益总和不总是保持为一 个常数,这个博弈就叫非常和博弈。
常和博弈也是利益对抗程度最高的博弈。 非常和(变和)博弈蕴含双赢或多赢。
导论
四、主要参考文献
博弈论为众多学科提供了分析的概念和方 法:经济学和商学,政治科学,生物学, 心 理学和哲学。
如何在“博弈”中获胜?
日常生活中的博弈(“游戏”)往往指的是 诸如赌博和运动这样的东西: 赌抛硬币 百米赛跑 打网球/橄榄球
How can you win such games? 许多博弈都包含着运气、技术和策略。 策略是为了获胜所需要的一种智力的技巧。
威廉·维克瑞, 1914-1996, 生于美国
詹姆斯·莫里斯 1936年生于英国
2001年诺贝尔经济学奖获得者
三位美国学者乔治-阿克尔洛夫(George A. Akerlof)、迈克尔-斯彭斯(A. Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E. Stiglitz)
获奖理由:在“对充满不对称信息市场进 行分析”领域做出了重要贡献。
即使决策或行动有先后,但只要局中人 在决策时都还不知道对手的决策或者行 动是什么,也算是静态博弈
博弈论教学课件(全)
二、博弈论的经济学渊源
经济学的一些思想为博弈论提供了基础,其中最 重要的就是所谓的“理性人”。
描述理性人的工具就是所谓的理性偏好。为了方便, 我们又用效用函数(在博弈论中称为收益函数)来 表示偏好。
构成博弈论基础的一个重要的经济定理就是所谓的 理性选择原理:如果决策主体的偏好是理性的,那 么(有限)选择集中就一定存在最优选择,这个选 择可能是唯一的,也可能是多个。
定义2.1 博弈表达的基本式(或策略式)由博弈的参 与者N,策略空间S和收益函数u三个要素组成,即G = {N, S, u}。
这里需要注意的是,完全信息静态博弈在多数情况 下,策略就等同于行动,所以G={ A,u}。但严格来 讲,策略并不是行动。
我们可以通过一个例子来加以说明。
[例1] 进攻与防守
对称博弈和对称均衡能够大大节省工作量,这也是博弈论中所举例子通常为对 称博弈的原因。
对称博弈通俗说就是代表参与者身份的下标,在分析中可以省略掉而没有关系。
四、混合策略
博弈论里面最根本的问题是什么?就是均衡 的存在性。如果均衡不存在,所有的工作都 成了无用功,之所以引入混合策略,意义就 在这里,因为如果仅仅限制在纯策略的范围 内讨论博弈的话,均衡有可能是不存在的。
双方争夺一个据点,有两条进攻路线X和Y,攻方有 两个军,而防守方也有两个军,只有当守方的兵力 不少于攻方时,才能击退进攻,否则据点将会失守。
首先可知守方的防守方案(即策略)为(0,2),(1,1),(2,0),即在X线路和Y线路驻扎 军队数,同样可以到的攻方的进攻方案(0,2),(1,1)和(2,0)。容易看出,行动并非策 略,策略是行动方案。
需要注意的几个问题:
(1)表达同一个偏好的收益函数不唯一,但在 单调变换下却是唯一的。
博弈论ppt课件
精选课件ppt
7
囚徒B 坦白
不坦白
囚徒A
坦白 -8,-8 0,-10
不坦白 -10,0 -1,-1
精选课件ppt
8
博弈的分类
ห้องสมุดไป่ตู้
1、从行动的先后次序来分,博弈可以分为 静态博弈 和 动态博弈。 静态博弈指在博弈中,参与人同时选择行动,或虽非同 时但后行动者并不知道前行动者采取了什么具体行动;
动态博弈指的是参与人的行动有先后顺序,且后行 动者能够观察到先行动者所选择的行动的博弈。
21世纪,应站在博弈论的前沿。尽管博弈经济学家很少,但其获诺贝尔
奖的比例最高。最能震动人类情感的是博弈,对未来最有影响力的还是
博弈。
精选课件ppt
6
著名的“囚徒困境”的例子
警察抓住了两个罪犯,但是警察局却缺乏足够的证据 指证他们所犯的罪行。如果罪犯中至少有一人供认犯 罪,就能确认罪名成立。为了得到所需的口供,警察 将这两名罪犯分别关押防止他们串供或结成攻守同盟, 并分别跟他们讲清了他们的处境和面临的选择:如果 他们两人都拒不认罪,则他们会被以较轻的妨碍公务 罪各判一年徒刑;如果两人中有一人坦白认罪,则坦 白者立即释放而另一人将重判10年徒刑;果两人都坦 白认罪,则他们将被各判8年监禁。问:两个罪犯会 如何选择(即是坦白还是抵赖)?
不过,2号推知3号的方案,就会提出“98,0,1,1”的方案,即放 弃3号,而给予4号和5号各一枚金币。由于该方案对于4号和5号来说 比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分 配。这样,2号将拿走98枚金币。
同样,2号的方案也会被1号所洞悉,1号并将提出(97,0,1,2,0) 或(97,0,1,0,2)的方案,即放弃2号,而给3号一枚金币,同时 给4号(或5号)2枚金币。由于1号的这一方案对于3号和4号(或5号) 来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己 的票,1号的方案可获通过,97枚金币可轻松落入囊中。这无疑是1号 能够获取最大收益的方案了!答案是:1号强盗分给3号1枚金币,分 给4号或5号强盗2枚,自己独得97枚。分配方案可写成(97,0,1,2, 0)或(97,0,1,0,2)。
中央财经大学 产业经济学第五讲博弈理论(补充)
• 此外,Sharpley 在合作博弈中提出了合作博弈支付, Selten, Harsanyi, Auman, Maskin, Myerson等人则主 要研究非合作博弈。
2
博弈论的基本概念
• 参与者:博弈中决策的主体。
• 行动:在博弈的某个时间,参与者选择的 决策变量。在某一时点所有参与者的行动 构成行动组合。
27
标准式要素
• 参与人
• 行动(策略)空间 • 支付
28
扩展式要素
• • • • • • 参与人 行动空间 支付 行动顺序 信息集 不确定性(信息不完全)的主观概率分布
29
博弈树的组织结构
• 结点(node):包括决策结点和终点结点。决策 结点对应博弈的参与人。
• 枝干(branches):从一个结点到另一个结点的 连线,对应参与人行动。 • 信息集合(information set):决策者在某个结 点上掌握的信息。 • 支付结果
6
占优策略均衡
• 占优策略
– 不论对手选择什么策略,这个策略对自己 都是最优的。
• 占优策略均衡
– 由所有参与者的占优策略构成的策略组合。
7
囚徒困境
囚犯2
坦白
囚犯1
抵赖
坦白
-8,-8
0,-10
抵赖
-10,0
-1,-1
8
例子:广告博弈
厂商 B 做广告 不做广告
做广告
10, 5
15, 0
厂商 A
不做广告
6, 8
12, 6
9
重复剔除被占优策略均衡
左
上 下 1,0 0,3
中
1 ,2 0 ,1
右
0 ,1 2 ,0
2
博弈论的基本概念
• 参与者:博弈中决策的主体。
• 行动:在博弈的某个时间,参与者选择的 决策变量。在某一时点所有参与者的行动 构成行动组合。
27
标准式要素
• 参与人
• 行动(策略)空间 • 支付
28
扩展式要素
• • • • • • 参与人 行动空间 支付 行动顺序 信息集 不确定性(信息不完全)的主观概率分布
29
博弈树的组织结构
• 结点(node):包括决策结点和终点结点。决策 结点对应博弈的参与人。
• 枝干(branches):从一个结点到另一个结点的 连线,对应参与人行动。 • 信息集合(information set):决策者在某个结 点上掌握的信息。 • 支付结果
6
占优策略均衡
• 占优策略
– 不论对手选择什么策略,这个策略对自己 都是最优的。
• 占优策略均衡
– 由所有参与者的占优策略构成的策略组合。
7
囚徒困境
囚犯2
坦白
囚犯1
抵赖
坦白
-8,-8
0,-10
抵赖
-10,0
-1,-1
8
例子:广告博弈
厂商 B 做广告 不做广告
做广告
10, 5
15, 0
厂商 A
不做广告
6, 8
12, 6
9
重复剔除被占优策略均衡
左
上 下 1,0 0,3
中
1 ,2 0 ,1
右
0 ,1 2 ,0
博弈论课件
扩展一:不完全信息博弈
不完全信息博弈的定义
01
在博弈中,参与人对于其他参与人的类型、偏好、战略空间等
信息不完全了解。
不完全信息博弈的分类
02
根据信息不完全的程度,可以分为完全信息不完全博弈和完全
非完美信息博弈。
不完全信息博弈的求解方法
03
包括贝叶斯纳什均衡、精炼贝叶斯纳什均衡、完美贝叶斯纳什
均衡等。
选举策略
博弈论可以用来分析选举中的投票行为和策略,研究候选人如何 制定竞选策略以最大化胜选机会。
政策制定
博弈论可以用来研究政策制定过程中的利益冲突和协调,分析政策 制定者如何平衡不同利益群体的需求。
国际关系
博弈论可以用来研究国际关系中的冲突和合作,分析国家如何通过 外交政策和军事手段来维护自身利益。
纯策略纳什均衡和混合策略纳什均衡 。
特点
纳什均衡是一种稳定的状态,任何参 与者单方面改变自己的策略都不会获 得更好的收益。
优势策略与劣势策略
优势策略
无论其他参与者如何选择策略, 该策略都能为参与者带来更高的
收益。
劣势策略
无论其他参与者如何选择策略,该 策略都能为参与者带来更低的收益 。
特点
在优势策略下,参与者没有理由改 变自己的策略;在劣势策略下,参 与者应该尽快改变自己的策略。
价格战的负面影响
价格战不仅会导致企业利润下降,还可能引发市场恶性竞争,破坏市场秩序。此外,价格战还可能导致产品质量 下降,损害消费者利益。
案例二:国际政治中的博弈策略
国际政治中的博弈策略
在国际政治中,各国之间往往存在着复杂的博弈关系。为了维护自身利益,各 国会采取不同的博弈策略,如通过外交手段、经济制裁、军事威胁等方式来达 到自己的目的。
博弈论全套课件
三. 经典的博弈模型
1、“囚徒的困境”
关于博弈论,流传最广的是一个叫做“囚 徒 困 境 ” 的 故 事 。 这 个 博 弈 是 1950 年 图 克 (Tucker)提出的,这个博弈模型提出后曾引 发了大量的相关研究,也有许多关于“囚徒困 境”的版本。“囚徒困境”对博弈论的发展起 到了巨大的推动作用。可以说凡是讲博弈论, 都会说到这个经典的博弈模型。
在过去二三十年中,博弈论已成为社会科 学研究的一个重要方法。有人说,如果未来社 会科学还有纯理论的话,那就是博弈论。无论 是合作博弈还是非合作博弈都给我们提供了一 种系统的分析方法,使人们在其命运取决于他 人的行为时制定出相应的战略。特别是当许多 相互依赖的因素共存,没有任何决策能独立于 其它许多决策之外时,博弈论更是价值巨大。
最近十几年来,博弈论在经济学尤其是微 观经济学中得到了广泛的运用, 博弈论在许多 方面改写了微观经济学的基础,经济学家们已经 把研究策略相互作用的博弈论当作最合适的分 析工具来分析各类经济问题,诸如公共经济、 国际贸易、自然资源、企业管理等。在现代经 济学里,博弈论已经成为十分标准的分析工具。 除经济学以外, 博弈论目前在生物学、管理学 、国际关系、计算机科学、政治学、军事战略 和其他很多学科都有广泛的应用。现在已经有 愈来愈多的人开始关注、了解并学习博弈理论 。
博弈论(Game Theory)是一种关于游戏的 理论, 又叫做对策论, 是一门以数学为基础的、 研究对抗冲突中最优解问题的学科。事实上, 博弈论也正是衍生于古老的游戏,如象棋、围 棋、扑克等。
博弈论作为一门学科,是在20世纪50~60 年代发展起来的,当非零和博弈理论、特别是 不完全信息博弈理论获得充分发展时,才成为 现实。到20世纪70年代,博弈论正式成为主流 经济学研究的主要方法之一。1994年诺贝尔经 济学奖同时授予了纳什、泽尔腾、海萨尼三位 博弈论专家。2005年诺贝尔经济学奖又授予了 美国经济学家托马斯.谢林(Thomas Schelling)和以色列经济学家罗伯特.奥曼 (Robert Aumann),以表彰他们在合作博弈 方面的巨大贡献。
《博弈论教程》课件
博弈论的应用领域
经济学
博弈论在经济学中广泛应用于 市场行为、产业组织、贸易政
策等领域。
政治学
博弈论在政治学中用于研究国 际关系、政治制度、选举行为 等领域。
社会学
博弈论在社会学中用于研究社 会结构、社会互动、社会行为 等领域。
计算机科学
博弈论在计算机科学中用于人 工智能、机器学习、网络安全
等领域。
应用场景
保险市场、拍卖、投资决策等。
04
纳什均衡
纳什均衡的定义
纳什均衡是指在博弈中,所有参与者 的最优策略组合,即在这种策略组合 下,每个参与者都认为没有更好的选 择。
纳什均衡是一种非合作博弈的解概念 ,适用于各种博弈类型,如囚徒困境 、智猪博弈等。
纳什均衡的求解方法
迭代法
通过不断迭代每个参与者的最优策略,逐步逼近纳什均衡。
03
博弈论应用
04
市场进入博弈中,企业通常会选 择不同的策略,如快速进入、缓 慢进入或等待观察等。这些策略 的选择会影响到企业的收益和市 场格局。
结论
市场进入博弈可以帮助企业制定 出最优的市场进入策略,以最大 化自身的收益。
价格战博弈
总结词
价格战博弈是博弈论中研究企业之间价格竞争的 模型。
博弈论应用
03
市场竞争、个人决策、政治选举等。
完全信息博弈
定义
参与者拥有完全的信息,即每个 参与者都了解其他参与者的策略 和收益。
特点
信息对称、策略空间明确。
应用场景
金融市场、体育比赛等。
不完全信息博弈
定义
参与者之间存在信息不对称,即某个参与者 对其他参与者的策略和收益不完全了解。
特点
不确定性、信息不完全、策略空间的模糊性。
博弈论第四章PPT课件
• 完全承诺,如破釜沉舟、军事博弈
不完全承诺,增加行动成本
承诺行动与博弈结果
• 春节前夕,某小镇上两个商铺主甲和乙同时看到一个
赚钱机会:去城里贩一批鞭炮回来零售,购货款加上 运输费用共5000元,如果没有竞争对手,这批货在小 镇上能卖6000元;但如果另一家商铺同时在小镇上卖 鞭炮,价格下跌使得这批鞭炮只能卖4000元。纳什均 衡是什么?
• 假设甲先行动,商铺乙看到对方的选择后再决定是否
进货,子博弈精炼纳什均衡是什么?
承诺行动与博弈结果
如果甲先行动,但在博弈开始前商铺主乙有一次行动A的 机会,利用子博弈精炼均衡概念分析下述两种情况下的 博弈结果: (1)A:商铺主乙逢人便说自己一定要进货,无论对方如 何行动他都不会改变这个决定; (2)A:商铺主乙与某个嘲笑他说大话的第三者丙打赌: 如果自己到时不进货,向丙支付1500元;如果自己到时 候进货,丙向他支付100元。并且,乙将这个赌局通知甲。
分配给不同的局中人,并赋予行动时可选的策略; (4)局中人行动时的信息集合I; (5)对应局中人可能选择策略,各局中人在终结环节所得到
的报酬U。
战略式与扩展式
战略式表述 (strategic form representation) 多用矩阵
2
L
L
2,2
S -1,-1
1
-1,-1
1,1
S
(2,2) L
-10,0 0,300
不进入 (0,300)
进入者 进入
默许 (40,50) 在位者
斗争 (-10,0)
四、承诺行动(commitment)与 子博弈精炼纳什均衡
• 纳什均衡之所以不是精炼均衡,是因为不可置信的
威胁存在,如父母与子女之间的博弈。
不完全承诺,增加行动成本
承诺行动与博弈结果
• 春节前夕,某小镇上两个商铺主甲和乙同时看到一个
赚钱机会:去城里贩一批鞭炮回来零售,购货款加上 运输费用共5000元,如果没有竞争对手,这批货在小 镇上能卖6000元;但如果另一家商铺同时在小镇上卖 鞭炮,价格下跌使得这批鞭炮只能卖4000元。纳什均 衡是什么?
• 假设甲先行动,商铺乙看到对方的选择后再决定是否
进货,子博弈精炼纳什均衡是什么?
承诺行动与博弈结果
如果甲先行动,但在博弈开始前商铺主乙有一次行动A的 机会,利用子博弈精炼均衡概念分析下述两种情况下的 博弈结果: (1)A:商铺主乙逢人便说自己一定要进货,无论对方如 何行动他都不会改变这个决定; (2)A:商铺主乙与某个嘲笑他说大话的第三者丙打赌: 如果自己到时不进货,向丙支付1500元;如果自己到时 候进货,丙向他支付100元。并且,乙将这个赌局通知甲。
分配给不同的局中人,并赋予行动时可选的策略; (4)局中人行动时的信息集合I; (5)对应局中人可能选择策略,各局中人在终结环节所得到
的报酬U。
战略式与扩展式
战略式表述 (strategic form representation) 多用矩阵
2
L
L
2,2
S -1,-1
1
-1,-1
1,1
S
(2,2) L
-10,0 0,300
不进入 (0,300)
进入者 进入
默许 (40,50) 在位者
斗争 (-10,0)
四、承诺行动(commitment)与 子博弈精炼纳什均衡
• 纳什均衡之所以不是精炼均衡,是因为不可置信的
威胁存在,如父母与子女之间的博弈。
博弈论课件(总)课件
2 扩展型
让我们用一个数学模型讲述这个故事。为了
把它转化成数学的抽象语言,我们必须对故
事进行适当的简化和程式化。我们的目标应
该是从中分析得出一两个策略要素。
R’ f
这可以帮助我们从理论学者的角度,理解这
K
个决策环境。
P
e
c
N’ g
K
L
a
P Eb
N
N
h
P
l
d
K
S
N
m
2 扩展型
我们可以用一个树状结构表示两个公司之间
1 概述
目前,博弈论被许多来自不同领域的专业人士使用, 这些领域包括经济学、政治学、法律、生物、国际关 系哲学以及数学。
事实上,大多数情形即包含了冲突元素,也包含了合 作的元素。我们对博弈的组成要有一个广义的理解。
简而言之,博弈是策略环境的正式描述。因此,博弈 论是研究相互依赖情形的正式的方法论。这里,“正 式”是指一种以数学化的精确,以及逻辑上的一致见 长的结构。
2 扩展型
迪斯尼工作室的《虫子的一生》和梦工场的《蚂蚁》。 卡曾伯格被迪斯尼的老板艾斯纳从派拉蒙招贤,以重 振迪斯尼动画部。 卡氏于1994年8月辞职。不久,艾斯纳接受了提议, 于是《虫子的一生》进入了制作阶段。 大概同时,卡氏与斯皮尔伯格等组建了梦工场。开始 制作《蚂蚁》。 两个工作室是在决定制作两部影片之后,才得知对方 的决定的。
自己处于c还是d。即K缺乏信息。 P
c
E
N
K
L
a
b N
P d
K
S
N
R’ K
e N’
0,140
80,0
0,0
40,110 13,120
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
强盗分赃
再次,三号强盗提出方案,全部强盗中 过半数通过其方案即实施该方案,博弈 结束;否则将三号强盗喂鲨鱼; 然后,四号强盗提出方案,全部强盗中 过半数通过其方案即实施该方案,博弈 结束;否则将四号强盗喂鲨鱼; 最后,五号强盗提方案,博弈结束。
六、逆向归纳法与子博弈精炼 纳什均衡存在的问题
(三)纳什均衡与子博弈精炼 纳什均衡
子博弈精炼纳什均衡本身是纳什均衡, 是比纳什均衡更强的均衡概念,是动态 博弈中最核心的概念和基本着眼点。 子博弈精炼纳什均衡的价值在于能够排 除均衡策略中不可置信的威胁或承诺, 把动态博弈中的合理纳什均衡和不合理 纳什均衡分开,从而给出动态博弈结果 的一个合理稳定的预测。而非子博弈精 炼纳什均衡则不能做到这一点。
例子:分级协调博弈I
Jones large
Smith
small
large
small
2,2
-1,-1
-1,-1
1,1
例子:分级协调博弈I
small small S small large J2 large ● (2,2) ● (-1,-1) J1 large ● (-1,-1) ● (1,1)
例子:分级协调博弈II
逆向归纳法
一般方法:从博弈最后一个决策结开始 分析,寻找参与者的最优选择,然后逆 推至倒数第二个决策结,寻找参与者最 优选择,这样一直逆推到初始结为止。 每一步都得到了对应子博弈的一个纳什 均衡。由定义可知,这一个纳什均衡一 定是该子博弈的所有子博弈的纳什均衡。 它也一定是子博弈精炼纳什均衡。
例子:
扩展式表示所扩展的主要是参与者 的策略空间。 有限博弈的扩展式表示一般可用博 弈树来表示。博弈树给出了有限博 弈的几乎所有信息。博弈树包括结、 枝和信息集三部分组成。
信息集
信息集:博弈树上所有的决策结可以分割成不 同的信息集。参与者的一个信息集是指满足以 下条件的决策结的集合: ①其中的每个决策结都是同一参与者的决策结; 这意味着参与者不会将自己行动的结与他人行 动的结相混淆。 ②当博弈进行到信息集中的某个决策结时,应该 行动的参与者并不知道达到了信息集中的哪个 结。这意味着参与者在一个信息集中的每个决 策结都有着相同的可行动集合;否则,该参与 者可通过他面临的不同的可行动集合来推断博 弈进行到某个决策结。
1.存在惟一纯策略纳什均衡博弈的有限次 重复博弈 一般结论:重复博弈的阶段博弈G有惟一 的纯策略纳什均衡,则对任意正整数T, 重复博弈G(T)有惟一的子博弈精炼纳 什均衡,即各个参与者每个阶段都采用G 的纳什均衡策略。G(T)的总支付为G 的支付的T倍,平均支付为G 的支付。
例子:囚徒困境
囚徒B
R d 2 r D (2,2) 1 R D 1 R d 2 r D 1 R d 2 (100,100) r
1 D (1,1)
(0,3)
(98,98) (97,100)(99,99) (98,101)
存在问题
逆向归纳法未对某些未预料到的事情出 现时,人们如何形成预期做出解释,使 得在理性人假设下得出的结论是否符合 实际,还需要另外分析。 由于子博弈精炼纳什均衡是逆向归纳法 理论的扩展,上面有关逆向归纳法理论 的批评自然也适用于子博弈精炼纳什均 衡。
1 n
1
n
i
i
1
n
例子:古诺模型
P=8-Q, Q q1 q2 FC=0 MC=2
• (大,大):如果Smith 选择“大”,Jones选择
Jones
(大,大) (大,小)
(小,大)
(小,小)
Smith
大
2,2
2,2
-1,-1
-1,-1
小
-1,-1
1,1
-1,-1
1,1
二、策略的可信性问题
在动态博弈中,纳什均衡可能失效。原 因在于它不能排除策略不可信问题。
例子
不同版本的开金矿博弈——分钱和打官司的可信性
坦白 抵赖
0,-20 -1,-1
囚徒 A
坦白 抵赖
-10,-10 -20,0
例子:重复两次的囚徒困境
囚徒B
坦白 抵赖
-10,-30 -11,-11
囚徒 A
坦白 抵赖
-20,-20 -30,-10
2.存在多个纯策略纳什均衡博弈的有限次重复 博弈 民间定理:设原博弈的一次性博弈有均衡支付 数组优于各参与者在一次性博弈中的最差支付 构成的数组,则在该博弈的多次重复中,所有 不小于个体理性支付或保留支付的可实现支付, 都至少有一个子博弈精炼纳什均衡的极限的平 均支付来实现它们。 民间定理的意义在于保证有一定次数重复博弈 的子博弈精炼纳什均衡的平均支付可以实现或 逼近这些可实现支付。
借
甲 分 乙 不借 借 甲 (1,0) 不分 分 (0,4) (2,2) 打 (1,0) 乙 不借 乙 借 甲 分 不借
(1,0) 不分 乙 不打 (0,4)
(2,2)
(2,2)
打
(1,0) 不分 乙 不打
(-1,0)
(0,4)
开金矿博弈
有法律保障的开金矿博弈 ——分钱打官司都可信
法律保障不足的开金矿博弈 ——分钱打官司都不可信
琼斯夫人准备与其丈夫离婚。按照婚前协议, 如果她能证明她的丈夫有过外遇就能得到10万 元,反之只能得到5万元。她的律师只有雇佣 私人侦探才能证明她的丈夫有外遇。雇佣私人 侦探的费用为1万元,由律师支付。琼斯夫人 有两个选择:不管诉讼结果如何,都付给律师 2万元,或者支付诉讼收入的1/3。律师只有在 有利可图的情况下才会雇佣私人侦探。写出这 个博弈的扩展式表示,并判断哪种支付方法能 使她赢得诉讼。
2.基本特征
阶段博弈之间没有“物质”上的联系。 所有参与者都观测到博弈过去的历史, 即知道过去阶段博弈的结果和过程。 参与者的总支付是所有阶段博弈支付的 贴现值之和或加权平均值。
3.分类
有限次重复博弈:阶段博弈的有限次重 复。 无限次重复博弈:阶段博弈一直重复下 去。
ห้องสมุดไป่ตู้
(二)有限次重复博弈
七、重复博弈
重复博弈的含义与特征 有限次重复博弈 无限次重复博弈
(一)含义、特征与分类
1.含义 重复博弈:同样结构的博弈重复进行多次的博 弈过程,其中每次博弈称为“阶段博弈”。 重复博弈是动态博弈 。 重复博弈尽管形式上是重复进行,但不是阶段 博弈的简单重复或简单叠加。 重复次数的重要性在于改变博弈的结果,这来 自于参与者长短期利益之间的权衡。
纳什均衡与子博弈精炼纳什均 衡
纳什均衡只要求均衡策略在均衡路径的 决策结上是最优的,对一个参与者在非 均衡路径的信息集上的选择没有限制。 而子博弈精炼纳什均衡的策略不仅在均 衡路径的决策结是最优的,是在非均衡 路径决策结上也是最优的(这是两者的 实质区别)。
四、逆向归纳法
对有限完美信息博弈,逆向归纳法是求 解子博弈精炼纳什均衡的最简便方法。 逻辑基础:动态博弈中先行动的参与者 必然会考虑到后行动的参与者的选择行 为,只有在最后一个决策结上,不再有 后续的牵制的参与者,才能直接做出明 确选择,而当最后一个决策结的最优选 择确定以后,前面的选择也就容易确定 了。
small small S small large J2 large ● (2,2) ● (-1,-1) J1 large ● (-1,-1) ● (1,1)
Smith的策略: “大”或者“小” Jones的策略:
“大”;如果 Smith选择“小”,Jones选择“大”。 • (大,小):如果Smith 选择“大”,Jones选择 “大”;如果 Smith选择“小”,Jones选择“小”。 • (小,大):如果Smith 选择“大”,Jones选择 “小”;如果 Smith选择“小”,Jones选择“大”。 • (小,小):如果Smith 选择“大”,Jones选择 “小”;如果 Smith选择“小”,Jones选择“小”。
五、应用举例
斯坦克尔伯格模型 讨价还价博弈
思考题:强盗分赃
五个海盗抢到了100颗宝石,他们通过抓阄确 定了提出方案的顺序,五个强盗分别抓到号码 一、二、三、四、五。号码是他们的发言顺序。 规则如下: 首先,一号强盗提出分配方案,全部强盗(包 括一自己)中过半数通过其方案即实施该方案, 博弈结束;否则将一号强盗喂鲨鱼; 其次,二号强盗提出方案,全部强盗(注:此 时全部强盗是二、三、四、五,因为一已死去) 中过半数通过其方案即实施该方案,博弈结束; 否则将二号强盗喂鲨鱼;
例子:两市场博弈
厂商B
大 小
1,4
厂商 A
大 小
3,3
4,1
0,0
(三)无限次重复博弈
民间定理:设G是一个完全信息的静态博 G 弈, (, ) 是以G为阶段博弈的无限次重 复博弈。用 (e ,, e ) 表示G的一个纳什均衡 决定的支付,用 ( x ,, x ) 表示G的任意可实 x 现支付。如果对于任意参与者i, e 都成 立,而δ足够接近1,那么无限次重复博 弈 G(, ) 中一定存在一个子博弈精炼的纳 什均衡,各参与者的平均支付为 ( x ,, x ) 。
第二章
完全信息的动态博弈
主要内容
博弈的扩展式表示 策略的可信性 子博弈精练纳什均衡 逆向归纳法 应用举例 逆向归纳法与子博弈精炼纳什均衡存在的问题 重复博弈
一、扩展式表示
扩展式表示的主要要素: 参与者 行动顺序:每个参与者在何时行动 行动空间:每次行动时参与者可供选择 的行动是什么 信息集:每次行动时参与者所知道的情 况 支付函数:参与者可能选择的每一行动 组合相对应的各个参与者的支付。