第五讲博弈论 优质课件
博弈论精品课件 (5)

但在博弈论(至少是传统的博弈论) 中,博弈被严格定义为完全理性的个人 或群体的行为发生直接相互作用的情形, 而博弈论正是研究这种情形下个人或群 体的选择(即决策)以及这种选择所导致 的结果的理论。
那么博弈论与传统的决策 理论之间究竟有怎样的区别?
博弈论与传统决策理论的区别
决策: 从若干个备选方案中选择一个。例 如出门带伞问题就是一个决策问题。 决策人 ( 主体 ) 对该问题的选择 ( 或决 策),取决于对未来天气状况的判断,而 且决策的结果(带伞或不带伞)对未来的天 气状况也不会产生任何影响。
2. 静态博弈与动态博弈
根据参与人的先后顺序来划分。 1) 静态博弈:同时行动; 2) 动态博弈:行动分先后。
3. 完全信息博弈与不完全信息博弈
参与人对其他参与人的特征,战略 空间及支付函数在博弈开始是否已知。 1) 完全信息博弈:博弈开始时没有不确定 的因素。 2) 不完全信息博弈:博弈开始时存在不确 定的因素。
• Reinhard Selten将Nash均衡的概念扩展到动态 的甚至是多阶段博弈。 • Harsanyi提出了如何将当时人们认为无法分析 的不完全信息博弈,转换为运用已有的博弈理 论及其他的数学方法便可以分析的博弈模型的 一般方法,将博弈论的发展推向了另一个全新 的发展阶段。
• 在对博弈问题进行理论研究的同时,博 弈论的应用研究也得到了很大的发展, 其应用范围已由20世纪五十年代初的军 事领域,扩展到经济、政治、文化及法 律等诸多领域。甚至对进化生物学和计 算科学等自然科学也产生了重要影响。
猜硬币——游戏2
• 甲乙猜硬币正反:甲选择硬币的正反, 若乙猜对,则甲给乙一元钱;若乙猜错, 则乙给甲一元钱。 • 特点:自己的选择影响其他人的选择, 反过来又影响自己的选择,也就是说: 存在反作用。
经济学原理十六讲(高辉)5第五讲 博弈与经济行为-PPT课件

经济学原理十六讲 College of Business : Chengdu University of Technology
第一节 博弈论
还能举出生 活中的博弈的例 子吗
至少两个参与者
• 博弈论的参与者又被成为决策主体。没有参与者就不 会有博弈,而且参与者至少为两人。
利益
• 博弈的最终目的都是为了自己争取最大利益。 • 必须是决策主体在意的东西才能称之为利益。
案 例 引 入
2019年1月,瓦鲁法斯基在就任财长的第一次 演讲中便向国际债权人发出了咄咄逼人的“退欧 战书”开始,希腊债务危机便逐步在希腊政府面 对紧缩政策的决不妥协和国际债权人的没有紧缩 就没有贷款的博弈中被逼入了“囚笼”。 从6月1日,希腊政府拒绝按期归还IMF贷款, 并称债权人给出的贷款条件“荒谬”,到6月9日 作为债权人代表之一的欧盟委员会主席容克拒绝 接听希腊总理齐普拉斯的电话,关闭对话渠道为 止,欧洲市场在大部分时间里都被裹挟在了绝望 的情绪之中。在这期间的7个交易日中,欧洲股市 均以下跌收盘,创下2019年以来最长时间的连跌。4
有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两位 犯罪嫌疑人,张三和李四,并从他们的住处搜出被害人家中丢失的财物。但是,他矢 口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警 方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。 检察官说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们1年刑期。但是,我 可以和你做个交易。如果你单独坦白杀人的罪行,我就放你出去,但你的同伙要判十 年刑。如果你拒不坦白,而被同伙检举,那么你就将判十年刑,他被放掉。但是,如 果你们两人都坦白交代,那么,你们都要被判6年刑。”
《博弈论》课程课件

(五)博弈模型的分类
博弈中最重要的两个因素是信息与顺序。
信息上可以分为完全信息和非完全信息。
在博弈的顺序上则可以分为静态与动态。
21
完全信息和非完全信息,完全和非完全判 断的标准就是如果有些信息只有一部分参 与者知道,并不是所有的信息都是公共信 息,那么博弈就是非完全信息博弈。 静态博弈和动态博弈,静态和动态的区别 并不在于时间上是否同时,而是在行动上 是否同时。如果参与者1在行动时,不知道 参与者2的行动,反之也一样,即为同时行 动。
2
例2 诺曼底登陆
德军
加来设防 加来登陆 盟军
诺曼底登陆 成功,失败
诺曼底设防 成功,失败
失败,成功
失败,成功
3
例3 鸽派和鹰派
美 国 鸽派政策 苏联 鹰派政策
鸽派政策
鹰派政策
0,0
+1,–1
–1,+1
– ∞,– ∞
4
从上面的三个例子中,我们可以概括出一个博弈 所具有的共同特征:利益相冲突的参与者、参与 者总是根据对手可能采取的策略来采取相应的行 动----相互依存的策略和行动、参与者总是追求自 身利益最大化。根据这些共同特征我们就能给出 一个博弈的定义,只要符合这个定义,就可以将 其纳入到博弈论的研究范畴之中。
( 五 ) 博 弈 模 型 的 分 类
( 四 ) 博 弈 论 的 两 个 前 提 假 设
( 三 ) 纳 什 均 衡
( 二 ) 博 弈 表 达 的 科 学 式
( 一 ) 什 么 是 博 弈 论
一 、 理 论 准 备
1
(一)什么是博弈论
我们首先看几个例子。 例1 石头、剪刀、布
博弈论完整版PPT课件

2-阶理性: C相信R相信C是理性的,C会将R4从R的战略空间中剔除, 所以 C不会选择C1;
3-阶理性: R相信C相信R相信C是理性的, R会将C1从C的战略空间中剔 除, R不会选择R1;
基本假设:完全竞争,完美信息
个人决策是在给定一个价格参数和收入的条 件下最大化自己的效用,个人的效用与其他人 无涉,所有其他人的行为都被总结在“价格”参数 之中
一般均衡理论是整个经济学的理论基石 和道义基础,市场机制是完美的,帕累托 最优成立,平等与效率可以兼顾。
.
3
然而在以下情况,上述结论不成立:
.
19
理性共识
0-阶理性共识:每个人都是理性的,但不知道其 他人是否是理性的;
1-阶理性共识:每个人都是理性的,并且知道其 他人也是理性的,但不知道其他人是否知道自己 是理性的;
2-阶理性共识:每个人都是理性的,并且知道其
他人也是理性的,同时知道其他人也知道自己是
理性的;但不知道其他人是否知道自己知道他们
如果你预期我会选择X,我就真的会选择X。
如果参与人事前达成一个协议,在不存在外部强 制的情况下,每个人都有积极性遵守这个协议,这 个协议就是纳什均衡。
.
28
应用1——古诺的双寡头垄断模型(1938)
假定:
只有两个厂商 面对相同的线形需求曲线,P(Q)=a-Q, Q=q1+q2 两厂商同时做决策; 假定成本函数为C(qi)=ciqi
劣策略:如果一个博弈中,某个参与人有占优策略,那么
该参与人的其他可选择策略就被称为“劣策略”。
工大博弈论课第五讲PPt

多重纳什均衡解及其分析
当参与人数目增加时, 当参与人数目增加时,选择合作的风险将 会更大, 会更大,可借助该点考虑招标机制如何减 少投标方勾结问题 上述问题是我们知道建立诚信机制社会的 重要意义 上述问题引出一个博弈相关分支为协调博 弈(coordination game)
12
不动点
一个和尚周六早上七点钟开始上山,晚 上七点钟到达山顶,周日早上七点钟开 始下山,晚上七点钟到达山脚。现在要 你证明山路上一定存在一点,使得和尚 周六上山时经过这点的时刻,与周日下 山时经过这点的时刻重合。
13
不动点
你看出这一点为什么是一个不动点了吗?把山路 看成是容器,把山路上的点看成是容器里的小球, 现在我们这样来搅拌这些小球:拿来一个小球甲, 它对应山路上的一点,记下和尚周六经过这点的 时刻,比如说9点15分,然后找到周日9点15分 和尚所在的位置,它对应山路上另一点,也就是 容器里的另一个小球乙,搅拌过后,甲占据了乙 的位置。根据不动点定理,一定有一个小球,搅 拌过后自己占据了自己的位置,也就是说和尚周 六经过这个小球的时刻,与周日经过这个小球的 时刻,是同一时刻!
当A以概率r选上时,B选左和选右的收益为 r+1;3r 令二者相等,得到 r=0.5 B 左 A 上 下
5
右 -1,3 0,0
3,2 -1,1
假设A选上的概率为 选下的概率为1-r 假设 选上的概率为r,选下的概率为 , 选上的概率为 假设B选左的概率为 选右的概率为1-q 选左的概率为q 假设 选左的概率为 ,选右的概率为 ,
1
监察博弈 “监察博弈”是“Matching Pennies”的一种流行 监察博弈” 监察博弈 的一种流行 变种,它可以应用于武器控制、 变种,它可以应用于武器控制、犯罪预防和工 人激励。下图是这一博弈的简单版本。 人激励。下图是这一博弈的简单版本。一个工 人为一个老板工作(参与人); );工人可以偷懒 人为一个老板工作(参与人);工人可以偷懒 或工作、老板可以监察或不监察(策略集); 或工作、老板可以监察或不监察(策略集); 工人工作能为老板产生价值为v的产出 的产出, 工人工作能为老板产生价值为 的产出,但会使 自己花费成本g。老板监察要花费成本h, 自己花费成本 。老板监察要花费成本 ,但可 以提供工人是否偷懒的证据。工人得到工资w 以提供工人是否偷懒的证据。工人得到工资 (假设老板不允许根据观测产出水平来条件化 工资),如果工人被抓住在偷懒,则他得到0 ),如果工人被抓住在偷懒 工资),如果工人被抓住在偷懒,则他得到 由于有限责任的原因)。 )。两人同时选择他们 (由于有限责任的原因)。两人同时选择他们
博弈论课件

博弈论强调参与者之间的互动关系,通过数学模型和理论分析来研究 策略选择和均衡结果。
博弈论的发展历程
博弈论的起源可以追溯到20世纪初,当时数学家和经 济学家开始研究游戏中的策略和均衡。
1944年,冯·诺依曼和摩根斯坦合著的《博弈论与经济 行为》标志着博弈论的诞生。
随后,纳什、泽尔腾和哈萨尼等学者进一步发展了博弈 论,形成了现代博弈论的基础。
商业竞争与合作
商业竞争
博弈论可以用于分析商业竞争中的策略和行为,例如价格战、广告战等。通过 博弈论,企业可以更好地理解竞争对手的策略,制定出更有效的竞争策略。
商业合作
博弈论也可以用于分析商业合作中的策略和行为,例如供应链管理、合资企业 等。通过博弈论,企业可以更好地理解合作伙伴的需求和期望,制定出更有效 的合作策略。
贝叶斯纳什均衡
在不完全信息博弈中,如果所有参与 者都根据自己掌握的信息选择最优策 略,则所有参与者都能获得最大收益 。
静态博弈与动态博弈
01
静态博弈
02
动态博弈
所有参与者在同一时间点选择策略并获得收益。
参与者的选择有先后顺序,后选择的参与者可以观察到先选择的参与 者的策略和收益。
03
纳什均衡
纳什均衡的定义
博弈优化方法
线性规划
线性规划是一种数学优化方法, 用于找到在满足一组约束条件下 最大化或最小化目标函数的最优
解。
非线性规划
非线性规划是数学优化的一种方 法,用于找到一组变量的最优值 ,使得一个或多个目标函数达到
最优。
动态规划
动态规划是一种通过将问题分解 为相互重叠的子问题来解决问题 的方法,每个子问题的解被保存
博弈论课件
汇报人:
汇报时间:202X-01-04
博弈论课件

脚的看牌人、看棋人,企业的顾问等。
对参与人的决策来说,最重要的是
必须有可供选择的行动集(策略集)和
一个很好定义 的支付函数。
自然被当作虚拟参与人。
清华诚志
10
(2)策略(strategies ):博弈中有两种策略
概念,一种为纯策略(pure strategy ), 简称策略, 指参与人在博弈中可以选择采用的行动(actions or moves)方案,是参与人在给定信息结构的情况 下的行动规则,它规定参与人在什么时候的什么情
囚徒困境反映了个人理性和集体理性的矛盾。如果 A和B都选择抵赖,各判刑1年,显然比都选择坦 白各判刑8年好得多。当然,A和B可以在被警察 抓到之前订立一个"攻守同盟",但是这可能不会有 用,因为它不构成纳什均衡,没有人有积极性遵守 这个协定,显然最好的策略是双方都抵赖.
清华诚志
5
囚徒困境的意义
“囚徒的两难选择”有着广泛而深刻的意义。 个人理性与集体理性的冲突,各人追求利己 行为而导致的最终结局是一个“纳什均衡”, 也是对所有人都不利的结局。他们两人都是 在坦白与抵赖策略上首先想到自己,这样他 们必然要服长的刑期。只有当他们都首先替 对方着想时,或者相互合谋(串供)时,才可 以得到最短时间的监禁的结果。
清华诚志
26
我们从博弈中学习什么
博弈论告诉人们,要学会理解他人都有自己的思想, 每个个体都是理性的,所以必须了解竞争对手的思 想。商业关系被认为是一种相互作用。但博弈论并 不是疗法,并不是处方,它并不告诉你该付多少钱 买东西,这是计算机或者字典的任务。博弈论只是 提供一些关系的例证,一些有用的解决问题的方法。 这种思维方法也许是企业家应该学习的。对于经济 学家,也许需要学习它的理论模型,它的实验方式 。
第五讲.博弈论

二、50年代中后期一直到70年代博弈论发展的青年期 1954-1955年提出了“微分博弈”(Differential games)的 概念。 奥曼则在1959年提出了“强均衡”(Strong equilibrium) 的概念。 “重复博弈”(Repeated games)也是在50年代末开始研 Repeated games 50 究的,这自然引出了关于重复博弈的“民间定理”(Folk Folk theorem)。 1960年(Thomas C. Schelling)引进了“焦点”(Focal point)的概念。 博弈论在进化生物学(Evolutionary Biology)中的公开应 用也是在60年代初出现的。
一、基本模型
囚徒 2 坦 白 囚 坦 白 徒 1 不坦白 囚徒1:坦白 囚徒2:坦白 -5, -5 不坦白 0, -8
-8, 0
-1, -1
两个罪犯的得益矩阵
二、双寡头削价竞争
寡头2 寡头 高 价 寡 头 1 高 价 低 价 100,100 150,20 低 价 20,105 70,70
双寡头的得益矩阵 政府组织协调的 必要性和重要性
重复博弈:同一个博弈反复进行所构成的博弈, 重复博弈 提供了实现更有效略博弈结果的新可能 —长期客户、长期合同、信誉问题 有限次重复博弈 无限次重复博弈
1.3.5 博弈的信息结构
博弈论完整课件(浙江大学)5

博弈论完整课件(浙江⼤学)5 GameTheory(5)DynamicGamesofIncompleteInformationPERFECT BAYESIANEQUILIBRIUM在完全信息静态博弈中,有PBE=BNE=SNE=NE⼀、Introduct iontoPBE例⼦GibbonsP139如果⼀个博弈没有⼦博弈,则⼦博弈精炼的要求(参与⼈的策略在每⼀个⼦博弈中君构成NE的要求)⾃然就得到满⾜,从⽽在任何没有⼦博弈的博弈中,SNE=NE。
?PBE信息动态博弈的⼦博弈前⽂中—“由⼀个动态博弈第⼀阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进⾏博弈所需要的全部信息,能够⾃成⼀个博弈的原博弈的⼀个部分”。
这个定义实际上隐含了三个⽅⾯的含义:A.因为原博弈本⾝不会成为原博弈的后续阶段,因此⼦博弈不能从原博弈的第⼀个节点开始,即原博弈不是⾃⼰的⼀个⼦博弈;B.包含所有在初始节点之后的选择节点和终点,但不包含不跟在此初始节点之后的节点;C.不分割任何的信息集。
即如果⼀选择节点包含在⼀个⼦博弈中,则包含该节点的信息集中的所有节点都必须包含在该⼦博弈中。
A和B两点针对所有类型的动态博弈,⽽C是专门针对不完美信息动态博弈的。
(⼆)PBE的要求(Requirement)要求1:在每⼀个信息集中,应该⾏动的参与者必须对博弈进⾏到该信息集中的每⼀个节点有⼀个推断(belief)。
对于⾮单节信息集,推断是在信息集中不同节点的⼀个概率分布;对于单节点的信息集,参与者的推断就是到达此单⼀节点的概率为1。
要求2:给定参与者的推断,参与者的策略必须满⾜序贯理性(sequentialrational)的要求。
即在每⼀信息集中应该⾏动的参与者(以及参与者随后的策略),对于给定的该参与者在此信息集中的推断,以及其他参与者随后的策略必须是最优反应。
(“随后策略”是在达到给定的信息集之后,包括了其后可能发⽣的每⼀种情况的完全的⾏动计划)对于前例,要求1和要求2的满⾜⾜以使我们排除不合理的均衡(R,R’)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非对称信息:探讨在信息不对称的情况下,市场是如何运转,失灵或消失 的,这些问题的研究导出了信息经济学
博弈论:研究决策主体(参与人)的行为发生直接相互作用的策略及其均衡。 主要模型与分类:
给定信息结构
静态 完全信息
动态 静态
• 这说明政府在社会经济活动中的组织协调工作常
常是必需的,放任自流并不是导致全社会最大福 利的最佳政策。
换灯博弈
设想某楼道有两户人家(张三、李四)居住,由于楼道灯坏了需要 换新灯。如果换上灯,光亮的楼道每家得到的好处为“3”,但换新灯的成 本为“4”,若两家联合换灯,每家分摊成本为“2”,若没人换灯,每一家 的好处为“0”。则此问题涉及张三与李四的换灯博弈:
李四
换
不换
换
张三
1
1
3
-1
不换
-1
0
3
0
换灯博弈
解:因为 03 11 不换(灯)是两家的占优战略。 即NE{(不换,不换),(0,0)},张三与李四陷入公共物品供给的囚徒困境。
美苏军备竞赛
假定一方军备占优(即一优一劣局势),优方可得10000亿美元,劣 方因受优方欺侮或掠夺而造成损失10000亿美元(即-10000亿美元),每 一方的扩军成本为2000亿美元(即-2000亿美元),于是可得下述的美苏 军备竞赛:
例1.囚徒困境(Prisoner’s dilemma)
囚徒B
坦白
抵赖
坦白
-8
-10
囚徒A
-8
0
抵赖
0
-1
-10
-1
囚徒困境博弈
解:因 08 110 坦白均为双方占优均衡战略
均衡结果:NE{(坦白,坦白),(-8,-8)}
PE{(抵赖,抵赖),(-1,-1)}
第五讲 博弈论、信息经济学与经济学
第一节 博弈论、信息经济学与经济学 第二节 博弈论的创立与发展 第三节 1994、1996、2001、2005诺贝尔 经济学奖获得者的主要工作 第四节 博弈论的若干实例
博弈论、信息经济学的产生源于经济学研究的前提假定在现实中受到挑战: 现实经济社会活动中存在不对称信息、市场竞争不完全、行为人的有限理性等。
前苏联
扩军
裁军
扩军 美国
裁军
-2000
-10000
-2000
8000
8000
0
-10000
0
美苏军备竞赛
结论:美苏陷入军备竞赛的囚徒困境:{(扩军,扩军),(-2000, 2000)}
思考:若把前苏联换成当前的俄罗斯,其均衡如何呢?
政治家的囚徒困境
(摘自迪克西特和奈尔伯夫的《策略思维》)
1984年美国联邦政府预算的赤字实在太高了,其解决思路
冲突:团体理性与个人理性的冲突。涉及大量公共产品的供给、军备竞赛、我
国应试教育(减负增负)。囚徒困境可以用来解释不少经济、商业、政治、战争等
方面的冲突与对抗现象。
• 微观经济学认为追求个体利益的动机,通过市场
变为实现社会最大利益,并不总是存在的,当一 个社会中每个个体都只为自身的利益打算是,即 使大家都遵守社会规则,个体的行为也不一定符 合集体或社会的利益,甚至也不一定能实现个体 的最佳利益。
民主党
主动
被动
主动
2
1
2
4
共和党
被动 1
4 3
3
政治的囚徒困境
显而易见,对每一方而言,保持被动(相对排序越小)是一个优势策略。而这正是当 时真实发生的情况:第99届国会根本没有做出任何加税决定。此届国会确实通过了
《格拉姆——拉德曼——霍林斯法》(Gramm-Rudman-Hollings Act),这一法案规定以
博弈中的次序
• 静态博弈:同时决策 • 动态博弈:
先后决策或行动,后选择 方在选择行动前可以看到其他方此前的选 择或行为,纸牌、象棋、商业谈判、商业 大战等
博弈次数
• 一次博弈 • 重复博弈:有限次重复博弈
无限次重复博弈:和一次性博 弈比,更趋向于合作,实现更有效率的结 果
第四节 博弈论的若干实例
• 多人博弈:
可能存在破坏者
博弈中的得益
• 零和博弈:
一方的收益是另一方的损失如经济战争、法律诉讼、赌 很难和平共处和合作,即使博弈重复多次也无法改变对立关系 为胜出,让其他博弈方无法摸清自己的路子
• 常和博弈:
非零常数如财产利润奖金的分配 相互妥协,和平共处
• 变和博弈:
不同策略组合下,各博弈方的得益之和各不相同如囚徒困境 博弈方之间存在互相勾结的倾向和动机
齐 田忌策略:
上马 ∨
中马 ∨
下马 ∨
田
上马
中马
下马
结 果:
田忌将军每次输掉三千斤铜
齐
上马
中马
下马
谋士孙膑策略:
∨
∧
∧
田
下马
上马
中马
结 果:
田忌将军胜二负一赢一千斤铜
博弈主体
• 单人博弈:
个体的优化问题,博弈方拥有的信息 越多,对决策 的环境条件了解得越多,决策的正确性越高。
• 两人博弈:
两方并不总是利益对抗的, 掌握信息较多并不能保证得益也一定较多 个人追求自身利益最大化行为常常不能导致实现社会 的最大利益,也常常不能真正实现自身利益的最大化。
不完全信息 动态
什么是可能 的均衡结果
2000多年前的春秋时期孙武在《孙子兵法》中论述的军事思想和治国策略,就 蕴育了丰富和深刻的博弈论思想。
田忌赛马:齐威王的上、中、下马分别优于大将田忌的上、中、下,但田忌上 马、中马分别优于齐威五的中、下马。比赛规则:每次双方各出三匹马,一对一比 赛三场,第一场的输方要赔一千斤铜给赢方。
节流—裁减开支(现实行不通)
开源—增税(虽对执政稳定有好处,但在竞选时会失去大部分选票)
政治家的态度:各竞选方希望把提出加税的主动权推给对方
民主党总统候选人沃尔特·蒙代尔(Walter Monda选人罗纳德·里根(Ronald Reagan):许诺绝不加税
下面以两党候选人应对对手行动的策略排序(数字越小越优)建立一个博弈:
例1.囚徒困境(Prisoner’s dilemma) 换灯博弈 美苏军备竞赛 政治家的囚徒困境 交通博弈 制度下的交通博弈 制度与行人道德规范下的交通博弈 价格大战
例2.囚徒招供和黑社会制裁 例3.智猪博弈(boxed pigs) 例4.性别战(battle of the sexes)
分级协调 危险的协调 例5.斗鸡博弈(Chicken game) 船舶交会博弈