第五章博弈论初步
博弈论初步
相同点
博弈论与经济学思想比较
1、利益最大化原则
2、均衡原则
不同点
1、人与人之间的关系:个体理性与集体非理性、设计协调机制、激励 相容机制
2、信息不完全:委托-代理理论、信号传递机制、信息筛选模型
2、发展历程
博弈论可以分为合作博弈(cooperative game)和非合作博弈 (non-cooperative game )。
在一个博弈中,如果每个参与人都有一个占优策略,且每个参与人 都采取占优策略,那么由所有参与人的(占优)策略组合所构成的 均衡就是占优策略均衡。
1、完全信息静态博弈
纳什均衡:纳什均衡是一种策略组合,使得每个参与人的策略是 对其他参与人策略的最优反应。
在一个纳什均衡里,如果其他参与人不改变策略,任何一个参与人 都不会改变自己的策略。也就是说,此时对于任何一个参与人,如果他 改变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与者都 不会有单独改变策略的冲动。
纳什(Nash,1950)提出了“纳什均衡”概念,要求每个参与人的策 略都是针对他所预言的对手策略的支付最大化反应,认为每个决策人的预 言都是正确的,这正是古诺和波特兰研究的特定模型均衡的一个自然推广, 是大多数经济分析的起点。
2、发展历程
纳什(Nash,1950)、夏普里(Shapley,1953)分别提出“讨价 还价”模型;泽尔腾(Selten,1965)证明了参与人选择相机抉择计 划的博弈中不是所有的纳什均衡都是合理的,一些均衡取决于参与人 “空洞威胁”的能力,并引入了“子博弈精炼纳什均衡的概念”排出 依赖此类威胁的均衡;海萨尼(Harsanyi)提出一种使用标准博弈论 技术来模型化不完全信息情形的方法,在标准的技术中假设所有参与 人都知道的他人收益函数;克瑞普斯(Kreps)和威尔逊(Wilson)在 1982年合作发表了关于序贯均衡的博弈论文章。
博弈论入门(课堂PPT)
共同价值和赢者的诅咒
• 两家代理:1个积极估价,1个消极估价
prob(v/s)11//22
vs2 vs2
• v均匀分布
• 出价b=?(一家和两家出价时有不同吗)
• 考察b=s-1这样一个对称策略
• 德士古公司的例子
15
几种常见的拍卖形式
• 英式公开叫价拍卖 • 荷式公开叫价拍卖 • 一价密封拍卖 • 二价密封拍卖
• 通过改革,陪审团制度在美国得到了比英国更 好的发展。
22
投票程序
23
• 每个陪审员在陪审之前已经有一个大体 的判断
• 他们的类型 • 非专业性——从众行为
– 如果评判有罪的人数多于无罪,则投有罪 – 如果评判无罪的人数多于有罪,则投无罪 – 如果双方人数相等,则依照自己的评判结果
投票
24
• 陪1:假设投有罪 • 陪2:若评判有罪,则投有罪;若评判无
• 在被问及对最终的价格是否感到意外时 ,Frija抛下一个“不”字,随即离开了
11
简化的暗标拍卖
密封递交标书 统一时间公正开标 标价最高者以所报标价中标 中标博弈方的得益不仅取决于标价,还取决于他对拍
卖标的物的带有很大主观性的估计 每个博弈方的估价通常是自己的私人信息
12
0.6
0.4
• 考虑这样一个对称策略:给定其他两个 委员采取相同策略,以及对于其他成员 拥有哪个政策更好的知识的信念,不论 这个参与者什么类型,采取这个策略都 使他收益最大。
19
• 自然决定四项:哪个政策更好,以及三 个委员的类型。
• 当一个委员了解新政策时:投票给自己 认为更好的策略是一个弱占优策略。
– 当另外两位投票相同时 – 当另外两位投票分歧时
《博弈论入门》
黑暗中的舞者
1. 慕尼黑协定 2. 贝叶斯均衡:三步转换 3. 当所有人都拥有私人信息时 4. 委员会和陪审团的投票 5. 信号传递 6. 说谎及说谎者的信息
实用文档
1. 慕尼黑协定
实用文档
实用文档
实用文档
60%
40%
实用文档
2. 贝叶斯均衡:三步转换
1. 在一个不完全信息博弈中,这个参与者 是谁?
二手车市场Vs相亲大会
分手or悔婚
法律保障? 钻石戒指? 甜言蜜语?
实用文档
5.3 信号传递的实例
三类商品:
搜索产品 体验商品 信任商品
如何广告才能分离优劣?
实用文档
资本市场
Ross(1977):在一定条件下,企业的负债水平 越高,企业的盈利能力越强。
不同企业的破产可能
好企业
若估价50,出价40最优吗? 出价60时的期望收益:
0.6*(100-60)+0.4*0.5*(10060)=32 若估价100,出价60最优吗?
40: 0.6*0.5*(100-40)+0.4*0=18 50: 0.6*(100-50)+0.4*0=30 70: 0.6*(100-70实)用+文0档.4隐*(藏1你00的-7出0)价=30
参与者所拥有的私人信息成为参与者的类型 所有类型的集合成为类型空间 不同类型对应不同的收益
2. 确定每个参与者的类型,引入“自然” 3. 定义策略集。策略和自然,哪个先?
实用文档
狂野西部枪战
1875年某个非同寻常的一天,警长马歇 尔﹒怀特﹒厄普去维持秩序,突然一个 陌生人拉住他的手,好像要开枪……
实用文档
若委员不知道哪个政策更好 …… (投票,弃权?)
博弈论初步(简介)
第八节第八节 博弈论初步博弈论初步((简介简介))*一、博弈论的基本概念博弈论的基本概念(一)什么是博弈论?博弈论(game theory),又译为对策论,就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。
实际上,博弈是一种日常现象。
在经济学中,博弈论是研究当某一经济主体的决策受到其他经济主体决策的影响,同时,该经济主体的相应决策又反过来影响其他经济主体选择时的决策问题和均衡问题。
(二)博弈论的基本概念博弈论的基本概念包括:参与人、行为、信息、策略、收益、结果、均衡。
参与人(player),又称局中人,是指博弈中选择行动以自身利益最大化的决策主体(可以是个人,也可以是团体,如厂商、政府、国家)。
行为(action)是指参与人的决策变量,如消费者效用最大化决策中的各种商品的购买量;厂商利润最大化决策中的产量、价格等。
策略(strategies)又称战略,是指参与人选择其行为的规制,也就是指参与人应该在什么条件下选择什么样的行动,以保证自身利益最大化。
信息(information)是指参与人在博弈过程中的知识,特别是有关其他参与人(对手)的特征和行动的知识。
即该参与人所掌握的其他参与人的、对其决策有影响的所有知识。
收益(payoff)又称支付,是指参与人从博弈中获得的利益水平,它是所有参与人策略或行为的函数,是每个参与人真正关心的东西,如消费者最终所获得的效用、厂商最终所获得的利润。
结果(outcome)是指博弈分析者感兴趣的要素集合。
均衡(equilibrium)是指所有参与人的最优策略或行动的组合。
这里的“均衡”是特指博弈中的均衡,一般称之谓“纳什均衡(Nash equilibrium)”。
二、博弈论的产生与发展博弈论的产生与发展对具有博弈性质的决策问题的研究可以追溯到18世纪甚至更早。
但一般认为,1944年冯·诺依曼(Von neumann)和摩根斯坦恩(Morgenstern)合作出版的《博弈论和经济行为》(The Theory of Games and Economic Behaviour)一书,标志着系统的博弈理论的形成。
《博弈论初步》课件
THANKS
感谢观看
02
纳什均衡是一种非合作博弈均衡 ,其中每个参与者都认为当前策 略是最好的,不会受到其他参与 者的欺骗或影响。
纳什均衡的求解方法
迭代法
通过不断迭代每个参与者的策略,逐步逼近纳什均衡。这 种方法适用于较简单的博弈模型,但对于复杂的博弈模型 可能收敛速度较慢。
线性规划法
将纳什均衡问题转化为线性规划问题,通过求解线性规划 来找到纳什均衡。这种方法适用于具有线性特征的博弈模 型,但计算复杂度较高。
价格战与非价格战
博弈论分析了价格战和非价格战的利弊,为企业制定营销策略提供 博弈论可以用来分析选民的投票行为和政治立场,预测选举结果。
02
候选人策略
博弈论为候选人提供了制定最优竞选策略的方法,帮助他们在选举中获
胜。
03
政治联盟与利益交换
博弈论中的合作博弈理论可以用来分析政治联盟的形成和利益交换机制
特征值法
利用特征值和特征向量的性质来求解纳什均衡。这种方法 适用于具有矩阵特征的博弈模型,但需要一定的数学基础 。
纳什均衡的应用实例
1 2
价格竞争
在寡头市场中,企业之间通过价格策略进行竞争 ,最终形成价格均衡,即纳什均衡。
劳资谈判
劳资双方在谈判中会提出自己的工资要求,最终 达成工资协议,这也是一种纳什均衡。
博弈类型
合作博弈
定义
01
参与者通过合作达成共赢的博弈。
特点
02
存在合作协议,强调集体行动和收益分配。
应用场景
03
国际关系、商业合作、团队协作等。
非合作博弈
定义
应用场景
参与者追求各自利益最大化的博弈。
市场竞争、个人决策、资源分配等。
第五讲.博弈论
二、50年代中后期一直到70年代博弈论发展的青年期 1954-1955年提出了“微分博弈”(Differential games)的 概念。 奥曼则在1959年提出了“强均衡”(Strong equilibrium) 的概念。 “重复博弈”(Repeated games)也是在50年代末开始研 Repeated games 50 究的,这自然引出了关于重复博弈的“民间定理”(Folk Folk theorem)。 1960年(Thomas C. Schelling)引进了“焦点”(Focal point)的概念。 博弈论在进化生物学(Evolutionary Biology)中的公开应 用也是在60年代初出现的。
一、基本模型
囚徒 2 坦 白 囚 坦 白 徒 1 不坦白 囚徒1:坦白 囚徒2:坦白 -5, -5 不坦白 0, -8
-8, 0
-1, -1
两个罪犯的得益矩阵
二、双寡头削价竞争
寡头2 寡头 高 价 寡 头 1 高 价 低 价 100,100 150,20 低 价 20,105 70,70
双寡头的得益矩阵 政府组织协调的 必要性和重要性
重复博弈:同一个博弈反复进行所构成的博弈, 重复博弈 提供了实现更有效略博弈结果的新可能 —长期客户、长期合同、信誉问题 有限次重复博弈 无限次重复博弈
1.3.5 博弈的信息结构
五讲博弈论基础 共72页
第一节 博弈论导论
博弈的四要素: 1.博奕的参加者,即博奕方或参与人。
2.各博奕方可选择的全部策略或行为的集合。
3.进行博奕的次序。
4.博奕方的得益。 例:囚徒困境
囚徒A
坦白 抵赖
囚徒B
坦白
-8,-8 -10,0
抵赖
0,-10 -1,-1
均衡结果为:A、B都选择坦白,各判8年刑
第一节 博弈论导论
比如说:夜间唱歌
科斯定理图示
农场主的边际净损失
牧羊的边际利润
S
P
O
社会最优量
牧养人放牧的数量
说明
如果产权归农场主,农场主可以禁止放牧(点0),小于 社会最优量S;但此时,增加放牧给牧羊人带来的边际利 润大于给农场主造成的损失,牧羊人将有积极性贿赂农场 主,直到放牧量达到S为止;
如果产权归牧羊人,牧羊人的利润最大点是P,大于社会 最优量S;但此时,减少放牧量对牧羊人的边际利润损失 小于给农场主节约的边际成本,所以,农场主将有积极性 贿赂牧羊人,直到S;
博奕论前提假设:博弈的参与者都是理性人 所谓理性人是指有一个很好定义的偏好,在面临给定的约束 下最大化自己的偏好。 理性人可能是利己主义者,也可能是利它主义者。
第一节 博弈论导论
例:囚徒困境
囚徒A
坦白 抵赖
囚徒B
坦白
-8,-8 -10,0
抵赖
0,-10 -1,-1
均衡结果为:A、B都选择坦白,各判8年刑
革命通常不是一个帕累托改进。
外部性与科斯定理
个人收益与社会收益:一项活动的社会收 益等于决策者个人得到的收益加社会其他 成员得到的收益,如养花;
个人成本与社会成本:社会成本等于决策 者的个人承担的成本加社会其他成员承担 的成本,如环境污染,交通堵塞;
博弈论初步
1996莫里斯(James A.Mirrlees)和维克瑞(William Vickrey)
这两位经济学家的贡献集中于运用博弈论对 现实经济问题的解释。
企业、政府与商业环境
博弈论与竞争策略
博弈论导论—博弈论和诺贝尔经济学奖
• 2001:阿克洛夫(Akerlof)、斯宾塞(Spence)、斯蒂格利茨(Stiglitz) 这三位作为不对称信息市场理论的奠基人被授予诺 贝尔经济学奖,以表彰他们分别在柠檬品市场等不 对称信息理论研究领域做出的基础性贡献。这些贡 献发展了博弈论的方法体系,拓宽了其经济解释范 围。 2002:弗农史密斯(Smith) 贡献主要在于通过实验室实验来测试根据经济学 理论而做出预测的未知或不确定性。是对以博弈 论为基础构建的理论模型进行实证证伪工作的一 大创举。 2005:奥曼(Aumann)、谢林(Schelling) 他们通过博弈理论分析增加了世人对合作与冲突的 理解。其理论模型应用在解释社会中不同性质的冲 突、贸易纠纷、价格之争以及寻求长期合作的模式 等经济学和其他社会科学领域。
乙 甲 石头 剪刀 布
石头 0,0 -1,1 1,-1
剪刀 1,-1 0,0 -1,1
布 -1,1 1,-1 0,0 ○ 完整博弈过程包括哪些要 素?博弈如何分类?
→ 博弈过程的要素主要有:参与人、行动空间或策略空间、行 动次序和博弈收益等。
→ 按收益可分为零和博弈和非零和博弈;按行动先后可分为静 态博弈和动态(序贯)博弈;按参与人对其他参与人的了解 程度分为完全信息博弈和不完全信息博弈。
了可置信的契约。
乙
甲 拨打
等待
拨打
等待
乙
甲 坦白
抵赖
坦白
抵赖
第五章 博弈论初步
2018/12/9
极大化极小策略
最大化可能得到的最小收益。
博弈方2 左 上 下 1,0 -1000,0 右 1,1 2,1
博弈方1
2018/12/9
情况一:如果博弈方2是理性的,采用“右” 是一个上策,博弈方1应期望2采取“右”,然 后自己采取“下”,结果是一个纳什均衡。 情况二:如果博弈方1比较谨慎,且考虑到博 弈方2可能不完全清楚该博弈或不一定理性, 博弈方1可能采取“上”,并非采取利润最大 化,而是采取极大化极小策略。
2018/12/9
“以牙还牙”策略的有效性
必要条件——重复无限次 如果是有限次重复,那么结果与一次对 局没有什么不同 假定对局次数为N。第N次对局的分析与 一次对局类似,再对第N-1次分析… 关键是,在“没有未来”的对局中,理 性使得参与者选择上策,从而出现上策 均衡,因为对手已经不可能报复
2018/12/9
2018/12/9
价格竞争的策略选择
B
10元
10元 A ห้องสมุดไป่ตู้5元
15元
100,80 50,170
180,30 150,120
2018/12/9
上策与上策均衡
不管对方如何,这种策略总是最优的策 略称为上策;在价格竞争博弈中,低价 策略对任一方来说都是上策。
博弈中的均衡是指一种稳定的结局,当 这种结局出现时,所有对局者都不想再改 变他们的策略;双方都采取上策的均衡为 上策均衡。
2018/12/9
承诺(Commitment)
承诺——对局者所采取的某种行动,这 种行动使其威胁变成一种可信的威胁 例如:IBM公司曾经在一些新型电脑刚 推向市场的时侯,宣布其两三年以后的 很低的价格。 思考:IBM这种做法的效果是什么?为 什么可行?
博弈论初步
什么是博弈论? 古语有云,世事如棋。
生活中每个人如同棋手, 其每一个行为如同在一张 看不见的棋盘上布一个子, 精明慎重的棋手们相互揣 摩、相互牵制,人人争赢, 下出诸多精彩纷呈、变化 多端的棋局。博弈论是研 究棋手们 “出棋” 着数 中理性化、逻辑化的部分, 并将其系统化为一门科学。
对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌 疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪, 各被判刑5年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白 而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑5年, 而坦白者有功被减刑5年,立即释放。如果两人都抵赖,则警方因 证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判 入狱1年。
• (2)策略(strategies):一局博弈中,每个局中人都有选择实际可行的完整 的行动方案
• (3)得失(payoffs):一局博弈结局时的结果称为得失。每个局中人在一局 博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局 中人所取定的一组策略有关。所以,一局博弈结束时每个局中人的“得失” 是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数。
对甲来说,尽管他不 知道乙作何选择,但 他知道无论乙选择什 么,他选择“坦白” 总是最优的。
甲/乙 不坦白 坦白
不坦白 -1 , -1 0 ,-10
坦白 -10 ,0 -5,-5
显然,根据对称性,乙也会选择“坦白”,结果是两人都被判刑10年。 但是,倘若他们都选择“抵赖”,每人都无罪释放。在表中的四种行动 选择组合中,(抵赖、抵赖)是帕累托最优,因为偏离这个行动选择组 合的任何其他行动选择组合都至少会使一个人的境况变差。但是,“坦 白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略 均衡,即纳什均衡。不难看出,此处纳什均衡与帕累托存在冲突。
博弈论初步
博弈论初步博奕论(game theory)又称对策论,是描述、分析多人对策行为的理论,由棋奕、桥牌、战争中借用而来,在经济学中应用广泛,如在用来表现寡头间相互依存的竞争特点便有其突出的优越性。
现代经济博奕理论始于1944年冯·诺依曼(John Von Neumann)和莫根施特恩(Oskar Margenston)的《博奕论与经济行为》一书。
博弈论就是用数学方法研究决策相互影响的理性人是如何进行决策以获取最大收益的。
博奕:多人决策过程引例:田忌赛马博弈论的基本概念一、囚犯困境(prisoner’s dilemma)囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别被关在不同的屋子里审讯。
下表给出了囚徒困境模型的表述。
每个囚徒都有两种选择:坦白或不坦白。
表中每一格的两个数字代表对应两个囚徒选择组合下各自的刑期。
二、博弈的三个基本要素1、参与者(player)(博奕方、局中人、对局者):即有哪些人参与博弈。
一般至少有两个参与者。
可以是个人,团体,集团。
2、策略(strategy) :参与人在给定信息集的情况下的行动方案。
囚徒A、B都只有两种行动可供选择,即“坦白”和“不坦白”。
3、(payoff)(支付):博弈的结果给参与人带来的好处。
在博弈论中指一个特定策略组合下参与人得到的确定效用水平,或者是指参与人得到的期望效用博弈的分类及其表达方式一、博弈的分类(一)合作博弈与非合作博弈:是否达成协议,是,合作博弈;否非合作博弈。
(二)静态博弈与动态博弈、完全信息博弈与不完全信息博弈静态博弈:博弈中,参与人同时选择行动或者虽不同时但后行动者不知道先行动者采取了什么策略的博弈。
动态博弈:参与人的行动有先后顺序,且后行动者知道先行动者选择的策略。
完全信息博弈:每一个参与人对所有的其他参与人的特征、战略空间及支付有准确的认识,否则就是不完全信息博弈。
完全信息静态博弈一、占优策略均衡(以不变应万变)占优策略:无论其他参与者采取什么策略,某参与者的惟一的最优策略就是他的占优策略。
博弈论初步
博弈,无处不在
博弈论已遍及经济学、社会科学、工商业活动以及日常生 活等各个领域。 许多博弈的一个关键问题是建立信誉 (credibility ) 博弈论的基本结构:具有不同策略、行动的竞争者,竞争 者的支付和分配情况以及在每一种结果下博弈者得到的其 他利益。
B.2 博弈论的一些重要例子
合谋还是不合谋 非合作性均衡 (noncooperative equilibrium):对于 博弈各方而言不是有效率的均衡。 合作性均衡(cooperative equilibrium):博弈各方结 成联盟,实行总利润最大化的策略。 完全竞争均衡是非合作均衡或纳什均衡,非合作性行 为造成了社会所期望的经济效率状态,此时合作会导 致无效率。
污染博弈是“看不见的手”这种竞争机制失败的 典型例证。
在企业不受管制的环境里,每个追求利润最大化 的企业都宁肯污染环境,也不愿安装昂贵的污染 处理设备。
污染博弈
美国钢铁公司
低污染 高污染*
低污染
Oxy钢铁 公司
100 -30
100 120
120 100
-30 100
高污染*
在这种情况下,非合作均衡活纳什均衡是无效率的。如果 企业要消除污染,则其产品价格会提高,从而生意受损, 利润下降。 非合作纳什均衡导致了严重的污染,是无效率的。此时政 府应介入,通过强制方式使企业达到合作性均衡,企业获 得同样的利润,而环境污染也得以消除。
致命的军备竞赛
军备竞赛是具备非效率均衡特征的一个极度危险的博弈案 例。在不确定对手意图的情况下,只能采取安全的做法, 即在武器上超越对手。 危险的非效率的非合作性均衡,需要合作的解决方式: “武器控制协定”,将博弈结果从无效率的非合作性均衡 移动到效率程度较低的合作结果。
经济学课件博弈论初步
博弈论是经济学中的重要分支,探讨决策者如何针对不同的情况做出最优或 是稳定的策略。本课件将带你入门博弈论。
博弈基础
玩家、策略、收益
博弈论的基础概念包括玩家(两 个或多个决策者)、策略(决策 者可选的不同行动)、收益(每 个玩家的利益)。
零和博弈和非零和博弈
纳什均衡
零和博弈是指通过一方赢得另外 一方的损失来实现收益。相反, 非零和博争中的博弈论应 用
通过博弈论模型,企业可以 优化价格、销售策略、广告 推广等方面来获得利益。
政治决策中的博弈论应 用
政治决策中的博弈论应用广 泛,例如国际贸易、军备竞 赛、公共压试验等。
社会博弈中的博弈论应 用
社会博弈包括合作、交叉、 竞争等情形。了解博弈论可 以让我们更好地了解社会行 为。
纳什均衡指的是玩家做出的最优 决策,即使其他玩家对此决策做 出的反应已知,其决策仍然是最 好的。
重要概念解析
1
支配策略
在某种情况下,一种选择比其他所有选
调和纳什均衡
2
择都要好,无论其他玩家选择什么。
指对于每个玩家而言,都不再存在更好
的策略。
3
子博弈完美均衡
针对某个博弈中的某个子博弈,所有玩 家都采取的策略构成了一个完美均衡。
2 博弈论的局限性
博弈论研究过程中需要进行简化和假设,从而忽略部分现实中的因素,需要结合其他学 科进行研究。
3 博弈论的未来趋势
随着经济、政治、社会等领域的日益发展,博弈论在有限理性、混合策略和进化博弈等 方面仍有很多研究空间。
博弈论的拓展
两人博弈论
多人博弈论
博弈树
常用的两人博弈论包括囚徒困境、 鸽子与鹰、石头剪子布等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Stackelberg寡头竞争模型
• 逆向归纳法求解
– 然后倒推到企业1,企业1是理性的,预测到企业2 将根据一阶条件选择产量,则企业1面临的问题为
max 1 ( q1 , s2 ( q1 )) q1 ( a q1 s( q1 ) c )
q1 0
由一阶条件可得
q1* 1 (a c) 2
Stackelberg寡头竞争模型
• 分析(逆向归纳法求解)
价格函数:P(Q ) a q1 q2 其中,q1 [0, ),为企业 的产量, 1 q2 [0, ),为企业2的产量
支付(利润)函数为
i qi ( P(Q) c), i 1,2
Stackelberg寡头竞争模型
5.1博弈论概述——博弈论例子
• 囚徒困境
囚徒乙
坦白 抵赖 0,-10 -1,-1
囚徒甲
坦白 -8,-8 抵赖 -10,0
囚徒困境反应了一个很深刻的问题,那就是个人理性 集体理性的矛盾,它在经济学上有广泛的应用
5.1博弈论概述——博弈论例子
• 性别战
丈夫 芭蕾 妻子 芭蕾 2,1 足球 0,0 足球 0,0 1,2
• 先动优势
1 * 纳什均衡q1* q2 ( a c ); 纳什均衡利润 3 1 * * 1 ( q1* , q2 ) 2 ( q1* , q2 ) ( a c ) 2 9
5.5不完全信息静态博弈
• 表达式: G={ A1,A2,…, An ; T1,T2,…, Tn ; P1, P2,…, Pn ; U1(· U2(· …, Un(· } ), ), ), • 贝叶斯纳什均衡定义:
• 3.对k=1
L (2,0)
R (1,1)
• 参与者1,选L • 由此得出精炼的NE为((L,L’’),L’)
子博弈精炼纳什均衡例题
A 不仿 仿
(0,10) 打
(-2,5)
B
不打 A 不仿 打 仿 B 不打 (10,4)
(5,5)
(2,2)
子博弈精炼纳什均衡例题
A 不仿 仿 子博弈精炼纳什均衡解为: ((不仿,仿),(打,不打)) 不打 A 不仿 打 仿 B 不打 (10,4)
• 博弈的分类
行为顺序 信息 完全信息 不完全信息 静态 完全信息静态博弈 纳什均衡 不完全信息静态博弈 贝叶斯纳什均衡 动态 完全信息动态博弈 子博弈精炼纳什均衡 不完全信息动态博弈 精炼贝叶斯纳什均衡
5.2完全信息静态博弈
• 纳什均衡的定义:
在一个n个参与者标准博弈G={ S1,S2,…, Sn ; U1(· U2(· …, Un(· }中,如果战 ), ), ), 略组合(S1*,S2*,…, Sn* )满足: 对每个参与者i, Si*是它针对其他参与者 所选的战略S-i*的最优反应战略。 即Ui(si * ,s-i * )≥ Ui(si ,s-i * )
社会福利博弈
•
政府
救济 w
流浪汉
找工作 r 游荡 1-r
3,2 不救济1-w -1,1
-1,3 0,0
政府以w的概率选择救济,以1-w的概率选择不救济; 流浪汉以r的概率选择找工作,以1-r的概率选择游荡。
政府的期望收益为:[3r+(-1)(1-r)w+0(1-r)](1-w) 政府的最优战略为: 1 r>0.2 w= 0 r<0.2 0到1上的任何值 r=0.2 流浪汉的期望收益:[2w+(1-w)]r+[3w+0(1-w)](1-r) 流浪汉的最优战略为: 1 w<0.5 r= 0 w>0.5 0到1上的任何值 w=0.5
π2 (q1 * ,q2 * ) ≥ π2 (q1 * ,q2 )
q2 =(a-c)/3
5.3混合策略
• 混合策略的定义:在n个人参与的博弈G={ S1, S2,…, Sn ; U1(· U2(· …, Un(· }中,博弈 ), ), ), 方i的纯策略空间记为Si={si1,si2 , …, sin },则博弈 方i的纯策略概率分布Pi ={pi1,pi2 , …, pin },称为 一个混合策略。 • 混合策略组合及其期望支付: 用( p1,p2 , …, pn )表示混合策略组合; 用σi ( p1,p2 , …, pn )表示参与者I的期望支付 值; σi ( p1,p2 , …, pn ) = p(s)ui (s)
• 逆向归纳法求解
– 从企业2开始分析,假定企业1已经选择了 产量q1,则企业2选择时要以最大化自己的 例如为目标,即,面临如下问题:
max 2 ( q1 , q2 ) q2 ( a q1 q2 c )
q2 0
由一阶条件可得
s2 ( q1 ) 1 ( a q1 c ) 2
5.2完全信息静态博弈——古诺模型
古诺寡头竞争模型是纳什均衡最早 的版本,它是法国经济学家古诺1838年 提出的。这一模型的基本结构是各企业 生产同一产品,并都以产量为决策变量。 假定所有厂商都是同时行动的,即他在 选择自己的产量时并不知道其他厂商的 选择。市场需求为P=a-Q
古诺模型
• 参与者:{企业1,企业2} • 策略集:A1:{q1|q1≥0} A2:{q2|q2≥0} • 支付函数:利润 π1 (q1 ,q2)= q1 [a-( q1 +q2 )]-c q1 π2 (q1 ,q2)= q2 [a-( q1 +q2 )]-c q2 • 求解: 满足如下一阶条件 π1 (q1 * ,q2 * ) ≥ π1 (q1 ,q2 * ) q1 =(a-c)/3
5.4完全信息动态博弈
• 定义:参与人行动有先后顺序,且后行方在自 己行动之前能观察到先行方的行动。 • 博弈的扩展式 1.参与者集合 2.参与者行动的顺序 3.参与者行动集 4.参与者的信息集 5.参与者的支付函数
5.4完全信息动态博弈
• 博弈树
节点 行动枝
信息集
(,)
(,) (,)
(,)
子博弈、子博弈精炼的纳什均 衡
2 R’ 1 L’’ (3,0) R’’ (0,2)
(1,1)
反向递推算法的应用实例
• 解:用反向递推法 • 1.对k=3
L’’ (3,0) R’’ (0,2)
• 参与者1,选L’’
反向递推算法的应用实例
• 2.对k=2
L’ (1,1)
R’ (3,0)
• 参与者2,选L’
反向递推算法的应用实例
Stackelberg寡头竞争模型
• 描述的问题
– 垄断企业产量选择 – 参与人:企业1和企业2 – 行动顺序:企业1先行动,称为领头企业;企业2观 测到企业1的选择,然后选择自己的产量,称为尾 随企业 – 企业2的产量是企业1产量的函数 – 价格是总产量的函数 – 两个企业有相同的不变单位成本c
a i Ai , t i Ti
5.5不完全信息静态博弈——市场 进入实例
一个行业有两个相关企业,一个是垄断者(局中人1),一 个是潜在进入者,两者的决策局面如下:
局中 人1
进入 0,-1
不进入 2,0
3,0
局中 人2
决策论与对策论的联系与区别
• 单人与多人,多人中无相互影响的不是 对策 • 集中与分散的决策模式,如计划经济就 是集中的决策模式
博弈的构成要素:
1、参与人:做决策的个体 2、行动:所能做的某一选择,是参与人的决策 变量 3、信息:参与人的特征,特别是有关其他参与 人的特征和行动的知识 4、策略:参与人选择行动的规则 5、支付:参与人从博弈中获得的效用水平,是 行动的函数 6、结果:博弈分析者感兴趣的要素的集合 7、均衡:所有参与人的最优战略或行动的组合
5.3混合策略——求解方法
• 最优反应函数法
• 等支付方法
5.3混合策略——应用实例
• 求解参与者甲与乙的混合策略纳什均衡 解
乙 C 甲 A B 2,3 3,1 D 5,2 1,5
5.3混合策略——应用实例
• 参与者甲的混合策略记为(a,1-a) • 参与者乙的混合策略记为(b,1-b) • 对甲来说,取纯策略A的期望支付为:2b+5(1-b);取纯策 略B的期望支付为:3b+(1-b) 等支付原则表示为:2b+5(1-b)=3b+(1-b) 可以解得:b=0.8 • 对乙来说,取纯策略C的期望支付为:3a+(1-a);取纯策 略D的期望支付为:2a+5(1-a) 等支付原则表示为:3a+(1-a)=2a+5(1-a) 可以解得:a=0.8 因此,这个博弈的混合策略纳什均衡是:甲的混合策略 为(0.8,0.2),乙的混合策略为(0.8,0.2)
• 纳什均衡解意义:
它是博弈结果的一致预测,这种结果具有内 在的稳定性和可自动实施性。
求解纳什均衡——划线法
• 例:两人有限策略的博弈 参与人:{甲,乙} 参与人的策略集:S甲={U,N,D} S乙={L,C,R}
乙 L U 甲 L M C R0,44ຫໍສະໝຸດ 05,34,0 3,5
0,4 3,5
5,3 6,6 *
在静态贝叶斯博弈G={ A1,A2,…, An ; T1, T2,…, Tn ; P1,P2,…, Pn ; U1(· U2(· …, ), ), Un(· }中,战略组合(S1*,S2*,…, Sn* )是一 ), 个纯战略贝叶斯纳什均衡解,如果对每一个参与者i及 i的类型集Ti中的每一个类型tt,它满足:| ti ) MAX Ui (ai , a -i ( i -i )) P( t -i
• 子博弈定义: 一个扩展式博弈的子博弈G是由一个决策结 (X)和所有的该决策结的后续决策结(T (X))组成,它满足如下条件: 1. x是单结的信息集。 2. 后续结点的所有信息集上的结点都属于后续 结集合。 • 子博弈精炼的纳什均衡的求法:反向递推算法