普林斯顿大学博弈论讲义10
博弈论本科讲义
在中观经济研究中,劳动力经济学和金融理 论都有关于企业要素投入品市场的博弈模型, 即使在一个企业内部也存在博弈问题:工人之 间会为同一个升迁机会勾心斗角,不同部门之 间为争取公司的资金投入相互竞争;从宏观角 度看,国际经济学中有关于国家间的相互竞争 或相互串谋、选择关税或其他贸易政策的模型; 至于产业组织理论更是大量应用博弈论的方法 (见Jean Tirole的《产业组织理论》)。
如果n个参与人每人从自己的Si中选择一个策略 siategy profile),参与人i之外的其他参 与人的策略组合可记为s-i=( s1,s2,﹍,si-1 , si+1 ,﹍, sn)。
例如田忌的某个策略s田忌=上中下,或中下上, 等等;S田忌={上中下,上下中,中上下,中下 上 ,下上中,下中上}
贷市场的过高利息。此外,阿克尔洛夫还把信 息不对称运用于解释各种社会问题,比如因为信 息不对称,医疗保险市场上,老年人、个体劳动 者的医疗保险利益得不到保障。
三、基本概念
1、参与人Players:一个博弈中的决策主体, 他们各自的目的是通过选择行动(策略)以最 大化自己的目标函数/效用水平/支付函数。他们 可以是自然人或团体或法人,如企业、国家、 地区、社团、欧盟、北约等。 那些不作决策或虽做决策但不直接承担决 策后果的被动主体不是参与人,而只能当做环 境参数来处理。如指手划脚的看牌人、看棋人, 企业的顾问等。 对参与人的决策来说,最重要的是必须有
教材——P5 博弈论就是系统研究各种各 样博弈中参与人的合理选择及其 均衡的理论。
关于“经济博弈论”:
博弈论是研究人们在利益相互影响的格局 中的策略选择问题、是研究多人决策问题的理 论。而策略选择是人们经济行为的核心内容, 此外,经济学和博弈论的研究模式是一样的: 即强调个人理性,也就是在给定的约束条件下 追求效用最大化。可见,经济学和博弈论具 有内在的联系。在经济学和博弈论具有的这 种天然联系的基础上产生了经济博弈论。
博弈论概要
博弈论概要1.研究背景及意义在现实生活中,人们的利益冲突与一致具有普遍性,因此,几乎所有的决策问题都可以认为是博弈。
博弈论在政治学、经济学等许多领域都有着广泛的应用。
在经济学中博弈论作为一种重要的分析方法已渗透到几乎所有的领域,每一领域的最新进展都应用了博弈论,博弈论已经成为主流经济学的一部分,对经济学理论与方法正产生越来越重要的影响。
虽然博弈论是数学的一个分支,但其应用范围十分广泛,在经济学、管理学、社会学、政治学、法律学、军事学等领域都有许多成功运用博弈论的案例。
早在1994年,提出博弈均衡理论的纳什博士与他的伙伴哈尔萨尼教授、泽尔滕教授就共同分享了当年的诺贝尔经济学奖和93万美元的奖金。
2005年,瑞典皇家科学院再次把诺贝尔经济学奖颁给了有着以色列、美国双重国籍的罗伯特·奥曼和美国人托马斯·谢林,以表彰他们在博弈论领域作出的贡献。
纳什的贡献是在1944年与奥斯卡·摩根斯特恩合著了《博弈论与经济行为》一书,标志着现代系统博弈理论的的初步形成。
而谢林和奥曼两位博弈论先驱在政治理论、社会学甚至生物学等方面成功运用到了博弈学理论。
奥曼用数学分析为博弈论列出了精确的公式,谢林则是想通过实践来展示博弈论在社会各个领域的实际意义。
他们两位利用博弈论对商业谈判、种族隔离、武器控制等领域进行了实际分析,谢林教授认为博弈论运用的重要领域应该包括核威慑和武器控制,同时还可以研究种族关系、有组织犯罪、雇员关系乃至自我管理等方面。
2.博弈论相关概念与发展史综述2.1博弈论的概念2.1.1博弈论的定义博弈论(Game Theory,又称对策论)研究决策主体的行为在发生直接的相互作用时,人们如何进行决策以及这种决策的均衡问题。
博弈论是研究理性的决策者之间冲突与合作的理论。
在博弈论分析中,一定场合中的每个对弈者在决定采取何种行动时都策略地、有目的地行事,他考虑到他的决策行为对其他人的可能影响,以及其他人的行为对他的可能影响,通过选择最佳行动计划,来寻求收益或效用的最大化。
十章博弈论ppt课件
34
重复博弈
在现实经济运行中,寡头之间的价格默契并 不容易,主要原因有:
如果博弈重复是有限的,则最后一次博弈会采取低价策 略,理性的结果是抢先低价,一直到第一次博弈;但是, 只要以牙还牙的理性行为有一定折扣或(怀疑),合作 以避免价格战的结果仍然会出现。
厂商较多,使以牙还牙(对欺骗者进行报复和惩罚)难 以实现,合作就十分困难。
参与者Players (玩家): 即参加博弈过程的行为和决策 主体,也是利益主体。在一个博弈中,最少要有两个参 与者。
策略Strategies (战略或策略行为):即参与者在某个博 弈时点,根据其掌握的有关博弈信息而选择的决策变量 和行动计划,一个参与者的全部可行策略称为他的策略 空间。
收益Payoff(支付、得益)和收益函数: 收益是指在既定 策略组合条件下参与者的得失情况。每个参与者的收益 取决于全部参与者所采取的策略,称为收益函数。
11
博弈的分类
(二)静态博弈与动态博弈
(根据参与者选择策略的关系划分) • 参与者同时或独立选择策略的博弈是静态博弈。 • 参与者按照一定的次序选择策略,后选择者了解
先选择者的行动,这种博弈是动态博弈。
12
博弈的分类
(三)完全信息博弈与不完全信息博
(根据参与者对其他参与者的特征、策略空间、 收益函数等信息的了解程度划分)
做广告 10, 5
不做广告 15, 0
不做广告
6, 8
20, 2
19
不存在优势策略的夫妻之争
王先生W 张女士Z
看球赛(T)
看球赛 (T)
1,2
看电影 (F)
0,0
看电影(F) 0,0
3,1
20
2、纳什均衡
博弈论讲义完整PPT课件
如果两个企业联合起来形成卡特尔,选择垄断利润最大化的产量,每 个企业都可以得到更多的利润。给定对方遵守协议的情况下,每个企业都 想增加产量,结果是,每个企业都只得到纳什均衡产量的利润,它严格小 于卡特而产量下的利润。
• 请举几个囚徒困境的例子
第18页/共293页
第一章 导论-囚徒困境
知识:完全信息博弈和不完全信息博弈。 ❖完全信息:每一个参与人对所有其他参与人的(对手)的特征、
战略空间及支付函数有准确的 知识,否则为不完全信息。
第33页/共293页
第一章 导论-基本概念
• 博弈的划分:
行动顺序 信息
完全信息
静态
完全信息静态博弈 纳什均衡
纳什(1950,1951)
不完全信息
不完全信息静态博弈 贝叶斯纳什均衡
0,300 0,300
纳什均衡:进入,默许;不进入,斗争
第29页/共293页
第一章 导论
• 人生是永不停歇的博弈过程,博弈意略达到合意的结果。 • 作为博弈者,最佳策略是最大限度地利用游戏规则,最
大化自己的利益; • 作为社会最佳策略,是通过规则使社会整体福利增加。
第30页/共293页
第一章 导论-基本概念
一只河蚌正张开壳晒太阳,不料,飞 来了一只鸟,张嘴去啄他的肉,河蚌连忙合 起两张壳,紧紧钳住鸟的嘴巴,鸟说:“今 天不下雨,明天不下雨,就会有死蚌肉。” 河蚌说:“今天不放你,明天不放你,就会 有死鸟。”谁也不肯松口,有一个渔夫看见 了,便过来把他们一起捉走了。
第17页/共293页
第一章 导论-囚徒困境
✓“要害”是否在于“利己主义”即“个人理
性”?
第20页/共293页
第十章博弈论初步-PPT精品
▪ 1、纳什均衡的定义:
▪ 设 s(s1, .., .sn)是n人博弈G={ ; S1, .., . Sn u1,.., . un } 的一个策略组合。如果对于每个局中人 i , ui(s1 , ., .s .i 1 , si , si 1 , ., .s .n )≥ ui(s1 , ., .s .i 1 , si, si 1 , ., .s .n )
第十章 博弈论初步 Game Theory
博弈论概述 纳什均衡 序贯博弈与重复博弈 进入威慑
第一节 博弈论概述
▪ 什么是博弈? ▪ 拍卖金钱 ▪ 海盗博弈 ▪ 田忌赛马 ▪ 围棋和象棋
齐王
田忌
上
中
下
上 赢,输 赢,输 赢,输
中 输,赢 赢,输 赢,输
下 输,赢 输,赢 赢,输
一、博弈的基本要素
ui(si,si) ≥ ui(si,si) 对于所有si Si 都成立,则我们称策略组合
s(s1, .., .sn)
是该博弈的一个纳什均衡。
▪ 纳什简介: ▪ 约翰·纳什生于1928年6月13日。父亲是电子工程师
与教师,第一次世界大战的老兵。纳什小时孤独内 向。纳什的数学天分大约在14岁开始展现。他在普 林斯顿大学读博士时刚刚二十出头,但他的一篇关 于非合作博弈的博士论文和其他相关文章,确立了 他博弈论大师的地位。在20世纪50年代末,他已是 闻名世界的科学家了。 ▪ 然而,30岁的时候,纳什和他惟一儿子都罹患精神 分裂症。半个世纪之后,在他妻子(艾利西亚—— —麻省理工学院物理系毕业生)的精心照料下,和 她的儿子一样,纳什教授渐渐康复,并在1994年获 得诺贝尔经济学奖。 ▪ 影片《美丽心灵》是一部以纳什的生平经历为基础 而创作的人物传记片。该片荣获2019年奥斯卡金像 奖。
10章博弈论
寡头厂商之间的博弈: 博弈论初步 •博弈论的基本概念及其分类; •完全信息静态博弈 •完全信息的动态博弈;
•不完全信息的静态博弈
思考:子博弈精练纳什均衡的特点是什么?
•参与人在前一个阶段的选择将决 定随后的子博弈的结构。
•子博弈精练纳什均衡:若A开发,B
不开发;若A不开发,B开发;若A 先开发,B的子博弈已就被排除了, B只能选择不开发。
思考:为什么序列博弈中,厂商 成功的关键是先行者优势? •在房地产开发的案例中纳什均衡是: 若A开发,B不开发;若A不开发,B 开发;
博弈的分类1 ——合作博弈与非合作博弈
如果各博弈方能达成某种有约束力的契约或默契, 以选择共同的策略,此种博弈就是合作博弈。 反之,就属于非合作博弈。 企业之间的联合定价就属于合作博弈,而经常挑起 价格战的企业采用的便主要是非合作博弈。 在合作博弈中往往包含着非合作博弈,如石油输出 国组织是合作博弈的产物,但其中为了各自利益的 超产和争吵又属于非合作博弈。
在智猪博弈中,先剔除小猪的严格 劣战略“按按纽”,在这一选择后的新 博弈中,小猪只有“等待”一个战略, 而大猪有两个战略可供选择。再剔除新 博弈中大猪的严格劣战略“等待”,从 而达到重复剔除的占优战略均衡: 小猪等待,大猪按按纽。
严格劣战略是指无论其他参与者采取什么 战略,该战略是对自己严格不利的战略。
实行承诺后的阻止市场进入博弈
垄断者
商战 默许 900,300
潜 在 进入 进 不进入 入 者
国外博弈论课件lecture(10)
针对复杂系统的博弈研究将进一步深化,探索如 何利用博弈论分析复杂系统中的相互作用和演化 规律。
人工智能与博弈论的结合
随着人工智能技术的发展,博弈论将进一步应用 于机器学习、数据挖掘等领域,为人工智能提供 更好的决策支持。
博弈论对人类社会的影响
促进社会公平和合作
博弈论的研究有助于揭示社会现象背后的利益关系和互动机制, 推动社会公平和合作,减少冲突和矛盾。
纳什均衡的求解方法
迭代法
01
通过不断迭代计算每个参与者的最优策略,最终收敛到一个稳
定的策略组合。
线性规划法
02
将博弈问题转化为线性规划问题,通过求解线性规划来找到纳
什均衡。
代数法
03
通过代数方法求解博弈问题,找到纳什均衡。
纳什均衡的应用
经济学
纳什均衡可以用来解释市场中的竞争行为和价格形成机制,以及 企业之间的竞争策略。
立法博弈
在立法过程中,博弈论可以帮助分析各方利 益集团的博弈行为,预测法案的通过与否以 及最终的立法结果。这有助于利益集团制定
最佳的游说策略和立法策略。
社会问题
环境保护博弈
在环境保护方面,博弈论可以用于分析政府、企业和个人之间的环保博弈行为。通过建 立博弈模型,可以预测各方的行为反应,从而为政府制定有效的环保政策提供依据。
国外博弈论课件 Lecture(10)
目 录
• 博弈论简介 • 博弈论的基本概念 • 博弈的类型 • 纳什均衡 • 博弈论的实际应用 • 结论与展望
01
CATALOGUE
博弈论简介
博弈论的定义
博弈论:研究决策主体在给定 信息结构下如何决策以最大化 自己的效用,以及不同决策主
博弈论最全完整-讲解课件
• 如果一个博弈在所有各种对局下全体参与人之 得益总和总是保持为零,这个博弈就叫零和博 弈;
• 相反,如果一个博弈在所有各种对局下全体参 与人之得益总和不总是保持为零,这个博弈就 叫非零和博弈。
• 零和博弈是利益对抗程度最高的博弈。
• 即使决策或行动有先后,但只要局中人在决策 时都还不知道对手的决策或者行动是什么,也 算是静态博弈
学习交流PPT
28
完全信息博弈与不完全信息博弈
(games of complete information and games of incomplete information)
• 按照大家是否清楚对局情况下每个局中人 的得益。
供万无一失的应对办法。
学习交流PPT
5
例1:无谓竞争(The GPA Rat Race)
• 你所注册的一门课程按照比例来给分:无论卷 面分数是多少,只有40%的人能够得优秀,40 %的人能得良好。
• 所有学生达成一个协议,大家都不要太用功, 如何?想法不错,但无法实施!稍加努力即可 胜过他人,诱惑大矣。
• 某些博弈中,由于偶然的外因可以对策略贴标 签,或者参与者之间拥有某些共同的知识体验, 导致了焦点的存在。
• 没有某个这样的暗示,默契的合作就完全不可 能。
学习交流PPT
9
例3:为什么教授如此苛刻?
• 许多教授强硬地规定,不进行补考,不允许迟 交作业或论文。
• 教授们为何如此苛刻?
• 如果允许某种迟交,而且教授又不能辨别真伪, 那么学生就总是会迟交。
• 王则柯、李杰编著,《博弈论教程》,中国人民大学 出版社,2004年版。
section1(博弈论讲义(Harvard University))
Simplifies to... (PBA + PBC -1)(UBA -UBC) = (KBA -KBC) Simplifies to...
[b/(a + b + c)] (UBA -UBC) = (KBA -KBC)
Translation: Validity
• What is the point at which B is indifferent? [b/(a + b + c)] (UBA -UBC) = (KBA -KBC) • [b/(a + b + c)] = resources B can contribute • (UBA -UBC) = B’s motivation for A vs. C • (KBA -KBC) = B’s costs for A vs. C
Analysis: Whither Alliances?
• Adopt the perspective of a player: B • B’s utility from an alliance with A = PBA(UBA) + (1-PBA)(UBC) - KBA (1) • B’s utility from an alliance with C = PBC(UBC) + (1-PBC)(UBA) - KBC (2) • What if equation 1 > equation 2?
section10(博弈论讲义(Harvard University))
Principal-Agent Models&Incentive Compatibility/Participation Constraints Suppose Pat manages a large computer software company and Allen is a talented program designer.Pat would like to hire Allen to develop a new software package.If Allen works for Pat,Allen must choose whether or not to expend high effort or low effort on the job.At the end of the work cycle,Pat will learn whether the project is successful or not.A successful project yields revenue of6for thefirm,whereas the revenue is2if the project is unsuccessful.Success depends on Allen’s high effort as well as on a random factor.Specif-ically,if Allen expends high effort,then success will be achieved with probability 1/2;if Allen expends low effort,then the project is unsuccessful for sure.As-sume that,to epxend high effort,Allen must endure a personal cost of1.The parties can write a contract that specifies compensationfor Allen conditional on whether the project is successful(but it cannot be conditioned directly on Allen’s effort).Assume that Allen values money acording to the utility func-tion v A(x)=x a.Assume0<a<1.Finally,suppose Pat’s utility function is v P(x)=x.Imagine that the games interact as depicted above.At the beginning of the game,Pat offers Allen a wage and bonus package.The wage w is to be paid regardless of the project outcome,whereas the bonus b would be paid only if the project is successful.Then Allen decides whether or not to accept the contract. If he declines(N)the game ends,with Pat getting0and Allen obtaining utility of1(corresponding to his outside opportunities).If Allen accepts the contract(Y),then he decides whether to exert high(H) or low(L)effort.Low effort leads to an unsuccessful project,whereby Pat gets revenue of2minus the wage w and Allen gets his utility of the wage,w a. High effort leads to a chance node,where nature picks whether the project is successful(with probability1/2)or not(probability1/2).An unsuccessful project implies the same payoffs as with low effort,except that,in this case, Allen also pays his effort cost of1.A successful project raises Pat’s revenue to 6and trigers the bonus b paid to Allen in addition to the wage.Calculating the expected payoffs from the chance node,we can rewrite the game as shown above.To solve the game and learn about the interaction of risk and incentives, we use backward induction.Start by observing that Pat would certainly like Allen to exert high effort.In fact,it is inefficient for Allen to expend low effort, because Pat can compensate Allen for exerting high effort by increasing his pay by1(offsetting Allen’s effort cost).By doing so,Pat’s expected revenue increases by2.Another way of looking at this is that if Allen’s effort were verifiable,the parties would write a contract that induces high effort.Given that high effort is desired,we must ask whether there is a contract that induces it.Can Patfind a wage and bonus package that motivates Allen to exert high effort and Gives Pat a large payoff?What can be accomplished w/out a bonus?b=0implies Allen has no incentive to exert high effort;he gets w a when he chooses L and less(w−1)a,when he chooses H.The best that Pat can do without a bonus is to offer w=1,which Allen is willing to accept(he1will accept no less,given his outside option).Thus,the best no-bonus contract (w=1and b=0)yields the payoffvector(1,1).Next,consider a bonus contract,designed to induce high effort.In order for him to be motivated to exert high effort,Allen’s expected payofffrom H must be at least as great as is his payofffrom L:1 2(w+b−1)+12(w−1)a≥w a.In principal-agent models,this kind of inequality is usally called the effort constraint or incentive compatibility constraint.In addition to the effort con-straint,the contract must give Allen an expected payoffat least as great as the value of his outside opportunity:1 2(w+b−1)+12(w−1)a≥1Theorists call this participation constraint.Assuming she wants to motivate high effort,Pat will offer Allen the bonus contract satisfying the two inequalities above.2。
普林斯顿大学的博弈论习题
普林斯顿大学的博弈论习题如果给你2个师的兵力,有你当“司令”,任务是攻克“敌方”占据的城市。
通往城市的道路只有甲乙两条,而敌方的守备力量是3个师。
规定:双方的兵力只能证实调动,当你发起进攻的时候,你的兵力超过敌方,你就获胜;你的兵力比敌方的守备兵力少或相当时,你就失败。
那么你将如何制定攻城方案?运用博弈论来加以分析,就可以模拟这场战斗的方案设置,每一方获胜的概率都是50%。
级谁赢谁输的可能性是一半对一半。
假设敌方有三个师,不妨在甲乙两条道路上。
由于必须整师布防,敌方将有4种部署方案,即:A . 三个师都驻守甲方向B.两个师驻守甲方向,一个师驻守乙方向C. 一个师驻守甲方向,两个师驻守乙方向D. 三个师驻守乙方向同样,你有两个师的攻城部队,可以指定3中部署方案a.集中全部两个师的兵力从甲方向攻击b.兵分两路,一个师从甲方向,另一个从乙方向,同时发起攻击c.集中全部两个师的兵力从乙方向攻击我们把双方的部署方案都叫做策略,那么敌方有4中策略可供选择。
我方有3中策略可供选择。
4x3=12共有12种策略组合。
假设你采取a方案,那么如果敌方采取A方案,你的两个师将遇到敌方三个师德抵抗,你就败。
所以描述我方策略a与敌方A相遇的格子里面,左下方是-,右上方+;.如何化简胜负分析表,得到更加醒目的图像。
如果想从我方入手,3种策略当中一下子十分不错优劣的,a与b,b与c,a与c之间,无法区分。
于是我们先从敌方入手,尝试站在敌军的立场,比较4种不同策略。
先比较策略A&B。
如果我方采取策略a,那么敌方采取策略A&B都会赢。
如果我方采取策略b,敌方采取策略A会输,采取策略B敌方会赢。
如果我方采取策略c,敌方采取策略A或策略B都会输。
可见站在敌方的立场上,策略B比策略A好。
比较敌方的策略A&B,我们知道B是敌方的优势策略,A是敌方的劣势策略。
同样,比较敌方的策略C和策略D,我们知道C是敌方的优势策略,D是敌方的劣势策略。
博弈论
14
通俗的理解
• 从汉字的理解看:博是广泛、丰富的意 思,也是古代的一种棋戏,弈是指围棋、 下棋的意思,这样理解“博弈论”也就 是下棋的理论。 • 从英文的理解看:博弈论的英文翻译是 Game Theory,Game 是游戏,Theory是 理论,也就是外国人的理解是游戏的理 论。
15
从游戏到博弈
25
•"for having laid the foundations of mechanism
design theory"
26
博弈论是一门十分有趣但理论上又 是十分艰深的学问,我们打算用一些大 家能够凭直观或简单分析就能把握的例 子为大家介绍博弈论的基本概念及应用, 以引起大家对这门目前已成为热门科学 的兴趣和获得初步的了解。这些例子也 是我们在日常生活中经常所遇到的问题 或观察到的现象,通过博弈论,我们能 够更加深刻地理解它们。
17
•“for their pioneering analysis of equilibriums in the theory of non-cooperative games ”
18
1996年诺贝尔经济学奖
• 英国人(James A. Mirrlees)和美国人威廉-维 克瑞(William Vickrey) • 获奖理由:前者在信息经济学理论领域做 出了重大贡献,尤其是不对称信息条件下 的经济激励理论。 后者在信息经济学、激 励理论、博弈论等方面都做出了重大贡献。
21
•"for their analyses of markets with asymmetric
information"
22
2005年诺贝尔经济学奖
• 以色列和美国双重国籍的罗伯特· 奥曼 (ROBERT J. AUMANN )和美国人托 马斯· 谢林(THOMAS C. SCHELLING ) • 获奖理由:他们通过博弈理论分析增加 了世人对合作与冲突的理解。
博弈论基础
博弈论博弈论(Game Theory),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。
目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
博弈论主要研究公式化了的激励结构间的相互作用。
是研究具有斗争或竞争性质现象的数学理论和方法。
也是运筹学的一个重要学科。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
生物学家使用博弈理论来理解和预测进化论的某些结果。
参见:行为生态学(behavioral ecology)。
约翰·冯·诺依曼博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。
博弈论思想古已有之,中国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论著作。
博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
近代对于博弈论的研究,开始于策墨洛(Zermelo),波雷尔(Borel)及冯·诺伊曼(von Neumann)。
1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。
1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系。
1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的策墨洛(Zermelo)基础。
纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。
此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。
《博弈论》精品讲义
7
➢长街上的超市 (海滩占位模型)
*********************
0
1/4 A’ 1/2 O’
3/4
1
✓资源浪费还是理性的必然?
✓其它相似情形:旅行社的热门路线;黄金时间 的电视节目;总统竞选。
博弈论20092009
正大光明 公正無私
8
➢狩猎与投资 狩猎:
两个猎人围住一头鹿,各卡住两个关口中的 一个,齐心协力即可成功获得并平分猎物。此时 有一群兔子跑过,任何一人去抓兔子必可成功, 但鹿会跑掉。
博弈论20092009
正大光明 公正無私
5
1.博弈现象
➢田忌赛马:正确的策略可以反败为胜。 ➢囚徒困境:
乙 甲
理性的人是自私自利的; 理性选择不是全局最优。
博弈论20092009
正大光明 公正無私
6
➢经济合作:
乙 甲
诚信的价值; 一报还一报策略; 人类生存环境启示。
博弈论20092009
正大光明 公正無私
如两人写的一样, 就 认为他们讲真话, 并 按 所 写数额赔偿;如果两人写的不一样,就认定低 者讲真话,并照此价格赔偿。同时,对讲真话的 旅客奖励2元钱,对讲假话的旅客罚款2元。
理性原则下,他们会写多少价格呢?
博弈论20092009
正大光明 公正無私
11
2. 博弈概念
➢什么是博弈:
个人或团体间在依存和对抗、合作和冲突 中的决策问题。
正大光明 公正無私
43
∴I的最优混合策略为
(1,2)
(1, 4
3) 4
同理,II的最优混合策略为
G=8
(1,2)
(1, 2
1) 2
第十章---博弈论初步精选全文完整版
甲 (式乙)
p.61
p.42
A B
混合策略组合及其支付也就有无限多的可能。
q.31 C 4,6 7,3
乙
.q72 D 9,1 2,8 9
不存在纯策略均衡时的混合策略均衡3
• 条件混合策略:参与人在假定其他参与人按某一概率选择某一策略
的条件下设计的对自己而言具有相对优势的(即期望支付最大的)混合 策略,称为“条件混合策略”。
• 对乙而言,如果假定甲合作,那么乙合作的支付为6,比不合作的支付 多1,因此合作是甲合作条件下乙的条件策略;假定甲不合作,那么乙的 条件策略是也不合作,乙若合作支付只有1,不合作则可得到3。
• 条件策略组合:参与人以其他参与人选择某一策略为条件的条件策略与
作为它的条件的对方策略之间的组合,称为“条件优势策略组合”或
• 假q2=定1-(q1p代1,入p甲2)与、乙(各q自1,的q2期)望的支取付值表从达0到式1有无,限经多整可理能可,得把:p2=1-p1和 E甲= p1(7-10q1)+5q1+2(式1); E乙= 5q1(2p1-1)-7p1+8(式2)
• 每个参与人需要确定,在另一参与人为其混合策略选择某个概率值时, 己方混合策略的概率向量应怎样取值,才能使自己的期望支付最大。
e点的坐标是p1=0.5,q1=0.7,则纳什均衡 时p2=0.5,q2=0.3 。
q1 1
本题中混合策略的纳什均衡还可表示为:
((p1 , p2),(q1 ,q2) )= ((0.5 , 0.5),(0.7 , 0.3) )。 0.7 本题中,只有唯一的这个纳什均衡点。
1
q1<0.7
p1= [0,1] q1 = 0.7
osborne博弈论
osborne博弈论Osborne博弈论,是指由美国普林斯顿大学的经济学家David Osborne提出的一种博弈理论。
这个理论将博弈理论与数学思维相结合,被广泛应用于政经领域和国际贸易中,被认为是一种新兴的博弈理论。
1. 博弈的基本概念和分类博弈基本概念:参与者、策略、收益等。
博弈分类:合作和非合作博弈,完全信息和不完全信息博弈,非零和博弈、零和博弈、有限博弈、无限博弈等。
2. 囚徒困境模型囚徒困境模型是指一个犯罪案件的两个嫌犯分别面临决策,要么供认罪行获得从轻处理,要么保持沉默但承受较长的牢狱之灾。
如果双方都选择供认,则两个人都会受到重刑的惩罚。
如果他们都选择保持沉默,则只会受到轻判。
这个案例说明传统博弈理论中的纳什均衡并不是最优选择。
3. 博弈理论的意义博弈理论在经济学、市场竞争和商业竞争中得到了广泛应用。
它可以通过分析各种策略的结果,在竞争中寻求最优解。
同时,它可以通过确定各方的决策,对实际交易进行预测。
他还可以帮助政府和高科技公司分析合法性以及找到最佳的竞争策略。
4. Osborne博弈理论Osborne博弈理论是基于传统博弈理论发展而来的。
它通过概率性和动态性的思考,使得博弈理论更加现实和适用于复杂的市场环境中。
Osborne博弈理论最大的特点是可以对对手的策略进行预测。
在市场竞争中,它可以帮助企业决策和制定营销策略。
5. 存在性和唯一性问题Osborne博弈理论存在唯一性问题,即是否存在且仅存在一个纳什均衡点。
这个问题目前仍没有被完全解决,因为现实的博弈环境非常复杂。
Osborne博弈理论也面临着精度问题,因为实践过程中,策略和收益的估计都具有不确定性。
6. 发展趋势Osborne博弈理论目前仍在发展中,针对唯一性问题和精度问题,学者们正在寻求更加精确和适用的博弈理论。
目前,Osborne博弈理论正逐渐应用于政治、外交和著作领域,这一趋势将在未来得到进一步发展。
综上所述,Osborne博弈理论在实际应用中发挥重要作用,尤其是对于复杂的市场竞争环境。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Eco514—Game TheoryLecture10:Extensive Games with(Almost)PerfectInformationMarciano SiniscalchiOctober19,1999IntroductionBeginning with this lecture,we focus our attention on dynamic games.The majority of games of economic interest feature some dynamic component,and most often payoffuncertainty as well.The analysis of extensive games is challenging in several ways.At the most basic level, describing the possible sequences of events(choices)which define a particular game form is not problematic per se;yet,different formal definitions have been proposed,each with its pros and cons.Representing the players’information as the play unfolds is nontrivial:to some extent, research on this topic may still be said to be in progress.The focus of this course will be on solution concepts;in this area,subtle and unexpected difficulties arise,even in simple games.The very representation of players’beliefs as the play unfolds is problematic,at least in games with three or more players.There has been afierce debate on the“right”notion of rationality for extensive games,but no consensus seems to have emerged among theorists.We shall investigate these issues in due course.Today we begin by analyzing a particu-larly simple class of games,characterized by a natural multistage structure.I should point out that,perhaps partly due to its simplicity,this class encompasses the vast majority of extensive games of economic interest,especially if one allows for payoffuncertainty.We shall return to this point in the next lecture.Games with Perfect InformationFollowing OR,we begin with the simplest possible extensive-form game.The basic idea is as follows:play proceeds in stages,and at each stage one(and only one)player chooses an1action.Sequences of actions are called histories;some histories are terminal,i.e.no furtheractions are taken,and players receive their payoffs.Moreover,at each stage every playergets to observe all previous actions.Definition1An extensive-form game with perfect information is a tupleΓ=(N,A,H,P,Z,U)where:N is a set of players;A is a set of actions;H is a collection offinite and countable sequences of elements from A,such that:(i)∅∈H;(ii)(a1,...,a k)∈H implies(a1,...,a )∈H for all <k;(iii)If h=(a1,...,a k,...)and(a1,...,a k)∈H for all k≥1,then h∈H.Z is the set of terminal histories:that is,(a1,...,a k)∈Z iff(a1,...,a k)∈H and(a1,...,a k,a)∈H for all a∈A.Also let X=H\Z.All infinite histories are terminal.P:X→N is the player function,associating with each non-terminal history h∈X theplayer P(h)on the move after history h.U=(U i)i∈N:Z→R is the payofffunction,associating a vector of payoffs to everyterminal history.I differ from OR in two respects:first,Ifind it useful to specify the set of actions inthe definition of an extensive-form game.Second,at the expense of some(but not much!) generality,I represent preferences among terminal nodes by means of a vN-M utility function.Interpreting Definition1A few comments on formal aspects are in order.First,actions are best thought of as movelabels;what really defines the game is the set H of sequences.If one wishes,one can think ofA as a product set(i.e.every player gets her own set of move labels),but this is inessential.Histories encode all possible partial and complete plays of the gameΓ.Indeed,it isprecisely by spelling out what the possible plays are that we fully describe the game under consideration!Thus,consider the following game:N={1,2};A={a1,d1,a2,d2,A,D};H={∅,(d1),(a1),(a1,D),(a1, thus,Z={(d1),(a1,D),(a1,A,d2),(a1,A,a2)}and X={∅,(a1),(a1,A),};finally,P(∅)=P((a1,A))=1,P(a1)=2,and U((d1))=(2,2),U((a1,D))=(1,1),U((a1,A,d1))=(0,0),U((a1,A,a2))=(3,3).ThenΓ=(N,A,H,Z,P,U)is the game in Figure1.The empty history is always an element of H,and denotes the initial point of the game.Part(ii)in the definition of H says that every sub-history of a history h is itself a history inits own right.Part(iii)is a“limit”definition of infinite histories.Note that infinite historiesare logically required to be terminal.A key assumption is that,whenever a history h occurs,all players(in particular,PlayerP(h))get to observe it.23,3r 12,2d 1a 1r 2D A 1,1r 1d 2a 20,0Figure 1:A perfect-information gameStrategies and normal form(s)Definition 1is arguably a “natural”way of describing a dynamic game—and one that is at least implicit in most applications of the theory.According to our formulations,actions are the primitive objects of choice.However,the notion of a strategy ,i.e.a history-contingent plan,is also relevant:Definition 2Fix an extensive-form game with perfect information Γ.For every history h ∈X ,let A (h )={a ∈A :(h,a )∈H }be the set of actions available at h .Then,for every player i ∈N ,a strategy is a function s i :P −1(i )→A such that,for every h such that P (h )=i ,s i (h )∈A (h ).Denote by S i and S the set of strategies of Player i and the set of all strategy profiles.Armed with this definition (to which we shall need to return momentarily)we are ready to extend the notion of Nash equilibrium to extensive games.Definition 3Fix an extensive-form game Γwith perfect information.The outcome function O is a map O :S →Z defined by∀h =(a 1,...,a k )∈Z, <k :a +1=s P ((a 1,...,a ))((a 1,...,a ))The normal form of the game Γis G Γ=(N,(S i ,u i )i ∈N ),where u i (s )=U i (O (s )).The outcome function simply traces out the history generated by a strategy profile.The normal-form payofffunction u i is then derived from U i and O in the natural way.Finally:Definition 4Fix an extensive-form game Γwith perfect information.A pure-strategy Nash equilibrium of Γis a profile of strategies s ∈S which constitutes a Nash equilibrium of its normal form G Γ;a mixed-strategy Nash equilibrium of Γis a Nash equilibrium of the mixed extension of G Γ.3Thus,in the game of Figure1,both(a1a2,A)and(d1d2,D)are Nash equilibria.Observe that a strategy indicates choices even at histories which previous choices dictated by the same strategy prevent from obtaining.In the game of Figure1,for instance,d1a1is a strategy of Player1,although the history(a1,A)cannot obtain if Player1chooses d1at∅.It stands to reason that d2in the strategy d1d2cannot really be a description of Player 1’s action—she will never really play d2!We shall return to this point in the next lecture.For the time being,let us provisionally say that d2in the context of the equilibrium(d1d2,D)represents only Player2’s beliefs about Player1’s action in the counterfactual event that she chooses a1at∅,and Player2follows it with A.The key observation here is that this belief is crucial in sustaining(d1d2,D)as a Nash equilibrium.Games with observable actions and chance movesThe beauty of the OR notation becomes manifest once one adds the possibility that more than one player might choose an action simultaneously at a given history.The resulting game is no longer one of perfect information,because there is some degree of strategic uncertainty. Yet,we maintain the assumption that histories are observable:that is,every player on the move at a history h observes all previous actions and action profiles which comprise h.The OR definition is a bit vague,so let me provide a rigorous,inductive one.I also add the possibility of chance moves,i.e.exogenous uncertainty.Definition5An extensive-form game with observable actions and chance moves is a tuple Γ=(N,A,H,P,Z,U,f c)where:N is a set of players;Chance,denoted by c,is regarded as an additional player,so c∈N.A is a set of actionsH is a set of sequences whose elements are points in i∈J A for some A⊂N∪{c};Z and X are as in Definition1;P is the player correspondence P:X⇒N∪{c}U:Z→R N as in Definition1;H satisfies the conditions in Definition1.Moreover,for every k≥1,(a1,...,a k)∈H implies that(a1,...,a k−1)∈H and a k∈ i∈P((a1,...,a k−1))A.For every i∈N∪{c},let A i(h)={a i∈A:∃a−i∈ j∈P(h)\{i}A s.t.(h,(a i,a−i))∈H}. Then f c:{h:c∈P(h)}→∆(A)indicates the probability of each chance move,and f c(h)(A i(h))=1for all h such that c∈P(h).The definition is apparently complicated,but the underlying construction is rather nat-ural:at each stage,we allow more than one player(including Chance)to pick an action;the4chosen profile then becomes publicly observable.We quite simply replace individual actions with action profiles in the definition of a history,and adapt the notation accordingly. Remark0.1Let A(h)={a∈ i∈P(h)A:(h,a)∈H}.Then A(h)= i∈P(h)A i(h).The definition of a strategy needs minimal modifications:Definition6Fix an extensive-form gameΓwith observable actions and chance moves. Then,for every player i∈N∪{c},a strategy is a function s i:{h:i∈P(h)}→A such that,for every h such that i∈P(h),s i(h)∈A i(h).Denote by S i and S the set of strategies of Player i and the set of all strategy profiles.In the absence of chance moves,Definition4applies verbatim to the new setting.You can think about how to generalize it with chance moves(we do not really wish to treat Chance as an additional player in a normal-form game,so we need to redefine the payofffunctions in the natural way).Finally,the definition of Nash equilibrium requires no change.For those of you who are used to the traditional,tree-based definition of an extensive game,note that you need to use information sets in order to describe games without perfect information,but with observable actions.That is,you need to use the full expressive power of the tree-based notation in order to describe what is a slight and rather natural extension of perfect-information games.1Most games of economic interest are games with observable actions,albeit possibly with payoffuncertainty;hence,the OR notation is sufficient to deal with most applied problems (payoffuncertainty is easily added to the basic framework,as we shall see).1On the other hand,the OR notation is equivalent to the standard one for games with perfect information: just call histories“nodes”,actions“arcs”,terminal histories“leaves”and∅“root”.5。