博弈论第六讲
第六讲博弈论课件
例12.1 智猪博弈模型
❖ 每次踩出6个单位的食物,按者支付2个单位 成本,小踩,(1,5)大踩(4,2)同时 (2,4)
大猪
小猪
踩
踩 2,4 等待 4,2
等待
1,5 0,0
小猪的收入矩阵
A
2, 4,
❖ 20世纪50年代以来,纳什、泽尔腾、海萨尼 等人使博弈论最终成熟并进入实用。
三位大师主要的贡献
❖ 1950年和1951年纳什的两篇关于非合作博弈 论的重要论文,彻底改变了人们对竞争和市 场的看法。他证明了非合作博弈及其均衡解, 并证明了均衡解的存在性,即著名的纳什均 衡。从而揭示了博弈均衡与经济均衡的内在 联系。因为在现实世界中,非合作博弈要比 合作博弈普遍得多。
囚徒困境的意义
❖ “囚徒的两难选择”有着广泛而深刻的意义。 个人理性与集体理性的冲突,各人追求利己 行为而导致的最终结局是一个“纳什均衡”, 也是对所有人都不利的结局。
❖ 他们两人都是在坦白与抵赖策略上首先想到 自己,这样他们必然要服长的刑期。只有当 他们都首先替对方着想时,或者相互合谋(串 供)时,才可以得到最短时间的监禁的结果。
顺序和信息
❖ 博弈论非常强调时间和信息的重要性,认为 时间和信息是影响博弈均衡的主要因素。
❖ 在博弈过程中,参与者之间的信息传递决定 了其行动空间和最优战略的选择;
❖ 同时,博弈过程中始终存在一个先后问题 Sequence order,参与人的行动次序对博弈 最后的均衡有直接的影响。
分类
❖ 博弈的划分可以从参与人行动的次序和参与 人对其它参与人的特征、战略空间和支付的 知识、信息,是否了解两个角度进行。
第六讲 重复博弈
at a1 a2 aT
t 1 T 1 t 1
T
• 无限次重复博弈的总得益的现值就是
t 1
t 1
at a1 a2
T 1
aT
• 平均得益:如果一个常数A作为重复博弈的各个阶段 的得益,能产生与得益序列a1,a2, …,aT相同的现在 值,就称A为a1,a2, …,aT的平均得益。 • 如果不考虑贴现因素,可让贴现率为1,就可以同样 适用上述定义。 • 在无限次重复博弈中,当每一阶段的得益都是A时, A 现在值就是
• 重复博弈的各阶段有时间次序,各阶段的得益也有时 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 • 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1
1 r
• 则重复T次,各阶段的得益分别为a1,a2, …,aT时的总 得益的现值就是
• 2.基本概念 • (1)设G是一个基本博弈(动静都可以,但一 般研究静态),重复进行T次,并且每次重复之 前各博弈方都能看到此前的博弈结果,这样的博 弈过程称为“G的T次重复博弈”,记为G(T), G称为G(T)的原博弈,每一次重复称为G(T) 的一个阶段。 • 重复博弈的每一个阶段都是独立的博弈,各方都 有得益。这是与一般动态博弈的重要不同。另一 方面,重复博弈中各阶段的博弈方和博弈内容都 必须相同,与一般的动态博弈也不同。
1 p (1 p) A a1 a2 a3 2 1 r (1 r )
2 (1 p) 1 p t 1 at at , 其中 t 1 (1 r ) 1 r t 1 t 1 t 1
博弈论第6讲2012
动态博弈的策略式表述
从扩展式表述构造战 略式表述
假定开发商A先决策, 开发商B观测到A的 选择后决策。 那么博弈的扩展式表 述如图2-8表述。
开发
A 开发 B 不开发 开发 (1,0) (0,1) 不开发 B
不开发
(0,0)
(-3,-3)
25
图2-8 房地产开发博弈
动态博弈的策略式表述
11
Definition An information set for a player is a collection of decision nodes satisfying: (ⅰ)the player has the move at every node in the information set,and (ⅱ)when the play of the game reaches a node in the information set, the player with the move does not know which node in the information set has (or has not) been reached.
(0,0)
(-3,-3)
27
图2-8 房地产开发博弈
动态博弈的策略式表述
若把B的信息集从左 到右排列,上述四个 纯战略可以简单记为
{开发,开发}
{开发,不开发} {不开发,开发} 开发 B
A 不开发 B
{不开发,不开发}
开发
不开发 开发 (1,0) (0,1)
不开发
(0,0)
(-3,-3)
开发
不开发
B
开发
不开发 (1,0)
B
开发 不开发 (0,0)
大学mooc博弈论(首师大)满分章节测验答案
第一讲认识博弈论1单选(10分)博弈论的基本要素以下内容,除了()。
A.策略与策略集B.均衡C.支付与支付函数D.局中人正确答案:B你选对了2单选(10分)博弈论的基本假设是强调()。
A.均衡状态B.利益最大化C.个人理性D.集体理性正确答案:C你选对了3单选(10分)哪种表述模型更适合表示二人博弈()。
A.特征函数式B.标准式C.扩展式D.以上都不适合正确答案:B你选对了4单选(10分)根据人们行动为相互作用时,参与人能否达成一个具有约束力的协议,可将博弈分为( )。
A.静态博弈与动态博弈B.常和博弈与非常和博弈C.完全信息博弈与不完全信息博弈D.合作博弈与非合作博弈正确答案:D你选对了5单选(10分)“要想在现代社会做一个有文化的人,你必须对博弈论有一个大致了解”出自哪位诺贝尔经济学奖获得者的名言( )。
A.1994年诺贝尔经济学奖获得者John·NashB.2012年诺贝尔经济学奖获得者Lloyd S. ShapleyC.2005年诺贝尔经济学奖获得者Robert·AumannD.1970年诺贝尔经济学奖获得者Paul A. Samuelson正确答案:D你选对了6多选(15分)博弈论的研究特点包括()。
A.博弈论存在信息的对称性B.博弈论涉及的决策者至少为两人C.博弈论存在信息的不对称性D.博弈论需要考虑其他决策者的决策对自身利益的影响正确答案:B、C、D你选对了7多选(15分)“囚徒困境”反映了()。
A.“看不见的手”是有力的,但不是万能的B.个人理性通过市场机制导致社会福利最优的结论并不总是成立的C.个体理性与集体理性的冲突D.以自我利益为目标的“理性”行为,最终导致了两个囚徒得到相对较劣的收益正确答案:A、B、C、D你选对了8判断(5分)博弈论是一种以数学为基础、研究发生对抗与冲突时如何选择最优策略的一门学问。
正确答案:√你选对了9判断(5分)博弈论是单向的理性决策。
博弈论完整版PPT课件
ac 3
纳什均衡利润为:
Π1NE
Πቤተ መጻሕፍቲ ባይዱ
NE 2
(a c)2 9
.
31
q2 a-c
(a-c)/2 (a-c)/3
.
19
理性共识
0-阶理性共识:每个人都是理性的,但不知道其 他人是否是理性的;
1-阶理性共识:每个人都是理性的,并且知道其 他人也是理性的,但不知道其他人是否知道自己 是理性的;
2-阶理性共识:每个人都是理性的,并且知道其
他人也是理性的,同时知道其他人也知道自己是
理性的;但不知道其他人是否知道自己知道他们
国外经济学教科书改写,加入大量博弈论内容
博弈论进入主流经济学,反映了:
经济学的研究对象越来越转向个体放弃了有些没有微观基础的假设
经济学的研究对象越来越转向人与人之间行为的相互影响和作用
经济学越来越重视对信息的研究
传统微观经济学的工具是数学(微积分、线性代数、统计学),而
博弈论是一种新的数学。以前只有陆军,现在有了空军,其差异
不完全信息
静态
纳什均衡
(纳什)
贝叶斯纳什均衡
(海萨尼)
.
动态
子博弈精练纳什均衡
(泽尔腾)
精练叶贝斯纳什均衡
(泽尔腾等)
9
博弈的分类
根据参与人是否合作
根据参与人的多少
根据博弈结果
根据行动的先后次序
两人博弈 多人博弈
静态博弈 动态博弈
合作博弈 非合作博弈
零和博弈 常和博弈 变和博弈
根据参与人对其他参与人的
4-阶理性:C相信R相信C相信R相信C是理性的,C会将R1从R的战略空间 中剔除, C不会选择C3;
5-阶理性:R相信C相信R相信C相信R相信C是理性的,R会将C3从C的战
精品课程《博弈论》PPT课件(全)
能一致,也可以不一致
三、多人博弈
三个博弈方之间的博弈 可能存在“破坏者”:其策略选择对自身的利
益并没有影响,但却会对其他博弈方的利益产 生很大的,有时甚至是决定性的影响。申办奥 运会是典型例子。 多人博弈的表示有时与两人博弈不同,需要多 个得益矩阵,或者只能用描述法
动态博弈、重复博弈。
静态博弈:所有博弈方同时或可看作同时选择 策略的博弈 —田忌赛马、猜硬币、古诺模型
动态博弈:各博弈方的选择和行动又先后次序 且后选择、后行动的博弈方在自己选择、行 动之前可以看到其他博弈方的选择和行动 —弈棋、市场进入、领导——追随型市场 结构
重复博弈:同一个博弈反复进行所构成的博弈, 提供了实现更有效略博弈结果的新可能 —长期客户、长期合同、信誉问题
博弈论
孔融四届时,有一夛,父亭乘了冩丢梨回宛,
陶谦吏亸叹孜癿时俳,又问亸:“亵绉泶孜癿 觇
店看,佝觏为叴小梨刁算叾?”孔融回答该: “我丌
过觑了一次梨,哏哏単因此爱抋了我一辈子, 社伕
乔绎了我杳高癿荣觋。奝杸抂觑出癿遲丢多梨 看俺
昤道徇成本,简直就昤一本万利唲!
阿克洛夫:买卖
主对于要交易的“旧 车”存在信息不对称, 买主通常不愿意出高 价,这样持有好车的 买主只好退出市场, 市场上都剩下“坏 车”,买主则越来越 不愿意光顾,旧车市 场萎缩直至消失。
20 (q1 q2 q3)
0
i P qi [20 q1 q2 q3 ] qi
No Q 20
Q 20
Image
q1
q2
q3
P
1
2
3
4
8
6
2
8
16
浙大《博弈论基础》蒋文华 第六讲 混合策略和监督博弈
第六讲 混合策略与监督博弈 第十三章 混合策略 第十四章 监督博弈
第十三章 混合策略
第一节 概念及说明
纯策略和混合策略 纯策略:如果一个策略要求参与者在每一个给定 信息情况下只选择一种特定的行动。 混合策略:如果一个策略要求参与者在给定信息 情况下以某种概率分布随机地选择不同的行动。
运用均衡的理念(P154)
当达到纳什均衡的时候,任何一方都不愿意改 变自己的策略。
即对于雇主来说: T检查 (C F) (V W C)(1 ) T不检查 (W) (V W)(1 )
当T检查=T不检查的时候达到均衡。
同理,对于雇员来说:T偷懒 (F ) (W )(1 ) T不偷懒 (W H ) (W H )(1 )
T总=V-H- CV
二、抵押金
V代表雇员创造的 价值,t代表雇员 为公司服务的时间, W代表薪水。
课堂讨论:
A企业起薪高,涨薪慢;B企业起 薪低,涨薪快。你会选哪一个?
特别提示: 选一些难学的专业,成功的路并 没有你想象的那么拥挤!
谢谢
THANK YOU
浙江大学、浙江工商大学和中科院理论物理研究 所的研究人员通过实验发现了石头剪刀布的一个 制胜策略。研究人员招募了360名学生,将他们 分成六组,随机配对玩300轮石头剪刀布游戏, 在每一轮中获胜的学生将会获得少量人民币奖励 。通过观察学生使用的策略,他们发现了获胜者 或失利者习惯使用的游戏策略。
简单说,如果你的剪刀输给了对手的石头,那么下一 轮你更有可能出能战胜石头的布;而如果你是获胜者 ,那么下一轮你更有可能沿用相同的出手。赢家保持 现状输家做出改变的策略(胜留败走)。 石头剪刀布的制胜策略:如果你是输家,下一轮换用 能打败对手的出手;如果你是赢家,下一轮不要再使 用原来的出手。也就是说,你用石头打败了对手的剪 刀,那么下一轮你不能再出石头,而应该出剪刀,因 为对方很有可能会出布。
第六章博弈论
一般认为,1944年美国数学家冯•诺依曼(John Von Neumann)和经济学家奥斯卡•摩根斯坦 (Oskar Morgenstern)合著的《博弈论与经济 行为》(The Game Theory and Economic Behavior) 一书的出版,标志着系统的博弈理 论的形成。
❖该书详尽地讨论了二人零和博弈, 并对合作博弈作了深入探讨,开辟 了一些新的研究领域。更重要的是 将博弈论加以空前广泛的应用,尤 其是在经济学上,由于博弈论数学 上的严整性与经济学应用上的广泛 性,一些经济学家将该巨著的出版 视为数理经济学确立的里程碑。
“保证最低价格”策略
❖ “保证最低价格”条款。
❖ 该条款一般规定:“顾客在本 商店购买这种商品一段时间内,如 果发现其他任何商店以更低的价格 出售同样的商品,本店将退还差价, 并补偿差额的10%。”
❖ 一、单项选择题:
❖ 分析下列的报酬矩阵,回答问题:
John的 开业长时间 咖啡 馆 开业短时间
✓ 第一,不能让对方事先知道自己可 能采取的策略。
✓ 第二,必须采取随机选择的原则。 ✓ 第三,选择策略的概率一定要使对
方无机可乘。
动态博弈
➢重复博弈 ➢序列博弈
重复博弈
❖ 对重复博奕的研究结果证明有一种 最好的策略:只需将一个原则贯穿始终, 即“以牙还牙”(Tit-for-tat)。
❖ 以牙还牙策略的获胜有一个十分重 要的条件,即博弈是无限次重复的。
❖王则柯 :《新编博弈论平话》 中信出版社 ❖ 王则柯主编:《21世纪经济学教材:博弈论
教程》中国人民大学出版社
❖ 《美丽心灵》(A Beautiful Mind )是一部关于一个 真实天才的极富人性的剧情片。故事的原型是数学家 小约翰-福布斯-纳什(Jr.John Forbes Nash)。英俊而又 十分古怪的纳什早年就作出了惊人的数学发现,开始 享有国际声誉。但纳什出众的直觉受到了精神分裂症 的困扰,使他向学术上最高层次进军的辉煌历程发生 了巨大改变。面对这个曾经击毁了许多人的挑战,纳 什在深爱着的妻子艾丽西亚(Alicia)的相助下,毫不畏 惧,顽强抗争。经过了几十年的艰难努力,他终于战 胜了这个不幸,并于1994年获得诺贝尔奖。这是一个 真人真事的传奇故事,今天纳什继续在他的领域中耕 耘着。
博弈论最全完整ppt 讲解
完全信息
纳什均衡(NE)
子博弈完美纳什 均衡(SPNE)
不完全信息
贝氏纳什均衡 (BNE)
完美贝氏纳什均衡 (PBNE)及序贯均 衡(SE)
静态博弈与动态博弈
(static games and dynamic games)
同时决策或者同时行动的博弈属于静态 博弈;先后或序贯决策或者行动的博弈, 属于动态博弈
如果一个博弈在所有各种对局下全体参 与人之得益总和总是保持为一个常数, 这个博弈就叫常和博弈;
相反,如果一个博弈在所有各种对局下 全体参与人之得益总和不总是保持为一 个常数,这个博弈就叫非常和博弈。
常和博弈也是利益对抗程度最高的博弈。 非常和(变和)博弈蕴含双赢或多赢。
导论
四、主要参考文献
博弈论为众多学科提供了分析的概念和方 法:经济学和商学,政治科学,生物学, 心 理学和哲学。
如何在“博弈”中获胜?
日常生活中的博弈(“游戏”)往往指的是 诸如赌博和运动这样的东西: 赌抛硬币 百米赛跑 打网球/橄榄球
How can you win such games? 许多博弈都包含着运气、技术和策略。 策略是为了获胜所需要的一种智力的技巧。
威廉·维克瑞, 1914-1996, 生于美国
詹姆斯·莫里斯 1936年生于英国
2001年诺贝尔经济学奖获得者
三位美国学者乔治-阿克尔洛夫(George A. Akerlof)、迈克尔-斯彭斯(A. Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E. Stiglitz)
获奖理由:在“对充满不对称信息市场进 行分析”领域做出了重要贡献。
即使决策或行动有先后,但只要局中人 在决策时都还不知道对手的决策或者行 动是什么,也算是静态博弈
第六章、合作博弈 《经济博弈论基础》PPT课件
• 定义4:对于n人合作博弈(N,V),分配集 W E(V )为稳定集, 则W满足:
(1)(内部稳定性)不存在 x, y W ,满足 x y; (2)(外部稳定性)对 y W ,x W,使得 x y 。
(N,V),有 i[U V ] i[U] i[V ]
4、夏普利值(Shapley value)
• 公理 (S1)反映了帕累托最优性的要求,表示分配收益时,不
七、策略型博弈向特征函数型博弈的转化
对于特征函数的上述求法,主要的批评是:它忽略 了联盟外局中人使联盟面临最坏处境时,自己也将付 出代价(有时代价很高)。
Harsayni认为,特征函数的取值应该由联盟与其对 立联盟(联盟外所有局中人形成的联盟)之间的一次 谈判而决定。
第二节 合作博弈解
一、合作博弈求解思路 合作博弈理论求解的目的: 得到博弈的“理性”最终分配,主要方法有 两种:优超与赋值。
(2) 分配:合作博弈的一个分配是指对n个局中人来说,存
在一个向量 x (x1,, xn ) ,满足:
(1) xi V (N) ;(2) xi V (i)。
其中V(N)表示n个局中人总的最大收益,V(i)表示局中人i不 与任何人结盟时的收益。
三、分配定义中两个条件的含义
条件(1)是群体理性,说明个人分配的收益和正好 是各种联盟形式总的最大收益;
七、策略型博弈向特征函数型博弈的转化
V(Φ)=0,没有人的联盟是不会有任何收益的;
V(1)=0,局中人2能使局中人1面临的最坏情形是局中人2取
策略
s
1 2
,局中人1将不得不在0与-1之间选择。
《博弈论与信息经济学》教学4
研究生《博弈论与信息经济学》第六讲 完全信息扩展博弈:扩展和讨论董志强dongzhq@Spring,20066.1 Extensive Game with Perfect Information and Simultaneous MovesDEFINITION: An Extensive Game with Perfect Information and Simultaneous Moves consists of•a set of players•a set of sequences (terminal histories) with the property that no sequence is a proper subhistory of any other sequence•a function (the player function) that assigns a set of players to every sequence that is a proper history of some terminal history•f or each proper subhistory h of each terminal history and each player i that is a member of the set of players assigned to h by the player function, a setA h(the set of actions available to player i after the history h)()i•f or each player, preferences over the set of terminal historiesExample:(存在外部选择的BoS博弈)博弈描述:首先,局中人1决定呆在家里读书或者去参加音乐会。
《博弈论》精品讲义
7
➢长街上的超市 (海滩占位模型)
*********************
0
1/4 A’ 1/2 O’
3/4
1
✓资源浪费还是理性的必然?
✓其它相似情形:旅行社的热门路线;黄金时间 的电视节目;总统竞选。
博弈论20092009
正大光明 公正無私
8
➢狩猎与投资 狩猎:
两个猎人围住一头鹿,各卡住两个关口中的 一个,齐心协力即可成功获得并平分猎物。此时 有一群兔子跑过,任何一人去抓兔子必可成功, 但鹿会跑掉。
博弈论20092009
正大光明 公正無私
5
1.博弈现象
➢田忌赛马:正确的策略可以反败为胜。 ➢囚徒困境:
乙 甲
理性的人是自私自利的; 理性选择不是全局最优。
博弈论20092009
正大光明 公正無私
6
➢经济合作:
乙 甲
诚信的价值; 一报还一报策略; 人类生存环境启示。
博弈论20092009
正大光明 公正無私
如两人写的一样, 就 认为他们讲真话, 并 按 所 写数额赔偿;如果两人写的不一样,就认定低 者讲真话,并照此价格赔偿。同时,对讲真话的 旅客奖励2元钱,对讲假话的旅客罚款2元。
理性原则下,他们会写多少价格呢?
博弈论20092009
正大光明 公正無私
11
2. 博弈概念
➢什么是博弈:
个人或团体间在依存和对抗、合作和冲突 中的决策问题。
正大光明 公正無私
43
∴I的最优混合策略为
(1,2)
(1, 4
3) 4
同理,II的最优混合策略为
G=8
(1,2)
(1, 2
1) 2
博弈论 讲义[精]
第六章 不完全信息动态博弈-精练 贝叶斯纳什均衡
一 精练贝叶斯纳什均衡
基本思路 贝叶斯法则 精练贝叶斯纳什均衡 不完美信息博弈的精练贝叶斯均衡
二 信号传递博弈及其应用举例 三 博弈论概念简要总结
思维体操:
张同学、李同学都具有足够的推理能力。某天,他们正
所罗门王断案
两个女人为争夺一个孩子吵到所罗门王那里。一个女人说:“陛下, 我和这妇人同住一个房间。我生了一个孩子,三天以后这妇人也生 了一个孩子,房间里再没有别的人。夜里这妇人睡觉的时候,把自 己的孩子压死了。她半夜醒来,趁我睡着,把我的孩子抱去,把她 已经死了的孩子放在我的怀里。天亮要喂奶的时候,我才发现怀里 的孩子是死的,仔细察看,并不是我生的孩子。”另一个女人赶紧 说:“不对,活孩子是我的,死孩子才是她的。”吵得不可开交。
→唯一的均衡价格是P=2000,只有低质量的车成交, 高质量的车退出市场。 若假设车的质量θ∈[2000 ,6000]连续分布,均衡结 果为?
高质量的车退出市场,低质量的旧车充斥市场,结 果买者买到低质量车的现象。——逆向选择( adverse-selection)。
旧车市场的逆向选择来自买卖双方的信息不对称。
完全信息条件下,均衡价格P=6000(高质量)或 P=2000(低质量)。
买者不知道车的真实质量,如果两类车都进入市场, 车的平均质量Eθ =4000→买者愿出的最高价格 P=4000。 →高质量车的卖者将退出市场,只有低量 车θ= 2000的卖者愿意出售。
→买者知道高质量的车退出,市场上剩下的一定是 低质量的卖者。买者愿出的最高价格为P=2000
在接受推理面试。他们知道桌子的抽屉里有如下16张扑克牌:
《博弈论基础》课件
● NE:(σ*G,σL*) σ*G=(0.5,0.5) σL*=(0.2,0.8)
01-3-2
23
● 另解(支付最大法): 一阶条件(FOC): dVG/dθ=0;dVL/dγ=0 γ*=0.2;θ*=0.5
8
2、博弈规则(续)
● “兵来将挡、水来土掩”
● “以不变应万变”、“以静制动”
● 毛主席语录:“人不犯我,我不犯人;人若犯我,我
必犯人”—这里,
人的行动集:{犯;不犯};
人的战略集:{犯;不犯}
我的行动集: {犯;不犯}
01-3-2
9
2、博弈规则(续)
而我的战略集合:{s1,s2,s3,s4} 其中,s1=(犯,犯);s2=(犯,不犯)
若 S1=D,则п1=1/2×0+1/2×2=2
所以,给定 S2*,S1*=U 为参与人 1 的最优战略
01-3-2
33
反之,给定 S1*,S(t21)=L;S(t22)=R 分别是 t21 与 t22 类 型的参与人 2 的最优战略
2.Static B.G 的定义:
{I;{Si};{ui(·)};Θ;F(·)}
(5,4,4) (0,-1,7)
L 1○
R
(-1,5,6) (5,4,4)
01-3-2
29
●SPNE(s1,s2,s3):s1={R};s2:a If 1 Plays R; s3:=r,If 1 Plays L; =r,If L Plays R and 2 Plays a; =l,If L Plays R and2 Plays b
讲义6-不完全信息动态博弈.讲义
(Management Game Theory)
第六讲 不完全信息动态博弈 主讲人:张成科 博士 广东工业大学经济与贸易学院
zhangck@
第五章 不完全信息动态博弈精练贝叶斯纳什均衡
一 精练贝叶斯纳什均衡
基本思路
贝叶斯法则
精练贝叶斯纳什均衡 不完美信息博弈的精练贝叶斯均衡
基本思路图示
在不完全信息动态博弈中,由于信息不完全,故子博弈的概念不能精确细致 地描述动态博弈中的各个阶段,从而就不能剔除那些包含“不合理信念”的 Nash均衡。但是其推理逻辑可用,即“新均衡”不仅在整个博弈上构成Bayes 均衡,而且从每一个信息集开始的“后续博弈”上也构成Bayes均衡。但还不 能剔除“总是认为先验概率不变”这样的不合理行为。而实际上,参与人都 是依据他们的观测信息对自己的先验概率进行修正的-------这需要用精练Bayes 均衡。 给定别人的战略,自己的战略是最优的,即没人愿独自偏离 Nash均衡 在完全信息动态博弈中无法剔除不可置信威胁战略 子博弈精练Nash均衡 不仅是整个博弈的Nash均衡,而且是每个子博弈的 Nash均衡
修正之后的判断称为“后验概率”
贝叶斯法则就是人们根据新的信息从先验概率 得到后验概率的基本方法。
贝叶斯法则
以不完全信息博弈为例说明贝叶斯法则:假定 参与人的类型是独立分布的,参与人i有K个类 型,有H个可能的行动,θk和ah分别代表一个特 定的类型和一个特定的行动。 如果我们观察到i选择了ah,我们要问i属于θk的 后验概率是多少?
二 信号传递博弈及其应用举例
三 博弈论概念简要总结
不完全信息动态博弈引例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
海萨尼转换后的市场进入博弈
N 高成本 [P] 不进入 进入 在位者
(0,300) (0,400)
低成本 进入者 不进入 [1-P] 进入 在位者 默许 斗争
1
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
不完全信息的古诺模型
n在不完全信息的古诺模型中,参与人的类 型是成本函数。 p我们假定参与人1只有一种类型,即其 成本为 c 1; p参与人2有两种类型:
c H (概 率 为 θ ), c L (概 率 为 1 θ ), 其 中 θ 是 共 同 知 识
不完全信息表现在:
n
厂商2的成本有两种可能,是厂商2的私人信息,厂 商1只知道其成本的可能性(概率分布),因此厂商 1对厂商2的得益不完全清楚。
海萨尼转换(1967-1968)
海萨尼转换把不完全信息博弈转换成不完美信息动态博弈
1.引进虚拟自然博弈方,可称为博弈方0,其作用是在博弈方选择 之前,为每个实际博弈方按随机方式抽取他们的类型,构 成向量θ = (θ1,L,θ n ),其中θi ∈Θi , i =1,L, n 2.博弈方0让每个实际博弈方知道自己的类型θi,但不让(全部或 部分)博弈方知道其他博弈方的类型θ−i 3.在前述基础上,再进行原来的静态博弈,即各个实际博弈方 同时从各自的行为空间中选择行动方案a1,L, an 4.各博弈方得益ui = ui (a1,L, an ;θi ), i =1,L, n
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
不完全信息古诺模型的表示
G = { A1 , A2 ;θ1 ,θ 2 ; u1 , u2 } Θ1 = {c1} , Θ 2 = {cH , cL } ; u1 = π 1 ( q1 , q2 , θ1 ), u2 = π 2 (q1 , q2 ,θ 2 ) A1 = {q1} , A2 = {q2 } ;
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
第六讲 不完全信息静态博弈
ftp:// 用户名:shirleyxu 密码:2010fall
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
注意
n
n n
我们假定Ai (θi )和ui (ai , a−i ;θi ) 本身是共同知识;也就 是说,尽管其他参与人并不知道参与人i的类型, 但是他们知道参与人i的策略空间和支付函数是 如何依赖于他的类型的; 其他参与人知道了参与人i的类型的话,就知道 了他的策略 和支付函数。 因此,我们说其他参与人不知道参与人i的支付 函数 ,其实是指,其他参与人不知道参与人i的 支付函数是在哪一种类型情况下的支付函数。
a* (θ ) ∈argmax ∑ pi (θ−i θi )ui (ai , a−i (θ−i );θi ,θ−i ) i
值得注意的是:求和是对其他博弈参与方的各种可能的 类型组合求和
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
贝叶斯纳什均衡
在贝叶斯均衡中,参与人i只知道具有类型 θ j 的参与人将选择a j (θ j ) ,但是不知道 θ j ; n 贝叶斯均衡在本质上也是一致性预测
n
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
* i n
i=1
其中每一个参与人i在给定自己的类型θi和其他参与人的类型
* 依存策略{a− vi。换言之, i (θ−i )}的情况下最大化自己的期望效用函数 * * 策略组合a* = (a1 (θ1),Lan (θn ))是一个贝叶斯纳什均衡,如果对于
所有的, i ai ∈ Ai (θi ),
ai
默许
斗争
(40,50)
(-10,0) (30,80)
(-10,100)
ftp:// 用户名:shirleyxu 密码:2010fall
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
不完全信息静态博弈
n
市场进入博弈: 不完全信息
在位者 高成本情况 默许 进入 斗争 低成本情况 默许 斗争
给定参与人i只知道自己的类型θi , 而不知道其他参与人的类型θ − i, 参与人i将选择ai (θi )最大化自己的期望效用。参与人i的期望效用函数
θ− i ftp:// 用户名:shirleyxu 密码:2010fall
vi = ∑ pi (θi θ − j )ui (ai (θi ), a− i (θ −i );θi ,θ − i )
G = { A1 ,L , An ;θ1 ,L ,θ n ; p1 ,L , pn ; u1 ,L , un }
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
静态贝叶斯博弈的一般表示
n
完全信息静态博弈的一般表达式:
G = { S 1 , L , S n ; u1 , L , u n }
n
n n
将博弈中某些博弈方对其他博弈方得益的不了解 转化为对这些博弈方“类型”的不了解 这样的转化后,在分析博弈时,就必须注意各博 弈方的策略组合和各自的“类型” 静态贝叶斯博弈的一般表达式:
不完全信息古诺模型的分析
n厂商2的最佳产量选择:
* * max[(a − q1 − q2 (cH )) − cH ]q2 (cH )或者 max[(a − q1 − q2 (cL )) − cL ]q2 (cL ) q2 ( cH ) q2 ( cL )
可见,厂商2的最优产量不仅仅取决于厂商1的产量,而且 还取决于自己的成本
如果所有参与人的类型空间仅仅包含一个 } 元素,即对所有的 i,Θ={θi,不完全信息静态 博弈就退化为完全信息静态博弈。 n 如果参与人的类型是完全相关的,当参与 人i观测到自己的类型时,就知道其他参与 人的类型,那么博弈也是完全信息的。 n 我们一般假设参与人的类型是相互独立的。
n
ftp:// 用户名:shirleyxu 密码:2010fall
逆需求函数为:
P (Q ) = a − Q , 其 中 Q = q1 + q 2 厂 商 1, 2的 成 本 分 别 为 : C 1 = c1 q 1 C C
2 2
= c H q 2 . . . . . . . . . . . .θ = c L q 2 ...........1 − θ
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
1 )自然选择类型向量θ = (θ1, Lθn), 其中θi ∈Θi , 参与人i观测到θi, 但是参与人j( j ≠ i)只知道p j (θ− j θ j ), 观测不到θi ; 2)n个参与人同时选择行动a = (a1,Lan ), 其中ai ∈ Ai (θi ); 3)参与人i得到u = (a1,Lan θi )。
ftp:// 用户名:shirleyxu 密码:2010fall
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
静态贝叶斯博弈的时间顺序
40,50 0,300
-10,0 0,300
30,80 0,400
-10,100 0,400
进入者 不进入
可见,进入者的最优选择依赖于在位者是高成本,还是低成 本,因此,当P>0.2时(P是在位者是高成本的概率),进入 者选择进入;当P<0.2时,进入者选择不进入;
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
ftp:// 用户名:shirleyxu 密码:2010fall
Generated by Foxit PDF Creator © Foxit Software For evaluation only.
静态贝叶斯博弈与完全信息静态博 弈
静态贝叶斯博弈的一般表示
n
定义:
n人的静态贝叶斯博弈的策略式表述包括:参与人的类型空间Θ1, L, Θn,
θ1),L, An (θn ),和类型依存支付 条件概率p1,L, pn, 类型依存策略空间A 1(
函数u1(a1,L, an;θ1),L, un (a1,L, an;θn )。参与人知道自己的类型θi ∈Θi , , i 条件概率pi = pi (θ−i θi )描述给定自己属于θi的情况下参与人有关其 他参与人类型θ−i ∈Θ−i的不确定性。 , An;θ1,L,θn; p1,L, pn;u1,L,un}代表这个博弈。 我们用G ={A 1,L 其中 p ( , Lθn)是所有参与者的共同知识。 1 θ1
Generated by Foxit PDF Creator © Foxit Software For evaluation only.