四、非完全信息动态博弈
博弈论“囚徒困境”的四种形式
博弈论中的“囚徒困境”摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。
其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。
本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。
关键词:博弈论囚徒困境经济一、完全信息静态“囚徒困境”博弈完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。
它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。
为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。
当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。
用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) :囚徒2囚徒1(表1)假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。
容易看出,由于对于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。
二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。
而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。
下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。
首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。
不完全信息 动态 斯塔克尔伯格博弈模型
不完全信息动态斯塔克尔伯格博弈模型下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。
文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!本店铺为大家提供各种类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you! In addition, this shop provides you with various types of practical materials, such as educational essays, diary appreciation, sentence excerpts, ancient poems, classic articles, topic composition, work summary, word parsing, copy excerpts, other materials and so on, want to know different data formats and writing methods, please pay attention!不完全信息动态斯塔克尔伯格博弈模型1. 引言斯塔克尔伯格博弈模型是一种常见的非合作博弈模型,它描述了市场上的领导者和追随者之间的相互作用。
第4章 不完全信息动态博弈
(M1L D1L )
M1L M1L ( p1L )
M1H M1H ( p1L )
(M1H D1H )
p
pp
~
L m
H pm p
p1L
图4.5垄断限价模型 博弈论与信息经济学 江西财经大学 陶长琪
4.2-1米尔格罗姆-罗伯茨 (Milgrom-Roberts)垄断限价模型
P r ob { |a } P r ob {a }
h
p(a
j 1
K
h
| j ) p( j )
应该指出的是,贝叶斯法则并不是一个技术性法则,而是人们修正信念的唯一合 理方法. 精炼贝叶斯均衡假定参与人是根据贝叶斯法则修正先验概率的.不过,贝叶斯法 则要求 Pr ob i必须以正的概率选择 a h ,否则,后验概率没 {a h } 0,即参与人 {a h } 0 ,我们允许Pr ob{a h } 0 在[0,1]区间取任 有定义.如果 Pr ob 何值,只要所取的值与均衡战略相容.在动态博弈中,Pr ob{ k | a h } 对应的是 非均衡中径上的信息集
博弈论与信息经济学 江西财经大学 陶长琪
4.2-1米尔格罗姆-罗伯茨 (Milgrom-Roberts)垄断限价模型
( SM ) ( M 1H ( p1 ) M 1L ( p1 )) 0 p2005.1.11 赵乐欢制作历经或 10天终于于 日凌晨基本完成,非常感谢 1
H L 刘艳艳同学第四章及第六章,第七章的文档 ! ( p1 ) M 1 ( p1 ) M 1
让我们再一次考虑市场进入的例子:
[u] 在位者 P=4 进入者 进入 不进入 进入
第一阶段: (2,0) (2,0) 第二阶段: (3,1) (7,0)
第5讲-不完全信息动态博弈
1.基本思路
• 在不完全信息动态博弈(dynamic game of incomplete information)中,“自然”首先选择 参与人的类型,参与人自己知道,其他参与人不 知道;在自然选择之后,参与人开始行动,参与 人的行动有先有后,后行动者能观测到先行动者 的行动,但不能观测到先行动者的类型。
第5讲 不完全信息动态博弈
不一样的。假定存在一个价格P*,只有低成本企业 才有利可图,而高成本企业司不敢模仿这个价格 的。 • 那么,精炼贝叶斯均衡是,低成本在位者选择P*, 高成本企业选择一个较高的垄断价格。如果进入 者观察到在位者选择了P*,这就推断其为低成本, 不进入;否则,就认为在位者是高成本,进入。 • 这就是由米尔格罗姆和罗伯茨于1982年提出的著 名的“垄断限价模型”。
马上认为这个人一定是好人,除非这件好事非常非常地好,因为否 则的话,坏人总是有积极性干件好事以使我们认为他是一个好人)。 当然,如果我们认为坏人干好事并不仅仅是为了假装好人,我们对 他的看法就不会改变,因为,根据贝叶斯法则:
第5讲 不完全信息动态博弈
ProbBP GT p*1 =1
q*0 P*1 这里,p>0是坏人干好事的概率,q>0好人干好事的概率。 从上面例子可以看到,我们如何改变对一个人的看法不仅依赖于我们 认为他是好人或坏人的先验概率,而且依赖于我们如何“认为”好人 干好事和坏人干好事的条件概率。
• 但是,因为参与人的行动是类型依存的,每个参 与人的行动都传递着有关自己类型的某种信息, 后行动者可以通过观察先行动者所选择的行动来
第5讲 不完全信息动态博弈
推断其类型或修正对其类型的先验信念(概率分 布),然后选择自己的最优行动。先行动者预测 到自己的行动将被后行动者所利用,就会设法选 择传递对自己最有利的信息,避免传递对自己不 利的信息。 • 因此,博弈过程不仅是参与人选择行动的过程, 而且是参与人不断修正信念的过程。
博弈论与信息经济学-4.不完全信息动态博弈
I11
L
p
M
I21
R
1-p
1 3
U
2 1
B
0 0
U
0 2
B
0 1
根据局中人2的推断可知,局中人2选 R 的期望支付为 1 p ,选 U
的期望支付为
p 2(1 p) 2 p
①
L R
③
A D
I31
③
U
②
B
A
D
4 4 4
1 1 1
5 5 0
2 2 2
3 3 0
均衡(L,B,A)并不是一个合理的均衡。因为如果博 弈进入参与人2的信息集,参与人2应该选择U而不 是B。 不可能用子博弈精炼纳什均衡的概念剔除(L,B,A), 但可以使用精炼贝叶斯均衡剔除这个不合理的均衡。
( A, L, L' ) r1( A, L, L' ) r2 ( A, L, L' ) r3 ( A, L, L' )
r3 ( A, L, L' ) {L' , R'}
,
( A, L, L' ) 为纳什均衡。
{( A, L, L' ), p 0} 对于要求1与3的满足是显然的,现考虑要求2
给定局中人的推断,局中人的策略必须满足序贯理性的要求。即在每一信息
集中,应该行动的局中人(以及局中人随后的策略),对于给定的该局中人 的推断,以及其余局中人随后的策略(其中“随后的策略”是在达到给定的 信息集之后,包括了其后可能发生的每种情况的完全的行动计划)必须是最 优反应。
动态博弈的求解方法
动态博弈的求解方法
动态博弈是指博弈中玩家的策略会因为对手的选择而发生变化
的博弈。
在动态博弈中,玩家需要在不确定对手的情况下做出最优的决策。
因此,对动态博弈的求解方法具有重要的意义。
一般来说,动态博弈的求解方法可以分为两类:完备信息动态博弈和不完备信息动态博弈。
完备信息动态博弈是指玩家们在博弈开始前就已经知道对手的
策略和自己的收益函数。
这样就可以使用游戏树来分析博弈的过程。
通过解析游戏树,可以找到纳什均衡点(Nash Equilibrium),即博弈中所有玩家的最优策略。
纳什均衡点是指在博弈中,每个玩家都选择了最优策略,而且这些策略互相协调,没有人可以通过单独改变自己的策略来获得更高的收益。
不完备信息动态博弈是指玩家们在博弈中并不知道对手的策略
和自己的收益函数。
这时需要使用博弈论的非完全信息博弈理论来进行求解。
这种博弈需要使用随机策略的概率分布来描述玩家的策略。
通常,可以使用Bayes Nash Equilibrium来求解非完全信息动态博弈。
Bayes Nash Equilibrium是指在博弈中,每个玩家的策略和概率分布都是最优的,而且这些策略和概率分布互相协调,没有人可以通过单独改变自己的策略和概率分布来获得更高的收益。
总的来说,动态博弈的求解方法需要根据博弈的具体情况来选择适当的方法。
在实际应用中,动态博弈的求解方法可以用于经济学、金融学、战略管理、政策制定等领域。
博弈论四种博弈类型
华为在阿根廷电信设备市场上的竞争博弈华为技术有限公司是一家总部位于中国广东省深圳市的生产销售电信设备的员工持股的民营科技公司,经过数十年的发展,成为全球最大的电信网络解决方案提供商,全球第二大电信基站设备供应商,同时也是全球第六大手机厂商,其海外市场的利润占到其总利润的75%。
在华为进入阿根廷电信设备市场之前,阿根廷的电信设备市场由爱立信、阿尔卡特-朗讯以及阿根廷本土设备供应商三家共同分享市场份额,接下来,我们将分析其不同条件下的博弈结果:1、完全信息情况下的静态博弈A 、纳什均衡:我们将上述三家公司统称为原有垄断者,华为称为虎视眈眈的潜在进入者,原有垄断者想要保住自己现有的垄断地位,就会想要阻止潜在进入者进入,在这个博弈中,原有垄断者有两种选择:一是进行斗争,打价格战;二是不斗争,默许其进入从而共同竞争,具体的支付矩阵结果表示如下:原有垄断者潜在进入者 进入 不进入根据纳什均衡的定义:各个参与者所做的是在给定其他参与者的策略是所能够做出的最好的一组策略。
当潜在进入者选择进入时,原有垄断者的最优选择是不斗争,获得70单位的利润;同样的,原有垄断者选择不斗争的情况下,潜在进入者的最优选择是进入,获得20单位的利润,从而获得一个要求纳什均衡的均衡(进入,不斗争),同理可以得出另一个纳什均衡(不进入,斗争)。
B 、占优策略:现假设华为公司已经获得了阿根廷电信集团的经营许可证,在严格管制情况下二者都不能以低于成本的价格进行价格战,同时禁止出现单一寡头垄断的情形,(各自均有正的利润)在这两种情况下考虑两者是否进行价格战的情况,具体支付矩阵如下所示:原有垄断者 低价 高价潜在进入者低价 高价对于潜在进入者而言,不论原有垄断者是否进行价格战,潜在进入者的占优策略都是进行价格战,因为在原有垄断者定低价时,潜在进入者定低价可以获得额外的20单位利润,在原有垄断者定高价时,潜在进入者定低价可以获得额外的10单位利润,从而确定华为必将进行价格战,在完全信息情况下,原有垄断者会将自己置于潜在进入者的位置进行决策,从而决定自己也要进行价格战,否则会失去更多的利润。
不完全信息同时行动博弈标准
不完全信息同时行动博弈标准
不完全信息同时行动博弈的标准是使用海萨尼转换(Harsanyi transformation)。
这种方法的核心是引入第三方“自然”首先行动,按照某一概率分布指定博弈中不完全的信息,且这一概率分布为公共知识。
在建模博弈中存在的不完全信息时,可以不妨设企业2估计企业1建厂成本高的概率为p1,建厂成本低的概率为1-p1。
但计算收益时还需要知道企业1的策略,为此企业1必须估计企业2认为企业1建厂成本高的概率为p2,企业2认为企业1建厂成本低的概率为1-p2。
依次类推,企业2还需考虑
企业1如何估计企业2对企业1建厂成本的高的概率,这样从某一初始推
断出发而形成了越来越高阶的关于推断的推断问题,被称海萨尼称为“递阶期望”,而海萨尼通过将某一先验分布设为公共知识来解决这一问题。
以上内容仅供参考,如需更全面准确的信息,建议查阅博弈论相关书籍或论文,或者咨询专业的经济学家。
@第7章 不完全信息动态博弈
三 、 信 号 博 弈
1. 行为传递的信息和信号机制 2. 信号博弈模型和完美贝叶斯均衡 3. 股权换投资 4.劳动市场信号博弈
行为传递的信息和信号机制
• 萨摩亚岛居民的文身;波那佩岛的山药;孔雀开屏; 蛙鸣 • 信号:经济或其他活动中具有信息传递作用的行为 • 信号机制:通过信号传递信息的过程 • 信号发出方:通过行为传递信息的一方 • 信号接收方:获得信息的一方 • 二手车模型中昂贵的承诺
连续型声明博弈
• 声明方类型标准分布于区间[0,1],即T=[0,1],行为方 的行动空间A= [0,1]。 • 声明方得益函数 ,行为方得益函 数 。 (t , a ) = −[a − (t + b)] U U (t , a ) = −(a − t )
2 S
2
R
可以看出,当声明方类型为t时,声明方最希望的行为 方行为是 ,而行为方对自己最有利的行动是 。
(一)声明的信息传递作用
二 、 空 口 声 明 博 弈
•声明 声明:消费者偏好,企业新闻发布会,国家间威胁恐吓。 声明 •声明不直接影响事物、利益,但往往影响接受声明者行为, 通过接受声明者行为对利益产生影响。 •声明无或几乎无成本,接受者不一定采取有利于声明者的 行为,因为双方利益往往不一致,因此声明的真实性没有保 证。接受者不会轻易相信声明。 •声明的影响取决于接受者的理解、判断和反应。 •当声明者和接受者利益一致或没有冲突时,声明会使接受 者相信。房客声明不喜欢暖气太足房东会相信;工人提出有 恐高症不适合高空作业雇主会相信;顾客喜欢甜或咸厨师会 相信。工人声明自己高素质雇主并不会轻易相信因为相信。
一、不完全信息动态博弈的海萨尼转换
二、空口声明博弈 三、信号博弈 四、不完全信息下的谈判博弈 五、有限次重复囚徒困境中的声誉模型
不完全信息动态博弈
而企业B开始可以蒙骗一部分消费者,但时间一长, 产品的问题会暴露出来,市场会不断缩小,收入及 未来利润都不会有企业A的大。这样一来,企业A的 未来预期收入远大于企业B。因此,如果企业A请一 位当红明星打广告,由于是当红明星,他们打广告 有很高的市场价格,就可以使企业B不敢模仿。譬 如,假定企业A的预期收入为3千万元,企业B的预 期收入为1千万元。当红明星打广告的市场价格为2 千万元,那么,企业A可以请明星打广告但企业B就 请不起。
例为什么许多实力雄厚的公司还要向银行借很 多钱?
在国外,一些资金实力雄厚的公司通常也会向 银行贷款。更加令人感到奇怪的是,一些好的公司, 一方面自己借钱给别的公司,同时,另一方面又向 银行借钱。博弈论运用“信号传递”原理可以对此 现象作出解释。
对于一家公司来说,负债增加会增大公司破产 的可能性;但是,对于实力雄厚的公司,在同样负 债比例下,其破产可能性要小一些。每个公司都会 向社会吹嘘自己是好的公司,实力雄厚,但公众不 会仅凭口头宣传就相信的。于是,真正好的公司通 过向银行借钱来增大自己破产的可能性,令其它实 际上不好的公司难以模仿。这种负债比例的增加要 做到恰到好处,它既可令其它实力稍弱的公司难以 模仿,又使自己能够承受。
假设有一家企业(记为企业A)开发出一种很有市场潜 力的饮料,该产品饮后对人的健康确实有好处。但同时,另 一家生产假冒伪劣产品的企业(记为企业B)也准备向市场推 出一种伪劣产品饮料。两个企业都会向公众宣布其产品是上 乘的,如何如何的好。但公众是理性的,不会仅凭商业宣传 就相信它们。但是,如果产品真的好,随着时间的推移,消 费者能够识别出来。所以,生产好饮料的的企业A对自己的 市场有信心,它相信随着时间的推移,企业B生产的伪劣产 品终究会被消费者识破,顾客会跑到自己这里来,从而自己 的市场会不断扩大,销售收入及利润会不断增长。
《经济博弈论》期末考试复习题及参考答案
经济博弈论复习题(课程代码262268)一、 名词解释混合战略纳什均衡;子博弈精炼纳什均衡:完全信息动态博弈:不完全信息动态博弈:完 全信息静态博弈:帕累托上策均衡;囚徒困境:纳什均衡:子博弈;完美信息动态博弈;颐 抖手均衡;柠檢原理:完美贝叶斯均衡二、 计算分析题1、 在市场进入模型中,市场需求函数为p=13-Q,进入者和在位者生产的边际成本都为1, 固泄成本为0,潜在进入者的进入成本为4。
博弈时序为:在位者首先决左产量水平;潜在 进入者在观察到在位者的产量水平之后决定是否进入:如果不进入,则博弈结束,如果进入, 则进入者选择产疑水平。
求解以上博弈精炼纳什均衡。
2、 考虑如下扰动的性别战略博弈,其中A 服从[0, 1]的均匀分布,Of£<l 山和匕是独 立的,匕是参与人i 的私人信息。
求出以上博弈所有纯战略贝叶斯均衡。
3、求下列信号传递模型的贝叶斯Nash 均衡(讨论分离均衡和混同均衡)(2.1)(6.2)(3.1)(4J)5、古诺IW 弈:市场反需求函数为P (Q )= a- Q,其中Q = q 】+q2为市场总产豊q :为企 业i (i = l, 2)的产量。
两个企业的总成本都为Ci (qJ = cqi 。
请您思考以下问题: 1)在完全信息静态条件下,这一博弈的纳什均衡是什么?2)假设这一阶段博弈重复无限次。
试问:在什么样的贴现条件下,证产量组合(響,響)是子博弈精炼纳什均衡的?6、考虑一卞工作申请的佔弈。
两个学生同时向两家企业申请工作,每家企业只有一个工作 岗位。
工作申请规则如下:每个学生只能向其中一家企业申请工作;如果一家企业只有一个 学生申请,该学生获得工作:如果一家企业有两个学生申请,则每个学生获得工作的概率为1/2。
现在假泄每家企业的工资满足:W 1/2<W :<2W 1,则问: a.写出以上博弈的战略式描述b.求出以上博弈的所有纳什均衡7、(差异价格竞争)假立两个寡头企业进行价格竞争,但产品并不完全相同,企业,的市场需求门厂)="-门+匕仏丿=1,2),两家企业的生产成本函数为 g 求两个寡头同 时选择价格时的纳什均衡。
博弈的四种基本类型
博弈的四种基本类型和四种关系1.完全信息静态博弈:参与者的信息完全公开,所有参与者同时做出决策。
例如,囚徒困境。
2.完全信息动态博弈:信息完全公开,但参与者的决策有先后顺序。
例如,斯坦科尔伯格寡头竞争。
3.不完全信息静态博弈:参与者的信息不完全公开,所有参与者同时做出决策。
例如,性别战博弈。
4.不完全信息动态博弈:信息不完全公开,参与者的决策有先后顺序。
例如,信号传递博弈。
每种类型的定义和特点:完全信息静态博弈:在这种类型的博弈中,所有参与者的信息和收益函数都是公开的,所有参与者同时做出决策。
例如,囚徒困境是一个典型的完全信息静态博弈,其中两个罪犯在审讯时选择坦白或不坦白。
完全信息动态博弈:在这种类型的博弈中,所有参与者的信息和收益函数都是公开的,但参与者的决策有先后顺序。
例如,斯坦科尔伯格寡头竞争模型中,企业先后决定产量,后行动的企业可以根据先行动企业的决策来调整自己的策略。
不完全信息静态博弈:在这种类型的博弈中,参与者的信息不完全公开,所有参与者同时做出决策。
例如,性别战博弈中,两个参与者不知道对方的策略,只能根据自己的猜测做出决策。
不完全信息动态博弈:在这种类型的博弈中,参与者的信息不完全公开,决策有先后顺序。
例如,信号传递博弈中,先行动的企业可以通过发送信号来影响后行动企业的决策。
博弈的四种关系一、零和博弈定义:在零和博弈中,参与各方的利益总和是固定的,一方的收益必然意味着另一方的损失,所以双方的收益和损失之和为零。
举例:在扑克游戏中,赢家赢得的钱与输家输掉的钱数量相等,这就是典型的零和博弈。
你赢了一定数量的筹码,就意味着其他玩家输了同样数量的筹码,整个游戏过程中筹码的总量并没有增加或减少。
二、正和博弈定义:正和博弈也称为合作博弈,是指参与各方的利益总和大于零,即通过合作可以实现共赢的局面。
举例:企业之间的合作研发项目,各方共同投入资源,研发成功后,每个参与企业都能获得比单独行动时更多的收益。
《经济博弈论》复习题参考答案
《经济博弈论》复习题及参考答案一、名词解释1、混合战略纳什均衡如果在博弈的利益表中,无法找到任何一方都可以接受(不一定利益最大化)的方案,也就是没有哪一种组合是在给定对手策略下没有动机改变自己策略的情况。
这时博弈没有纯策略均衡,需要一个“概率表”指导博弈结果。
在博弈G={S1,S2……Sn;U1,U2……Un}中第i个博弈方策略空间为Si={Si1……Sik}则博弈方以概率分布Pi=(Pi……Pik)随机在k个可选策略中选的的策略称为一个混合策略纳什均衡。
2、子博弈精炼纳什均衡对于扩展式博弈的策略组合S*=(S1*,…,Si*,…,Sn*) ,如果它是原博弈的纳什均衡;它在每一个子博弈上也都构成纳什均衡,则它是一个子博弈精炼纳什均衡。
子博弈精练纳什均衡所要求的是参与人应该是序惯理性的。
对于有限完美信息博弈,逆向归纳法是求解子博弈精炼纳什均衡的最简便的方法。
3、完全信息动态博弈完全信息动态博弈,是指博弈中信息是完全的,即双方都掌握参与者对他参与人的战略空间和战略组合下的支付函数有完全的了解,但行动是有先后顺序的,后动者可以观察到前者的行动,了解前者行动的所有信息。
4、不完全信息动态博弈指在动态博弈中,行动有先后次序,博弈的每一参与人知道其他参与人的有哪几种类型以及各种类型出现的概率,即知道“自然”参与人的不同类型与相应选择之间的关系,但是,参与人并不知道其他的参与人具体属于哪一种类型。
由于行动有先后顺序,后行动者可以通过观察先行动者的行为,获得有关先行动者的信息,从而证实或修正自己对先行动者的行动。
5、完全信息静态博弈完全信息静态博弈指的是信息对于博弈双方来说是完全公开的情况下,双方在博弈中所决定的决策是同时的或者不同时但在对方做决策前不为对方所知的。
6、囚徒困境囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
不完全信息动态博弈
4 不完全信息动态博弈4.1 精炼贝叶斯均衡概述不完全信息动态博弈就其基本要素来看是不完全信息与博弈的动态性质的一种综合。
在处理不完全信息要素时,通过将某些参与人“类型”的不确定性作为信息不完全性的一种表征,这种方法将继续得以采用,即博弈中参与人面临的信息不完全性(无论它是指何种信息)将完全由某些参与人的“类型”的不确定性加以刻画。
同时,作为动态博弈,“序贯理性”的思想将一直得到贯彻。
我们在不完全信息动态博弈中将信息不完全程度削减到零,则不完全信息动态博弈就自然应退化成一种完全信息动态博弈,其相应的精炼均衡概念就由精炼贝叶斯回到子博弈精炼均衡。
从这种意义上来看,不完全信息动态博弈的精炼均衡概念是子博弈精炼均衡概念的一种推广,正如不完全信息动态博弈应被视作完全信息动态博弈的一种推广一样。
例简单的非完全信息动态博弈Nt1(p) t2 (1–p)1 1L R L R2 2L R L R L R L Ru1u1u1u1 u1u1u1u1u2u2u2u2 u2u2u2u2参与人1的类型t 为个人信息。
参与人2 不知道t ,但知道t 的概率分布。
博弈的时序:(1)参与人1选择行动a 1 A 1;(2)参与人2观察a 1,选择a 2 A 2博弈的收益: u 1 (a 1, a 2, t ), u 2 (a 1, a 2, t )精炼贝叶斯均衡博弈的纳什均衡是一种“僵持”状态的战略组合,当所有的参与人都选择该战略组合中给出的相应战略时,任何一个参与人都不会有单方面偏离这一选择的动机。
作为动态博弈,一个战略是参与人在其可能进行行动选择的所有信息集上将作何选择的一整套规定或计划,而作为不完全信息博弈,这种规定或计划还是“类型依存”的,即不同类型的参与人将选择不同的战略规定。
因此,一个不完全信息动态博弈的纳什均衡将是指这样的一种类型依存性的战略组合(或战略组合的族),当给定其他参与人的战略时(其他参与人的战略是类型依存的,所以,说给定其他参与人的战略即指给定其他参与人的战略与类型的依存关系),任一参与人在其任何类型下由该组合给出的类型依存战略是其最优的。
博弈论四种类型
贝叶斯纳什均衡
混合战略(不完全信息情况下纯战略均衡的极限)
对原混合战略加入少许不确定性因素,求极限。
性别战
1、均衡存在性
2、不确定性体现为类型的不确定性
一般贝叶斯均衡
Harsanyi转换
机制设计
不完全信息动态博弈
在博弈开始前参与人之间的信息存在不确定性,同时参与人行动存在先后顺序。不完全信息动态博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正信念的过程。
无限次重复博弈均衡(无名氏定理)
与贴现因子有关
囚徒困境(冷酷战略)
无限期轮流讨价还价模型
一般博弈
逆向归纳法求解
斯坦科尔伯格寡头竞争
雇主与公会之间的竞争
不完全信息静态博弈
在博弈开始之前参与人之间的信息存在不确定性,但是参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。
不确定是参与人的了性的不确定性
精炼贝叶斯纳什均衡
信号传递博弈
分离均衡
根据所得信息修正判断概率,根据收益最大化决策
信号传递博弈
不完全信息重复博弈与声誉
Milgrom-Roberts垄断限价模型
不完全信息动态博弈子博弈精炼纳什均衡与海萨尼不完全信息静态博弈贝叶斯均衡的结合。
混同均衡
准分离均衡
类型
信息和行动特点
均衡
均衡类型
特别均衡
求解方法
学过的例子
性质
完全信息静态博弈
每个参与人对其他所有参与人的特征、战略空间及支付函数有精确的了解,博弈开始时不存在不确定性因素,参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。战略和行动相同。
纳什均衡
纯战略纳什均衡(PNE)
动态博弈的名词解释
动态博弈的名词解释动态博弈是一种经济学概念,用于描述决策参与者在不完全信息下采取策略并互相影响彼此行为的情况。
在一个动态博弈中,每个参与者的决策不仅会受到其他参与者当前的策略选择的影响,还会受到过去和未来的行动的影响。
这使得动态博弈比传统的静态博弈更加复杂和有趣。
在动态博弈中,参与者的决策是基于他们对其他参与者行为的预期,并且这些预期可能会随着博弈的进行而改变。
因此,动态博弈往往需要考虑时间的因素,以便能够洞察参与者在不同时间点上采取不同策略的动机。
这也与静态博弈的最优策略不同,因为动态博弈的最优策略通常是反应了参与者对未来选择的预期。
在动态博弈中,一个重要的概念是博弈的时间结构。
时间结构规定了参与者决策的先后顺序和博弈的重复次数。
博弈可以是一次性的,参与者只进行一轮决策,或者可以是重复的,参与者会在一段时间内进行多轮的决策。
重复的动态博弈往往会引发更丰富的策略性和合作行为,因为参与者的选择会影响未来回合的收益。
动态博弈中的一个经典案例是囚徒困境。
在这个博弈中,两名囚犯被独立审讯,他们可以选择合作或背叛对方。
如果两人都合作,他们会得到较轻的牢狱时间。
但如果其中一人选择背叛,而另一人选择合作,背叛者将获得自由而合作者将面临更严重的牢狱时间。
如果两人都选择背叛,那么他们将面临中等程度的处罚。
囚徒困境展示了在缺乏合作的情况下,个体追求自身利益可能导致无法最大化总体利益的结果。
在动态博弈中,一个重要的概念是策略的可观测性。
可观测性指的是参与者对其他参与者行为的观察程度。
如果参与者能够准确观察到其他参与者的策略选择,他们可以更有效地做出决策。
而如果参与者只能观察到有限信息,他们则需要通过推断和预测其他参与者的策略。
信息的不完全性会增加博弈的复杂性,因为参与者需要根据有限的信息做出决策。
动态博弈在许多领域都有应用,特别是在经济学和管理学中。
在经济学中,动态博弈常被用于研究市场竞争、公司战略和博弈理论。
在管理学中,动态博弈可以帮助解决企业战略决策和资源分配的问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
接上1
• 如果 干了一件坏事,你也许会、也许不会修 如果A干了一件坏事,你也许会、 干了一件坏事 正对他的看法,依赖于这件好事“ 正对他的看法,依赖于这件好事“好到什么 程度” 程度”,因为坏人为了假装好人也会干些 一般—建立模型说明 建立模型说明
• 好人 好人(good person-GP)、坏人 、坏人(BP);好事 ;好事(GT)、 、 坏事(BT)。 坏事 。 • p{GT}=p(GT︱GP)p(GP) { } ︱ + p(GT︱BP)p(BP) ︱ • 假定我们观察到一个人干了一件好事,那么, 假定我们观察到一个人干了一件好事,那么, 这个人是好人的“后验概率” 这个人是好人的“后验概率”为:
p {GP BT
}=
0× 1 0× 1 2
2 + p× 1
= 0 2
接上1
• 或者说,他肯定是一个坏人: 或者说,他肯定是一个坏人:
p {BP BT
}=
p× 1 0× 1 2
2 + p× 1
=1 2
• 进一步,如果我们原来认为一个人100%的是 进一步,如果我们原来认为一个人 的是 好人,但突然发现他干了一件坏事。显然, 好人,但突然发现他干了一件坏事。显然,我 们对他的看法会有一个彻底的改变: 们对他的看法会有一个彻底的改变:嗨,原来 他是个坏人。虽然不能使用贝叶斯规则, 他是个坏人。虽然不能使用贝叶斯规则,但我 们的这个改变与贝叶斯规则并不矛盾。 们的这个改变与贝叶斯规则并不矛盾。
}=
1× 1 1× 1 2 + 1
2 2 × 1 2
= 1
2
即我们认为他是好人的可能性增加了, 即我们认为他是好人的可能性增加了,但他仍 的可能性是坏人。 有1/3的可能性是坏人。 的可能性是坏人
换一种角度看
• 假如我们观察到这个人干了一件坏事,我们将 假如我们观察到这个人干了一件坏事, 如何改变对他的看法? 如何改变对他的看法? • 如果我们相信好人绝不会干坏事,只有坏人才 如果我们相信好人绝不会干坏事, 会干坏事,那么,我们可以肯定, 会干坏事,那么,我们可以肯定,他绝不可能 是一个好人: 是一个好人:
接上3
• 如果我们认为坏人干好事并不仅仅是为了假装好 我们对他的看法就不会改变, 人,我们对他的看法就不会改变,因为根据贝叶 斯规则: 斯规则:
p ×1 p{BP GT } = =1 q × 0 + p ×1 这里,p > 0是坏人干好事的概率, q > 0是好人干好事的概率。
举例说明
• 1、设想张三有一种欺弱的天性,但害怕与强 、设想张三有一种欺弱的天性, 者相遇。张三第一次遇到你后,是否欺负你? 者相遇。张三第一次遇到你后,是否欺负你? 答案依赖于他对你是强者还是弱者的判断。 答案依赖于他对你是强者还是弱者的判断。 • 2、黔驴之技 、黔驴之技——实际上也是一个动态不完全 实际上也是一个动态不完全 信息博弈。毛驴初到贵州,老虎见它庞然大物, 信息博弈。毛驴初到贵州,老虎见它庞然大物, 不知有多大本领,感到神奇。给定这个“ 不知有多大本领,感到神奇。给定这个“信 老虎开始观察… 念”,老虎开始观察
四、不完全信息动态博弈
• 垄断限价模型(低成本价格与高成本价格透露 垄断限价模型( 的信息) 的信息) • 信号传递模型 • 成本的信息含量
求爱博弈
• 如果男人是柳下惠,女人穿少的时候他会看的 概率是20%;如果男人是登徒子,女人穿少的 时候他会看的概率是100%。 • 女人根据现有的信息判断男人是柳下惠的概率 为70%,因此女人估计自己穿少的时候,男人 看的概率为:0.7*0.2+0.3*1=0.44 • 这是女人给定男人所属类型的先验概率下,男 人可能采取看的概率。
• 在动态博弈中,行动有先后次序,后行动者可 在动态博弈中,行动有先后次序, 以通过观察先行动者的行动,获得有关“ 以通过观察先行动者的行动,获得有关“先行 动者”的偏好、策略空间等方面的信息, 动者”的偏好、策略空间等方面的信息,修正 自己的判断。 自己的判断。 • 自然,先行动者知道:自己的行为有传递自身 自然,先行动者知道: 特征信息的作用, 特征信息的作用,就会有意识地选择某种行动 来宣扬或掩盖自己的真实面目。 来宣扬或掩盖自己的真实面目。 • 当然在均衡状态下,理性人是不会被愚弄的。 当然在均衡状态下,理性人是不会被愚弄的。
接上2
• 如果我们原来认为他肯定是一个坏人,突然发 如果我们原来认为他肯定是一个坏人, 现他干了一件好事, 现他干了一件好事,我们又该如何看待这个人 分成两种类型: 呢?分成两种类型: • 如果我们认为坏人干好事的目的仅仅是为了假 装好人, 装好人,如果这个人是在知道我们认为他是坏 人的情况下干了好事,那么, 人的情况下干了好事,那么,我们认为这个人 是坏人的后验概率可以是〔 , 〕 是坏人的后验概率可以是〔0,1〕区间上的任 意数。 意数。
完美贝叶斯均衡的要点
• 在于当事人 要根据所观察到的他人的行为来 修正自己有关后者类型的“信念” 主观概率) 修正自己有关后者类型的“信念”(主观概率) 并由此选择自己的行动。 并由此选择自己的行动。 • 修正过程使用的是贝叶斯规则。这一点意味着, 修正过程使用的是贝叶斯规则。这一点意味着, 每个参与人都假定其他参与人选择的是均衡策 略。 • 也就是说,完美贝叶斯均衡是所有参与人策略 也就是说, 和信念的一种结合。 和信念的一种结合。
解释贝叶斯规则
• 贝叶斯规则是概率统计学中应用所观察到的 现象修正先验概率的一种标准方法。 现象修正先验概率的一种标准方法。 • 比如,设想 是新来的一位同事,你对他的人 比如,设想A是新来的一位同事 是新来的一位同事, 品不了解——简单地说,你认为他是好人和 简单地说, 品不了解 简单地说 坏人的可能性相等。你知道“ 坏人的可能性相等。你知道“好人是不干坏 事的,只有坏人才干坏事。 如果有一天, 事的,只有坏人才干坏事。”如果有一天, 你发现A干了一件坏事 干了一件坏事, 你发现 干了一件坏事,你会修正对他的看法 ——这里你事实上使用了贝叶斯规则 这里你事实上使用了贝叶斯规则——把 这里你事实上使用了贝叶斯规则 把 你认为A是一个坏人的概率由 修正为0.6或 是一个坏人的概率由0.5修正为 你认为 是一个坏人的概率由 修正为 或 更高直至1。 更高直至 。
罗斯( 罗斯(Ross 1977)模型 前提 )模型—前提 条件
• 在罗斯模型中,企业经理人知道企业利润的真 在罗斯模型中, 实分布函数,投资人不知道; 实分布函数,投资人不知道; • 企业利润分布函数是一阶随机占优排序的(即 企业利润分布函数是一阶随机占优排序的( 越是好企业,高利润的概率越高)。 越是好企业,高利润的概率越高)。 • 经理人的效用是企业市场价值(包括股票价值 经理人的效用是企业市场价值( 和债券价值)的增函数,但如果企业破产, 和债券价值)的增函数,但如果企业破产,经 理人受到惩罚(包括失去工作、名誉损失等)。 理人受到惩罚(包括失去工作、名誉损失等)。
举例—用负债比例显示企业 举例 用负债比例显示企业 质量
• 经济学家自 年代以来,一直在探讨什么因素 经济学家自50年代以来, 年代以来 决定企业资本结构(capital structure) 。 决定企业资本结构 • 其中资本结构的信号传递理论是这一领域最有 影响的理论之一。 影响的理论之一。 • 这一理论证明,如果内部经理人与外部投资者 这一理论证明, 之间存在信息不对称, 之间存在信息不对称,资本结构就可以通过传 递内部信息对企业的市场价值发生影响。 递内部信息对企业的市场价值发生影响。
(二)信号传递博弈
• 信号传递博弈的所有可能的精炼贝叶斯均衡可 分成三类, 分离均衡、 分成三类,即:分离均衡、混同均衡和准分离 均衡。这里主要讲分离均衡。 均衡。这里主要讲分离均衡。 • 在分离均衡下,信号准确揭示出类型。简单地 在分离均衡下,信号准确揭示出类型。 如果m 是类型q 的最优选择, 说,如果 1是类型 1的最优选择, m1就不可 能是q 的最优选择,并且, 是类型q 能是 2的最优选择,并且, m2是类型 2的最优 选择。 选择。
续
• 当男人的确看了的时候,使用贝叶斯法则,根据男人 看的这一行动,女人认为男人是柳下惠的概率变为: 0.7*0.2/0.44=0.32 根据这一新的概念,女人估计自己穿少的时候男人会刊 的概率为: 0.32*0.2+0.68*1=0.744 如果女人将这种行为再重复一次,男人又看了,则女人 认为男人是柳下惠的概率变为: • 0.32*0.2/0.744=0.086 这样女人通过男人一次次的看的行为,越来越认为男人 是登徒子而不是柳下惠。 这就是参与人行为传递信息的作用。
p {GP GT } =
p (GT
GP p {GT }
) p (GP )
接上3—具体说明 具体说明
• 我们假定: A这个人是好人的先验概率为 。 我们假定: 这个人是好人的先验概率为 这个人是好人的先验概率为1/2。 • 在观察到他干了好事之后,我们如何修正他是 在观察到他干了好事之后, 好人的先验概率依赖于我们认为这件好事“ 好人的先验概率依赖于我们认为这件好事“好 到什么程度” 让我们考虑三种极端情况: 到什么程度”。让我们考虑三种极端情况: ——第一种情况,这是一件非常好的好事,好 第一种情况, 第一种情况 这是一件非常好的好事, 人一定做,坏人绝不可能干, 人一定做,坏人绝不可能干,即p(GT︱ ︱ GP)=1, p(GT︱BP)=0, 那么, ︱ 那么
参与人策略和信念的组合满足条件
• (1)给定每个人有关其他人类型的信念的情 ) 况下,他的策略选择是最优的; 况下,他的策略选择是最优的; • (2)每个人有关他人类型的信念都是使用贝 ) 叶斯规则从所观察到的行动中获得的。 叶斯规则从所观察到的行动中获得的。 • ——用数学的语言来说,完美贝叶斯均衡是个 用数学的语言来说, 用数学的语言来说 不动点” “不动点”。 • 应该强调的是,它的最优策略是相对于信念而 应该强调的是, 言的, 信念、策略)二维空间上。 言的,即(信念、策略)二维空间上。