博弈论7 不完全信息动态博弈

合集下载

第5讲-不完全信息动态博弈

第5讲不完全信息动态博弈
1.基本思路
• 在不完全信息动态博弈（dynamic game of incomplete information)中，“自然”首先选择参与人的类型，参与人自己知道，其他参与人不知道；在自然选择之后，参与人开始行动，参与人的行动有先有后，后行动者能观测到先行动者的行动，但不能观测到先行动者的类型。
第5讲不完全信息动态博弈
不一样的。假定存在一个价格P*,只有低成本企业才有利可图，而高成本企业司不敢模仿这个价格的。 • 那么，精炼贝叶斯均衡是，低成本在位者选择P*, 高成本企业选择一个较高的垄断价格。如果进入者观察到在位者选择了P*,这就推断其为低成本，不进入；否则，就认为在位者是高成本，进入。 • 这就是由米尔格罗姆和罗伯茨于1982年提出的著名的“垄断限价模型”。
马上认为这个人一定是好人，除非这件好事非常非常地好，因为否则的话，坏人总是有积极性干件好事以使我们认为他是一个好人）。当然，如果我们认为坏人干好事并不仅仅是为了假装好人，我们对他的看法就不会改变，因为，根据贝叶斯法则：
第5讲不完全信息动态博弈
ProbBP GT p*1 =1
q*0 P*1 这里，p>0是坏人干好事的概率，q>0好人干好事的概率。从上面例子可以看到，我们如何改变对一个人的看法不仅依赖于我们认为他是好人或坏人的先验概率，而且依赖于我们如何“认为”好人干好事和坏人干好事的条件概率。
• 但是，因为参与人的行动是类型依存的，每个参与人的行动都传递着有关自己类型的某种信息，后行动者可以通过观察先行动者所选择的行动来
第5讲不完全信息动态博弈
推断其类型或修正对其类型的先验信念（概率分布），然后选择自己的最优行动。先行动者预测到自己的行动将被后行动者所利用，就会设法选择传递对自己最有利的信息，避免传递对自己不利的信息。 • 因此，博弈过程不仅是参与人选择行动的过程，而且是参与人不断修正信念的过程。

完全但不完美信息动态博弈博弈论

二手车交易
卖方
好
差
卖方
卖方
卖
买方
买
不卖卖
不卖
（0，0）
买方（0，0）
不买买
不买
（2，1）
（0，0）（1，-1）（-1，0）
（2）信息集 information set
决策结：参与人采取行动的时点。信息集：是决策结集合的子集，并满足以下
两个条件:
i 每一决策结是同一参与人的决策结； ii 该参与人知道博弈进入该集合的某个决策结，但不
A不知道自然的选择；B不知道A的选择，知道自然的选择
房地产开发博弈
N
大
小
（1/2）（1/2）
A
A
开发
B
不开发开发
BB
不开发
B
开
不开
不开
不开
不
（4，4）（8，0）（0，8）（0，0（）-3，-3（）1，0（）0，1）（0，0）
A知道自然的选择；B知道A的选择，但不知道自然的选择
房地产开发博弈
Bayes法则正是人们根据新的信息从先验概率得到后验概率的方法。
全概率公式和贝叶斯公式
设试验E的样本空间为s，A为E的事件，B1， B2，…，Bn为s的一个划分，且P(Bi)>0，则全概率公式为：
P(A) P(A B1)P(B1) P(A B2)P(B2) P(A Bn)P(Bn)
贝叶斯公式为：
1
R
L(p)
M(1-p)
（1，3）
2
U
D
U
D
（2，1）
（0，0）（0，0）（0，1）
（3）（4）如何决定“判断”？贝叶斯法则（这里不用即可判断出p=1）要求3使均衡策略与合理判断形成一种相互依存的关系。

第三章信息经济学的研究方法—博弈论

第一节概述-人生处处皆博弈
人生是永不停歇的博弈过程，博弈意略达到合意的结果。
作为博弈者，最佳策略是最大限度地利用游戏规则，最大化自己的利益；
作为社会最佳策略，是通过规则使社会整体福利增加。
一、博弈论的定义
博弈论（game theory，又译为对策论，游戏论）
定义：研究决策主体的行为在直接相互作用时，人们如何进行决策、以及这种决策如何达到均衡。
五、博弈论与信息经济学
博弈论是给定信息结构求均衡结果，它实际上是一种均衡理论，我们最终要找的是一个均衡的结果，博弈论是方法论导向的，它实际上是一种解决问题的方法。它是一个实证的方法。
信息经济学是给定信息结构求契约的安排。它实际上是一种契约设计理论，它是问题导向的。它是一个规范的方法。
石匠的决策与拳击手的决策的区别
一、博弈论的定义
2、理性人假设理性人是指一个很好定义的偏好，在面临给定的约束条件下
最大化自己的偏好。
博弈论说起来有些绕嘴，但理解起来很好理解，那就是每个对弈者在决定采取哪种行动时，不但要根据自身的利益和目的行事，而且要考虑到他的决策行为对其他人可能的影响，通过选择最佳行动计划，来寻求收益或效用的最大化。
（一）囚徒困境
假定：（1）每个局中人都知道博弈规则和博弈结果的支付
矩阵；（2）每个局中人都是理性的（个人理性和个人最优
决策）；（3）不能“串通”
（一）囚徒困境——纳什均衡
囚徒A
坦白
坦白囚徒 B
-8，-8
抵赖 -10，0
抵赖 0，-10 -1，-1
-8大于-10 0大于-1
（坦白，坦白）是纳什均衡
第三章信息经济学的研究方法 ——博弈论

不完全信息动态博弈-精练贝叶斯纳什均衡

不完全信息动态博弈-精练贝叶斯纳什均衡

一精练贝叶斯纳什均衡基本思路

贝叶斯法则
精练贝叶斯纳什均衡不完美信息博弈的精练贝叶斯均衡二信号传递博弈及其应用举例三博弈论概念简要总结
基本思路-不完全信息动态博弈

类型：自然首先选择参与人的类型，参与人自己知道，其他参与人不知道。--不完全信息
行动：行动有先有后，后行动者能观测到先行动者的行动，但不能观测到其类型。--动态博弈但是，参与人是类型依存型的，每个参与人的行动都传递有关自己类型的信息，后行动者可以通过观察先行动者的行动来推断自己的最优行动。先行动者预测到自己的行动被后行动者利用，就会设法传递对自己最有利的信息。

不完全信息动态博弈过程不仅是参与人选择行动的过程，而且是参与人不断修正信念的过程。
[x]
高
T=2，如果进入者已进入，在位者成本函数为共同知识，若在位者为高成本，p=5时，每个企业利润为3，扣除进入成本2，进入者利润为1。若在位者为低成本， p=4,在位者利润是5，进入者成本为1，扣除进入成本2，其利润为-1。
P=6
进入者进入不进入进入不进入进入不进入进入不进入进入
价格
在位者高成本时的利润在位者低成5
6 9
P=6
7 8
基本思路-不完全信息动态博弈
进入者只有一种类型：进入成本为2，如果进入，生产成本函数与在位者高成本函数相同。
T=2，如果进入者已进入，在位者成本函数为共同知识，若在位者为高成本，企业企业成本函数相同，对称库诺特均衡产量下的价格p=5时，每个企业利润为3，扣除进入成本2，进入者利润为1。若在位者为低成本，两个企业成本函数不同，非对称库诺特均衡产量下的价格p=4,在位者利润是5，进入者成本为1，扣除进入成本2，其利润为-1。

非完全信息动态博弈博弈论吉本斯.pptx

27
第28页/共59页
Example 1-厂商的分离均衡纯策略
•.
(保修,不保修)
(1,0.5) Y [1] 保修厂商不保修[0] Y (-1,1)
(0,0) N
H
[0.5]
N (0,0)
客户
自然
客户
(-1,-0.5)Y [0]
(0,0) N
保修
[0.5] L
不保修 [1] 厂商
Y (1,0.5) N (0,0)
19
第20页/共59页
Signaling game
• Sender和 Receiver 都有四个纯策略.
Sender的纯策略：
(m1,m1), (m1,m2), (m2,m1), (m2,m2)
(m1,m1), (m2,m2)：混同(pooling strategies)策略
(m1,m2), (m2,m1)：分离(separating strategies)策略
q1 1 1 q2
1
11
第12页/共59页
Requirement 4
• 要求 4. 对处于均衡路径之外的信息集, 推断由贝叶斯法则以及可能情况下的参与人的均衡策略给出. • 定义 .满足要求1到4的策略和推断构成博弈的完美贝叶斯均衡（perfect Bayesian equilibrium ）.
17
第18页/共59页
Signaling game
•图
a1
m1
S
m2
a1
a2
t1 [p]
a2
R
N
R
a1
[1-p] a1
t2
a2
m1 S
m2
a2

完整版)博弈论知识点总结

完整版)博弈论知识点总结博弈论是研究决策主体在相互作用中做出的决策以及均衡问题的学科。

该学科的研究假设包括：1）决策主体是理性的，会尽可能地最大化自己的收益；2）完全理性是共同知识；3）每个参与者都能对环境和其他参与者的行为形成正确的信念和预期。

博弈中涉及到的变量包括：参与人、行动、战略和信息。

完全信息指每个参与人都了解其他参与人的支付函数，而完美信息则指在博弈过程中，每个参与人都能观察和记忆之前的行动选择。

不完全信息则表示参与人没有完全掌握其他参与人的信息，存在不确定性因素。

博弈与传统决策的区别在于，博弈是决策主体之间的相互作用，需要考虑其他决策者的选择和效用函数。

博弈的表示形式包括战略式博弈和扩展式博弈，其中战略式博弈适用于描述不需要考虑博弈进程的完全信息静态博弈问题，而扩展式博弈则更适用于描述动态博弈问题。

与战略式博弈不同，扩展式博弈更注重参与者在博弈过程中面临的决策问题的序列结构分析，而不是仅关注博弈结果的描述。

扩展式博弈包括参与人集合、参与人的行动顺序、序列结构和参与人的支付函数等要素。

战略式博弈是一种静态模型，而扩展式博弈是一种动态模型。

博弈论可以分为合作博弈和非合作博弈，其中合作博强调团体理性、团体最优决策和效率，而非合作博弈强调个人理性和个人最优决策。

根据参与人行动先后顺序的不同，博弈可以分为静态博弈和动态博弈，后者包括先行动者获得先行动者行动信息的情况。

根据参与人对信息的掌握程度，博弈可以分为完全信息和不完全信息博弈。

根据决策主体对信息的掌握程度和行动的先后顺序，博弈可以分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。

不同类型的博弈有不同的均衡类型和求解方法，顺序的不同也会影响均衡结果。

Hotelling价格竞争模型是一种重要的扩展式博弈，用于描述两个企业在同一市场上的价格竞争。

相对应。

占有均衡是指在博弈中存在一组参与人的战略选择，使得每个参与人都无法通过改变自己的战略来提高自己的支付。

《经济博弈论》期末考试复习题及参考答案

经济博弈论复习题（课程代码262268）一、名词解释混合战略纳什均衡；子博弈精炼纳什均衡：完全信息动态博弈：不完全信息动态博弈：完全信息静态博弈：帕累托上策均衡；囚徒困境：纳什均衡：子博弈；完美信息动态博弈；颐抖手均衡；柠檢原理：完美贝叶斯均衡二、计算分析题1、在市场进入模型中，市场需求函数为p=13-Q,进入者和在位者生产的边际成本都为1, 固泄成本为0,潜在进入者的进入成本为4。

博弈时序为：在位者首先决左产量水平；潜在进入者在观察到在位者的产量水平之后决定是否进入：如果不进入，则博弈结束，如果进入, 则进入者选择产疑水平。

求解以上博弈精炼纳什均衡。

2、考虑如下扰动的性别战略博弈，其中A 服从［0, 1］的均匀分布，Of£<l 山和匕是独立的，匕是参与人i 的私人信息。

求出以上博弈所有纯战略贝叶斯均衡。

3、求下列信号传递模型的贝叶斯Nash 均衡（讨论分离均衡和混同均衡）(2.1)(6.2)(3.1)(4J)5、古诺IW 弈：市场反需求函数为P （Q ）= a- Q,其中Q = q 】+q2为市场总产豊q ：为企业i （i = l, 2）的产量。

两个企业的总成本都为Ci （qJ = cqi 。

请您思考以下问题： 1）在完全信息静态条件下，这一博弈的纳什均衡是什么？2）假设这一阶段博弈重复无限次。

试问：在什么样的贴现条件下,证产量组合（響，響）是子博弈精炼纳什均衡的？6、考虑一卞工作申请的佔弈。

两个学生同时向两家企业申请工作，每家企业只有一个工作岗位。

工作申请规则如下：每个学生只能向其中一家企业申请工作；如果一家企业只有一个学生申请，该学生获得工作：如果一家企业有两个学生申请，则每个学生获得工作的概率为1/2。

现在假泄每家企业的工资满足：W 1/2<W :<2W 1,则问: a.写出以上博弈的战略式描述b.求出以上博弈的所有纳什均衡7、（差异价格竞争）假立两个寡头企业进行价格竞争，但产品并不完全相同，企业，的市场需求门厂）="-门+匕仏丿=1，2）,两家企业的生产成本函数为 g 求两个寡头同时选择价格时的纳什均衡。

博弈论与信息经济学-4.不完全信息动态博弈

I11
L
p
M
I21
R
1-p
1 3
U
2 1
B
0 0
U
0 2
B
0 1
根据局中人2的推断可知，局中人2选 R 的期望支付为 1 p ，选 U
的期望支付为
p 2(1 p) 2 p
①
L R
③
A D
I31
③
U
②
B
A
D
4 4 4
1 1 1
5 5 0
2 2 2
3 3 0
均衡（L,B,A）并不是一个合理的均衡。因为如果博弈进入参与人2的信息集，参与人2应该选择U而不是B。不可能用子博弈精炼纳什均衡的概念剔除（L,B,A），但可以使用精炼贝叶斯均衡剔除这个不合理的均衡。
( A, L, L' ) r1( A, L, L' ) r2 ( A, L, L' ) r3 ( A, L, L' )
r3 ( A, L, L' ) {L' , R'}
，
( A, L, L' ) 为纳什均衡。
{( A, L, L' ), p 0} 对于要求1与3的满足是显然的，现考虑要求2

给定局中人的推断，局中人的策略必须满足序贯理性的要求。即在每一信息
集中，应该行动的局中人（以及局中人随后的策略），对于给定的该局中人的推断，以及其余局中人随后的策略（其中“随后的策略”是在达到给定的信息集之后，包括了其后可能发生的每种情况的完全的行动计划）必须是最优反应。

博弈论基础5-不完全信息动态博弈

QSC QSC QSC
Page: Page:1 1
不完全信息动态博弈
不完全信息动态博弈，也称动态贝叶斯博弈。动态贝叶斯博弈与静态贝叶斯博弈在许多方面是相似的，差别只是动态贝叶斯博弈转化成的不是两阶段有同时选择的特殊不完美信息动态博弈，而是更一般的不完美信息动态博弈，因此可以直接利用不完美信息动态博弈的均衡概念进行分析。
The foundation of Game Theory
客户1 存款客户2 存款不存款存款不存款不存款
博弈论基础 —不完全信息动态博弈
钱世超 Qian Shichao
E-mail: scqian@
提前客户2 提前
（1,1）（1,1）（1,1）
客户1 到期到期提前到期
博弈论基础 ... Copyright 版权所有，博弈论基础 Copyright © 2005 ECUST. All rights reserved. 华东理工大学版权所有，翻印必究。博弈论基础 Copyright © © 2005 2005 ECUST. ECUST. All All rights rights reserved. reserved. 华东理工大学华东理工大学版权所有，翻印必究。翻印必究。 QSC QSC QSC
Page: Page:3 3
不完全信息动态博弈分析的基本思路
“自然”首先选择参与人的类型（参与人自己知道，其他人不知道，转换成不完美信息动态博弈参与人按先后顺序行动，后行动者能观察到先行动者的行动，但观察不到先行动者的确切类型。由于行动的类型依存性，后行动者可以通过先行动者的行为推断或修正对先行动者的类型判断（先验信息），而后确定自己的行为。先行动者预计自己的行为将被后者利用，因此将通过选择能传递对自己有利信息的行动博弈的过程不仅是参与人不断选择行动的过程，也是参与人不断修正对对手的判断的过程

博弈论四种类型

贝叶斯纳什均衡
贝叶斯纳什均衡
混合战略（不完全信息情况下纯战略均衡的极限）
对原混合战略加入少许不确定性因素，求极限。
性别战
1、均衡存在性
2、不确定性体现为类型的不确定性
一般贝叶斯均衡
Harsanyi转换
机制设计
不完全信息动态博弈
在博弈开始前参与人之间的信息存在不确定性，同时参与人行动存在先后顺序。不完全信息动态博弈过程不仅是参与人选择行动的过程，而且是参与人不断修正信念的过程。
无限次重复博弈均衡（无名氏定理）
与贴现因子有关
囚徒困境（冷酷战略）
无限期轮流讨价还价模型
一般博弈
逆向归纳法求解
斯坦科尔伯格寡头竞争
雇主与公会之间的竞争
不完全信息静态博弈
在博弈开始之前参与人之间的信息存在不确定性，但是参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。
不确定是参与人的了性的不确定性
精炼贝叶斯纳什均衡
信号传递博弈
分离均衡
根据所得信息修正判断概率，根据收益最大化决策
信号传递博弈
不完全信息重复博弈与声誉
Milgrom-Roberts垄断限价模型
不完全信息动态博弈子博弈精炼纳什均衡与海萨尼不完全信息静态博弈贝叶斯均衡的结合。
混同均衡
准分离均衡
类型
信息和行动特点
均衡
均衡类型
特别均衡
求解方法
学过的例子
性质
完全信息静态博弈
每个参与人对其他所有参与人的特征、战略空间及支付函数有精确的了解，博弈开始时不存在不确定性因素，参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。战略和行动相同。
纳什均衡
纯战略纳什均衡(PNE)

博弈论

• 4. 战略(strategy)
• 指参与人在给定信息集的情况下的行动规则，它规定参与人在什么时候选择什么行动。 • （1）一般用si 表示第i个参与人的一个特定战略，Si = {si}代表第i 个参与人的所有可选择的战略集合。如果n个参与人每人选择一个战略， n维向量s=（s1,…,si,…,sn ）称为一个战略组合(strategy profile)，其中si是第i个参与人选择的战略。
•
囚徒困境引出重要结论：一种制度（体制）安排，要发生效力，必须是一种纳什均衡。否则，这种制度安排便不能成立。现实中囚徒困境问题：军备竞赛、公共产品私人提供、寡头竞争等。
领域
纳什均衡（增产，增产）
制度安排
寡头竞争公共产品私人提供
• （2）战略与行动是两个不同的概念，战略是行动的规则而不是行动本身。 • 例如：“人不犯我，我不犯人；人若犯我，我必犯人”是一种战略，“犯”与“不犯”是两种行动，战略规定了什么时候“犯”，什么时候 “不犯”。 • （3）作为一种行动规则，战略必须是完备的，它要给出参与人在每一种可想象到的情况下的行动选择，即使参与人并不预期这种情况会实际发生。
博弈论
西北大学经济管理学院
课程主体结构
一、博弈论概述二、博弈论的基本概念三、完全信息静态博弈四、完全信息动态博弈
课程主体结构
五、不完全信息静态博弈
六、不完全信息动态博弈
一、博弈论概述
• 1.博弈论概念（game theory） • （1）博弈：又称为对策或游戏，是指一些人或组织在“策略相互依存”情形下相互影响、互相作用的状态。 • （2）博弈论：研究决策主体的行为发生直接相互作用时的决策，以及这种决策的均衡问题，即当一个主体的选择受到其他主体选择的影响，而且反过来影响到其他主体选择时的决策问题和均衡问题。

博弈论四种博弈类型

华为在阿根廷电信设备市场上的竞争博弈华为技术有限公司是一家总部位于中国广东省深圳市的生产销售电信设备的员工持股的民营科技公司，经过数十年的发展，成为全球最大的电信网络解决方案提供商，全球第二大电信基站设备供应商，同时也是全球第六大手机厂商，其海外市场的利润占到其总利润的75%。

在华为进入阿根廷电信设备市场之前，阿根廷的电信设备市场由爱立信、阿尔卡特-朗讯以及阿根廷本土设备供应商三家共同分享市场份额，接下来，我们将分析其不同条件下的博弈结果：1、完全信息情况下的静态博弈A 、纳什均衡：我们将上述三家公司统称为原有垄断者，华为称为虎视眈眈的潜在进入者，原有垄断者想要保住自己现有的垄断地位，就会想要阻止潜在进入者进入，在这个博弈中，原有垄断者有两种选择：一是进行斗争，打价格战；二是不斗争，默许其进入从而共同竞争，具体的支付矩阵结果表示如下：原有垄断者潜在进入者进入不进入根据纳什均衡的定义：各个参与者所做的是在给定其他参与者的策略是所能够做出的最好的一组策略。

当潜在进入者选择进入时，原有垄断者的最优选择是不斗争，获得70单位的利润；同样的，原有垄断者选择不斗争的情况下，潜在进入者的最优选择是进入，获得20单位的利润，从而获得一个要求纳什均衡的均衡（进入，不斗争），同理可以得出另一个纳什均衡（不进入，斗争）。

B 、占优策略：现假设华为公司已经获得了阿根廷电信集团的经营许可证，在严格管制情况下二者都不能以低于成本的价格进行价格战，同时禁止出现单一寡头垄断的情形，（各自均有正的利润）在这两种情况下考虑两者是否进行价格战的情况，具体支付矩阵如下所示：原有垄断者低价高价潜在进入者低价高价对于潜在进入者而言，不论原有垄断者是否进行价格战，潜在进入者的占优策略都是进行价格战，因为在原有垄断者定低价时，潜在进入者定低价可以获得额外的20单位利润，在原有垄断者定高价时，潜在进入者定低价可以获得额外的10单位利润，从而确定华为必将进行价格战，在完全信息情况下，原有垄断者会将自己置于潜在进入者的位置进行决策，从而决定自己也要进行价格战，否则会失去更多的利润。

博弈论第六章习题

第六章习题一、判断下列表述是否正确，并作简单分析（1）完全但不完美信息动态博弈中各博弈方都不清楚博弈的进程，但清楚博弈的得益。

答:不一定,不是所有博弈方都不清楚博弈的进程，只要有一个博弈方都不完全清楚博弈的进程。

(2)不完美信息动态博弈中的信息不完美性都是客观因素造成的，而非主观因素造成.答：错。

信息不完美很多是人为因素所造成的，因为出于各自的动机和目的，人们在市场竞争或合作中常常会故意隐瞒自己的行为。

（3)在完全但不完美信息动态博弈中,若不存在混合策略，并且各博弈方都是主动选择且行为理性的，则不完美信息从本质上说是“假的”。

答:正确。

因为只包含理性博弈方的主动选择行为，利益结构明确,而且不同路径有严格优劣之分，从不需要用混合策略的动态博弈来说，所有博弈方选择的路径都可以通过分析加以确定和预测，根本无须观察。

从这个意义上说，这种博弈的不完美信息实际上都是假的. (4）子博弈可以从一个多节点信息集开始。

答：不能从多节点信息集开始，因为多节点必然分割信息集。

(5）不完美信息是指至少某个博弈方在一个阶段完全没有博弈进程的信息。

答:不是完全没有博弈进程的信息,而是没有完美的信息,只有以概率判断形式给出的信息。

二、用柠檬原理和逆向选择的思想解释老年人投保困难的原因。

答：“柠檬原理”是在信息不完美且消费者缺乏识别能力的市场中，劣质品赶走优质品,最后搞垮整个市场机制。

“逆向选择”是在同样不完美市场和消费者缺乏识别能力的市场中，当价格可变时，价格和质量循环下降，市场不断向低端发展的机制。

老年人投保的分析：大致思路是由于信息不对称，费用越来越高,投保人的健康状况好的比例越来越小，最终发展成为只有身体不好的人才参加投保。

如果允许调整费率，保险公司为了避免亏损降低风险,上调保费率,健康状况相对好一些的退出市场，整个市场状况恶化.……这就是逆向选择机制在老年保险市场上作用的结果。

三、用完全但不完美信息动态博弈的思想,讨论我国治理假冒伪劣现象很困难的原因。

博弈论7不完全信息动态博弈概论

❖ 定义：精炼贝叶斯均衡s*(t)=( s*1 (t1), …, s*n
(tn))是一个战略组合，和一个后验概率组合
p ( p1, p2 , , pn ) ，满足：
(1) 对于所有的参与人i，在每一个信息集h，
arg max si*(si ,ti )
pi (ti aih )ui (si , si , ti )
❖ 即在每一个信息集中应该行动的参与者(以及参与者随后的战略)，对于给定的该参与者在此信息集中的推断，以及其他参与者随后的战略必须是最优反应。
❖ 要求1意味着如果博弈的进行达到参与者2的非单节信息集，则参与者2必须对具体到达哪一个节(也就是参与者1选择了L还是R)有一个推断。这样的推断就表示为到达这两个节的概率p和1－p。
❖ 当参与人 i在他的某个信息集h上观察到其他
n-1个参与人行动组合 ahi ，条件概率 , pi (ti | ahi ) 是参与者i在观察到 ahi 的情况下，
对参与者的类型t-i的修改，这个修正产生
pi (ti | ahi )的推断称为后验概率
❖ 在例1图7-1中，设R(t11),R(t12)是参与人1的两个战略。从而该博弈表示为完全但不完美
❖ 假定i属于类型tk的先验概率为
K
p(tk ) 0, p(tk ) 1 k 1
❖ 给定i属于tk，i选择ah的条件概率为
p(ah tk ), p(ah tk ) 1 h
❖ 则i选择ah的全概率是：
❖ 根据概率公式，观测到i选择了行动ah，i属于类型tk的后验概率为：
p(ah tk ) p(tk ) p(ah t k ) p(t k )
❖ 参与人的行动是类型依存的，每个参与人的行动都传递着有关自己类型的某种信息，

讲义6-不完全信息动态博弈.讲义

管理博弈论
（Management Game Theory)
第六讲不完全信息动态博弈主讲人：张成科博士广东工业大学经济与贸易学院
zhangck@
第五章不完全信息动态博弈精练贝叶斯纳什均衡

一精练贝叶斯纳什均衡
基本思路
贝叶斯法则
精练贝叶斯纳什均衡不完美信息博弈的精练贝叶斯均衡
基本思路图示
在不完全信息动态博弈中，由于信息不完全，故子博弈的概念不能精确细致地描述动态博弈中的各个阶段，从而就不能剔除那些包含“不合理信念”的 Nash均衡。但是其推理逻辑可用，即“新均衡”不仅在整个博弈上构成Bayes 均衡，而且从每一个信息集开始的“后续博弈”上也构成Bayes均衡。但还不能剔除“总是认为先验概率不变”这样的不合理行为。而实际上，参与人都是依据他们的观测信息对自己的先验概率进行修正的-------这需要用精练Bayes 均衡。给定别人的战略，自己的战略是最优的，即没人愿独自偏离 Nash均衡在完全信息动态博弈中无法剔除不可置信威胁战略子博弈精练Nash均衡不仅是整个博弈的Nash均衡，而且是每个子博弈的 Nash均衡

修正之后的判断称为“后验概率”
贝叶斯法则就是人们根据新的信息从先验概率得到后验概率的基本方法。
贝叶斯法则

以不完全信息博弈为例说明贝叶斯法则：假定参与人的类型是独立分布的，参与人i有K个类型，有H个可能的行动，θk和ah分别代表一个特定的类型和一个特定的行动。如果我们观察到i选择了ah，我们要问i属于θk的后验概率是多少？

二信号传递博弈及其应用举例
三博弈论概念简要总结
不完全信息动态博弈引例

《经济博弈论》复习题参考答案

《经济博弈论》复习题及参考答案一、名词解释1、混合战略纳什均衡如果在博弈的利益表中，无法找到任何一方都可以接受（不一定利益最大化）的方案，也就是没有哪一种组合是在给定对手策略下没有动机改变自己策略的情况。

这时博弈没有纯策略均衡，需要一个“概率表”指导博弈结果。

在博弈G={S1,S2……Sn；U1,U2……Un}中第i个博弈方策略空间为Si={Si1……Sik}则博弈方以概率分布Pi=(Pi……Pik)随机在k个可选策略中选的的策略称为一个混合策略纳什均衡。

2、子博弈精炼纳什均衡对于扩展式博弈的策略组合S*=(S1*,…,Si*,…,Sn*) ,如果它是原博弈的纳什均衡;它在每一个子博弈上也都构成纳什均衡,则它是一个子博弈精炼纳什均衡。

子博弈精练纳什均衡所要求的是参与人应该是序惯理性的。

对于有限完美信息博弈，逆向归纳法是求解子博弈精炼纳什均衡的最简便的方法。

3、完全信息动态博弈完全信息动态博弈，是指博弈中信息是完全的，即双方都掌握参与者对他参与人的战略空间和战略组合下的支付函数有完全的了解，但行动是有先后顺序的，后动者可以观察到前者的行动，了解前者行动的所有信息。

4、不完全信息动态博弈指在动态博弈中，行动有先后次序，博弈的每一参与人知道其他参与人的有哪几种类型以及各种类型出现的概率，即知道“自然”参与人的不同类型与相应选择之间的关系，但是，参与人并不知道其他的参与人具体属于哪一种类型。

由于行动有先后顺序，后行动者可以通过观察先行动者的行为，获得有关先行动者的信息，从而证实或修正自己对先行动者的行动。

5、完全信息静态博弈完全信息静态博弈指的是信息对于博弈双方来说是完全公开的情况下，双方在博弈中所决定的决策是同时的或者不同时但在对方做决策前不为对方所知的。

6、囚徒困境囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

博弈论第8次课——不完全信息动态博弈共59页文档

40、人类法律，事物有规律，这是不容忽视的。— —爱献生
谢谢！
36、自己的鞋子，自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——得很慢，但是我从不后退。——亚伯拉罕·林肯
39、勿问成功的秘诀为何，且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔，思而不学则殆。——孔子
博弈论第8次课——不完全信息动态博弈
36、如果我们国家的法律中只有某种神灵，而不是殚精竭虑将神灵揉进宪法，总体上来说，法律就会更好。—— 马克·吐温 37、纲纪废弃之日，便是暴政兴起之时。— —威·皮物特
38、若是没有公众舆论的支持，法律是丝毫没有力量的。 ——菲力普斯 39、一个判例造出另一个判例，它们迅速累聚，进而变成法律。 ——朱尼厄斯

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

给定参与者2的推断，选择R ′的期望收益就等于p×0+(1－p)×1=1－p。选择L′的期望收益等于p×1+(1－p) ×2=2－p。由于对任意的p，都有2－p >l－p，要求2排除了2选择R′的可能性。
R
(1,3) L 2 M

[p]
[1-p]
L′
R′
L′
R′

(2,1) (0,0)

如果我们将从每一个信息集开始的博弈的剩余部分称为一个“后续博弈”（注意与子博弈的不同：子博弈必须开始于单结信息集），一个“合理”的均衡应该满足：给定每一个参与人有关其它参与人类型的后验信息，参与人的战略组合在每一个后续博弈上构成贝叶斯均衡。

精炼贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯推断的结合。它要求： (1) 在每一个信息集上，决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布(信念)； (2) 给定该信息集上的概率分布和其他参与人的后续战略，参与人的行动必须是最优的； (3) 每一个参与人根据贝叶斯法则和均衡战略修正后验概率。

参与人的行动是类型依存的，每个参与人的行动都传递着有关自己类型的某种信息，后行动者可以通过观察先行动者所选择的行动来推断其类型或修正对其类型的先验信念 (概率分布)，然后选择自己的最优行动。

先行动者预测到自己的行动将被后行动者所利用，就会设法选择传递对自己最有利的信息，避免传递对自己不利的信息。因此，博弈过程不仅是参与人选择行动的过程，而且是参与人不断修正“信念” 的过程。
按照海萨尼转换，该博弈表示为：
N
t11
1
t12
[1 P]
[ P]
m1
2
m2
m1
a1
1 2
m2
a1
a1 a1
a2
a2
a2
Байду номын сангаас
a2
图7-2
注释：参与人i对其他参与人的类型（私人信息）t-i的信念 pi (ti | ti ) 称为先验概率。当参与人 i在他的某个信息集h上观察到其他 h a n-1个参与人行动组合 i ，条件概率 h h i (ti | a p ) a , 是参与者i在观察到 i 的情况下， i 对参与者的类型t-i的修改，这个修正产生 h i (ti | a p i )的推断称为后验概率

在图7.3的子博弈精炼纳什均衡(L, L′)中，参与者2 的推断一定是 p=1 ：给定参与者 1的均衡战略，参与者2 知道已经到了信息集中的哪一个节。作为要求3的另一种说明，设想在图7.3中存在一个混合战略均衡，其中参与者 1 选择 L 的概率为 q1 ， M 的概率为 q2 ，选择 R 的概率为 1-q1-q2 。要求 3 则强制性规定参与者 2 的推断必须是 p= q1/( q1+ q2)。

在例1图7-1中，设R(t11),R(t12)是参与人1的两个战略。从而该博弈表示为完全但不完美的动态博弈图7-3 。
1
L
R(t11 )
[ P]
2
R(t12 )
[1 P]
2
(2, 2)
R
A
B
A
B
(0, 0)
(0,1) 图7-3
(1, 0)
(3,1)
参与人2
A
参与人 1
B
2,2 0,1
L
R(t11 )[ p]
R(t12 )[1 p]
2,2 0,0
1,0
3,1
对于参与人2的任何信念p2 ( p,1- p), 行动A都要弱劣与B，因此均衡（L, A ）是参与人2的不可信威胁：
但（L,A）又排除不掉，因为没有子博弈。假设在参与人2的信息集h2上,观察到R产生的后验概率为 p (t11 | R) q, p (t12 | R) 1 q,

例题1：参与人i=1,2; 参与人1的行动空间A1=｛L,R｝参与人1的类型空间T1=｛t11,t12｝参与人2的行动空间A2=｛A,B｝参与人2的类型空间T2=｛t2｝,单点集，因此参与人1对参与人2的信念p1=1; 参与人2对参与人1的信念p2=(p,1-p); 参与人1先行动，参与人2后行动。
(p 1 , p 2 ,, p n ) 和一个后验概率组合 p ，满足下列要求R1-R4：

要求1：在每一信息集中，应该行动
的参与者必须对博弈进行到该信息集中的哪个节有一个推断。
对于非单节信息集，推断是在信息
集中不同节点的一个概率分布；对于单节的信息集，参与者的推断就是到达单一决策节的概率为1。
7.1.4 精炼贝叶斯均衡的等价定义

不完全信息静态博弈的海萨尼转换也适用于不完全信息动态博弈，经过海萨尼转换的不完全信息动态博弈与完全但不完美信息动态博弈没有多少差别。

等价定义：精炼贝叶斯均衡是一个战略组合
s* (t ) (s*1 (t1 ), s2* (t2 ),, s*n (tn ))

(t11 | R) 0, p (t12 | R) 1, p

，所以就删掉了（ L，A ）
7.1 精炼贝叶斯纳什均衡
7.1.1后续博弈引入精炼贝叶斯均衡的目的是：
为了进一步强化 ( 即加强对条件的要求 )
贝叶斯纳什均衡，这和子博弈精炼纳什均衡强化了纳什均衡是相同的。
Pr ob{t k a h } p(a h t k ) p(t k ) Pr ob{a }
h

p(a h t k ) p(t k )

k 1
K
p(a h t k ) p(t k )

注意：精炼贝叶斯均衡假定参与人是
根据贝叶斯法则修正先验概率的。
不过，贝叶斯法则要求 Prob{ah}>0，即参与人 i 必须以正的概率选择 ah ，

用更为广义的后续博弈的概念来代替子博弈，后续博弈可开始于任何信息集（而不论是否单结）。

其后，进行相似的分析：如果参与者的战略要构成为博弈的一个精练贝叶斯均衡，它不仅必须是整个博弈的贝叶斯纳什均衡，而且必须构成每一个后续博弈的贝叶斯均衡。
[ 例子 ] ：市场进入博弈（该博弈的扩展式表述模型见图7.2）
否则，后验概率没有定义。
如果 Prob{ah} ＝ 0 ，允许 Prob{tk|ah} 在
[0,1] 区间取任何值，只要所取的值与均衡战略相容。
在动态博弈中，Prob{ah}=0对应的是非
均衡路径上的信息集。
7.1.3精炼贝叶斯均衡

假定有 n 个参与人，参与人 i 的类型是是私人信息， p(t-i|ti) 是属于类型 ti 的参与人认为其他 n-1 参与人属于类型t-i =(t1,…, ti-1, t i +1, …, tn) 的先验概率。

这时，参与者2选择A的期望收益为： 0*q+0*(1-q)=0 选择B的期望收益为： 1*q+1*(1-q)=1>0 所以参与人2一定会选择B.
参与人1知道理性的参与人2轮到他决策的信息集h2上会选择B，因此参与人的最优战略就是R(t12). 既然参与人1决定选择R(t12)，因此参与人2修正的信念推断是

7.1.2 贝叶斯法则

统计学上，修正之前的判断称为 “ 先验概率 ” ，修正之后的判断称为 “后验概率”。贝叶斯法则是人们根据新的信息从“先验概率”得到“后验概率”的基本方法。
一个不完全信息博弈中，假定参与人的
类型是独立分布的，参与人 i 有 K 个可能类型，有H个可能行动。

要求 2 ：给定参与者的推断，参与者的战略必须满足序贯理性的要求。即在每一个信息集中应该行动的参与者(以及参与者随后的战略)，对于给定的该参与者在此信息集中的推断，以及其他参与者随后的战略必须是最优反应。要求1意味着如果博弈的进行达到参与者 2的非单节信息集，则参与者2必须对具体到达哪一个节 ( 也就是参与者1选择了L还是R)有一个推断。这样的推断就表示为到达这两个节的概率p和1－p。

定义：精炼贝叶斯均衡s*(t)=( s*1 (t1), …, s*n
1 2 n
(tn))是一个战略组合，和一个后验概率组合 (p ,p ,, p ) ，满足： p (1) 对于所有的参与人i，在每一个信息集h，
si t i
i (ti aih )ui ( si , si , ti ) si* ( si , ti ) arg max p
第七章不完全信息动态博弈

至少部分博弈方没有关于得益全部信息的动态博弈，称“不完全信息动态博弈”或“动态贝叶斯博弈’。

在不完全信息动态博弈中，按照海萨尼转换，博弈进行的先后顺序可以描述为：首先，“自然” 选择参与人的类型，参与人自己知道，其他参与人不知道；其次，参与人开始行动，参与人的行动有先有后，后行动者能观测到先行动者的行动，但不能观测到先行动者的类型。
解:
（1）NE (A,L), (B,R). 具体略（2）无子博弈，因此为SPNE. （3）下面求PBNE. 按照PBNE的定义，需要满足条件： R1---R4. R1: 参与人1的信息集h1={x},显然信念 p1=1;参与人2的信息集h2={y1,y2}, 信念 p2=(p,1-p),其中0≤p≤1;
R2:给定参与人2的信念p2=(p,1-p),其中
0≤p≤1;参与人2选择L,M,R的期望收益为： E2L=2*p+1*(1-p)=1+p E2M=1*p+0*(1-p)=p E2R=1*p+1*(1-p)=1 任意的0≤p≤1，都有E2M ≤ E2R ≤ E2L，所以参与人2的最优战略：s*2=L.