博弈论7不完全信息动态博弈概论

合集下载

第5讲-不完全信息动态博弈

第5讲-不完全信息动态博弈
第5讲 不完全信息动态博弈
1.基本思路
• 在不完全信息动态博弈(dynamic game of incomplete information)中,“自然”首先选择 参与人的类型,参与人自己知道,其他参与人不 知道;在自然选择之后,参与人开始行动,参与 人的行动有先有后,后行动者能观测到先行动者 的行动,但不能观测到先行动者的类型。
第5讲 不完全信息动态博弈
不一样的。假定存在一个价格P*,只有低成本企业 才有利可图,而高成本企业司不敢模仿这个价格 的。 • 那么,精炼贝叶斯均衡是,低成本在位者选择P*, 高成本企业选择一个较高的垄断价格。如果进入 者观察到在位者选择了P*,这就推断其为低成本, 不进入;否则,就认为在位者是高成本,进入。 • 这就是由米尔格罗姆和罗伯茨于1982年提出的著 名的“垄断限价模型”。
马上认为这个人一定是好人,除非这件好事非常非常地好,因为否 则的话,坏人总是有积极性干件好事以使我们认为他是一个好人)。 当然,如果我们认为坏人干好事并不仅仅是为了假装好人,我们对 他的看法就不会改变,因为,根据贝叶斯法则:
第5讲 不完全信息动态博弈
ProbBP GT p*1 =1
q*0 P*1 这里,p>0是坏人干好事的概率,q>0好人干好事的概率。 从上面例子可以看到,我们如何改变对一个人的看法不仅依赖于我们 认为他是好人或坏人的先验概率,而且依赖于我们如何“认为”好人 干好事和坏人干好事的条件概率。
• 但是,因为参与人的行动是类型依存的,每个参 与人的行动都传递着有关自己类型的某种信息, 后行动者可以通过观察先行动者所选择的行动来
第5讲 不完全信息动态博弈
推断其类型或修正对其类型的先验信念(概率分 布),然后选择自己的最优行动。先行动者预测 到自己的行动将被后行动者所利用,就会设法选 择传递对自己最有利的信息,避免传递对自己不 利的信息。 • 因此,博弈过程不仅是参与人选择行动的过程, 而且是参与人不断修正信念的过程。

不完全信息动态博弈

不完全信息动态博弈

有偏好的早餐。软弱型假装成粗暴型而避免冲突,获得更高利润。
b,1 D [p] Q
D 0,1 B [q]
b+d,0 0,-1
N R
D [1-p] Q
N
0.1
N
0.9
N d,0 R D b,-
1 B [1-q]
N
信号博弈的完美贝叶斯均衡
斯彭斯的劳动力模型
考察下面的信号博弈模型(斯彭斯,1974):在模型中,有两个参 与人,一个雇主和一个雇员,记雇员为参与人1(信号发送者),雇 主为参与人2(信号接收者),雇主是不知情的参与人。博弈顺序为:
,不偏好的早餐价值为0,而避免冲突价值

对接收者来说,与软弱型(粗暴型)冲突的支付为
1(-1),所有其他支付为0。
“啤酒和热狗”信号博弈
在啤酒和热狗博弈中,
是发送者的一个分离策略,这里
代表在发送者是软弱类型的情况下,选择热狗。如果 ,那
么,发送者的策略
和接收者的策略
以及后验概率
和 是这个博弈的完美贝叶斯均衡。这里 代表在发送 者选择热狗的情况下,接收者选择冲突,也可以类似地解释 。
不完全信息动态博弈
1.1.1 基本概念
不完全信息意味着至少有一个参与人拥有私人信息, 通常用类型表示拥有不同私人信息的参与人,类型由“ 自然”或“上帝”给定。
博弈顺序: (1)“自然”选择参与人的类型,并 将类型告诉参与人自己,不告诉其他参与人,只将类型 分布告诉其他参与人;(2)参与人开始行动,参与人 的行动有先有后,后行动者能观察到先行动者的行动, 而不能观察到先行动者的类型。
(surly);B代表啤酒,Q代表热狗;D代表与发送者冲突(duel),
N代表不与发送者冲突。 [p]表示当接收者接收到信号 后,认为发

第4讲:不完全信息动态博弈

第4讲:不完全信息动态博弈
18
作业
1、下图是一个信号传递博弈:自然首先选择参与人1的类型,参与人1知道自 然的选择,参与人2不知道,只知道参与人1属于t1和t2的可能性相等;参与 人1然后选择信号L或R;参与人2最后选择行动U或D,博弈结束,效用向量 如终点结所示。给出找个博弈的所有纯策略分离均衡和混同均衡。
N
t1
1
L
R
t2 L
在所有这些均衡中,低成本在位者限制自己的价格低于垄断价格以阻止进
入者进入。
15
不完全信息重复博弈与声誉
声誉模型涉及不完全信息重复博弈中的合作行为。
•我们已经知道,在完全信息情况下,不论阶段博弈重复多少次,只有重复 的次数是有限的,唯一的均衡是每个参与人在每次博弈中选择单次静态的 均衡策略,从而,有限次重复不可能导致参与人的合作行为。
6
则精炼贝叶斯均衡定义为:
精炼贝叶斯均衡是一个策略组合s*()(s1*(1), ,sn*(n)) 和一个后 验概率组合p(p1, ,pn) ,满足: 1、精炼条件:对于所有的参与人i,在每一个信息集h,
si*(si,i)argmax pi(i |ahi)ui(si,si,i) si
2、贝叶斯法则:pi(i |ahi)是使用贝叶斯法则从先验概率 pi(i |i)观测到的ahi 和最优策略 s*i 得到的。
1
R
2
2
2
2
U
DU
DU
D
U
D
(1,1) (2,0) (2,2) (0,0) (0,0) (0,1) (1,0) (1,1)
19
2、一对夫妇离婚是要分财产。根据法律规定,婚姻期间形成的财产的所有 权各占一半。但因为家庭财产由不同的部分组成,要对财产的价值作一 个客观的估计是很困难的;特别地,由于个人的兴趣和出于对未来生活 的考虑,夫妻双方对不同财产的评价是不同的。因此,二人免不了要对 什么物品归谁所有而发生争执。经过几个回合的谈判,两人同意按以下 规则办事:女方对物品作价(如电视机为3000元,电冰箱为2000元,等 等);如果男方愿意支付女方1/2的价格,该物品归男方所有;否则,女 方必须支付男方1/2的价格,该物品归女方所有。考虑单件物品(如电视 机),我们用vM和vF分别代表该物品对男方和女方的真实价值。假定vM 和vF都是私人信息,但双方都知道vM和vF在区间[2000,3000]上独立、均 匀分布(即分布函数是共同知识),求出精炼贝叶斯纳什均衡。

博弈论概述

博弈论概述
“坦白”是A的占优策略。同样,“坦白”也是B的占优策略。
一般地,称 si*为局中人i的(严格)占优策略, 若对应所有的
si , s i*是i的严格最优策略 , 即:
ui (si*, si ) ui (si' , si ) si , si' si*
对应地,所有的 si' si* 被称为“劣策略”。注意:这
甲的策略
1
2
3
乙的策略
1
7
8
9
2
6
2
3
3
5
4
0
1.乙先行动。若乙选1,则甲选3;乙选2,则甲选1;乙选3, 则甲选1。乙在行动时会估计到甲的行动,它估计三种选择 中的最高代价为策略1(损失900万),其次为策略2(损失 600万),最低为策略3(损失为500万)。因此,乙必选代 价最低的策略3。——最大最小原理。结论:乙选择3,甲选 1作为回应,乙损失500万,甲获益500万。
在博弈论里,一个博弈可以有两种表述方式:一种是策 略式(strategic form representation)表述,另一种是 扩展式( extensive form representation )表述。前者 适合于讨论静态博弈,后者适合于讨论动态博弈。在策略式 表述中,所有参与人同时选择各自的策略,所有参与人选择 的策略一起决定每个参与人的支付。
2007 - Leonid Hurwicz, Eric S. Maskin, Roger B. Myerson 2005 - Robert J. Aumann, Thomas C. Schelling 2001 - George A. Akerlof, A. Michael Spence, Joseph E.

不完全信息动态博弈-精练贝叶斯纳什均衡

不完全信息动态博弈-精练贝叶斯纳什均衡
不完全信息动态博弈-精练贝叶斯纳什均衡

一 精练贝叶斯纳什均衡 基本思路


贝叶斯法则
精练贝叶斯纳什均衡 不完美信息博弈的精练贝叶斯均衡 二 信号传递博弈及其应用举例 三 博弈论概念简要总结
基本思路-不完全信息动态博弈

类型:自然首先选择参与人的类型,参与人自己知道,其 他参与人不知道。--不完全信息
行动:行动有先有后,后行动者能观测到先行动者的行动, 但不能观测到其类型。--动态博弈 但是,参与人是类型依存型的,每个参与人的行动都 传递有关自己类型的信息,后行动者可以通过观察先行动 者的行动来推断自己的最优行动。先行动者预测到自己的 行动被后行动者利用,就会设法传递对自己最有利的信息。


不完全信息动态博弈过程不仅是参与人选择行动的过程, 而且是参与人不断修正信念的过程。
[x]

T=2,如果进入者已进入,在位 者成本函数为共同知识,若在位 者为高成本,p=5时,每个企业 利润为3,扣除进入成本2,进入 者利润为1。若在位者为低成本, p=4,在位者利润是5,进入者成 本为1,扣除进入成本2,其利润 为-1。
P=6
进入者 进入 不进入 进入 不进入 进入 不进入 进入 不进入 进入
价格
在位者高成本时的利润 在位者低成5
6 9
P=6
7 8
基本思路-不完全信息动态博弈
进入者只有一种类型:进入成本为2,如果进入,生产成本函数与在 位者高成本函数相同。
T=2,如果进入者已进入,在位者成本函数为共同知识,若在位者为 高成本,企业企业成本函数相同,对称库诺特均衡产量下的价格p=5时, 每个企业利润为3,扣除进入成本2,进入者利润为1。若在位者为低成本, 两个企业成本函数不同,非对称库诺特均衡产量下的价格p=4,在位者利润 是5,进入者成本为1,扣除进入成本2,其利润为-1。

第4章 不完全信息动态博弈

第4章 不完全信息动态博弈

精炼贝叶斯均衡
运用子博弈精炼均衡概念的逻辑,将从每一个 信息集开始的博弈的剩余部分称为一个“后续 博弈”(不同于子博弈,因为子博弈必须开始 于单结信息集,并且不能切割信息集), 一个“合理”的均衡要求,给定每一个参与人 有关其他参与人类型的后验信念,参与人的战 略组合在每一个后续博弈上构成贝叶斯均衡。 假定参与人(在所有可能的情况下)根据贝叶斯 法则修正先验信念,并且,每个参与人都假定 其他参与人选择的是均衡战略。
战略空间与支付函数
如果在位者是高成本,两个企业的成本函数相 同,对称库诺特均衡产量下的价格为p=5,每 个企业的利润是3,扣除进入成本2,进入者的 净利润是1; 如果在位者是低成本,两个企业的成本函数不 同,非对称库诺特均衡产量下的价格是p=4, 在位者的利润是5,进入者的利润是1,扣除进 入成本2,进入者的净利润是-1。
精炼贝叶斯均衡
精炼贝叶斯均衡是均衡战略和均衡信念的结 合 , 给 定 信 念 p = ( p1 , … , pn ) , 战 略 组 合
s*=(s*1, …, s*n)是最优的;给定战略s*=(s*1, …, ) s*=(s* s*n),信念p=(p1,…,pn)是使用贝叶斯法则从 均衡战略和所观测到的行动得到的பைடு நூலகம் 在精炼贝叶斯均衡中,后验概率依赖于均衡战 略,均衡战略依赖于后验概率,如果我们不知 道先行动者如何选择,我们就不可能知道后行 动者应该如何选择,必须使用前向法进行贝叶 斯修正。
不完全信息动态博弈 -市场进入阻挠
一个单阶段非最优价格会减少现期利润,但如 果它能阻止进入者进入,从而使在位者在第2 阶段得到垄断利润,而不是库诺特均衡利润, 如果垄断利润与库诺特均衡利润之间的差距足 够大,如果在位者有足够的耐心,选择一个单 阶段非最优价格可能是最优的。 在均衡情况下,在位者的价格选择不仅与其成 本函数有关,而且与进入者的后验概率有关; 不论先验概率µ为多少,单阶段最优垄断价格 不构成一个均衡。

07 不完全信息动态博弈

07 不完全信息动态博弈

行为方行为
a1
声明方 类型
a2
1,1 2,0 1. 2. 3. 不同类型的声明方必须偏好行为方不同行为 对应声明方不同类型,行为方必须偏好不同行为 行为方的偏好必须与声明方具有一致性
t1 t2
2,0 1,1
不能传递信息(声明方 与行为方偏好相反)
练习
行为方行为
a1
声明方 t2 类型
t3
t1
0,1 0,0 0,0
信号博弈精炼贝叶斯均衡
1.信号接收方 R在观察到信号发出方 S的信号 m j 之后,必须有关于 S的类型 的判断,即 S选择 m j时, S是每种类型 ti的概率分布 p (ti | m j ) ≥ 0, ∑ p (ti |m j ) = 1
ti
2.给定 R的判断 p (ti | m j )和 S的信号 m j,R的行为 a * ( m j )必须使 R的期望得益 最大,即 a * ( m j )是最大化问题 max ∑ p (ti |m j )u R (ti , m j , ak )的解
引例2 引例2
N
[u ] 高
在位者 P=4 进入者 进 不进 进 进 不进 不进 进 P=6
底 [1 − u ]
P=5
P=4
P=5
P=6
进 不进
不进 进
不进
在位者的垄断利润情况 P=4 高成本 低成本 2 6 P=5 6 9 P=6 7 8
两企业同在市场的各自利润情况 均衡价格 高成本 低成本 5 4 在位者 3 5 进入者 3-2=1 1-2= -1
那么在第一阶段,低成本的甲权衡: 那么在第一阶段,低成本的甲权衡: 选择价格5 无法扭转乙的信念,甲的收益为14 14; 选择价格5,无法扭转乙的信念,甲的收益为14; 选择价格4 进一步揭示自己的低成本,则乙不进入,甲收益15 15; 选择价格4,进一步揭示自己的低成本,则乙不进入,甲收益15; 权衡比较选择价格4 权衡比较选择价格4 高成本的甲则需要权衡: 高成本的甲则需要权衡: 选择价格为6,导致乙坚定的进入市场,甲收益为10 选择价格为 ,导致乙坚定的进入市场,甲收益为 选择价格5,乙无法修正先验概率则进入,甲收益为9 选择价格 ,乙无法修正先验概率则进入,甲收益为 选择4不划算 选择 不划算 权衡比较选择价格6 权衡比较选择价格

非完全信息动态博弈博弈论吉本斯.pptx

非完全信息动态博弈博弈论吉本斯.pptx

27
第28页/共59页
Example 1-厂商的分离均衡纯策略
•.
(保修,不保修)
(1,0.5) Y [1] 保修 厂商 不保修[0] Y (-1,1)
(0,0) N
H
[0.5]
N (0,0)
客户
自然
客户
(-1,-0.5)Y [0]
(0,0) N
保修
[0.5] L
不保修 [1] 厂商
Y (1,0.5) N (0,0)
19
第20页/共59页
Signaling game
• Sender和 Receiver 都有四个纯策略.
Sender的纯策略:
(m1,m1), (m1,m2), (m2,m1), (m2,m2)
(m1,m1), (m2,m2):混同(pooling strategies)策略
(m1,m2), (m2,m1):分离(separating strategies)策略
q1 1 1 q2
1
11
第12页/共59页
Requirement 4
• 要求 4. 对处于均衡路径之外的信息集, 推断由贝叶斯法则以及可能情况下的参与人的均衡策略给出. • 定义 .满足要求1到4的策略和推断构成博弈的完美贝叶斯均衡(perfect Bayesian equilibrium ).
17
第18页/共59页
Signaling game
•图
a1
m1
S
m2
a1
a2
t1 [p]
a2
R
N
R
a1
[1-p] a1
t2
a2
m1 S
m2
a2

博弈论与信息经济学-4.不完全信息动态博弈

博弈论与信息经济学-4.不完全信息动态博弈

I11
L
p
M
I21
R
1-p
1 3
U
2 1
B
0 0
U
0 2
B
0 1
根据局中人2的推断可知,局中人2选 R 的期望支付为 1 p ,选 U
的期望支付为
p 2(1 p) 2 p

L R

A D
I31

U

B
A
D
4 4 4
1 1 1
5 5 0
2 2 2
3 3 0
均衡(L,B,A)并不是一个合理的均衡。因为如果博 弈进入参与人2的信息集,参与人2应该选择U而不 是B。 不可能用子博弈精炼纳什均衡的概念剔除(L,B,A), 但可以使用精炼贝叶斯均衡剔除这个不合理的均衡。
( A, L, L' ) r1( A, L, L' ) r2 ( A, L, L' ) r3 ( A, L, L' )
r3 ( A, L, L' ) {L' , R'}

( A, L, L' ) 为纳什均衡。
{( A, L, L' ), p 0} 对于要求1与3的满足是显然的,现考虑要求2

给定局中人的推断,局中人的策略必须满足序贯理性的要求。即在每一信息
集中,应该行动的局中人(以及局中人随后的策略),对于给定的该局中人 的推断,以及其余局中人随后的策略(其中“随后的策略”是在达到给定的 信息集之后,包括了其后可能发生的每种情况的完全的行动计划)必须是最 优反应。

博弈论第8次课——不完全信息动态博弈

博弈论第8次课——不完全信息动态博弈

市场进入博弈
博弈两个局中人,一个“在位者”,一 个“进入者”。考虑t=1,2两个时期,在 t=1,市场上有一个垄断企业( “在位 者” )在生产,一个潜在的进入者是否进 入;如果“进入者”进入,两个企业进行 Cournot博弈,否则,“在位者”依然是 一垄断者。
市场进入博弈
假设“在位者”有两种类型:高成本、低成 本, “在位者”存在“私人信息”;进入者只 知道“在位者”是高成本的概率为 ,低成本 的概率为 。 1
战略组合(B,L,U)是一NE,没有参与 人愿意单独偏离这一结果 这一组战略及推断也满足要 求l到3(要求3自动满足)。
1 B (2,0,0) F 2
3的信息集不在均衡路径上。 精炼贝叶斯均衡要求:3在非均 衡路径的信息集上的“判断” 也必须与2的均衡战略L吻合。 1-p
L
3
p
R D
(3,3,3) U (0,1,2)
(一) 精炼贝叶斯均衡
李四预测到这一点,即使生性懦弱,也会强迫自己 吃辣椒,以传达对自己有利的信息。 两种结果: ——懦弱李四不吃辣椒,强悍李四吃辣椒且吃的足 够多,使得懦弱李四不敢模仿,张三能够区分李 四类型并选择是否欺负李四。
——两类李四都吃同样多辣椒,张三不能从李四吃 辣椒行为中推出自己的信息,维持对李四的类型 的先验信念{0.8,0.2}
(三) 信号博弈
先行动者可直接告诉后行动者自己类型,但后行动者不会相 信。如果要让后行动者相信,必须做出一种努力(使自己 付出成本),该成本是其他类型的先行动者不能模仿的 ——称成本支付为一种信号。通过该信号,先行动者能够告 诉后行动者自己的真实类型 例,企业金融市场融资,但投资者对真实赢利能力不了解。 真正高赢利能力的企业可以通过向投资者支付较高的权 益份额来区分自己和低赢利能力的企业,从而让投资者识 别自己的真实类型而投资。 另一方面,低赢利能力企业对自己真实赢利能力是清楚 的,不敢模仿高赢利能力企业,只能承诺低权益份额,投 资者不会投资。

博弈论

博弈论

• 4. 战略(strategy)
• 指参与人在给定信息集的情况下的行动规则, 它规定参与人在什么时候选择什么行动。 • (1)一般用si 表示第i个参与人的一个特定战 略,Si = {si}代表第i 个参与人的所有可选择 的战略集合。如果n个参与人每人选择一个战略, n维向量s=(s1,…,si,…,sn )称为一个战略组 合(strategy profile),其中si是第i个参与人 选择的战略。

囚徒困境引出重要结 论: 一种制度(体制)安 排,要发生效力,必须是 一种纳什均衡。否则,这 种制度安排便不能成立。 现实中囚徒困境问题: 军备竞赛、公共产品私 人提供、寡头竞争等。
领域
纳什均衡 (增产,增 产)
制度安排
寡头竞争 公共产品 私人 提供
• (2)战略与行动是两个不同的概念,战略是行动 的规则而不是行动本身。 • 例如:“人不犯我,我不犯人;人若犯我,我 必犯人”是一种战略,“犯”与“不犯”是两种 行动,战略规定了什么时候“犯”,什么时候 “不犯”。 • (3)作为一种行动规则,战略必须是完备的,它 要给出参与人在每一种可想象到的情况下的行动 选择,即使参与人并不预期这种情况会实际发生。
博 弈 论
西 北 大 学 经济管理学院
课程主体结构
一、博弈论概述 二、博弈论的基本概念 三、完全信息静态博弈 四、完全信息动态博弈
课程主体结构
五、不完全信息静态博弈
六、不完全信息动态博弈
一、博弈论概述
• 1.博弈论概念(game theory) • (1)博弈:又称为对策或游戏,是指一些人或组 织在“策略相互依存”情形下相互影响、互相作 用的状态。 • (2)博弈论:研究决策主体的行为发生直接相互 作用时的决策,以及这种决策的均衡问题,即当 一个主体的选择受到其他主体选择的影响,而且 反过来影响到其他主体选择时的决策问题和均衡 问题。

第八章 不完全信息动态博弈

第八章 不完全信息动态博弈
两种不同类型的声明方,行为方采取两种不同 行为时双方的得益。如图所示。
1,0
图8,1能传递信息的声明博弈
从双方的得益可以看出: t1类型的声明方和t2类型的声明方偏好行为的不同行为a1和a2。两个博弈方
的偏好具有完全的一致性。这种偏好的一致性使得声明方愿意让行为者了解 自己的真实类型,能有效传递信息,而行为方则可以完全相信声明方的声明。
易都是那么犹豫呢?

其价值主要取决于交换价值而不是使用价值,其效用和价 值基础的主观程度高。因此对古玩价值的评价非常困难,而 且相互之间很难了解对方的评价。 双方都无法知道对方的估
价,相互的得益都不可能清楚,一般是卖方先开价,然后卖
方再还价。因此是不完全信息的动态博弈。也即动态贝叶斯 博弈。

不完全信息动态博弈问题

广告对消费者的影响
学历、成绩在招聘人才、员工中的作用
投保人寿保险前的体检
学生考试前和毕业论文中的诚信承诺
8.1.2 类型和海萨尼转换
动态贝叶斯博弈也可以通过海萨尼转换,引进
自然对博弈方类型的选择,转化为完全但不完美信
息动态博弈。
经过海萨尼转换以后,动态贝叶斯博弈与一般
克劳馥和索贝尔证明,当b不等于0时,存在一种“部分合并
均衡”的完美贝叶斯均衡。其基本特征是类型空间[0,1]被分成n
个区间 [0,x1),[x1,x2),…,[xn-1,1] ,属于同一区间类型的声明方作同 样声明,在不同区间类型的声明方作不同声明。 声明方采用这种分组的合并均衡策略时,最后形成的完美贝叶 斯均衡称为“部分合并完美贝叶斯均衡”。
离散型声明博弈很难得出一般意义的结论。
8.2.2 连续型声明博弈

第七章 不完全信息动态博弈

第七章  不完全信息动态博弈

第七章 不完全信息动态博弈本章将在动态博弈中引入信息不对称因素,其博弈的内容被称为不完全信息动态博弈(uncomplete information dynamic game )。

不完全信息动态博弈就其基本要素来看是前面引入的不完全信息概念与博弈的动态性质的一种综合。

譬如,我们在处理不完全信息要素时是通过将某些局中人“类型”的不确定性作为信息不完全性的一种表征,这种方法将继续在本章中得以采用,即博弈中局中人面临的信息不完全性(无论它是指何种信息)将完全由某些局中人的“类型”的不确定性加以刻画。

同时,作为动态博弈,正如我们在第五章中所指出的那样,“序贯理性”的思想将一直得到贯彻。

我们将第五章中引入的“子博弈精炼均衡”的思想作类似的推广于不完全信息动态博弈。

这种延续在逻辑上是必需的,因为一旦我们在不完全信息动态博弈中将信息不完全程度削减到零,则不完全信息动态博弈就自然应退化成一种完全信息动态博弈,其相应的精炼均衡概念就应回到子博弈精炼均衡。

从这种意义上来看,不完全信息动态博弈的精炼均衡概念是子博弈精炼均衡概念的一种推广,正如不完全信息动态博弈应被视作完全信息动态博弈的一种推广一样。

7.1 精炼贝叶斯均衡在本小节中,我们来构造不完全信息动态博弈的均衡概念,特别是贯彻了“序贯理性”原则的精炼均衡概念。

首先,博弈的纳什均衡是一种“僵持”状态的战略组合,当所有的局中人都选择该战略组合中给出的相应战略时,任何一个局中人都不会有单方面偏离这一选择的动机。

作为动态博弈,一个战略是局中人在其可能进行行动选择的所有信息集上将作何选择的一整套规定或计划,而作为不完全信息博弈,这种规定或计划还是“类型依存”的,即不同类型的局中人将选择不同的战略规定。

因此,一个不完全信息动态博弈的纳什均衡将是指这样的一种类型依存性的战略组合(或战略组合的族),当给定其他局中人的战略时(其他局中人的战略是类型依存的,所以,说给定其他局中人的战略即指给定其他局中人的战略与类型的依存关系),任一局中人在其任何类型下由该组合给出的类型依存战略给出的战略是其最优的。

不完全信息博弈分析

不完全信息博弈分析
静态博弈
指参与者在同一时间内做出选择的博弈。
静态博弈的策略分析
纯策略
01
指参与者在博弈中采取的单一策略,每个参与者都有若干个纯
策略可供选择。
混合策略
02
指参与者以一定的概率分布随机选择不同的策略,以最大化预
期收益。
优势策略
03
指不论其他参与者选择何种策略,该参与者选择的策略总是最
优的策略。
静态博弈的均衡分析
要点二
详细描述
在囚徒困境中,两个囚犯因为被隔离审讯而无法沟通,每 个囚犯都有坦白和不坦白两种选择。如果双方都不坦白, 则都无罪释放;如果一方坦白而另一方不坦白,则坦白的 一方会被释放而另一方会被判刑;如果双方都坦白,则都 会被判刑。因为无法信任对方,所以每个囚犯都选择了坦 白,最终导致双方都不利的结果。
纳什均衡
指在给定其他参与者策略的情况 下,每个参与者都选择最优策略, 此时所有参与者的策略组合构成 纳什均衡。
优势策略均衡
指在给定其他参与者策略的情况 下,每个参与者都有优势策略可 供选择,此时所有参与者的策略 组合构成优势策略均衡。
风险优势均衡
指在给定其他参与者策略的情况 下,每个参与者选择风险优势最 大的策略,此时所有参与者的策 略组合构成风险优势均衡。
序贯均衡
在给定自己类型和他人的类型概率分布的情况下,每个参 与人在每个决策节点上选择最优策略,使得期望效用最大 化。
PART 03
不完全信息静态博弈
静态博弈的基本概念
博弈
指参与者在给定信息的情况下,根据各自的策略 进行选择,并最终获得收益的过程。
不完全信息
指参与者在博弈中无法完全掌握其他参与者的信 息,如其他参与者的类型、偏好等。

讲义7-不完全信息动态博弈(续1)——信号博弈

讲义7-不完全信息动态博弈(续1)——信号博弈

p(tk|mj)≡p(tk)
在K=J=2时的混同均衡
后验概率 p(t1|m1)=p(t1), p(t1|m2)=p(t1); p(t2|m1)=p(t2), p(t2|m2)=p(t2)。 意味着:
2 1 2 1 2 2
(t m)u (m, a, t ) p (t )u (m, a, t ) p (t )u (m, a, t ) p
——此处参与人的最优是指根据修正概率计算的期望支付最优。
其中:m(t)是参与人1的类型依存信号策略,a(m)是参与人2 的行为策略(允许混合策略)。
信号传递博弈的精练Bayes均衡定义
定义: 信号传递博弈的精练Bayes均衡是战略组 合(m*(t),a*(m))和后验概率p(ti|m)的结合, 它满足:
u1(m1, a*(m),t1)=u1(m2, a*(m),t1) u1(m1, a*(m),t2)<u1(m2, a*(m),t2)
p
(t1|m1)=
p (t1 ) 0 p(t2 )
p(t1 )
1
(1 ) p(t1 ) p(t1 ) 2 P (t1|m )= (1 ) p(t ) 1 p(t ) 1 2
在K=J=2时的分离均衡
后验概率 p(t1|m1)=1,p(t1|m2)=0; p(t2|m1)=0,p(t2|m2)=1。 意味着:
(t m)u (m, a, t ) p (t p
2 t 1
(t 2 m)u2 (m, a, t 2 ) m)u2 (m, a, t1 ) p
1 2 1
从而
(t m )u (m , a, t ) u (m , a, t ) p
1 1 2 t 2 2 2 p ( t m ) u ( m , a , t ) u ( m , a, t 2 ) 2 2 t

博弈论

博弈论

个词:供给与需求。博弈论专家坎多瑞引申说:要成为现
代经济学家,这只鹦鹉必须再多学一个词,这个词就是 “纳什均衡”。
纳什均衡是完全信息静态博弈的一般情况。占优 战略均衡和重复剔除的占优战略均衡是其中的特例, 并且是均存在唯一的纳什均衡点。
举例: “性别之战”
男方和女方商量共度周末。男方喜欢看足球,而女
1、子博弈精炼纳什均衡
房地产开发博弈
B 开发 A 开发
不开发 不开发
-3,-3 0,1
1,0
0,0
开发商A是先行者。并且在行动之前拥有后行动者B
选择战略的完全信息。
对B的战略进行了预测,在不计较得失的情况下 ,
预测结果无非有这么几种选择:

无论A是否开发,B都要开发。 如果A开发,B也开发;如果A不开发,B也不开发; 如果A开发,B不开发;如果A不开发,B就开发; 无论A是否开发,B必定开发。
高成本
默许
进入
A
低成本
默许 阻挠
阻挠
-10,0 0,300
B
40,50 0,300
30,100 0,400
-10,140
0,400
不进入
假定高成本的概率为x,则低成本的概率为1-x B进入得到的期望利润为40x+(-10)(1-x) B不进入得到的期望利润为0 B最终是否进入取决于两者得到的期望利润,进入的
第七章
博弈论
要想在现代社会中做一个有文化的人, 你必须对博弈论有一个大致了解。 ——保罗.萨谬尔森
主要内容:
博弈问题概述
完全信息静态博弈
完全信息动态博弈
不完全信息静态博弈 不完全信息动态博弈
一、博弈ame Theory ):是研究决策主体的行 为发生直接相互作用时候的决策以及这种决策的均衡问 题的。又称对策论,是描述、分析多人对策行为的理论 现代经济博奕理论始于1944年冯· 诺依曼(John Von Neumann)和莫根施特恩(Oskar Margenston)的《博奕论 与经济行为》一书。

7 不完全信息动态博弈--博弈论

7 不完全信息动态博弈--博弈论

当观察到p=4时,根据进入者的判断m’=p(H|4)=0,进 入的期望得益m’*(1)+(1-m’)*(-1)=-1<0,最佳选择是不 “进入”; 当观察到p= 6时,根据进入者的判断m’=p(H|6)=1,进入 的期望得益m’*(1)+(1-m’)*(-1)=1,最佳选择是“进入; 当观察到p= 5时,m’= p(H|5) >1/2,进入者的期望得益 m’*(1)+(1-m’)*(-1)=1, 最佳选择是“进入”
证明
3)判断的形成

均衡路径上:当在位者不论是高成本还是低成本,都 选择p=5时,进入者依据其“信念”:p(5|L)=1, p(5|H)=1(即使在位者是高成本也会模仿低成本)。得 到后验概率: m’=p(H|5)=m<1/2(即使进入者知道在位 者有可能模仿,但无法得到贝叶斯修正)。 非均衡路径上: 由于在位者即使是高成本也会模仿低 成本,因此高成本在p(6|H)=0 ,p(4|H)=0,得到判断 p(H|6)=0 ,p(L|4)=1。
N
高成本 m
低成本 1-m
在位者 P=4 进入者 2

P=5
P=6 7
不 进 进 不 进 进
P=4 6
P=5 9
不进 进
P=6
6
不 进 进
8
不 进 进 不 进
(3,1)
(7,0) (3,1)
(7,0) (3,1) (7,0) (5,-1) (9,0) (5,-1) (9,0) (5,-1)
(9,0)
在位者
P=4
进入者

P=5
P=6
P=4
P=5
P=6
不 进 进
不 进 进
不 进 进
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 参与人i=1,2;
❖ 参与人1(在位者)的行动空间
A1={m1 (低价格),m2(高价格)} ❖ 参与人1的类型空间
T1={t11 (高成本),t12 (低成本)} ❖ 参与人2(进入者)的行动空间
A2= a1 (进入),a2(不进入)} ❖ 参与人2的类型空间T2={t2},单点集,因此参与人
参与人1对参与人2的信念p1=1; ❖ 参与人2对参与人1的信念p2=(p,1-p); ❖ 参与人1先行动,参与人2后行动。
按照海萨尼转换,该博弈表示为:
L
(2, 2)
t11
[P] 1
R
2
N t12
[1 P] 1
R
L
2
(2, 2)
A
B
A
B
(0, 0)
(0,1)
(1, 0)
(3,1)
图7-1
❖ቤተ መጻሕፍቲ ባይዱ例题2:考察一个市场进入博弈
❖ 但(L,A)又排除不掉,因为没有子博弈。 ❖ 假设在参与人2的信息集h2上,观察到R产生
的后验概率为 p(t11 | R) q, p(t12 | R) 1 q,

❖ 这时,参与者2选择A的期望收益为: 0*q+0*(1-q)=0 选择B的期望收益为: 1*q+1*(1-q)=1>0
所以参与人2一定会选择B.
❖ 当参与人 i在他的某个信息集h上观察到其他
n-1个参与人行动组合 ahi ,条件概率 , pi (ti | ahi ) 是参与者i在观察到 ahi 的情况下,
对参与者的类型t-i的修改,这个修正产生
pi (ti | ahi )的推断称为后验概率
❖ 在例1图7-1中,设R(t11),R(t12)是参与人1的 两个战略。从而该博弈表示为完全但不完美
❖ 假定i属于类型tk的先验概率为
K
p(tk ) 0, p(tk ) 1 k 1
❖ 给定i属于tk,i选择ah的条件概率为
p(ah tk ), p(ah tk ) 1 h
❖ 则i选择ah的全概率是:
❖ 根据概率公式,观测到i选择了行 动ah,i属于类型tk的后验概率为:
1对参与人2的信念p1=1; ❖ 参与人2对参与人1的信念p2=(p,1-p);
按照海萨尼转换,该博弈表示为:
N
t11
t12
1 [P]
m1
m2
2
[1 P]
m1
1 2
m2
a1
a2
a1
a2 a1
a2
a1
a2
图7-2
❖ 注释:
❖ 参与人i对其他参与人的类型(私人信息)t-i的 信念 pi (ti | ti ) 称为先验概率。
❖ 为了进一步强化(即加强对条件的要求) 贝叶斯纳什均衡,这和子博弈精炼纳什 均衡强化了纳什均衡是相同的。
❖ 用更为广义的后续博弈的概念来代替子博弈,后续 博弈可开始于任何信息集(而不论是否单结)。
❖ 其后,进行相似的分析:如果参与者的战略要构成 为博弈的一个精练贝叶斯均衡,它不仅必须是整个 博弈的贝叶斯纳什均衡,而且必须构成每一个后续 博弈的贝叶斯均衡。
7.1.2 贝叶斯法则
❖ 统计学上,修正之前的判断称为 “先验概率”,修正之后的判断称为 “后验概率”。贝叶斯法则是人们根据 新的信息从“先验概率”得到“后验概 率”的基本方法。
❖ 一个不完全信息博弈中,假定参与人的 类型是独立分布的,参与人i有K个可能 类型,有H个可能行动。
❖ 用tk和ah分别代表一个特定的类型和一 个特定的行动。
的动态博弈图7-3 。
1
L
(2, 2) R
R (t11 )
[P] 2
R(t12 ) [1 P] 2
A B
A
(0, 0)
(0,1) (1,0)
B (3,1)
图7-3
参与人2
A
B

L
2,2
2,2

R(t11)[ p]
0,0
0,1

R(t12 )[1 p]
1,0
3,1
1
对于参与人2的任何信念p2 ( p,1- p),行动A都要弱劣与B, 因此均衡(L, A)是参与人2的不可信威胁:
❖ 因此,博弈过程不仅是参与人选择行动 的过程,而且是参与人不断修正“信念” 的过程。
❖ 例题1:
❖ 参与人i=1,2;
❖ 参与人1的行动空间A1={L,R} ❖ 参与人1的类型空间T1={t11,t12} ❖ 参与人2的行动空间A2={A,B} ❖ 参与人2的类型空间T2={t2},单点集,因此
第七章 不完全信息动态博弈
❖ 至少部分博弈方没有关于得益 全部信息的动态博弈,称“不完 全信息动态博弈”或“动态贝叶 斯博弈’。
❖ 在不完全信息动态博弈中,按照海萨尼转换, 博弈进行的先后顺序可以描述为:
❖ 首先,“自然” 选择参与人的类型,参与人 自己知道,其他参与人不知道;
❖ 其次,参与人开始行动,参与人的行动有先 有后,后行动者能观测到先行动者的行动, 但不能观测到先行动者的类型。
❖ [例子]:市场进入博弈(该博弈的扩展式表述模型 见图7.2)
❖ 如果我们将从每一个信息集开始的博弈 的剩余部分称为一个“后续博弈”(注 意与子博弈的不同:子博弈必须开始于 单结信息集),一个“合理”的均衡应 该满足:
❖ 给定每一个参与人有关其它参与人类型 的后验信息,参与人的战略组合在每一 个后续博弈上构成贝叶斯均衡。
❖ 参与人1知道理性的参与人2轮到他决策 的信息集h2上会选择B,因此参与人的最 优战略就是R(t12).
❖ 既然参与人1决定选择R(t12),因此参与 人2修正的信念推断是
p(t11 | R) 0, p(t12 | R) 1,
❖ ,所以就删掉了( L,A )
7.1 精炼贝叶斯纳什均衡
❖ 7.1.1后续博弈 ❖ 引入精炼贝叶斯均衡的目的是:
❖ 参与人的行动是类型依存的,每个参与人的 行动都传递着有关自己类型的某种信息,
❖ 后行动者可以通过观察先行动者所选择的行 动来推断其类型或修正对其类型的先验信念 (概率分布),然后选择自己的最优行动。
❖ 先行动者预测到自己的行动将被后行动 者所利用,就会设法选择传递对自己最 有利的信息,避免传递对自己不利的信 息。
❖ 精炼贝叶斯均衡是贝叶斯均衡、子博弈精练 均衡和贝叶斯推断的结合。它要求:
❖ (1)在每一个信息集上,决策者必须有一 个定义在属于该信息集的所有决策结上的一 个概率分布(信念);
❖ (2)给定该信息集上的概率分布和其他参 与人的后续战略,参与人的行动必须是最优 的;
❖ (3)每一个参与人根据贝叶斯法则和均衡 战略修正后验概率。
相关文档
最新文档