博弈论7 不完全信息动态博弈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
要求 2 :给定参与者的推断,参与者的战略必须满 足序贯理性的要求。 即在每一个信息集中应该行动的参与者(以及参与者 随后的战略),对于给定的该参与者在此信息集中的 推断,以及其他参与者随后的战略必须是最优反应。 要求1意味着如果博弈的进行达到参与者 2的非单节 信息集,则参与者2必须对具体到达哪一个节 ( 也就 是参与者1选择了L还是R)有一个推断。这样的推断 就表示为到达这两个节的概率p和1-p。
第七章 不完全信息动态博弈
至少部分博弈方没有关于得益 全部信息的动态博弈,称“不完 全信息动态博弈”或“动态贝叶 斯博弈’。
在不完全信息动态博弈中,按照海萨尼转换, 博弈进行的先后顺序可以描述为: 首先,“自然” 选择参与人的类型,参与人 自己知道,其他参与人不知道; 其次,参与人开始行动,参与人的行动有先 有后,后行动者能观测到先行动者的行动, 但不能观测到先行动者的类型。
按照海萨尼转换,该博弈表示为:
N
t11
1
t12
[1 P]
[ P]
m1
2
m2
m1
a1
1 2
m2
a1
a1 a1
a2
a2
a2
a2
图7-2
注释: 参与人i对其他参与人的类型(私人信息)t-i的 信念 pi (ti | ti ) 称为先验概率。 当参与人 i在他的某个信息集h上观察到其他 h a n-1个参与人行动组合 i ,条件概率 h h i (ti | a p ) a , 是参与者i在观察到 i 的情况下, i 对参与者的类型t-i的修改,这个修正产生 h i (ti | a p i )的推断称为后验概率
(1,3) L
q1
2 R′
q2
L′
M
[p] L′
[1-p] R′
(2,1)
(0,0)
(0,2)
(0,1)
7.2 例题分析
例1、完全信息但不完美动态博弈如下: 1 A B x y1 y2 R R M L M L
(1,2) (2,1)
求:(1)NE;
(3,1) (0,1) (1,0)
(3,1)
(2)SPNE;(3)PBNE
这时,参与者2选择A的期望收益为: 0*q+0*(1-q)=0 选择B的期望收益为: 1*q+1*(1-q)=1>0 所以参与人2一定会选择B.
参与人1知道理性的参与人2轮到他决策 的信息集h2上会选择B,因此参与人的最 优战略就是R(t12). 既然参与人1决定选择R(t12),因此参与 人2修正的信念推断是
例题1: 参与人i=1,2; 参与人1的行动空间A1={L,R} 参与人1的类型空间T1={t11,t12} 参与人2的行动空间A2={A,B} 参与人2的类型空间T2={t2},单点集,因此 参与人1对参与人2的信念p1=1; 参与人2对参与人1的信念p2=(p,1-p); 参与人1先行动,参与人2后行动。
令 Si 是 i 的战略空间, si∈Si 是一个特定战略 (它依赖类型ti), ah-i =( ah1,…, ahi-1, ahi+1, …, ahn)是在第h信 息集上参与人 i 观测到的其他 n-1 个参与人的 行动组合,它是战略组合s-i =(s1,…, s i -1, s i +1, …, sn)的一部分(即s-i规定的行动),
R2:给定参与人2的信念p2=(p,1-p),其中
0≤p≤1;参与人2选择L,M,R的期望收益 为: E2L=2*p+1*(1-p)=1+p E2M=1*p+0*(1-p)=p E2R=1*p+1*(1-p)=1 任意的0≤p≤1,都有E2M ≤ E2R ≤ E2L, 所以 参与人2的最优战略:s*2=L.
参与人的行动是类型依存的,每个参与人的 行动都传递着有关自己类型的某种信息, 后行动者可以通过观察先行动者所选择的行 动来推断其类型或修正对其类型的先验信念 (概率分布),然后选择自己的最优行动。
先行动者预测到自己的行动将被后行动 者所利用,就会设法选择传递对自己最 有利的信息,避免传递对自己不利的信 息。 因此,博弈过程不仅是参与人选择行动 的过程,而且是参与人不断修正“信念” 的过程。
Pr ob{t k a h } p(a h t k ) p(t k ) Pr ob{a }
h
p(a h t k ) p(t k )
k 1
K
p(a h t k ) p(t k )
注意:精炼贝叶斯均衡假定参与人是
根据贝叶斯法则修正先验概率的。
不过,贝叶斯法则要求 Prob{ah}>0, 即参与人 i 必须以正的概率选择 ah ,
在图7.3的子博弈精炼纳什均衡(L, L′)中,参与者2 的推断一定是 p=1 :给定参与者 1的均衡战略,参与者2 知道已经到了信息集中的哪一个节。作为要求3的另一种 说明,设想在图7.3中存在一个混合战略均衡,其中参与 者 1 选择 L 的概率为 q1 , M 的概率为 q2 ,选择 R 的概率为 1-q1-q2 。要求 3 则强制性规定参与者 2 的推断必须是 p= q1/( q1+ q2)。
否则,后验概率没有定义。
如果 Prob{ah} = 0 ,允许 Prob{tk|ah} 在
[0,1] 区间取任何值,只要所取的值与 均衡战略相容。
在动态博弈中,Prob{ah}=0对应的是非
均衡路径上的信息集。
7.1.3精炼贝叶斯均衡
假定有 n 个参与人,参与人 i 的类型是是私 人信息, p(t-i|ti) 是属于类型 ti 的参与人认为其他 n-1 参与人属于类型t-i =(t1,…, ti-1, t i +1, …, tn) 的先验概率。
用 tk 和 ah 分别代表一个特定的类型和一
个特定的行动。
假定i属于类型tk的先验概率为
p(t k ) 0, p(t k ) 1
k 1 K
给定i属于tk,i选择ah的条件概率为
p(a h t k ), h p(a h t k ) 1
则i选择ah的全概率是:
根据概率公式,观测到 i 选择了行 动ah,i属于类型tk的后验概率为:
L
R(t11 )[ p]
R(t12 )[1 p]
2,2 0,0
1,0
3,1
对于参与人2的任何信念p2 ( p,1- p), 行动A都要弱劣与B, 因此均衡(L, A )是参与人2的不可信威胁:
但(L,A)又排除不掉,因为没有子博弈。 假设在参与人2的信息集h2上,观察到R产生 的后验概率为 p (t11 | R) q, p (t12 | R) 1 q,
(t11 | R) 0, p (t12 | R) 1, p
,所以就删掉了( L,A )
7.1 精炼贝叶斯纳什均衡
7.1.1后续博弈 引入精炼贝叶斯均衡的目的是:
为了进一步强化 ( 即加强对条件的要求 )
贝叶斯纳什均衡,这和子博弈精炼纳什 均衡强化了纳什均衡是相同的。
(0,2)
(0,1)
图7.4
定义:对于一个给定的扩展式博弈中给 定的均衡,如果博弈根据均衡战略进行 时将以正的概率达到某信息集,我们称 此信息集处于均衡路径之上。 反之,如果博弈根据均衡战略进行时, 肯定不会达到某信息集,我们称之为处 于均衡战略路径之外的信息集。
要求3:在处于均衡路径之上的信息集中,推 断由贝叶斯法则及参与者的均衡战略给出。 要求4:对处于均衡路径之外的信息集,推断 由贝叶斯法则以及可能情况下的参与者的均 衡战略决定。
7.1.2 贝叶斯法则
统计学上,修正之前的判断称为 “ 先 验概 率 ” , 修 正之 后 的判 断 称为 “后验概率”。贝叶斯法则是人们根据 新的信息从“先验概率”得到“后验概 率”的基本方法。
一个不完全信息博弈中,假定参与人的
类型是独立分布的,参与人 i 有 K 个可能 类型,有H个可能行动。
7.1.4 精炼贝叶斯均衡的等价定义
不完全信息静态博弈的海萨尼转换也适用 于不完全信息动态博弈,经过海萨尼转换的 不完全信息动态博弈与完全但不完美信息动 态博弈没有多少差别。
等价定义:精炼贝叶斯均衡是一个战略组合
s* (t ) (s*1 (t1 ), s2* (t2 ),, s*n (tn ))
按照海萨尼转换,该博弈表示为:
N
t11
[ P]
1
L
t12
[1 P]
1
L
R
2
(2, 2)
R
2
(2, 2)
A
B
A
B
(0, 0)
(0,1)
(1, 0)
(3,1)
图7-1
例题2:考察一个市场进入博弈 参与人i=1,2; 参与人1(在位者)的行动空间 A1={m1 (低价格),m2(高价格)} 参与人1的类型空间 T1={t11 (高成本),t12 (低成本)} 参与人2(进入者)的行动空间 A2= a1 (进入),a2(不进入)} 参与人2的类型空间T2={t2},单点集,因此参与人 1对参与人2的信念p1=1; 参与人2对参与人1的信念p2=(p,1-p);
给定参与者2的推断, 选择R ′的期望收益就等于p×0+(1-p)×1=1-p。 选择L′的期望收益等于p×1+(1-p) ×2=2-p。 由于对任意的p,都有2-p >l-p,要求2排除了2选 择R′的可能性。
R
(1,3) L 2 M
Biblioteka Baidu
[p]
[1-p]
L′
R′
L′
R′
(2,1) (0,0)
用更为广义的后续博弈的概念来代替子博弈,后续 博弈可开始于任何信息集(而不论是否单结)。
其后,进行相似的分析:如果参与者的战略要构成 为博弈的一个精练贝叶斯均衡,它不仅必须是整个 博弈的贝叶斯纳什均衡,而且必须构成每一个后续 博弈的贝叶斯均衡。
[ 例子 ] :市场进入博弈(该博弈的扩展式表述模型 见图7.2)
(2) 是使用贝叶斯法则从先验概率p(th h * 得到(在可能 p ( t a i i a i ) 和最优战略s |t ) ,观测到的 i i -i -i 情况下)。
上述定义中, ( 1 )是精炼条件,即精炼贝叶斯均衡
要求均衡战略在每一个“后续博弈”上 构成贝叶斯均衡;
条件( 2 )对应的是贝叶斯法则的运用。
(p 1 , p 2 ,, p n ) 和一个后验概率组合 p ,满足下列要求R1-R4:
要求1:在每一信息集中,应该行动
的参与者必须对博弈进行到该信息 集中的哪个节有一个推断。
对于非单节信息集,推断是在信息
集中不同节点的一个概率分布;对 于单节的信息集,参与者的推断就 是到达单一决策节的概率为1。
定义:精炼贝叶斯均衡s*(t)=( s*1 (t1), …, s*n
1 2 n
(tn))是一个战略组合,和一个后验概率组合 (p ,p ,, p ) ,满足: p (1) 对于所有的参与人i,在每一个信息集h,
si t i
i (ti aih )ui ( si , si , ti ) si* ( si , ti ) arg max p
解:
(1)NE (A,L), (B,R). 具体 略 (2)无子博弈,因此为SPNE. (3)下面求PBNE. 按照PBNE的定义,需要满足条件: R1---R4. R1: 参与人1的信息集h1={x},显然信念 p1=1;参与人2的信息集h2={y1,y2}, 信念 p2=(p,1-p),其中0≤p≤1;
如果我们将从每一个信息集开始的博弈 的剩余部分称为一个“后续博弈”(注 意与子博弈的不同:子博弈必须开始于 单结信息集),一个“合理”的均衡应 该满足: 给定每一个参与人有关其它参与人类型 的后验信息,参与人的战略组合在每一 个后续博弈上构成贝叶斯均衡。
精炼贝叶斯均衡是贝叶斯均衡、子博弈精练 均衡和贝叶斯推断的结合。它要求: (1) 在每一个信息集上,决策者必须有一 个定义在属于该信息集的所有决策结上的一 个概率分布(信念); (2) 给定该信息集上的概率分布和其他参 与人的后续战略,参与人的行动必须是最优 的; (3) 每一个参与人根据贝叶斯法则和均衡 战略修正后验概率。
在例1图7-1中,设R(t11),R(t12)是参与人1的 两个战略。从而该博弈表示为完全但不完美 的动态博弈图7-3 。
1
L
R(t11 )
[ P]
2
R(t12 )
[1 P]
2
(2, 2)
R
A
B
A
B
(0, 0)
(0,1) 图7-3
(1, 0)
(3,1)
参与人2
A
参 与 人 1
B
2,2 0,1