博弈论10 均衡概念比较与PBNE的再精炼
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
尽管精炼贝叶斯均衡的精炼条件剔除了不可 置信的战略 ( 行动 ) ,促它没有剔除不可置信 的信念(后验概率)。 非均衡战略上后验概率的任意性导致了均衡 战略的任意性;当我们把某个行动从潜在均 衡战略中排除掉时,我们同时就将另一些行 动转化为均衡战略。 出现多重均衡是很自然的。
10.1剔除劣战略
10.4 泽尔腾的颤抖手均衡
泽尔腾将非均衡事件的发生解释为“颤抖”: 当一个参与人突然发现一个不该发生的事件发生时 ( 即博弈偏离均衡路径 ) ,他把这个不该发生的事件 的发生归结为某一个其他参与人的非蓄意错误。 通过引入“颤抖”,博弈树上的每个决策结出现的 概率都为正,从而每一个决策结上的最优反应都有 定义,原博弈的均衡可以理解为被颤抖扰动后的博 弈的均衡的极限。
定义:假定(a1*,a2*;μ)是一个精炼贝叶斯 均衡。令 u1* ( θ1 )是类型为 θ1 的参与人 1 的均 衡效用水平。那么, a1′ 是参与人 1 相对于均衡 的劣战略( a1* , a2* ; μ ),如果对参与人 2 的 所有行动,下列条件成立: u1(a1′, a2,θ1)≤u1*(θ1) (至少有一个严格不等式对某些成立。) 进一步,令 Θ1∈Θ是所有满足上述不等式 θ1的 集合,如果Θ1≠Θ,那么,参与人2的非均衡路 径上的合理的后验概率是: (1 a1 ) 0
To 1,任意的混合策略 p1 (s, u, v) , 都有 U1 (L, L) 3 U1 ( p1, L) 3s u v
To 2,任意的混合策略 p2 (h, k ) , 都有
U 2 ( L, L) 1 U 2 ( L, p2 ) k
构造序列
设参与人1的一个混合策略为:
克瑞普斯和威尔逊处理非均衡路径上后验概率的 办法是: 首先假定,在每一个信息集上,参与人选择严格 混合战略(即以严格正的概率选择每一个行动),从 而博弈到达每一个信息集的概率严格为正,贝叶 斯法则在每一个信息集上都有定义; 然后将均衡作为严格混合战略组合和与此相联系 的后验概率的序列的极限。 这样,检查一个战略组合和后验概率是否是一个 均衡就变成:它是否是某个严格混合战略组合和 与此相联系的后验概率的序列的极限。
10.2 直观标准(更适用信号博弈)
在均衡中,至少有一个类型的参与人1想 偏离均衡。“直观标准”剔除所有这些 不合理的精炼贝叶斯均衡。 “直观标准”将劣战略扩展到相对于均 衡战略的劣战略,从而通过剔除更多的 劣战略的办法缩小均衡数量,进一步改 进了精炼贝叶斯均衡概念。
10.2 直观标准
第十章 精炼贝叶斯均衡的再精炼 及其他均衡概念
不完全信息博弈可能存在多重精炼贝叶斯均衡,究 竟哪一个均衡实际上出现,依赖于我们如何规定非 均衡路径上的后验概率。 什么是参与人1的均衡战略,依赖于参与人2认为什 么不是他 ( 参与人 1) 的均衡战略,或者说,参与人 2 认为什么是参与人 l的均衡战略,什么就是参与人 1 的均衡战略,均衡是自动实现的。
u1(a1′,a2′,θ1)≤u1(a1″,a2″,θ1)
(至少有一个严格不等式对于某些( a2′ , a2″ ) 成立。)
要求: 在所有的信息集上,对于参与人2的每— 个可能的后验概率和行动,a1′弱劣于a1″。 这样严格要求的原因是,参与人1在选择自 己的行动时,必须考虑自已的行动传递给 参与人2的有关自己(参与人1)类型的信息。
定义(σ,μ)是一个序贯均衡,如果它满足下列 两个条件: ( 1 ) (σ , μ) 是一个序贯性的:在所有的信息 集 h上,给定后续概率 μ(h) ,没有任何参与人 i 想偏离σi(h);对于所有可行战略σ′i(h),
u i ( h ) ( h, (h)) u i ( h ) ( i( h ) , i ( h ) ) h, (h))
p1m (1 m 2 m , 2 m , m ), 0 2 m 1, 0 m 1. lim m 0
m
由Bayes公式得到,参与人2的两个结点的概率为:
m 2m m 1 m q = , 2m 2m 1 1
表10. 1 参与人2
L
U (1-p ) 参与人1 D(p)
10,0
10,1
R
5,2
2 ,0
在表 10.4.1 中, (D , L) 是一个纳什均衡 ( 弱劣 战略均衡 ) ;只要参与人 2 不选择 R , D 就是参 与人1的最优选择;同样,只要参与人1不选择 U,L就是参与人2的最优选择。但是,如果参与 人2有可能错误地选择R,那么,不论这个错误 发生的概率是多么小,参与人 1 的最优选择就 是U而不是D;预测到这一点,参与人2将选择 R。就是说, (D, L) 不是一个颤抖手均衡。对 比之下,(U,R)是—个颤抖手均衡:不论参与 人2犯错误的概率多大,参与人1没有兴趣选样 D;另一方面,只要参与人1犯错误的概率小于 2/3 ( 2×(1-p)+0×p>0×(1-p)+1×p , 即 p<2/3),参与人2就没有兴趣选择L.
1
L (2,2)
M
R
2 B U
ห้องสมุดไป่ตู้~
U
~ 1
B
(3,1)
(0,0)
(1,0)
(0,1)
~ ~ +0*(1- ~ ) ≤ 0* ~ ~), 1* + 1*(1- ≤1/2,,如果博弈进 入参与人 2 的信息集,他将选择 B 。显然, R 弱劣于 M 。因 此,在博弈开始,参与人2不应该认为参与人1会以任何正 的概率选择R;如果博弈进入参与人 2的信息集,他应该认 ~ 为参与人1选择~ M的概率是1(即 =1)。在这个要求下,均 1/2)被剔除,只有(M,U; =1)是满足这个 衡(L,B; ≤ 要求的精炼贝叶斯均衡。
这个例子事实上暴露出用战略式博弈定 义颤抖手均衡的一个重要缺陷,即:战 略式博弈允许同一参与人在博弈的不同 阶段的错误(颤抖)具有相关性。 表 2 的战略式表述中,参与人 l 在两个阶 段犯的错误是相关的。假定参与人1打算 选择L,但由于颤抖,错误地选择R;给 定参与人1选择了R.假定参与人2以D反 应,那么,参与人1在下阶段选择L‘就是 错上加错。
可见,RL‘弱劣于RR’;剔除RL‘后,D弱优于U, 因此,重复剔除弱劣战略得到的纳什均衡是 (RR’ , D),但是,被剔除掉的 (L, U)是一个颤抖手均衡, 这是因为:如果参与人 2 选择 U 的概率非常大 ( 大 于2/3),参与人1的最优选择是L; 另一方面,如果参与人1以1-2/m选择L,1/m的概 率选择 RL‘ 或 RR’( 因此, 2/m 是参与人 1 犯错误的 概 率 ) , 参 与 人 2 选 择 U 的 期 望 效 用 是 (1)(1 - 2/m)+(2)(1/m)+(2 ) (1/m)=1+2/m ,选择 D 的期望 效用是 (1)(1-2/m)+(0)(1/m) 十 (3)(1/m) = 1+1/m , 所以U优于D;令m趋于无穷,我们得到(L,U)是 一个颤抖手均衡。
m m i i
在定义中,隐含地假定任何一个参与人 犯错误的机会与其他参与人犯错误的机 会无关 (或者说,颤抖在参与人之间是独 立发生的)。 但是,如上定义的颤抖手均衡并不排除 在重复剔除弱战略过程中被剔除的战略。 这一点可以用表1说明。
表1
参与人2
参 与 人 1
P L RL' RR' 1-2/m 1/m 1/m U 0,1 -1,2 -1,2 D 0,1 1,0 2,3
1
10.3 克瑞普斯一威尔逊序贯均衡
粗略地讲,克瑞普斯一威尔逊序贯均衡 的基本思想是,在子博弈精炼纳什均衡 或贝叶斯均衡概念上增加一个新的要求. 这个新的要求是: 在博弈到达的每一个 信息集上(不论该信息集在均衡路径还是 非均衡路径),参与人的行动必须由某种 有关之前发生的事情(自然选择了什么类 型或先行动者选择了什么行动 ) 的信念 (概率)“合理化”。
构造序列
设参与人2的一个混合策略为:
p2 m (1 m , m ), 0 m 1. lim m 0
m
1 m 2m
1 1 2m
m 2m
A
1
m
2m
B L (1,0)
C
m
(2,2)
m 1 2m
1 m
例、不完全信息动态博弈如下: 1 R (2,2) L M [q] [1-q] R’ R’ L’ L’ (0,0)
(3,1)
(1,0)
(0,1)
求序贯均衡
1 1, q 2 (1,0) 该博弈的PBNE是 (L, L), q 对1来说,最优的混合混合策略是p1=(1,0,0), 对2来说,最优的混合混合策略是p2=(1,0), 均衡战略(L,L’)生成的最优混合策略组合 p=(p1,p2)=((1,0,0),(1,0)), (q 1 , q 2 ) (1,(1,0)) 贝叶斯后验推断 q
颤抖手均衡定义 : 在 n 人战略式表述博弈 中,纳什均衡( σ1 , …σn ,)是一个颤 抖手均衡,如果对于每一个参与人 i,存 在一个严格混合战略序列 {σm1},使得下 列条件满足: lim (1)对于每一个i, ; ( 2 )对于每一个 i 和 m=1,2, …σi 是对战 略组合σm-i =(σmi,…, σmi-1, σmi+1,…, σmn) 的最优反应,即:对任何可选择的混合 战略σiˊ∈Σi, ui(σi, σm-i)≥ui(σiˊ,σm-i)
( 2 ) (σ , μ) 是一致的:存在一个严格混合战 略组合序列{σm}和贝叶斯法则决定的概率序列 μm,使得是的(σ,μ)极限;即:
( , ) lim ( m , m )
m
一致性要求是序贯均衡概念最重要的创造。序 列可以理解为均衡的“颤抖”;颤抖使得贝叶 斯法则适用于博弈的所有路径。
图1 不完美信息博弈
剔除劣战略方法正式定义: 令 a 1′ 和 a 1″ 是 参 与 人 1 的 两 个 行 动 , a 1′ , a1″∈A1 。 对 于 参 与 人 2 的 所 有 行 动 a2′ , a2″∈A2 ,如果下列条件成立,我们说对类型 θ1∈θ1的参与人1,a1′弱劣于a1″:
L
RL'
1-2/m
4/m*m
0,1
-1,2
0,1
1,0
RR'
(2/m)*(1-2/m)
剔除劣战略方法的思路是将“不选择劣战略”的要 求扩展到非均衡路径的后验概率上。
它的基本思想是,在一个博弈中,如果对于某些类 型的参与人,存在某些行动劣于另 —些行动,而对 于另一些类型的参与人这一点不成立,那么,当其 他参与人观测到前一类行动时,他不应该以任何正 的概率认为选择该行动的参与人属于前一类参与人。
L
R
(0,0)
R
(0,1)
(3,1)
显然
( p, q) lim( p , q )
m m m
所以,(L, L),
1 1, q q 序贯均衡 2 (1,0)
10.4 泽尔腾的颤抖手均衡
泽尔腾 (1975) 使用战略式博弈引入颤抖手均衡的概 念。颤抖手均衡的基本思想是,任何一个博弈中, 每一个参与人都有一定的可能性犯错误(类似一个人 用手抓东西时,手一颤抖,他就可能抓不住他想抓 的东的);一个战略组合,只有当它在允许所有参与 人都可能犯错误时仍是每一个参与人的最优战略的 组合时,才是一个均衡。
如果设想不论参与人1在最初选择什么,如果 博弈进入他的第二个信息集,他更可能选择 R’而不是L‘ (因为前者优于后者)。 那么,如果参与人 1 最初选择 R ,参与人 2 应 该选择D. 可见RR’只包含参与人1的一个错误, RL‘包含参与人1的两个错误。
表2
参与人2
参 与 人 1 P U D