第四章 不完全信息动态博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

~ (θ | a h ) si(θi)∈Si pi − i − i
~ (θ | ah )u (s , s *,θ ) ∑ pi −i −i i i −i i
θ−i
• 这里(P)是精炼条件,要求均衡策略在每 一个后续博弈上构成贝叶斯均衡(序惯理 性)。 • (B)是贝叶斯法则的运用,表示根据观察 到的行动组合来修正概率。在可能的情况下 表示在非均衡路径下贝叶斯法则对后验概率 没有定义,此时后验概率可任意取值。 • 精炼贝叶斯均衡是均衡策略和均衡信念的结 合,对应的是一个不动点:
j =1
K
h
| θ ) p (θ )
j j
一个贝叶斯法则的经典例子
• 将所有人分为好人(GP)和坏人(BP),所有事分为好事 (GT)和坏事(BT)。 • 社会准则认为,好人更愿意做好事、坏人更愿意做坏事。设 好人做好事的概率为P(GT|GB),坏人做好事的概率为 P(GT|BP) P(GT|BP)。 • 人们对一个人是好人还是坏人具有一个事先评价,不妨设其 为好人的先验概率为P{GP},通过观察这个人做的事是好 事还是坏事,人们将修正事先信念,获得这个人是好人还是 坏人的事后评价(后验概率)。 • 若观察到某人做了好事后,对其是好人的后验概率将增加; 若观察到某人做了坏事,对其是好人的后验概率将减少。
子博弈完美均衡和贝叶斯均衡
• 在完全信息动态博弈中,后行动者在观察到先行动者 的行动后再选择自己的策略以最大化其期望收益,先 行动者在预测到这一反应过程后将首先选择最大化其 期望收益的行动,子博弈精炼均衡要求在每一个子博 弈上给出纳什均衡,即不但要求在均衡路径上是最优 的,而且要求在非均衡路径上是最优的。 • 在不完全信息静态博弈中,自然确定参与人的类型 (私人信息),各参与人再选择类型依存的行动来最 大化其期望收益,静态贝叶斯均衡是一个类型依存的 策略组合。
> P{GP }
4、完美贝叶斯均衡
• 假定pi(θ-i|θi)表示类型为 θi的参与人i关于其他参与人 类型θ-i的先验概率,策略si(θi)∈Si,a-ih表示在第h个 信息集上参与人i观察到其他n-1个参与人的行动组 ~ (θ | a h ) 是在观察到a h的情况下参与人i认为 合,p
i −i −i
B
提供: 提供:zj 不提供1-z 不提供 j 1-ci,1 0,0 ,
A ci
提供: 提供:zi 不提供: 不提供:1-zi
1-ci,1-cj 1,1-cj ,
• 于是,只有当ci≤1-zj时,参与人 才会提供。 于是,只有当 参与人i才会提供 才会提供。 • 这意味着存在一个分割点ci*,当且仅当c i ∈ [ c , c i *] 时,参与人i才会提供。均衡分割点必须满足: ci*=1-zj=1- P(cj*) • 考虑到对称性,ci*和cj*应满足方程: 考虑到对称性, 和 应满足方程 应满足方程: c*=1-P(1-P(c*)) • 由c*=1-P(1-P(c*))知,若存在唯一的 ,则必满足: 知 若存在唯一的c*,则必满足: c*=1-P(c*)
第四章 不完全信息动态博弈
完美贝叶斯均衡 信号传递博弈及其应用举例
一、完美贝叶斯均衡
1、诸葛亮与司马懿斗智 • 诸葛亮与司马懿决战,司马懿总是避而不出。 于是诸葛亮派使者用妇女衣服去羞辱司马懿。 • 司马懿虽心中大怒却仍佯笑询问诸葛亮寝食 及事之烦简若何,得知诸葛亮夙兴夜寐、事 必躬亲而食之甚少后,对诸将曰:“孔明食 少事烦,其能久乎?” • 诸葛亮知悉使者回复后,叹曰:“彼深知我 也!”
ˆ 故类型 c的局中人 i在第 2次博弈中将提供,其效 用 ˆ ˆ 为v 00 (c ) = 1 − c。 i
第2阶段博弈的贝叶斯推断(2) 阶段博弈的贝叶斯推断(2
(2)若第1次博弈结局为11,则局中人i推断j的成本 位于 [c,c] 的分布,且分布函数满足: ˆ
pi(θ-i|θi),观察到的a-ih和最优策略s-i*(·)得到(在可能的 情况下)。 • 限制条件“在可能的情况下”是因为在非均衡路径上 的后验概率没有定义。
参与人i 类型 θi pi(θ-i|θi) a-ih
∑ θ
−i
~ (θ | a h ) u ( s , s *, θ ) pi −i −i i i −i i
不完全信息动态博弈的信息揭示
• 在诸葛亮与司马懿斗智博弈中,反映了不完 全信息动态博弈的信息揭示原理: 局中人通过观测对方的行动获取新的信 息,从而得到更准确的判断。 • 从博弈来讲: 每个局中人拥有其他局中人类型的先验 判断(事前概率);通过观察其他局中人的 行动后,不断修正其先验概率得到后验概率 (贝叶斯法则)。
θ−i
• 定义:精炼贝叶斯均衡是一个策略组合s*(θ)=(s1*(θ1), …,sn*(θn))和一个后验概率组合 , h ~ 满足:(θ − i | a − i ) pi (P) 对所有的参与人i,在每一个信息集h:
s i * ( s − i *, θ i ) ∈ arg max
si
~ = ( ~ ,L , ~ ) p1 p n 是使用贝叶斯法则从先验概率 (B)p
ˆ 于是类型为 c的局中人 i在第1次博弈中,提供的效用 ˆ) = 1 − c,不提供的效用为 vi0 (c ) = P (c )。 ˆ ˆ ˆ 为 v (c
1 i
第2阶段博弈的贝叶斯推断(1) 阶段博弈的贝叶斯推断(1
• 根据第1次博弈结局,局中人进行贝叶斯推断: (1)若第1次博弈结局为00,则局中人i推断j的成本 ˆ 位于 [c,c ] 的分布,且分布函数满足:
3、完美贝叶斯均衡的思路
• 将每个信息集开始的博弈的剩余部分称为后 续博弈。 • 由于后续博弈之前的行动历史使得局中人可 以修正自己对其他局中人类型分布的先验信 念,所以在进行后续博弈时,局中人是根据 修正后的后验信念(依贝叶斯法则修正)进 行策略选择的。 • 完美(精炼)贝叶斯均衡要求在所有的后续 博弈上也达到贝叶斯均衡。
不完全信息蜈蚣博弈
(1,1) (0,3)
短期利益
(98,98) (97,100) D 1 U L 2 R
(99,99) (98,101) D 1 U L 2 R (100,100) 2 R (100,0) L (98,-1)
D
L 2 R
(p) 1 U N 1 U
注重合作
2 R L D
1 U
2 R L
~ ( s )); ~ ∈ ~ * ( s * ( ~ )) s∈ s*(p p p p
精炼贝叶斯均衡具有的特点
• 精炼贝叶斯均衡要求: (1)在每一个信息集上,决策者必须有一个定 义在属于该信息集的所有决策结上的一个概率分 布; (2)给定该信息集上的概率分布和其他参与人 的后续策略,参与人的行动必须是最优的; (3)每一个参与人根据贝叶斯法则和均衡策略 修正后验概率 。
1 D
U
(1-p)
D
(1,0) (0,-1)
(98,0)
(97,-1)
(99,0)
• 局中人2有两种类型:注重短期利益型和注重合作型。 • 即使在1-p很小的情况下,局中人1也有动力选择U,而 对短视型的局中人2在博弈早期也有动机选择R。
声誉模型
• 在该例中,即使注重短期利益类型的参与者(理 性的)也有动机假冒为注重合作类型的参与者, 从而获得长期利益最大化,这就是声誉模型。 • 声誉:指重复博弈的局中人可能会尝试建立特定 博弈模式的声誉。 在上例中,短期利益型局中人在早期会选择U 以表明自己是合作类型的局中人,以博取长期利 益的最大化。
贝叶斯推断
• 这是因为:
P{GT | GP}P{GP} Pr ob{GP | GT } = P{GT | GP}P{GP} + P{GT | BP}P{BP}
P{GT | GP}( P{GP} + P{BP}) = P{GP} P{GT | GP}P{GP} + P{GT | BP}P{BP}
P{GT | GP}P{GP} + P{GT | GP}P{BP} = P{GP} P{GT | GP}P{GP} + P{GT | BP}P{BP}
不完全信息动态博弈中的推断
• 在不完全信息动态博弈中,由于局中人i的 行动选择Ai是类型依存的,因而其行动选择 会揭示出与其类型有关的私人信息θi,其他 局中人j可以利用前面博弈进行的结果来修 正其关于该局中人i类型的信念P(θi),从而 更好地把握博弈局势。 • 当然,局中人i也可能策略性地选择行动, 从而误导局中人j的推断(声誉模型)。
-i
其他n-1个参与人属于类型θ-i的后验概率,ui(si,s-i,θi) 是i的效用函数 。
参与人i 类型 θi pi(θ-i|θi) a-ih
~ (θ | a h ) si(θi)∈Si pi − i − i
~ (θ | ah )u (s , s ,θ ) ∑ pi −i −i i i −i i
子博弈精炼纳什均衡不能剔除(L,B) 唯一的精炼贝叶斯均衡是{(M,U);p=1}
5、重复公共产品供给
• 两个局中人选择是否提供公共产品。假设提供成本服 从 [c, c ] ( )上的概率分布,设其累积分 布函数为P(·)。
• 该博弈中的一个纯策略ai(ci)是从 [ c , c ] 到{0,1} 上的一个函数,其中0表示不提供,1表示提供。 • 参与人的支付函数为:ui(ai, aj, ci)=max(a1, a2)-aici B(cj) A (ci) 提供 不提供 提供 1-ci,1-cj 1,1-cj 不提供 1-ci,1 0,0
2、蜈蚣博弈
1 U D (1,1) (0,3) 2 R L D 1 U 2 R L 1 D (99,99) U 2 R L (98,101) (100,100)
(98,98) (97,100)
• 使用逆向归纳法,参与人1在第一阶段将选择D。 每个参与人在其每个决策结上都选择D是唯一的子 博弈精炼纳什均衡。 • 显然,基于个人理性的结果远非集体最优。 • 该博弈揭示了逆向归纳法与子博弈完美均衡的不足。 • 然而,通过引入不完全信息,便可改变博弈结局。
两阶段博弈
• 若博弈进行两个阶段,贴现因子为δ。 • 博弈顺序:第1阶段博弈:局中人i根据自己的成本 决定是否提供; 1 ˆ c≤ 1 ci ≤ ci ai (ci ) = ˆ 0 ci < ci ≤ c 第2阶段博弈:在观察到第1阶段的博弈结果后 (共有4种可能结果,即:00、11、10、01),局 中人i修正关于对方成本的先验信念。 ˆ ˆ ˆ • 以下求对称的贝叶斯均衡,即 ci = c j = c 。
完美贝叶斯均衡的作用
• 在不完美信息博弈中,不可置信的子博 弈精炼纳什均衡不能被剔除,可以引用 精炼贝叶斯均衡来剔除这些不可置信的 均衡。
1 L M (1,3) U B (2,1) (0,0) (0,2) p 2 U B R 1-p
L M R
U 1,3 2,1 0,2
B 1,3 0,0 0,1
(0,1)
B
提供:zj 不提供1-zj 1-ci,1 0,0
A ci
提供:zi 不提供:1-zi
1-ci,1-cj 1,1-cj
• 令zj=Prob{aj*(cj)=1}为均衡状态下参与人Байду номын сангаас提供公共 产品的概率。最大化行为意味着只有当参与人i预期参 与人j不提供时参与人i才会考虑自己是否提供。 • 参与人j不提供的概率为1-zj,参与人i提供的预期收 益为1·(1-zj),于是只有当ci<1-zj时,参与人i才会提供。
ˆ c≤ 0 c j ≤ c Pi (c j | 00) = P ( c j ) − P ( cˆ ) ˆ ˆ ) c < c j ≤ c 1− P ( c
于是,在第2阶段,局中人i提供当且仅当存在
~ ~,其中 c 满足 c < c < 1,且有: c = 1− P ( c ) ~ ~ ~ ˆ ˆ c ≤ ci ≤ c ˆ 1− P ( c )
贝叶斯法则
• 参与人i:属于类型θk,选择行动ah 。 • 贝叶斯法则:观察到参与人i选择行动ah后, 则i属于类型θk的后验概率为:
p ( a | θ ) p (θ ) Pr ob{θ | a } ≡ h Pr ob{a }
h k k k h

p ( a | θ ) p (θ )
h k k
∑ p (a
相关文档
最新文档