逆向归纳法的认知基础

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

逆向归纳法的认知基础
崔晓红
1.引言
逆向归纳法是博弈论中一个比较古老的概念,它的提出最早可以追溯到泽梅罗(1913)针对国际象棋有最优策略解的证明,后来人们将其推广到了更广泛的博弈中,例如,在有限完美信息扩展型博弈中,就是用逆向归纳法(BI)来证明子博弈完美均衡(SPE)的存在以及求解SPE,其基本思路是从动态博弈中的最后一个阶段开始,局中人都遵循效用最大化原则选择行动,然后逐步倒推至前一个阶段,一直到博弈开始局中人的行动选择,其逻辑严密性毋庸置疑。

然而,当从终点往前推到某一决策点时,BI完全忽略了到达该决策点的以往历史行动,而这一历史行动当然会影响处于该决策点的局中人有关其对手将来如何采取行动的信念,例如,一个局中人如果观察到对手在过去没有按照BI进行行动选择,那么他就有理由相信他的对手仍会采取同样的模式进行下去,但是通过这种信念修正以后所做的选择就会与BI矛盾。

为了达到均衡解,为了能按BI进行推理求解,我们需要对局中人的信念或者说知识增加一些限制性条件,也就是说在什么样的前提下,BI是合理的,显然,仅仅要求每个局中人都理性是不够的,所有的局中人都必须知道所有的局中人都是理性的,所有的局中人都必须知道所有局中人都知道所有局中人都是理性的……等等以至无穷,在这样的认知条件基础下,我们就不会偏离BI,即,“在完美信息扩展型博弈中,理性的公共知识蕴含了BI”(Aumann 1995)。

本文旨在通过构造完美信息扩展型博弈的认知模型来考察BI的这一认知条件。

文章第二部分先通过一些简单例子对一些问题进行非形式上的讨论;第三部分介绍Aumann结构如何表达知识和信念;第四部分给出完美信息扩展型博弈的认知模型并用形式化的方给出BI的认知条件。

2. 实例分析
2.1 蜈蚣博弈
图1是一个长度为3的蜈蚣博弈,博弈每前进一个阶段,桌子上就增加一美元,局中人1,2轮流采取行动,轮到某个局中人采取行动时,他可以拿走桌子上的钱,博弈结束,或者钱留在桌子上继续博弈,另外,局中人都是理性的,也就是说都遵循期望效用最大化原
则。

如图所示:
3
图1 蜈蚣博弈1
根据BI,此博弈有唯一子博弈完美均衡,那就是局中人1采取行动T1,拿走桌子上的一美元博弈结束。

假设局中人1采取的行动是L1,并且桌子上又增加了一美元,此时由局中人2开始行动,这时的局中人2会觉得很奇怪,他最初是确定局中人1会根据BI进行推理拿走桌上的钱的,但局中人1并没有那样做,局中人2就想局中人1可能不理性,如果再来一次的话,说不定会给他留下三美元,如此盘算之后,局中人2就会理性地选择行动L2,希望继续博弈。

现假设局中人1非常理性,并且认为局中人2也是理性人而且知道局中人2会对自己采取行动L1有如上分析的信念,那么局中人1一开始没有拿走那一美元是为了下一步行动能得到三美元。

那么在随后的博弈阶段即局中人1采取行动L1之后我们能不能假设存在有理性的公共信念,从而得到BI解呢?不可以。

局中人1行动L1之后理性的公共信念是不可能的:如果局中人2相信局中人1是理性的,行动L1之后,他会拿走桌上的二美元;如果局中人1一开始相信局中人2是理性的并且相信局中人2在她采取行动L1之后仍然相信局中人1是理性的,那么她一开始就会拿走一美元结束博弈,现在局中人1在她采取行动L1后对局中人2的信念并没有发生变化,这样的话就有两种可能:(a)局中人1不理性选择了行动L1,或者(b)局中人1是理性的,采取行动T1,但是相信如果她选择策略L1的话,局中人2是理性的并且相信局中人1也是理性的,(a)和(b)相互排斥,局中人2在观察到行动L1后不会同时相信这两种可能。

2.2 有限次重复囚徒困境博弈
在一次性囚徒困境博弈中如图2所示,局中人各自从个人利益出发的理性选择结果(博弈解)就是(D,D)即(坦白,坦白),个体理性选择的结果并非帕累托最优,不符合集体理性的要求,囚徒陷入了理性的困境。

D
图2 有限次重复囚徒困境博弈
若这一博弈重复进行k 次,情况会有什么不同呢?假设局中人都知道重复的次数,并且能够观察到以往所有的博弈历史,即局中人在以往各阶段所实际采取的行动,且各阶段的支付如上图所示,显然这一博弈是完美信息扩展型博弈,且存在唯一子博弈完美均衡(SPE ):局中人均采用坦白策略。

这很容易由BI 推理得出:在最后一个阶段,局中人理性选择的结果就是囚徒困境唯一的纳什均衡,双方均“坦白”;这样,逆向归纳至前一阶段,局中人仍然以“坦白”策略为唯一理性选择。

依次类推,可以知道SPE 中,局中人在每一阶段均会采用“坦白”策略作为自己的唯一选择。

但是,经由BI 得到的SPE 很不符合直观,现实生活中处于如此情境的局中人更愿意采取“针锋相对”(tit-for-tat )策略,这一策略可以简述为:“你上次如何对我,我下次就怎么对你”,也就是说局中人都试图为了下次的博弈建立合作的声誉。

现在我们来分析如果局中人都是理性的,并且都具有理性的公共知识(CKR ),最终得到的博弈解是“针锋相对”还是SPE 。

现假设在CKR 基础上局中人采取策略C (合作)而不是D (对抗也即坦白),我们已经知道局中人采取合作的目的是为了下一次合作建立良好的声誉同时鼓励对方也这么做。

但在博弈的最后阶段,双方都知道这是最后一次博弈并且是理性的,这里的理性独立于对对手采取策略的信念,于是在这一阶段大家都没有合作的动机,都将采取对抗(占优策略),而且,由于CKR ,他们也知道对方也会采取D ;而在博弈的倒数第二个阶段,局中人为下次博弈建立合作声誉是没有用的,于是局中人仍会采用对抗策略,如此反复直至博弈的第一个阶段,对抗策略一直是博弈的最优策略。

3. 知识和信念的语义表达
3.1 单个主体的知识和信念的表达
我们先从单个主体的信念出发,首先假设要考察的对象是一系列状态(state )或可能世界,这里的状态或世界一般解释为局中人面对的所有与决策有关的外在因素的客观描述,记
3,3 1,4 4,1 2,2
C C D
为ω∈Ω,其中为状态空间。

Ω的一个子集称为一个事件,用以描述博弈中发生的种种事件。

如果ΩE ⊆ΩE ω∈,我们就说事件E 在状态ω处发生了。

定义一个可能函数
:P ΩΩ→2是将每个状态ω∈Ω映射为Ω的一个非空子集,表示局中人在状态ω处认为()P ω中的状态都是可能的,它应满足如下性质:
性质3.1.1(1)()P ω≠∅
(2)如果()P ωω′∈,那么()()P P ωω′⊆ (3)如果()P ωω′∈,那么()()P P ωω′⊆.
定义3.1.1(信念框架)一个信念框架就是一个二元组F=,P Ω,其中状态集Ω≠,P 满足性质3.1的三条性质,它们分别又对应于关系的持续性,传递性以及欧性。

∅ 如果某一事件E 在局中人认为可能的状态()P ω中的每一状态都发生了,我们称局中人相信该事件,于是从可能函数P 就可以得到一个信念算子,定义为
:22B Ω→Ω},{:()E BE P E ωω∀⊆Ω=∈Ω⊆,满足如下三条性质:
性质3.1.2(1)B Ω=Ω (必然性) (2)()B E F BE BF =∩∩ (合取性) (3)如果,那么. (单调性) E F ⊆BE BF ⊆另外,对应于可能函数的三条性质,信念还有如下三条性质: 性质3.1.3(1) (一致性) ,E BE B ∀⊆Ω⊆¬¬E E BE E (2) (正内省) ,E BE BB ∀⊆Ω⊆ (3) (负内省)
,E BE B ∀⊆Ω¬⊆¬(这里的符号“¬”表示集合的补,即\E ¬=Ω)另外我们都知道局中人相信的事件不一定真的发生,也就是说局中人相信的也可能是一个假象,但他相信自己所相信的是正确的。

于是,我们说可能函数不具有自反性,但它具有二阶自反性:
,,ωω′∀∈Ω如果(),P ωω′∈那么().P ωω′′∈于是也有:
,()E B BE E ∀⊆Ω¬=Ω∪ 知识具有许多与信念相同的性质,但它们之间有一个显著的区别就是信念不必为真,而 所知道的一定是真的。

为了表达它们之间的不同,我们首先引入信息函数。

设为一个状态集,上的一个划分可以表示局中人的信息或者说知识,我们说函数
ΩΩ:I ΩΩ→2是信息函数,如果它满足如下两条性质:
性质3.1.4(1)()I ωω∈
(2)如果()I ωω′∈,那么()()I I ωω′=
注意如果I 是满足以上性质的信息函数,它就是Ω的一个划分,相反,任何的一个划分 Ω也会生成一个信息函数I 。

由信息函数I ,我们同样能得到知识算子:22K ΩΩ→定义为: {:()}KE I E ωω=∈Ω⊆
于是我们有不同于信念的知识的性质:,E KE E ∀⊆Ω⊆又称为知识公理。

如果可能函数和信息函数有如下关系:,ωω′∀∈Ω 性质3.1.5(R1)()()P I ωω⊆
(R2)如果()I ωω′∈,那么()()P P ωω′=
我们就说此时的信念是以信息为基础,且仅仅依赖于信息。

从而有KB -框架; 定义3.1.2 :一个KB -框架(知识和信念的框架)是一个三元组F =,.I P Ω使
得状态集,并且I 满足自反性,传递性和欧性,P 满足持续性,传递性和欧性且都 Ω≠∅满足性质(R1)和(R2).
相应于性质(R1)和(R2),知识和信念算子满足下面两个性质: 性质3.1.6 (1) ,E KE B ∀⊆Ω⊆E E (2)
,E BE KB ∀⊆Ω⊆在KB -框架下,局中人相信的仍有可能不是真的,而且仍然相信自己所相信的是正确的,但 是否相信自己知道自己所相信的却不一定。

例如,设{,}ωω′Ω=,{}E ω′=,
()(){}P P ωωω′′==,()(){,}I I ωωωω′′==,显然有BE ω∈,但BKE ω∉。

现假设这
一条件成立,即 (C1) 成立,于是知识就坍塌成信念, ,E BE BK ∀⊆Ω⊆E E 即 (C2) ,E BE K ∀⊆Ω=这两个条件其实是等价的,我们现在给出证明。

命题3.1.1 (C1)等价于(C2)
证 (1)(C1)⇒(C2)
这个方向我们只需要证明,先假设BE KE ⊆ω∀∈Ω,如果BE ω∈,由(C1)可知
BKE ω∈,由B 的定义,就有()P KE ω⊆,此时,ω′∀∈Ω,如果()P ωω′∈,则KE ω′∈,
由K 的定义,有()I E ω′⊆,由性质3.1.5(R1)知()()P I ωω⊆,于是()I ωω′∈,再由 性质3.1.4(2)()()I I ωω′=,得到()I E ω⊆,从而有KE ω∈。

(2)(C2)(C1)
⇒假设,ω∀∈Ω如果BE ω∈,由B 的定义,有()P E ω⊆,同时,由条件(C2),我们有KE ω∈, 再由K 的定义,有()I E ω⊆,现对()P ωω′∀∈,由性质3.1.5(R1)()I ωω′∈,再根据性 质3.1.4(2)有()()I I ωω′=,从而()I E ω′⊆,于是KE ω′∈,则()P KE ω⊆,再由B 的定义,就有BKE ω∈。

证毕
3.2 交互信念和公共信念
博弈论主要强调局中人策略选择的相互影响,在这种情况下,局中人对外部世界的信念尤其对其他局中人策略选择的信念以及信念的信念的分析就显得尤为重要。

这一节我们设信念是初始概念,把知识看作一种特殊形式的信念,来讨论交互信念(或知识)以及公共信念(或知识)的语义表述。

定义3.2.1 一个交互信念框架是一个三元组F =,,{}i i N N P ∈Ω使得{1,,}N n =…是有穷 个体集,是状态的集合,并且对每个个体Ωi N ∈,:i P 2ΩΩ→是的满足持续性,传递 i 性和欧性的可能函数。

个体i 的信念算子:22i B ΩΩ→定义为
,{:()i i E B E P }E ωω∀⊆Ω=∈Ω⊆。

为了定义公共信念算子B ∗,我们先来定义e B 和k
B ,E ∀⊆Ω,令e i N i B E B ∈=∩E 意 思是每个人都相信E ;,,令E ∀⊆Ω1k ≥0
B E E =且1
k
k B E BB
E −=,B ∗可以定义如下:
1k e e e e e e k e B E B E B B E B B B E B E ∗=∩∩∩…∩≥=2 也就是说某一事件被大家公共相信如果每个人都相信这一事件,每个人都相信每个人都相信这一事件,等等以至无穷。

相应的公共可能函数可定义为::P Ω∗Ω→,(){:{}}P B ααωαω∗∗∀∈Ω=∈Ω∈¬¬满足如下性质:,,(P )ωωω∗′′∀∈Ω∈ω当且仅当存在N 中的序列1,,m
i i …和中序列
Ω
01,,m ηηη…使得(1)0ηω=
(2)m ηω′=
(3)对每个0,,1k m =−…,11()k k i P k ηη++∈ 即是的传递闭包。

P ∗i N i P ∈∪这里有一点需要注意的是具有持续性和传递性,但不一定具有欧性。

相应的公共信念算 P ∗子B ∗满足一致性(B E B ∗∗⊆¬¬E )和正内省(B E B B E ∗∗∗⊆),但不一定满足负内省(
B E B B E ∗∗∗¬⊆¬)。

例如,设123{,,}ωωωΩ=,11121()(){}P P ωωω==,133(){}P ωω=; 211222323(){},()(){,}P P P ωωωωωω===,则
112312(){},()(){,,}P P P 3ωωωωωωω∗∗∗===,令1{}E ω=,则有3B E ω∗∈¬,但
3B B E ω∗∗∉¬。

另外,我们有如果某一事件是被公共相信的,当且仅当每个人都相信这一事件是被公共相信的,即,i N i E B E B B ∗∈E ∗∀⊆Ω=∩。

与公共信念算子的定义相类似,为定义公共算子K ∗,我们先定义1n e i i K E K ==∩E 表示每个都知道E ,1m m e K E K ∗≥=∩E ,于是I ∗就可定义为(){:{}}I K αωαω∗∗=∈Ω∈¬¬,即i N i I ∈∪的传递闭包。

定义3.2.2 一个交互的KB -框架是一个四元组,,{},{}}i i N i i N F N P I ∈∈=Ω使得N 是有穷个体集,Ω是状态的集合,并且对每个个体i N ∈,:i P 2ΩΩ→是i 的可能函数,:2i I ΩΩ→是的信息函数。

所满足的性质与单个主体的可能函数和信息函数以及KB -框架中所满足的性质一样。

i
4. 完美信息扩展型博弈的认知模型
4.1 完美信息扩展型博弈
扩展型博弈是对局中人序列采取行动这一动态特征的描述,而完美信息则是指局中人在
行动中知道博弈的所有以往行动历史。

定义4.1.1 一个完美信息扩展形式结构S 由以下几个部分组成:
♦ 有向图T = ( X, E ): X 是有穷结点集,是有穷有向边的集合。

结点表示博弈中发生的情境;边(x ,y )表示局中人从情境x 到情境y 时所采取的行动;对任意两个结点E X X ⊆×,x y X ∈,一个有向边的序列1122((,),(,),,(,))n n x y x y x y …称为从x 到y 的一条路径,如果1,n x x y y ==并且1k k y x +=对每个{1,,1}k n ∈−…;如果有一条从x 到y 的路径,我们就说x 是y 的前列结点,表示成x y ;设结点0x X ∈,对任意
0\{}x X x ∈,都有唯一一条从0x 到x 的路径,则称0x 为T 的根;结点x X ∈是终点如
果其后没有结点,终点集用Z 表示,不是终点的结点称为决策点。

♦ 局中人的集合N 和一个移动函数表示非终点x 处,由局中人
采取行动,对每个局中人i 来说,集合:\m X Z N →()m x N ∈{\|()i H x X Z m x i }=∈=为该局中
人的信息集的集合,完美信息就是指每个局中人的信息集为单点集。

♦ 行动集:对每个局中人i 和i 的每个信息集i h H i ∈,如下有向边的集合 称为i 在信息集处的行动的集合。

(){(,)|,(,)}i i i A h h y y X h y E =∈∈i h ()i i i h H i A A h ∈=∪为局中人i 全部可选行动构成的集合,()h H A A ∈h =∪表示所有行动的集合。

下面再定义策略,直观上来说,策略是局中人的行动计划,即在由局中人移动的每一 结点处该局中人应采取什么行动的一个方案,即使该结点并没有到达,但却可以看作是其他局中人对该局中人策略选择的一种信念。

定义4.1.2 局中人i 的策略是一个函数,对每一:i i s H A →i i i h H ∈,。

局中人i 的策略空间为这样的的集合,也就相当于各个处的行动空间的笛卡尔乘积,即。

对于每一个策略组合()()i i i s h A h ∈i S i s i h ()i i
i h H S A ∈=×i h s S ∈,()i i N s s ∈=,我们定义该组合上局中人i 的效
用函数(R 是实数)。

我们用b 来表示逆向归纳策略组合,如果局中人i 在信息集处,那么
:i u S R →i h 对于,就有
()()i i i s h b h ≠()(/())i i h h i u b u b s h i
这里表示策略组合s 在信息集处i 的所获得的支付。

表示局中人i 在信息集处用策略代替策略组合s 在该信息集处的策略。

()i h u s i h /()i i s t h i h ()i i t h 4.2 完美信息扩展型博弈的认知模型
定义4.2.1 一个完美信息扩展型博弈的认知模型是一个四元组,,{},{}i i N i i N M N I σ∈∈=Ω,其中,,{}i i N N I ∈Ω是一个交互知识框架,对每个局中人i ,函数:i S i σΩ→满足性质:
如果()i I ωω′∈,那么()()i i σωσω′=,()i σω是局中人i 在状态ω所选择的策略。

这条性质的直观意思就是局中人i 知道自己的策略。

于是,令{:()i i E s }ωσω=∈Ω=,对于所有的,有,我们就说局中人i 是自明的(self-evident )。

i s S ∈i i E K E ⊆定义4.2.2 局中人i 在信息集处是理性的,如果在该信息集处,i 并知道不存在有别的策略比他当前所选的策略能给他带来更高的支付。

i h 下面我们通过对局中人理性要求的分析来考察BI 的认知条件,也就是说来考察什么样的理性条件蕴含BI ,首先来看两个不同理性的定义。

定义4.2.3 完美信息扩展型博弈中的局中人是实质理性的(material rationality )当且仅当该局中人在实际到达的每一个信息集处都是理性的。

定义4.2.4 完美信息扩展型博弈中的局中人是真实理性的(substantive rationality )当且仅当该局中人在他的所有信息集处都是理性的。

给定策略组合s ,令表示s 的一条路径,结点x (与路径相对应,以后就用结点代替前面的信息集,相应地,符号用x 而不用h )在状态()p s ω处是可到达的当且仅当
(())x p σω∈。

定义 4.2.5 给定一个认知模型,对每个结点x ,{:(())}x x p ωσω=∈Ω∈表示事件“x 是可到达的”。

令rn i R 表示事件“局中人i 在可到达的点处是理性的”(即实质理性),如果i x X ∈,
()rn i i i i i i x s K x t s R →⊆¬∩∩ 于是
((i i i i i
rn i i i x X s S t S ))i i i R x s K x t s ∈∈∈¬=→∪∪∪∩∩
而rn rn i N i R R ∈=∩表示所有的局中人都是理性的。

下面我们给出一个模型来说明完美信息扩展型博弈中实质理性的公共知识并不蕴含逆向归纳解(BI ),设{}ωΩ=,12()(){}I I ωωω==,()(,)b de σω=,如图3所示:
2
2
a
b
c
d
e f
x
y z
3 0 1 0 3 0 1 0
1
1:
ω
2:
1的策略: b
2的策略: de
图3 完美信息扩展型博弈及其认知模型
图中的博弈逆向归纳解是ac ,而在上图给出的认知模型中,我们可知*{}rn K R ω=,而博弈解却是be 。

由此可知,实质理性的公共知识并不蕴含BI 。

另外要说明的是模型中给出的解虽然不是逆向归纳解,但却是纳什均衡解,但我们却不能由此模型得出实质理性的公共知识蕴含纳什均衡解,具体过程这里不再验证。

我们下面再看真实理性的公共知识会带来什么。

令i x X ∈是局中人i 的决策点,x i S 表示局中人i 在由点x 开始的子博弈中的策略。


,x x i i i s t S ∈x 是局中人i 在由点x 开始的子博弈中的两个策略。

x x i i i s t 表示“局中人i 在由点x 开始的子博弈所采取的策略中,策略x i s 要优于策略x i t ”。

x x i i i s t 在状态ω中为真,如果由点x 开始,相对于()i σω−,局中人i 采取策略x i s 所获得的
支付要高于x i t 。

x x i i i s t 表示x x i i i s t 为真的状态的集合。

如果x x i s S ∈i ,令{:()|x x i i i s s ωσω=∈Ω=}x x ,其中()|i σω表示()i σω限制在由x 点开始的子博弈上。

令sr i R 表示“局中人i 是真实理性的”。

如果i x X ∈,则
()x x x i i i i i s K t s R ⊆¬∩ sr i ,于是(()x x i i i i i
sr x x x i i i i x X s S t S R s K t ∈∈∈¬=∪∪∪∩ )i i s
sr i N i sr R R ∈=∩表示“所有局中人都是真实理性的”。

我们通过下图的蜈蚣博弈来分析真实理
相应地构造一个认知模型: 123{,,}ωωωΩ=
,11
1121323(),()(){,}I I I ωωωωωω===,
212212233
()(){,},(
)I
I I ωωωωω===ω,
123()(,),()(,),()(,)be d ae d ae c σωσωσω===
如下图所示:
1: 1ω 2ω 3ω
2:
1的策略: be ae ae 2的策略: d d c
图4 蜈蚣博弈2及其认知模型
博弈中可以看出逆向归纳解是(ae,c ),认知模型中可以验证22{,}rn
R 3ωω=,
23{}sr R ω=3{}sr K R ω∗=,于是就有如下两个命题:
命题4.2.1 在每一个完美信息博弈中,sr K R B ∗⊆I 。

(Aumamm, 1995)
命题4.2.1并不是说理性的局中人在完美信息扩展型博弈中一定会按BI 进行策略选择,而是说如果局中人在某一结点处偏离了BI ,那么在该结点或博弈随后的结点处,我们就不
能得到理性的公共知识。

真实理性是一个非常强的概念,它要求局中人在博弈的每个结点处都选择支付最大的策略,如果某个局中人偏离了这一策略,他就不再是理性的了,但其他局中人可能会认为偏离者在以后的博弈中是理性的,如果是这样的话,对于一个理性的局中人来说如何再通过偏离BI来增加自己的收益就很难确定,但在大多数情况下,偏离者更有可能采取另外一个策略,而不是BI,这种假设似乎更合理一些。

我们现在来分析一旦某个局中人偏离了BI,局中人的理性情况以及策略的选择会随之发生什么样的变化。

先来看如下图所示的完美信息扩展型博弈及其认知模型。

1:
i
ω
2
ω
3
ω
4
ω
5
ω
2:
1的策略:af bf be bf be
2的策略: c c c d d
图5 蜈蚣博弈3及其认知模型
我们说局中人在某一状态中是真实理性的如果该局中人在此状态中由他采取行动的结
点处是理性的。

那么,在状态
1
ω中,局中人2是不是真实理性的呢?在状态
1
ω,局中人2并没有采取任何行动,因为博弈没有进行到结点y处就结束了,但我们说局中人2在此状态中是不理性的,因为如果结点y到达了的话,2计划选择策略c而不是d,显然d能给他带来更大的收益。

此时,如果我们把局中人针对其他局中人策略选择的信念考虑进去的话,我们就得到另外一种理性——Stalnaker理性。

在定义这一理性之前,先介绍完美信息扩展型博弈认知模型的一个扩张模型。

定义 4.2.6完美信息扩展型博弈认知模型的扩张模型是一个二元组,
M f
Γ=使得M是如定义4.2.1给出的认知模型,函数:f X
Ω×→Ω可定义为(,)
f x
ωω′
=通过结点x且离
ω最近的状态,该函数满足下列性质:
(1)x 在(,)f x ω中是可以到达的,也就是说,x 在由((,))f x σω决定的路径上; (2)如果x 在ω是可以到达的,则(,)f x ωω=;
(3)((,))f x σω与()σω在由结点x 开始的子博弈中是合同的。

也就是说局中人在由
ω决定且通过结点x 的行动与离ω最近的状态且也通过结点x 的行动是一样的。

定义4.2.7 局中人i 在状态ω中是Stalnaker 理性的,记为s
R ,当且仅当局中人i 在所有由i 到达的结点x 且离ω最近的状态(,)f x ω处都是理性的。

如图5所示,局中人2在y 结点且离1ω最近的状态2ω(1(,)f x 2ωω=)中是理性的,因为他考虑到局中人1在z 处有可能采取策略e (因为2223(){,}I ωωω=);同样,局中人1在z 结点且离1ω最近的状态4ω中也是理性的(1(,)f z 4ωω=)。

于是在1ω处,局中人有Stalnaker 理性的公共知识,却没有BI 解,但这并不与命题3.2.1相矛盾,因为局中人并没有真实理性的公共知识。

相对于真实理性,Stalnaker 理性的局中人更注重于一旦对手策略选择偏离BI ,如何修正自己的信念,而不是对手是否理性的问题。

如果我们给函数f 增加一个限制条件:
(4)对于所有的局中人i 和所有结点x ,如果((,))i I f x ωω′∈,那么存在状态
()i I ωω′′∈,使得()σω′和()σω′′在结点x 开始的子博弈中合同。

于是我们有如下命题:
命题4.2.3 对于完美信息扩展型博弈的扩张认知模型Γ来说,如果函数f 满足性质(1)—(4),则s K R B ∗⊆I 。

我们现在来分析一下局中人的策略,对于局中人1来说,11()|z f σω=(这里的f 是指如图所示的局中人1的行动)是不是意味着“如果结点z 能够到达的话,局中人1选择策略f ”呢?这里应该把局中人1对局中人2采取什么行动的信念也考虑就去,但对于局中人1来说,“给定他当前有关局中人2采取什么行动的信念,如果z 能够到达的话,他将采取策略f ”与“在与当前状态最近且z 能够到达的状态中,他选策略f ”是等价的,函数f 的性质(3)保证了这一点。

但对于局中人2来说,就不是这种情况了,他当前有关局中人
1采取何种行动的信念同与当前状态最近且z能够到达的状态中有关局中人1的信念是不一样的,但最后增加的性质(4)保证了它们是相同的,从而有了命题4.2.3。

参考文献:
Andres, Perea, (2007). Epistemic Foundation for Game Theory: An overview
Http://www.personeel.unimaas.nl/a.perea/
Aumann, R. J. (1976). Agreeing to disagree. Annals of Statistics 4(6), 1236-1239
Aumann, R. J. (1995). Backwards induction and common knowledge of rationality. Games and Economic Behavior 8, 6-19.
Battigalli, Pierpaolo and Bonanno Giacomo. (1999) Recent results on belief, knowledge and the epistemic foundations of game theory. Research in Economics.
Bonanno Giacomo. (2000) Information, Knowledge and Belief
Gabby, D and Guenthner, F. (2003) Handbook of Philosophical Logic. V olume 10,1-38 Halpern. J. (2001). Substantive Rationality and Backward Induction. Games and Economic Behavior 37: 425-435
Martin J. Osborne, Ariel Rubinstein. (1994). A Course in Game Theory. Massachusetts Institute of Technology
Stalnaker, R.(1996). Knowledge and Games with Perfect Information. Game and Economic Behavior 7:230-251。

相关文档
最新文档