第6讲 不完美信息博弈与不完全信息博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第6讲不完美信息博弈与不完全信息博弈
在这一节,我们简单了解“不完美信息博弈(imperfect information games)”和“不完全信息博弈(incomplete information games)”,两者又都叫做“非对称信息博弈(asymmetric information games)”。

博弈中的非对称信息,是指某些参与人拥有但另外一些参与人不拥有的信息。

1. 不完美信息博弈
——不完美信息
每个参与人的每个信息集都是单结点信息集的博弈,就是“完美信息博弈(perfect information games)”。

与此相对,我们有“不完美信息博弈(imperfect information games)”的概念:至少部分参与人的部分信息集是多节点信息集的博弈。

换言之,在一个博弈中,如果当轮到一名参与人做出选择时,他不知道自己正处于其信息集之中的哪一个节点上,则称其信息是不完美的。

显然,在现实世界的各种博弈中,不完美信息是常见的。

——所谓“信念”
在分析不完美信息博弈及其均衡时,“信念(belief)”是一个基本的概念。

在轮到一名参与人做出选择时,即使他不知道自己正处于其信息集之中的哪一个节点上,他也必定对此拥有某种“信念”:即自己正以何种概率分布位于该信息集之中的各个节点之上。

提出“信念”这一概念,既是为了分析不完美信息博弈的方便,也是合乎逻辑的:即使没有完美的相关信息(实际情况往往如此),当事人也要做出决策——这种情况下当事人的决策是任意的吗?
当然不是,他必定会对所有与其决策相关的信息做出“猜测”,其猜测的结果,就是其“信念”。

所以,我们也可以将“信念”解释为某人为将自己的行为“合理化”而找到的“理由”。

*********************************************************************************** ——信念:使行为“合理”
在博弈论所设定的纯粹(理性) 框架下,参与人任何信念的形成必须有着合理的基础。

在理论上,知识(信息) 决定着信念,信念决定着选择。

但是,在现实中情况似乎常常正好相反。

人们在决定将要采取任何一种行动时,总是会为自己寻找一个“理由”——无论通过什么办法或者基于什么理由,他往往会“成功地”在作出决定时形成一种信念,使得自己打算采取的行动是“合理的”。

换句话说,人们往往能够想到办法合理化(justify) 自己的行为——“欲盗铃,故掩耳”——显然无效的掩饰,也可以成为人们的“信念”,原因是人们的无知?不是——原因是人们欲进行某事。

这里有什么违背理性的吗?如果认为错误“信念”的形成,是由于人们缺乏信息与知识,那么即使是“错误”,实际上也已经是所能实现的最准确判断;如果认为错误“信念”的形成是基于某种故意,这也许只是证明在这种故意的背后,潜藏着另外一个偏好序…
聪明的你,请选择:是对自己显示真实的偏好,还是使自己形成错误的“信念”?——“聪明”之害
人们常说:“一个人做一件事,一定有他的‘理由’”——这是当然的,任何人在要做任何事之前,其内心的想法绝不会是“我要去做一件多么‘愚蠢’或者‘丑陋’的事”,相反,他必定有其“理由”:“这件事或许会被一些人认为‘愚蠢’或者‘丑陋’,但是,…”。

问题是,这个“理由”从何而来,无论是放诸众人之面前,亦或是放诸当事者之内心,这是不是能够一个真实的理由?
这就是“聪明”之害:人们做不应该做的事(这里,我们暂时不去讨论什么是‘不应该做的事’),如果是由于他们不知道应该做什么,那么只需将事实(真相和知识) 告知——实际上,这一点从来就不是困难的;然而,如果人们做不应该做的事,是因为他们的“聪明”,使其能够“成功地意识不到”自己实际上意识到了的东西,告知又意味着什么呢?——困难的,不是让一个人知道什么,而是让一个已经知道了什么的人承认自己已经知道了什么。

注意:“聪明”不同于理性,“聪明”之害,也并非理性之害。

*********************************************************************************** 2. 不完全信息博弈
——不完全信息
博弈论中所谓的“不完全信息(incomplete information games)”,是指参与人不能确定其他参与人的支付函数(偏好) 和战略空间(在各个阶段可以采取的行动)。

不能确定其他参与人的战略空间,可以等价于不能确定其他参与人的支付函数。

不能确定其他参与人的支付函数,也称作不能确定其他参与人的“类型(type)”。

——不完全信息与不完美信息
Harsanyi (1968) 证明:给定若干条件,可以将不完全信息转换为不完美信息。

例如,考虑飞行员-劫机者博弈:假设劫机者有两种可能的类型(或者说,劫机者实际上的类型是给定的,但是飞行员不能确定劫机者的类型) ——“怕死的”和“不怕死的”:
-——那么不妨引入一个在原假设劫机者属于前者的概率是p,劫机者属于后者的概率是1p
博弈所有参与人行动之前行动的“新的参与人”,一般称之为“自然(nature) (也就是说实话博弈
-将中的‘game master’)”,它(自然) 以概率p将劫机者“选择成‘怕死的’类型”,以概率1p
劫机者“选择成‘不怕死的’类型”:
如何理解在博弈中增加的这一个参与人“自然”?
(i) 对于博弈中不了解其它参与人类型信息的一方而言,只能将其它参与人类型当作服从某种由自然决定的分布;
(ii) “自然”作为博弈的一个参与人,严格说来也应该为其规定支付,我们假设“自然”不关心博弈的任何结果,因此只需将“自然”在任何一个结果下获得支付规定为一个任意的常数;
(iii) “自然”的策略,(),1p p -
,是先验给定的。

不完美信息的实质,是博弈的参与人不知道其对手做了什么;不完全信息的实质,是博弈的参与人不知道其对手是谁。

如果将“自然”也当作是博弈的对手之一,那么两者就没有区别。

基于Harsanyi 的证明,在考虑不完全信息博弈时,我们一般先引入“自然”,将其转换为一个不完美信息博弈,再进行分析。

3. 不完美信息博弈与“声誉” —— 所谓“声誉”:再看合作解
在此前完美且完全信息的框架下,我们证明:如果阶段博弈的占优策略均衡是“不合作,不合作”,那么这一阶段博弈重复任意有限次的重复博弈,都只可能得到在各期都不合作的SPNE 解。

但是,现实中的任何博弈恐怕都只会重复有限次——那么,合作真的无法出现?亦或如果出现了合作解,应当如何解释?实际上,Axelrod (1981) 实验确实表明:即使在有限次博弈中,合作行为也频繁出现。

问题出在哪里?
一个直觉来自于现实之中的谈判。

如果信息是完全的,谈判一开始就达成协议,但现实中的谈判不是这样,为什么?——原因很可能在于信息不对称:如果参与人对其他参与人的效用函数和战略空间的信息不完全,即使博弈重复的次数是有限的,人们也有积极性建立一个合作的“声誉”,合作有可能会出现。

博弈论之中的所谓“声誉(reputation)”,是指先行动的参与人通过其前期的选择,向后期行动的参与人传递关于自身类型的信息。

——声誉:一个例子
假定有两个参与人,A和B,进行如下的囚徒困境博弈:
假设参与人B一定是理性的,参与人A有两种可能的类型:(i) “非理性”型——在第一期采取“合作”,之后各期(if any)采取“以牙还牙(tit-for-tat, TFT)”策略——概率为p;(ii)“理。

性”型——根据自身的最大化,可以选择任何战略——概率为1p
如何理解参与人A的“非理性”?这里的“非理性”型只是一种提法,代表参与人A可能是有着不同支付函数(偏好) 的人(例如:讲情义重义气的) ——“非理性”型的参与人A实际上仍然是理性的。

如果上述博弈只进行一次,那么结论是显然的:(i) 如果是理性的A遇到(理性的) B,那么双方都采取“不合作”是一个占优策略均衡;(ii) 如果是“非理性”的A遇到(理性的) B,A将采取“合作”,B将采取“不合作”。

现在假设这一囚徒困境博弈作为一个阶段博弈,考虑其重复进行两次的情况。

我们仍然采取逆向归纳的方法。

在博弈的第二阶段,B一定采取“不合作”,理性的A也一定采取“不合作”,“非理性”的A将选择B在第一阶段采取的行动,不妨设之为“X”。

预期到了在博弈第二阶段将会发生的情况,在博弈的第一阶段,理性的A一定采取“不合作”,“非理性”的A一定采取“合作”;唯一的问题是:B应该做何选择?
在选择第一阶段的行动时,B需要对A的类型进行判断:如果A是“非理性”型,那么B在第一阶段选择“合作”将可以换来A在第二阶段选择“合作”;但是,B若真在第一阶段采取“合作”,就必须面对A是理性型的风险。

由此可见,对于第一阶段的B而言,选择“合作”不差于选择“不合作”,当且仅当:
()()()()()()
++--+≥++-+
3411040100
p p p p

p≥
0.25
即,如果B认为A属于“非理性”型的概率不小于0.25,B在第一阶段就会选择“合作”,即使博弈只重复两次。

由此可见,这一博弈的均衡取决于B认为A属于“非理性”型的概率:
p≥,如下表所示的策略组合是一个SPNE:
(i) 如果0.25
p<,如下表所示的策略组合是一个SPNE:
(ii) 如果0.25
我们可以怎样理解上述结果?这里,B所认为的“A是理性型的‘非理性型’的概率”,实际上可以被视作A的“声誉”——正是A在多大程度上可能是某种类型的参与人(这一声誉),决定了B的最优选择是什么。

注意在这一囚徒困境博弈只进行两次的情况下,B在第一阶段对于A的类型的判断只能是依靠“猜测”——A无法影响B对于其类型的判断,也就是,A没有建立声誉的时间。

——建立声誉:(来自Kreps, Milgrom, Roberts & Wilson (KMRW, 1982))
现在考虑这一阶段博弈重复进行三次的情况。

我们将会发现:这时,处在第一阶段的理性型的A,将有可能通过其选择建立其“可能属于‘非理性’型”的声誉,从而影响B在第二阶段的选择。

在博弈的第三阶段:B一定采取“不合作”,理性的A也一定采取“不合作”,“非理性”的A将选择B在第二阶段采取的行动,不妨将其设为“X”。

在博弈的第二阶段:(如前所述) B选择“X”,理性的A一定选择“不合作”,“非理性”的A将选择B在第一阶段采取的行动,不妨将其设为“Y”。

在博弈的第一阶段:(如前所述) B将选择“Y”,“非理性”的A将选择“合作”,问题是:理性的A应该做何选择?
如果理性的A在第一阶段直接选择“不合作”,那么之后的博弈就再无“秘密”可言(因为只有理性型的A,才会在第一阶段选择“不合作”)——在之后的所有阶段,双方必定都选择“不合
作”;如果理性的A在第一阶段选择“合作”,这一选择与“非理性型”的A在第一阶段做出的选择完全相同,因此B将(只能) 继续认为A“以概率p可能是‘非理性’型的”(注意:B不会因为A在第一阶段选择“合作”,而认为A一定是“非理性”型的),那么之后两个阶段的博弈就与上面得到的两阶段博弈完全相同。

p≥,那么理性的A只要在第一阶段选择“合作”,就将获得B在第二阶段的
(i)如果0.25
选择“合作”:
如果理性的A只要在第一阶段选择“不合作”,那么在之后各期双方都选择“不合作”:
如果只看在博弈的最后两个阶段获得支付,与在第一阶段选择“不合作”相比,理性的A在第一阶段选择“合作”能够使其多获得4单位的支付(来自博弈的第二阶段);但是,在博弈的第一阶段,理性的A选择“合作”将为其带来当期的损失。

一般地,这一损失的大小取决于B在第一阶段的选择。

但是,在本例中,无论B在第一阶段的选择“合作”还是“不合作”,理性的A在第一阶段选择“合作”为其带来的当期损失都是
p≥
1单位支付。

因此,这时理性的A在第一阶段的最优选择是“合作”,即保持“以概率0.25可能是‘非理性’型的”的声誉。

给定理性的A在第一阶段选择“合作”,从而B在第二阶段选择“合作”,不同类型的A在博弈各个阶段的选择如下:
如果B 在博弈第一阶段选择“合作”,其获得的期望支付是:
()()()()334131082p p p +++-+-+=+
如果B 在博弈第一阶段选择“不合作”,其获得的期望支付是:
()()()()()414141043p p p +-++-+-+=+
由于0.25p ≥,
B 在第一阶段将会选择“合作”。

可见,只要0.25p ≥,如下表所示的策略组合是博弈唯一的SPNE :
(ii) 如果0.25p <,那么理性的A 无论在第一阶段选择“合作”还是“不合作”,B 在第二阶段都会选择“不合作”:
而给定B 在第二阶段选择“不合作”,理性的A 在第一阶段没有理由选择“合作”。

因此,如果B 在第一阶段选择“合作”,其获得的期望支付是:
()()()340110081p p p +++--++=-
如果B 在第一阶段选择“不合作”,其获得的期望支付是:
()()()40010004p p p +++-++=
由于0.25p <,B 在第一阶段将会选择“不合作”。

可见如果0.25p <,如下表所示的策略组合是博弈唯一的SPNE :
—— 一般情况 (只作了解)
可以证明,如果博弈重复T 次:
(i) 只要0.25p ≥,对于所有的3T ≥,下列策略组合构成博弈唯一的SPNE :理性型的A 在1,2,
,2t T =-阶段选择‘合作’,在1T -和T 阶段选择‘不合作’;B 在1,2,,1t T =-阶
段选择‘合作’,在最后一阶段选择‘不合作’”。

也就是:“背叛”只在最后两阶段出现。

(ii) 如果0.25p <,对于所有的3T ≥,下列策略组合构成博弈唯一的SPNE :理性型的A 和B 从博弈的第一阶段开始,就都选择“不合作”。

以上考虑的是“只有一个参与人可能是‘非理性’型”的情况,Kreps, Milgrom, Roberts & Wilson (1982) 也考虑了“两个参与人都有可能是‘非理性’型”的情况,并证明:如果两个参与人都有可能是‘非理性’型”的,那么即使每名参与人是“非理性”型的概率很小,也可以导致合作行为,只要博弈重复的次数足够多 (但不需要是无限次)。

直观解释是:如果博弈重复的次数足够多,未来的合作潜力足够大,那么就没有任何一方愿意一开始就把自己的名声搞坏。

限于篇幅和课程要求,此处不做详细介绍。

我们完全也可以回避“声誉”一词而不谈,来理解不完全信息博弈中所谓“声誉”的实质和作用:
在一个不完全信息博弈的框架下,不同类型的参与人往往有着不同的最优选择。

正是根据这一点,缺少私人信息的一方又是能够根据拥有私人信息一方参与人的行动,来判断其类型。

对方会依据其行为对其类型作出判断,则是拥有私人信息一方在选择其行动时必须要考虑的因素。

*********************************************************************************** 行为表现,在什么情况下能够代表真实的类型,在什么情况下可能仅仅是“策略性的”?日须多久,方可见人心?
——关于声誉的确立、混淆和分辨,从来不缺乏话题:
赠君一法决狐疑,不用钻龟与祝蓍。

试玉要烧三日满,辨材须待七年期。

周公恐惧流言日,王莽谦恭未篡时。

向使当初身便死,一生真伪复谁知?
——白居易《放言五首》之三***********************************************************************************
11。

相关文档
最新文档