演化博弈论简介-萧敢

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

演化博弈论简介
说明:这篇东西是我上周六在浙大思想讨论班上做演讲的讲稿和主要内容。

讲完以后,叶航老师提出了很多宝贵的意见。

我也正好乘这机会把没有讲或者没有讲清楚的东西梳理了一下。

整理过程中还发现了了很多问题,请大家批评。

丁丁1994年有一篇重要的文章,介绍发展经济学的最新进展。

他比较了诺斯(North)的制度变迁理论,罗默(Romer),卢卡斯(Lucas)等的内生增长理论,哈耶克的“自发秩序论”,重复博弈和演化博弈论等理论,这些理论的共同特点是“动态”(dynamic)。

传统新古典经济学是静态的,重视均衡点,但很难进行历史的研究。

正因为如此,这些新理论才显示出强大
的生命力,获得广泛运用。

我们这里讲演化博弈(evolutionary game theory),它显然有2条理论来源,一是演化理论,一是博弈论。

先来看演化理论,我首先要纠正一个常见的误解,即演化均衡是帕累托最优的,或者说最大化整个社群的福利。

我们要注意到,演化均衡不等于一般均衡,等会我会给出一些严格的定义。

从福利经济学第一定理可以得知,一般均衡必然是帕累托最优的,即所谓的看不见的手的含义,但是演化均衡并没有类似的定理。

我们用常识来分析,如果演化均衡最大化社群的福利,那么什么是社群的福利呢?是个体的总数最大吗,是个体的多样性最多吗,抑或是个体预期存活概率最大?即使我们能为适应性(fitness)找出合适的测量方法,我们也无法保证演化是朝向个体适应性最大的方向演化。

我这里用演化,避免用演进,可以减少误解。

演化理论中有两条最重要的机制。

一个叫自然选择,即不是每种生物都有相同的概率在下一期存活。

在这个世界上,有些生物个体(或者人)特别幸运,他们能活下去,但还有些个体就倒霉了,他们会被淘汰。

我们今天都活着,可见我们的祖先都还是幸运的,他们有后代继承了他们的基因。

我特别要强调自然选择,对于我们来说是被选择(be selected),我们能决定我们的行为和策略,但不能决定我们是否被选择,那是上帝的事情。

严复说物竞天择,就是这个意思。

另一种机制叫突变机制(mutant),这保证了种群的变化。

如果没有突变,那么这个世界上存活下来的物种就会越来越少,最后只剩下一种。

对于突变机制,我也要强调它是没有方向性的,可能会提高个体的适应性,但更有可能降低个体的适应性。

突变同样是上帝的选择,微观个体无能为力。

接下来,我们就可以回顾演化经济学的思想史了。

我在幻灯片里给出了一长串人的名字,他们都可以看作是具有演化思想的经济学家,都是演化经济学的先驱。

斯密,马克思,门格尔,马歇尔,凡勃仑,熊彼特,直到哈耶克。

我尤其要强调雄彼特的贡献,他研究经济发展和经济周期,提出了著名的“创新”思想。

这带有明显的动态的特征,并影响了随后的尼尔森和温特。

安德森把熊彼特以后,尼尔森-温特以前这段时间(1930-1970)比作黑暗时代(当然这仅指演化经济学而言,对于新古典经济学无疑是黄金时代呢),这段时间很少有人关心动态的演化的经济学理论。

(阿尔奇安也许是个例外)
从70年代初开始,尼尔森和温特提出了一系列演化经济学模型。

同时,梅纳德.史密斯在1973年提出了著名的演化稳定策略,奠定了演化经济学的基础。

从此,演化经济学可以算真正诞生了。

尼尔森自称是熊彼特的忠实信徒,而温特是达尔文进化论的信徒,他们的演化理论非常鲜明地具有这些特征。

计算机能够很好地模拟生态学上物种数量的演化,因而也被广泛地用于经济模型的演化模拟。

尼尔森-温特的多数模型都很容易被改编成计算机模型,用现实数据进
行实证检验。

大家认为他们的模型在产业组织(IO)的应用比较成功,我就以这方面的模型为例子。

尼尔森-温特给出了个体在演化过程中的几个重要特征,我把他们列在下面
1个体永远不会完美信息(局部知识或吉尔兹的地方性知识,而不是全局性知识)
2个体行为受制度(正式和非正式),规范,习俗,意识系统等条件约束
3个体(或者企业)可以模仿对手
4开发和模仿(也就是R&D)既有“积聚效应”(可以参考Becker关于“上瘾”以及孩子教育的论文)和路径依赖的效果,又与原创性科学研究相关。

5个体竞争的结果往往是非均衡的-即败者出局(被淘汰)
6个体的特征是非决定性的-这里他们是在反驳“决定论”的批评。

同时,演进的结果通常是不可逆的。

7主流经济学喜欢讨论“潜在的”均衡(也就是往往达不到的,但理论上可能的均衡),而对非均衡状态的分析要远比那些均衡来的重要。

我们重点讲其中的“创新”部分。

熊彼特的创新,到了尼尔森和温特那里,运用到对firm 的研究,被偷换成了R&D(更具体一些,是innovation/imitation)。

创新当然不完全等同于R&D,但这样做是必要的。

我们可以参考Becker的研究方法,我们脚站在工具里,把能够工具化的变量尽量工具化,也许我们只抓住了变量的很次要一部分,我们只迈出了一小步,但对这一小步我们有足够的自信心。

回到R&D,我下面主要依据他们1982年那本著名的教科书Evolutionary theory of economic change。

我们根据以下知识列出计算方程
1 资本生产率是由企业的专门化知识决定的
2R&D的产物是innovation和imitation。

3R&D密度(就是R&D占总资金比例,例如微软好像是5%)由一固定规则决定。

4原创能否实现是一个柏松过程。

再加上一些常识,就能写出联立方程组,用计算机来算。

5创新是不连续的,有跳跃,有“高原现象”。

接着我们就可以批评他们的工作了。

先是一个小问题,就是如何区分原创和模仿,两者之间的关系是怎样的(互补或互替或其他),他们也做了回应。

接着是一个大问题,就是他们把R&D看作在一个搜索空间(search space)里的搜索过程。

让我先打个岔,说说经典博弈论里的共同知识(common knowledge)的事情。

耶路撒冷学派的领袖奥曼(Aumann)说,博弈论的基础是一团乱麻。

要理出一根阿里阿德涅线,我们要找到一个线头,这就是共同知识。

共同知识就是,我知道你的策略,你知道我的策略,我知道你知道我的策略,你知道我知道你的策略...宾莫尔(Binmore)等人试图用一个自明之理来取代这个共同知识。

有些事情,只要发生了,人人都应该知道(例如911事件,现在的美伊战争等)。

但他们在公理化这个自明之理时,又遇到致命的阻碍。

这就是所谓的第五公理和第六公理。

第五公理说,我知我所知。

这还算了,第六公理说,我知我所不知,这立刻遇到了哲学问题。

亚里斯多德的“愈学愈无知”的故事正好拿来反驳。

一个人如何能知道自己的策略空间,更如何能知道自己策略空间以外的空间?从语言学或者认识论的角度来看,这个公理更显得荒谬了。

博弈论大师在共同知识这个问题前的狼狈是可想而知的。

我这里只是想类比一下,R&D真的能表示成在给定的搜索空间里搜索吗?从实践的角度,我们只能处理一维和二维的情况,丁丁说的“一切人在一切方向上的创新”,这就超出我们能够处理的范围了。

我们能够在一个时点讨论多个维度(一般均衡),我们也能在时间连续情形下讨论一个维度(演化稳定-这就是尼尔森和温特他们的工作),但我们无法讨论时间连续下多个维度的情况,这超出了理性的范围,但这正是创新的特点。

说了那么多,我只是想指出,他们这派的方法论是排除个人的理性选择的。

所以他们的模型可以被很好地运用到产业组织的研究中。

他们的路子跟泰勒尔(Tirole ),美国的博弈论四人帮等的路子很不同。

传统的经验型的产业组织研究(张伯伦,罗宾逊他们的研究,到后来贝恩那里所谓的SCP 范式)已经彻底被博弈论征服了。

而尼尔森,温特他们用演进理论借尸还魂,恢复产业组织的经验研究(很显然,计算机模拟的结果可以跟实证数据对比)是很成功的。

其中最微妙的与人的选择关系最密切的R&D 活动也被巧妙的模型化了。

(但我们看到,把多维的创新压缩到1,2维的搜索空间里的搜索,这里面问题很大)
接着,我们可以讨论一些重要的概念了,主要是一些博弈论的概念。

当然,其中最重要的概念就是演化稳定策略(ESS )。

我想强调,ESS 是一种策略,而不是均衡。

策略在前,均衡在后。

由策略看演化,是由前往后看,由均衡看演化,是由后往前看。

我们先给出一个严格的定义,在两人对称博弈情况下(我们下面主要讨论对称的情况,不对称通常可以转换成对称的情形),存在策略σ,σσ'≠,()(0,1)εσ'∈,使得 (,(1))(,(1))u u σεσεσσεσεσ'''+->+-,那么σ就被称为演化稳定策略。

由上面的定义可以看到,博弈双方都会采用这最优的演化稳定策略。

我们有两条性质如下 性质1:演化稳定策略必然是纳什均衡。

性质2:只有严格的(即唯一的)纳什均衡才能由演化稳定策略得出。

下面我介绍一个通俗的例子,表明演化稳定策略往往会不存在,所以我们有时不得不转向均衡的分析。

这个例子很简单,叫“石头-剪刀-布”博弈。

石头胜剪刀,剪刀胜布,布胜石头,当双方的策略相同时,收益都为x.
很显然,这个博弈有一个混合策略纳什均衡,即用1/3的概率分别选择出石头-剪刀-布{1/3,1/3,1/3},或者说随机选择,这个策略的期望收益是1
3X 。

假设这个博弈存在演化稳定策略 ,那么双方都采取这个策略,收益显然为X.由定义得,既然策略是ESS ,那么必然有X>1
3X ,我们知道这只有在X>0时才满足。

当X<0时,这个博弈不存在演化稳定策略,但显然它是存在纳什均衡的,所以我们需要另一种分析方法,叫演化稳定均衡(EES )
我把定义写在下面
X 是个非空纳什均衡策略闭集合,存在(0,1)ε'∈,X σ∈,((1))BR σεσεσ''∈-+,
0εε'<<,(1)X εσεσ'-+∈,则X 是演化稳定均衡。

我们可以证明,每个对称博弈都存在演化稳定均衡,每个演化稳定均衡是纳什均衡集的一个元素。

这样,我们就有了几个相关的工具。

一个是演化稳定策略,由这个策略可以推导最后的均衡,但这个占优策略未必存在。

一个是演化稳定均衡,它一定是存在的,但只是最后的结果。

一个是纳什均衡,但我们知道纳什均衡往往不唯一。

接下去,我们来讨论演化策略的稳定性。

我们有时候会发现ESS 虽然是占优的,但不是稳定的-这很重要,这导致我们必须引入一种“突变”(mutant )机制。

我下面举一个例子,是Robson(1990)年提出的,被称为“秘密握手”博弈。

有支付矩阵如下 (0.1)
显然,这个博弈有2个纳什均衡,分别是(d,d)和(m,m),(m,m)帕累托占优于(d,d)。

因为(d,d)与(d,m),(m,d)无差异,而(m,m)优于(d,m)和(m,d),因此,只有(m,m)是演化稳定策略。

我们仔细观察这个支付矩阵,就能看出问题。

随着演化,大家采用的策略最后都稳定在m 上,采用m 即合作的策略成为大家默认的规则(制度)。

这时候,就会有人想钻空子了(突变),他会想改变策略选择c 。

当别人选择m 时,他就获得更高的收益。

对手很快就会发现这种情况,于是也选择策略c ,但(c,c)不是纳什均衡,不稳定,最后会收敛到(d,d),我们又回到了分析的起点。

这自然是个无限递归的过程,Robson 用一种“秘密握手”的思想解决这个问题,即人们通过观察行为,把人分成2组。

大家都只和潜在的朋友合作(握手),选择策略m ,而对外人采取策略d 。

这种握手从支付矩阵里看不出来,是外生的。

这条思路就和信息经济学接起来了。

然后,我们就可以讲最重要的复制动态了。

我们还是从最著名的“鹰鸽博弈”开始讲。

这个博弈的生物学涵义是,一个社会有两种动物,一种有攻击性,叫鹰;一种没有攻击性,叫鸽。

这个博弈的均衡与c,v 的数值大小密切相关。

我们先假设,对于某个微观个体,物种只是由遗传(gene )决定的,即某种生物生来要么是鹰,要么是鸽,它无法采取混合策略。

如果V>C ,也就是两个鹰之间竞争后的预期收益大于0,那么很显然,唯一的纳什均衡就是(H,H),演化稳定策略就是(H,H )。

长此以往,整个社会最终将只剩下鹰。

如果V<C,情况就复杂了,因为(H,H)与(D,D)都不是纳什均衡,整个博弈不存在演化稳定策略,最终什么情况都可能发生。

我们用微分方程来描述,可以发现没有稳态。

但我们放松前面那个假定,从宏观社群角度来看,情况就不同了。

如果我们允许混合策略存在,我们可以得到一个混合策略*(,1)v v c c σ=-
这个混合策略的生物学涵义是,整个社会里有v
c 的生物是鹰,1v
c -的生物是鸽。

如果鹰多
了,它会因为相互斗争而两败俱伤,从而减少数量,恢复到均衡状态。

反之亦如是。

描写人口变化数量的微分方程就被称为复制动态。

我们知道,人口变化一方面受上一代种群数量的影响(即著名的费雪方程),一方面受当期竞争的影响(博弈论)。

这里,我们再次碰到了演化经济学的大问题,演化是基因演化还是文化演化?即个体的特性是先天遗传决定还是后天学习决定。

我举个小例子吧。

人类学家在欧洲发掘早期智人,发现两种骨头,一种在前,叫尼安德特人;一种在后,叫克里马隆人。

对于这两种人之间的关系,人类学家提出了2种看法。

我们在后期只发现克里马隆人,一种可能的解释当然是尼安德特人全都进化成了克里马隆人。

另一种可能的解释是,克里马隆人和尼安德特人没有任何亲缘关系,他们只是后来居上,消灭了尼安德特人。

这就分别对应于“文化演化”与“基因演化”。

这两种演化思想的争论至今仍然是演化理论的核心问题。

好了,接着我们就可以讲近年来演化博弈论最重要的进展,随机稳定(SS ),这是杨(P .Y oung )和福斯特(Foster )的贡献,他们都写过重要的演化博弈论教科书。

我们知道,演化稳定策略只能抵御初始的冲击,它保证这个策略比其他策略都占优。

但在演化博弈过程中,发生了冲击,那么演化稳定策略就无能为力了。

它不能保证必然导向估计的稳定点。

而我们有了随机稳定策略以后,情况就好得多。

我们只要保证每次转移矩阵不变,不管中间发生了多少次冲击,整个博弈都能向均衡点收敛。

随机稳定策略被广泛运用于制度分析中,因为制度变迁的过程正是一个不断冲击,不断相互作用的过程。

下面,我们用一个协调博弈的例子来说明,这个例子来自于卡多里等,被称为KMR 模型(Kandori,Mailath,Rob )。

先简单解释一下协调博弈,这类似于围城战。

例如史可法被清兵把扬州城团团包围了。

他派人杀出城去求来南明救兵。

但因为敌人强大,一定要里应外合才能杀退敌军,任何一方单独行动都会遭至失败。

当然,这里面有一个信号传递的问题,即协调的过程,而这又和共同知识(common knowledge )有关。

城外的人必须完全知道城内人的策略空间,城内的人也是,相互嵌逃,无穷递归。

而我们用自明之理代替共同知识,又会遇到认识论的问题,上面已经说过了。

我们不看信号传递,就简单地看这个支付矩阵。

我们假设其中a>c,b>d,但是a-c<b-d 。

更具体一些,a=2,b=1,c=0,d=-100。

显然,(A,A)与(B,B )都是纳什均衡,(A,A )是帕累托最优的。

但(B ,B )是风险占优策略。

我们假设整个社会人口1()t t z b z +=,{1,...,1}z Z N ∈=-。

其中()b z z >当且仅当(,)(,)u A z u B z >,1
(,)11z N z
u A z a b N N --=+--,1
(,)11z
N z u B z a b N N --=+--。

于是整个社会人口的变动1()t t t t z b z x y +=+-
这其中~(())t t x N b z ε-,~(())t t y b z ε,于是我们就得到Z 空间上的一个马尔可夫链()p ε
我们可以证明马尔可夫链()p ε有唯一的均衡()με,满足()()()P μεεμε=,可以称之为不变均衡。

这个博弈策略,它有稳定性质任何()p Z ∈∆,lim ()()t
t P p εμε→∞→ 最后,我们给出一个性质但不加证明了,当博弈时间足够长(即N 足够大时),风险占优策略才是唯一的随机稳定策略。

我不应该再讲技术性的东西了,我们步入下一个大问题。

我用一个大家最熟悉的例子来运用一下复制动态,同时引向第三个关键字“互惠”(reciprocity )。

金迪斯2001年那篇“互惠性”的论文,被丁丁称为“社会学第一定理”。

我知道大家都很熟悉,就只讲一下主要思想,在金迪斯(Gintis )文章里,他假设有两种人,一种利他的人(雷锋?),一种自私的经济人。

在每一个生命周期里,自私的人一定能活下去,但利他的人会以小于1的某概率活下去。

(注意,这里金迪斯没把牺牲自己和造福大家必然地联系起来,这其中的缺陷值得我们反思。

叶老师提出的合作效用就是要弥补这个缺陷)。

而人口会以固定的速度繁殖增长,金迪斯假设利他人与利他人的孩子,必然是利他的。

自私人与自私人的孩子必然是自私的。

利他人与自私人的孩子以0.5的概率分别是利他和自私的,这里只有显性遗传。

这就是最典型的复制动态情形,金迪斯把这称为纵向动态。

如果只有纵向动态,那么最后利他的人必然濒临灭绝。

这里,金迪斯又引入一个微分方程,一般文献称为Mutant (突变),金迪斯称为水平遗传-即教育或教化。

一部分自私的人会良心发现,变成利他。

一部分利他的人受不住诱惑,变成自私的人。

这样,随着初始参数的变动,可以得到各种结果。

从这里,我们步入最后一个大问题,那就是“互惠”。

这条路非常复杂,因为研究目标是活生生的人。

我们必须追溯到道金斯,威尔森,一直到现在的Boyd,Richerson,Gintis,Fehr 等。

叶老师写过很多这方面的文章,我也有一篇综述,大家可以参考。

我想指出的是,这个领域介于生物学,社会学(包括人类学)与经济学之间。

从现在的发展程度来看,所谓的行为学是解决这一方向问题的最好工具。

我们归根结底要探究个人的动机(motivation ),这又好像是心理学的事情了。

心理学是个模糊的学科,行为主义对它有着深远的影响。

社会学中也有一个行为主义学派,代表人物有霍曼斯(Homans ),布劳(Blow ),大家应该都很熟悉。

另一个我想强调的就是,实验经济学对这条互惠思路的研究提供了很多支持。

“最后通牒”博弈已经家喻户晓了。

与之相关的实验还有,公共品博弈验,效率工资博弈等等。

在给出那么多理论以后,我想从生物学的角度提出9个问题(是泽尔腾在博弈论手册中提出的),每一个问题自然都与演化博弈理论相关,但都没有必然的答案,仅供大家思考。

问题一:为什么动物竞争时(例如共同猎取一猎物)有时遵循一定的惯例(例如先到先得,例如在谁的地盘上就归谁),而不都以暴力(身体上的攻击)解决。

这种惯例在什么情况下产生?
问题二:冲突是怎么解决的?动物在什么情况下不采用暴力解决冲突?
问题三:当个体与整体进行博弈(非对称)时,冲突的成本收益是否能够计算? 问题四:动物在什么时候停止有成本的攻击?
问题五:动物如何通过行为来交流?(发送信号)
问题六:基因在动物合作行为中起到何种作用?
问题七:动物合作行为是后天学习的吗?
问题八:动物合作行为是因为存在共同利益吗?
问题九:组织演化与重复博弈的逻辑之间的关系是什么?
最后一个问题也是演化博弈论最本质的问题,它牵涉到演化博弈的两种思想来源。

演化理论从生物进化论而来,而重复博弈就是学习的过程,这两种理论的融合必然是演化博弈论发展的方向。

相关文档
最新文档