囚徒困境

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

(单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样)
1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。

经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
•若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

•若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

•若二人都互相检举(互相“背叛”),则二人同样判监2年。

用表格概述如下:
甲沉默(合作)甲认罪(背叛)
乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年
乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。

参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。

另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

囚徒甲和乙该怎么办呢?他们作为本博弈中的两个博弈方,他们都有两个选择——坦白或抵赖。

很显然,最好的策略是双方都抵赖,结果是大家都只被判一年。

但是由于两人处于隔离的情况下无法串供。

所以,根据个体理性原则,两个博弈方的目标都是要实现自身利益最大化。

对于囚徒甲来说,囚徒乙有坦白和抵赖的两种可能的选择,如果囚徒乙选的是抵赖,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益为-1,坦白的得益为-1/2;,如果囚徒乙选的是坦白,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益-10,坦白的得益为-5。

因此,在本博弈中,无论囚徒乙选择何种策略,囚徒甲选择坦白给自己带来的收益是最大的;同样的,囚徒乙和囚徒甲的情况一样,因此囚徒乙的选择和囚徒甲一样。

因此,该博弈的最终结果是博弈双方同选择坦白策略,同时获益-5,都判五年刑。

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是两种策略之中的支配性策略。

因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。

以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。

但根据以上假设,二人均为理性的个人,且只追求自己个人利益。

均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。

这就是“困境”所在。

例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。

在重复的囚徒困境中,博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,
纳什均衡趋向于帕累托最优。

现实的例子
上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵。

社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈。

囚徒困境可以广为使用,说明这种博弈的重要性。

以下为各界例子:
一名经理,数名员工; 前提,经理比较苛刻;
如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作
如果某人不听从吩咐,其他人听从吩咐,则此人下岗。

其他人继续工作
如果所有人都不听从经理吩咐,则经理下岗
但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作
房地产市场的例子:不可重复的出卖
著名作家三盅在他的《杂文也疯狂》中有这样一个单篇——《泡沫中的“囚徒困境”》。

记述了2008年房地产领域的囚徒困境。

在所有市场博弈模型中,“囚徒困境”是最为接近心理学的一个,也是最能揭示善恶的一个,更是最能体现集体智慧的一个,选择背叛还是合作,始终是它不变的主题……我们把眼光聚焦到当前的房地产市场中来吧,一个不小的“囚徒困境”已经展现在我们眼前,首先放弃帕累托最优解决方案的是万科,可想而知,在当前的市场环境下,它预期到的博弈的纳什均衡,显然是未来困境下的房地产商之间的普遍相互背叛,也就是说,万科在这场“囚徒困境”中,之所以选择首先动手,出卖所有除它之外的房地产商,是因为它预计在这种困境中,如果不尽早出卖所有同伴,自己将面临被出卖的结局,毕竟,这是一个非零和博弈游戏,出卖行为是可以换取非常大的利益的……在这里,我为何要刻薄地使用“出卖”二字?我们回顾一下房地产商们过去N年中所缔造出来的“攻守同盟”便可理解,我曾经因为“房地产行业是否存在暴利”及“房地产开发成本是否应该公开”的问题在第一财经频道与反方争得面红耳赤,我从来就认定房地产开发企业存在着的暴利现象,而当时几乎所有的开发商都是众口一辞地否认暴利的存在,更有甚者,潘先生羞答答地把成本比喻为自家老婆的奶子,充分论证了成本不可示人是理所当然的,当然,其中也有万科的声音……如今的万科,则践踏了自己曾经参与的“同盟”,跳出来用实际行动来证明了暴利的存在,它不仅想证明自己存在暴利,也试图揭发所有同伴的暴利,所以,我说他的行为是“出卖”……通过出卖同伴,万科真的能够获得个体的最大利益吗?理论上说它能够获得,但在实践中,也许它最终是打错了算盘,因为在所有的实践中,“囚徒困境”式的博弈必须是在一个信息极不对称的封闭环境中产生结果,所有囚徒式的自身恐惧与“理性决策”都是被相互隔绝的,而且这种博弈是不可被重复的,而当前的市场环境已经被不止一次重演过了(海南、05全国、08深圳),这种重复博弈最终将令所有参与者脱离困境,“囚徒困境”至此被彻底打破……另外,最关键的一条是,在这场博弈中,政府也参与其中了,他直接参与的环节在于源头,即土地的供应(租借),这将加速打破“囚徒困境”,因为与所有参与博弈者有着本质不同的是,政府是整个游戏的设计者,是囚禁规则的设计者,也是盖牢房、拆牢房的人,你很难想象一个有着政府参与其中的“囚徒困境”可以被称之为真正意义上的“困境”,再回头看万科,在所有被他出卖的所谓同伴中,正有政府的身影……我这么说也许是不严谨的,毕竟这不是一个理想状态下的“囚徒困境”,囚徒之间并没有相互隔绝,信息最起码在业内并非极度不对称,万科是否背负着某种使命,至
今还不得而知……最后,需求方同样面临“囚徒困境”,从邹涛的“不买房运动”到“万人大团购”中便可管窥一二……我认为,房地产商乃至房地产市场若想最终走出“囚徒困境”,只有两种可能,一是前文提到的那位最为尊贵的囚徒如何作为,囚禁自己还是大赦天下,二是所有囚徒在重复博弈的过程中明智地选择停止博弈、创建合作,在过去的几年里,他们曾经做到过,如今,也许又到了这样做的时候了,他们需要的仅仅是集体智慧,而那些已经被出卖者窃走的蛋糕,恐怕也只能暂时性地延续出卖者的生命,却最终导致其今后连做囚徒的资格也不会有了……只为两个字,“信任”!而在此之后,也许“囚徒困境”将演变成另一种新的模型,我姑且称之为“重复博弈结果下的囚徒报复”……
军事或政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。

两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。

两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。

似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成损坏等)。

这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。

经济学例子:关税战
两个国家,在关税上可以有以两个选择: 提高关税,以保护自己的商品。

(背叛)与对方达成关税协定,降低关税以利各自商品流通。

(合作)当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。

然后二国又重新达成关税协定。

(重复博弈的结果是将发现共同合作利益最大。


商业例子:广告战
商业活动中亦会出现各种囚徒困境例子。

以广告竞争为例。

两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告,收入增加很少但成本增加。

但若不提高广告质量,生意又会被对方夺走。

此二公司可以有二选择:互相达成协议,减少广告的开支。

(合作)增加广告开支,设法提升广告的质量,压倒对方。

(背叛)若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。

在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。

自行车赛例子
自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。

例如每年都举办的环法自由车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。

而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。

通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。

而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。

与囚徒困境相关的各事件
[编辑]异想
威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来说明囚徒
困境。

在新西兰,报亭既无管理员也不上锁,买报纸的人自行放下钱后拿走报纸。

当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。

这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。

并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果。

这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical thinking)”。

“认罪减刑”不可行
囚徒困境的结论是许多国家中认罪减刑(英文:plea bargain)被禁止的原因之一。

囚徒困境带来的结论是:如果有二个罪犯,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。

最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多。

公用品悲剧
现实的博弈参与者不只一方,会有多方参与的囚徒困境。

加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。

但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境。

就是说只有二方的囚徒困境,没有多方的。

所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。

重复的囚徒困境
罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。

在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。

阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。

参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他主义”策略更多地被采用。

他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。

它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。

这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。

更好些的策略是“宽恕地以牙还牙”。

当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%-5%)时而合作一下。

这是考虑到偶尔要从循环背叛的受骗中复原。

当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。

这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。

通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。

;友善:最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。

几乎所有的高分策略都是友善的。

因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。

报复
但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。

要始终报复。

一个非报复策略的例子是始终合作。

这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。

宽恕
成功策略的另一个品质是必须要宽恕。

虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。

这停止了报复和反报复的长期进行,最大化了得分点数。

不嫉妒
最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。

因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。

阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。

对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的。

但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应。

例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略。

这个人处于一种轻微的不利地位,因为第一回合的损失。

在这样的人群中,对这个人来说最佳策略就是每次都背叛。

在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度。

一般有两种方法得到最佳策略:
1.贝叶斯纳什均衡:如果对抗策略的统计分布能被确定(例如,50%以牙还牙,50%一直合作),就能从数学上获得最佳的相对策略。

2.已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来(一种获得最佳策略的天才算法)。

决赛人群中的算法合成通常依赖于初赛人群中的算法合成。

尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯·詹宁斯(Nicholas Jennings)领导,包括了拉蒂普·达什(Rajdeep Dash)、萨瓦帕里·拉姆琼(Sarvapali Ramchurn)、亚历克斯·罗杰斯(Alex Rogers)和皮鲁克里士南·维特林根(Perukrishnen Vytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功。

这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数。

南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别。

一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数。

如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分。

结果,这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置。

虽然这个策略显着地证明了比以牙还牙有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的。

在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略。

如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。

纳什均衡就是每次都背叛。

这很容易用归纳法证明。

你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。

因此,你们都将在最后的回合背叛。

这时,你可以在倒数
第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。

依此类推。

为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。

一个解决方案是让博弈总次数N 变成随机的。

对未来的预期必须是无法确定的长度。

相关文档
最新文档