囚徒困境论文

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【摘要】“囚徒困境”模型是博弈论中的经典范例，它是 1950年Tucker提出的，其完全信息下的静态博弈为广大博弈论的工作者和初学者所掌握，成为解释生活现象的有力工具。

其实“囚徒困境”是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

一、对“囚徒困境理论”的解释
“囚徒困境”是博弈论里最经典的例子之一。

其中对于囚徒困境的描述：话说有一天，一位富翁在家中被杀，财物被盗。

警方在此案的侦破过程中，抓到两个犯罪嫌疑人，甲和乙，并从他们的住处搜出被害人家中丢失的财物。

但是，他们都否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。

于是警方将两人隔离，分别关在不同的房间进行审讯。

由警察分别和每个人单独谈话。

警察说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。

但是，我可以和你做个交易。

如果你单独坦白杀人的罪行，我只判你半年，但你的同伙要被判十年刑。

如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判半年。

但是，如果你们两人都坦白交代，那么，你们都要被判五年刑。

”
囚徒甲和乙该怎么办呢？他们作为本博弈中的两个博弈方，他们
都有两个选择——坦白或抵赖。

很显然，最好的策略是双方都抵赖，结果是大家都只被判一年。

但是由于两人处于隔离的情况下无法串供。

所以，根据个体理性原则，两个博弈方的目标都是要实现自身利益最大化。

对于囚徒甲来说，囚徒乙有坦白和抵赖的两种可能的选择，如果囚徒乙选的是抵赖，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益为-1，坦白的得益为-1/2；，如果囚徒乙选的是坦白，则对于囚徒甲来说，他应该选择坦白，因为抵赖的得益-10，坦白的得益为-5。

因此，在本博弈中，无论囚徒乙选择何种策略，囚徒甲选择坦白给自己带来的收益是最大的；同样的，囚徒乙和囚徒甲的情况一样，因此囚徒乙的选择和囚徒甲一样。

因此，该博弈的最终结果是博弈双方同选择坦白策略，同时获益-5，都判五年刑。

囚徒的困境
该理论其中的意义在于：个人理性与集体理性的矛盾，个体追求的利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都
不利的结局。

这由于两人都是在选择策略时首先想到自己，因此他们必然要服长的刑期。

针对这种情况，本文从另外的角度来探讨囚徒理论。

二、囚徒困境的意义
再谈这个问题之前，我们首先要对理性人这一概念进行讨论。

西方经济学家指出，所谓的“理性人”的假设是对在经济社会中从事经济活动的所有人的基本特征的一个一般性的抽象。

这个被抽象出来的基本特征就是：每一个从事经济活动的人都是利己的。

也可以说，每一个从事经济活动的人所采取的经济行为都是力图以自己的最小经济代价去获得自己的最大经济利益。

西方经济学家认为，在任何经济活动中，只有这样的人才是“合乎理性的人”，否则，就是非理性的人。

既然如此，“每一个从事经济活动的人所采取的经济行为都是力图以自己的最小经济代价去获得自己的最大经济利益”中间所说的经济代价和经济利益到底是怎样的经济代价和经济利益呢？是长期的还是短期的呢？因此，本文认为，我们有必要对理性人这一概念做出重新解释。

本文认为，理性人是并非是纯粹的理性人，而是有道德因素，任何人在行为过程中无法撇开这一因素而展开行动。

解决了这个问题之后，本文将主要从两个方面来看：
第一种情况：
假设甲乙两个囚徒绝顶聪明，考虑问题都比较周到，颇有战略眼
观，之如孔明等，也就是说是理性的，根据个人理性的原则，囚徒甲乙根据自身利益最大的原则行事，那么在警察所提出的条件中，则会做出与囚徒理论相反的选择。

原因在于囚徒甲乙分别对警察说提出的条件充分考虑过后，也就是说，对“囚徒理论”做出了分析，得出如果“坦白”将会都获得五年的徒刑的结论，那么，作为理性人的甲和乙，只有做出“抵赖”的选择才可能获得最小惩罚，即一年的徒刑，得益最大。

第二种情况：
在现实生活中，人是理性的动物，同样也是有感情的，那么在这种情况下，我们做出如下推断：
甲乙囚徒两人的关系坚如磐石，情比金坚，两人价值观都是先义后利，以义制利的思想，在此危难时刻都会作出宁可牺牲自己以成全他人的情操，比如伯夷叔齐等，此时此刻，囚犯甲乙都以使对方获益最大来作为自身利益最大化的选择。

那么，可做以下分析：
对于囚徒甲而言，囚徒乙有坦白和抵赖两种选择，如果囚徒乙坦白，因为坦白则对方获益为-5，抵赖则获益为-1/2，尽量使对方获益最大，因此囚徒甲则选择抵赖；如果囚徒乙选择抵赖，自然囚徒甲选择抵赖同样也是最佳选择，因为对方获益为-1。

同样的，因为囚徒乙和囚徒甲的情况完全相同，所以选择抵赖。

其最终结果为两人都是选择抵赖，获得最短时间，即一年。

囚徒甲和乙在这两种情况之下出发点尽管有所不同，但是其结果
都是达到了其利益最大化，并且在某种程度上也遵循了个体理性原则。

通过以上的分析，我们不难发现，博弈论中囚徒困境理论也有其不合理之处，大家都知道理论的重要意义在于类似的情况之下给人们社会经济生活带来指导。

在经济发展中，我们应该认识到“看不见的手”还有更多内涵，有待我们去发掘。

本文主要通过对该理论的分析，从中发现对企业经营管理活动的有义启示。

第一，在市场竞争过程中，一名优秀的经营者，无论做任何决策还是考虑问题应该有战略眼观，特别是在做出对企业乃至行业今后发展的竞争策略时，从长远出发，做正确的决断。

第二，保存对手就是保存自己。

在市场竞争中，让竞争对手发展就是自己发展，本着求同存异的思想，共谋发展，避免恶性竞争，避免两败俱伤的情况。

第三，市场竞争不是纯粹的竞争，在义和利之间应该如何取舍，是一位有战略眼观的企业家该做的第一个选择。

三、现实生活中的例子
1. 房地产市场的例子：不可重复的出卖
著名作家三盅在他的《杂文也疯狂》中有这样一个单篇——《泡沫中的“囚徒困境” 》。

记述了2008年房地产领域的囚徒困境。

我们学习宏观经济学的时候必定会学习博弈论，学习博弈论就必定涉及“囚徒困境”模型，而我一直认为，在所有市场博弈模型中，“囚徒困境”是最为接近心理学的一个，也是最能揭示善恶的一个，更是最能体现集体智慧的一个，选择背叛还是合作，始终是它不变的主题……
我们把眼光聚焦到当前的房地产市场中来吧，一个不小的“囚徒困境”已经展现在我们眼前，首先放弃帕累托最优解决方案的是万科，可想而知，在当前的市场环境下，它预期到的博弈的纳什均衡，显然是未来困境下的房地产商之间的普遍相互背叛，也就是说，万科在这场“囚徒困境”中，之所以选择首先动手，出卖所有除它之外的房地产商，是因为它预计在这种困境中，如果不尽早出卖所有同伴，自己将面临被出卖的结局，毕竟，这是一个非零和博弈游戏，出卖行为是可以换取非常大的利益的……
在这里，我为何要刻薄地使用“出卖”二字？我们回顾一下房地产商们过去N年中所缔造出来的“攻守同盟”便可理解，我曾经因为“房地产行业是否存在暴利”及“房地产开发成本是否应该公开”的问题在第一财经频道与反方争得面红耳赤，我从来就认定房地产开发企业存在着的暴利现象（至于在当前市场环境中它是否有存在的合理性，可以阅读笔者的《解读08房地产市场》中的相关描述），而当时几乎所有的开发商都是众口一辞地否认暴利的存在，更有甚者，潘先生羞答答地把成本比喻为自家老婆的奶子，充分论证了成本不可示人是理所当然的，当然，其中也有万科的声音……如今的万科，
则践踏了自己曾经参与的“同盟”，跳出来用实际行动来证明了暴利的存在，它不仅想证明自己存在暴利，也试图揭发所有同伴的暴利，所以，我说他的行为是“出卖”……
通过出卖同伴，万科真的能够获得个体的最大利益吗？理论上说它能够获得，但在实践中，也许它最终是打错了算盘，因为在所有的实践中，“囚徒困境”式的博弈必须是在一个信息极不对称的封闭环境中产生结果，所有囚徒式的自身恐惧与“理性决策”都是被相互隔绝的，而且这种博弈是不可被重复的，而当前的市场环境已经被不止一次重演过了，这种重复博弈最终将令所有参与者脱离困境，“囚徒困境”至此被彻底打破……
另外，最关键的一条是，在这场博弈中，政府也参与其中了，他直接参与的环节在于源头，即土地的供应（租借），这将加速打破“囚徒困境”，因为与所有参与博弈者有着本质不同的是，政府是整个游戏的设计者，是囚禁规则的设计者，也是盖牢房、拆牢房的人，你很难想象一个有着政府参与其中的“囚徒困境”可以被称之为真正意义上的“困境”，再回头看万科，在所有被他出卖的所谓同伴中，正有政府的身影……我这么说也许是不严谨的，毕竟这不是一个理想状态下的“囚徒困境”，囚徒之间并没有相互隔绝，信息最起码在业内并非极度不对称，万科是否背负着某种使命，至今还不得而知……
最后，需求方同样面临“囚徒困境”，从邹涛的“不买房运动”到“万人大团购”中便可管窥一二……
房地产商乃至房地产市场若想最终走出“囚徒困境”，只有两种
可能，一是前文提到的那位最为尊贵的囚徒如何作为，囚禁自己还是大赦天下，二是所有囚徒在重复博弈的过程中明智地选择停止博弈、创建合作，在过去的几年里，他们曾经做到过，如今，也许又到了这样做的时候了，他们需要的仅仅是集体智慧，而那些已经被出卖者窃走的蛋糕，恐怕也只能暂时性地延续出卖者的生命，却最终导致其今后连做囚徒的资格也不会有了……只为两个字，“信任”！
而在此之后，也许“囚徒困境”将演变成另一种新的模型，我姑且称之为“重复博弈结果下的囚徒报复”……
2.军事或政治学例子：军备竞赛
在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。

两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。

两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。

似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成损坏等）。

这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

3.经济学例子：关税战
两个国家，在关税上可以有以两个选择: 提高关税，以保护自己的商品。

（背叛）与对方达成关税协定，降低关税以利各自商品流通。

（合作）当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。

然后二国又重新达成关税协定。

（重复博弈的结果是将发现共同合作利益最大。

）
4.商业例子：广告战
商业活动中亦会出现各种囚徒困境例子。

以广告竞争为例。

两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告，收入增加很少但成本增加。

但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：互相达成协议，减少广告的开支。

（合作）增加广告开支，设法提升广告的质量，压倒对方。

（背叛）若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。

在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

5.自行车赛例子
自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。

例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。

而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。

通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换
最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。

而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

上述例子可能显得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成同样的支付矩阵。

社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模拟生物面对无止境的囚徒困境博弈。

囚徒困境可以广为使用，说明这种博弈的重要性。