论个人理性与集体理性——对《博弈论与信息经济学》中囚徒困境结论的质疑

合集下载

囚徒困境个人理性与集体理性的矛盾及其解决方式word精品

个人理性与集体理性的矛盾及其解决方式一、囚徒困境举例概述囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特•塔克(Albert tucker ) 1950年提出来的。

他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论，这个故事后来成为博弈论中最著名的案例。

故事内容是：两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判10年；如果都不坦白则因证据不足各判1年。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数1个体理性与集体理性许多行业的价格竞争都是典型的囚徒困境现象，每家企业都以对方为敌手，只关心自己的利益。

在价格博弈中，只要以对方为敌手，那么不管对方的决策怎样，自己总是以为采取低价策略会占便宜，这就促使双方都采取低价策略。

如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。

在国内的家电大战中，虽然不是两个对手之间的博弈，但由于在众多对手当中每一方的.市场份额都很大，每一个主体人的行为后果受对手行为的影响都很大，因此，其情景大概也是如此。

如果清楚这种前景，双方勾结或合作起来，都制定比较高的价格，那么双方都可以因为避免价格大战而获得较高的利润。

但是往往这些联盟处于利益驱动的“囚徒困境”，双赢也就成泡影。

五花八门的价格联盟总是非常短命，道理就在这里。

并不是每次个人的“理性选择”都能让自我利益最大化，也许会让你陷入一个“囚徒困境”。

“囚徒困境”的经济学意义

“囚徒困境”的经济学意义作者：宋灿来源：《中外企业家·下半月》 2013年第6期宋灿（四川大学经济学院，四川成都610065）摘要：“囚徒困境”作为博弈论一个经典案例，常被运用来分析现实的经济问题，反映了个体理性的存在导致集体理性的缺失及个体理性的内在矛盾。

其说明正是由于个体理性使然，在“利己”主义的基础上反而促进了社会利益增长的问题。

关键词：博弈论；“囚徒困境”；个人理性；集体理性中图分类号：F224.32 文献标志码：A 文章编号：1000-8772（2013）17-00-01一、完全信息静态博弈下的“囚徒困境”模型“囚徒困境”主要讲述若甲、乙两名嫌疑犯罪名成立，甲、乙两人中至少得有一人供认犯罪。

若两人都抵赖，则各自被判一年有期徒刑；若两人都坦白，则各自被判八年有期徒刑；若是一个抵赖，一人坦白，则抵赖者被判十年有期徒刑，而坦白者当场释放。

在这个例证中，纳什均衡为（坦白，坦白），此时两人的得益分别为（-8，-8）。

然而，（抵赖，抵赖）才是帕累托最优的策略组合，两人最终得益分别为（-1，-1）。

该案例反映出了纳什均衡和帕累托最优之间的不一致，也反映出了个体理性导致集体理性的缺失。

二、重复的“囚徒困境”模型重复进行的“囚徒困境”实际上是一个动态博弈，即博弈双方的行动有先后顺序，而且后行动者能够观察到先行动者的选择，一个博弈方可有多次选择，在不同阶段的多次行为之间还存在着内在联系。

用博弈树形式表达如图1所示。

在有限次的完全信息动态博弈之下，甲、乙两人第一次博弈所形成的纳什均衡不会发生变化，而在无限次反复进行的此博弈中，双方的选择慢慢开始出现了变化。

当这些对抗被每个选择不同策略的参与者不断重复了很长时间之后，从个体主义出发的“利己”策略趋于减少，而比较“利他”的策略更多地被采用，最初的“利己”行为机制是可能转化为一种“利他”行为机制的。

这样，在循环进行的重复博弈过程中，问题又回到了原点，即若未来是重要的，而合作的策略取决于对方的策略。

浅析“囚徒困境”与其启示

浅析“囚徒困境”与其启示作者：胡莎莎戴莹星来源：《消费导刊·理论版》2008年第11期[摘要]博弈论是西方经济学中的重要理论，囚徒困境是博弈论中的一个经典案例，人们经常运用囚徒困境来分析一些实际问题。

本文引入囚徒困境说明了腐败贪污受贿与公权力的滥用的原因，反驳了认为囚徒困境是因为利己这一假设，非理性因素也同样会导致囚徒困境，指出重复博弈要在一定条件下才能走出困境，并给出从囚徒之间附加可置信的威胁，建立合理有效的激励奖惩机制和外部环境决定依存关系等三方面摆脱囚徒困境的方法及囚徒困境的合理利用。

[关键词]囚徒困境个人理性集体理性激励机制可置信威胁一、引言囚徒困境是博弈论的经典案例，我们常用它来解释生活中的现象，如公共物品提供不足，垄断行业价格同盟的破坏等，它是由美国学者图克在1950年提出的，以下是具体内容：两个嫌疑犯A，B作案后被警察抓住，分别被关在不同的屋子里受审。

警察说如果两人都坦白，各判八年；如果两个都抵赖，各判一年；如果其中一人坦白，另一人抵赖，坦白的放出去，不坦白的判十年。

囚徒困境的战略式表述如下：此例中纳什均衡是（坦白，坦白）。

若A坦白，B最佳选择是坦白，若A抵赖，B最佳选择也是坦白；反之A也一样。

囚徒困境反映了个人理性导致集体理性的缺失。

虽然两人都抵赖比双方都坦白要好，但该帕累托最优不满足个人理性要求，即使两人在被捉前建立了不坦白的协议也没用，因为它不构成纳什均衡，没有人积极遵守它。

二、囚徒困境的缺陷（一）公共物品提供不足和公权力的滥用导致腐败。

在公共物品提供时若大家都出钱兴办公用事业，所有人的福利都会增加。

但我出钱你不出钱，我吃亏，而若你出钱我不出钱，我占便宜。

所以都不出钱，这使所有人的福利不能提高。

公权力的滥用导致腐败，腐败是社会的纳什均衡，例如在大型车队车由调度员派给司机，车队有好车也有失修的老车，调度员利用权力向司机收贿。

贿赂的司机得到好车，没有贿赂的得到老车。

调度员因此得到好处，但司机们作为一个整体，就算不行贿也得到同样一批车，成本却比不行贿大。

“囚徒困境”引发的思考经济学理论论文

“囚徒困境”引发的思考经济学理论论文囚徒困境”博弈是图克（Tucker）1950年提出的一个著名的博弈模型，是完全信息静态博弈的典型例子。

一、基本模型囚徒困境博弈的基本情况如下：警察抓住了两个合伙犯罪的罪犯，但却缺乏足够的证据指证他们所犯的罪行。

如果其中至少有一人供认犯罪，就能确认罪名成立。

为了得到所需的口供，警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟，并给他们同样的选择机会；如果他们两人都拒不认罪，则他们会被以较轻的妨碍公务罪各判1年徒刑；如果两人中有一人坦白认罪，则坦白者从轻认罪，立即释放，而另一人则将重判8年徒刑；如果两人同时坦白认罪，则他们将被各判5年监禁。

如果分别用－1、－5和－8 表示罪犯被判刑1年、5年和8年的得益，用0表示罪犯被立即释放的得益，则两囚徒的得益矩阵如下：囚徒2坦白不坦白囚徒1 坦白－5，－5 0，－8不坦白－8，0 －1，－1在上图中，“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方，也就是两个罪犯；他们各自都有“不坦白”和“坦白”两种可选择的策略；因为这两个囚徒被隔离开，其中任何一人在选择策略时都不可能知道另一人的选择是什么，因此不管他们决策的时间是否真正相同，我们都可以把他们的决策看作是同时做出的。

其中矩阵中第一个数字代表决策结果后囚徒1的得益，第二个数字代表决策结果后囚徒2的得益。

博弈的结果是：由于这两个囚徒之间不能串通，并且各人都追求自己的最大利益而不会顾及同伙的利益，双方又都不敢相信或者说指望对方有合作精神，因此只能实现对他们都不理想的结果（各判5年），并且这个结果具有必然性，很难摆脱，因此这个博弈被称为“囚徒困境”。

［1］二、关于完全理性的思考囚徒困境博弈的一个假设是博弈方都是完全理性。

完全理性来源于经济学中的理性人假设，即博弈方都以个体利益最大化为目标，且有准确的判断选择能力，也不会“犯错误”。

以个体利益最大为目标被称为“个体理性”，有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。

论个人理性与集体理性的冲突

理解个人理性与集体理性冲突亚当·斯密认为：在市场机制充分作用的前提下，个人的自私选择，会导致社会集体利益最大化。

然而现实真的如亚当·斯密所想的一样，个人理性会导致集体理性，我们生活在一个没有冲突的世界中吗？如果放在书面上，每个人都会堂而皇之的说以大局为重，以集体利益为重，然而一旦放在哪个人的身上就可能出现相反的结果。

多年的实践中，我们得到了与亚当斯密恰恰相反的结论，个人理性所导致的最终结果往往不是我们所期望的国民一家亲，而是集体非理性的产生。

亚里士多德曾经断言：“凡是属于最多数人的公共事务常常是最少受人照顾的事务，人们关怀着自己的所有，而忽视公共的事务；对于公共的一切，他至多只留心到其中对他个人多少有些相关的事务”。

这句话足够说明个体的理性导致集体的非理性。

实际上，囚徒困境正是个人理性冲突与集体理性冲突的经典情形。

当甲乙两名囚徒面对坦白与抵赖两种选择时，他们最终的选择都是坦白，因为坦白是甲乙两人的最佳选择。

然而在令一方面，如果两人都选择抵赖，各判1年，显然比都坦白要好，但是这种情况不会发生，因为这种选择不满足个人的理性需求，每个人追求效用最大化的心理将于集体效用最大化产生冲突。

所谓个人理性就是个体人在给定约束的条件下，最大化自己的利益，而集体理性追求的是效率，稳定，公平公正。

同时集体是众多个体组成的，当集体利益不能包容个体利益时，个体利益之间往往会出现很大的矛盾，尤其是个体成员多到无法协调而导致获取对方信息代价太大，个体必然会为了维护自己的利益而选择互相不信任，导致决策的不合作。

上述解释也就是个体的理性最终导致集体的非理性的原因。

现今社会中每个人都如囚徒困境中的两个人一样，不断努力最大化自己的利益，谁都不会愿意吃亏。

比如大学馆占座行为必然会导致早起、排队的现象发生，一个人占五六个座位甚至为座位打架的事情也时有发生。

占座导致的结果就是个人理性得到最大化，然而当每个同学都根据自己的利益做出决策时，往往最遭殃的会是集体利益如自习效率低下，自习室资源浪费。

囚徒困境

在原始社会末期,部落集团间的政治冲突取向与囚徒困境很相似。

在这种境况下,人类开始寻求解决囚徒困境的方式以促成合作,但这种合作因缺乏强有力的惩罚机制显得相当脆弱。

在此种社会语境下,人类解决囚徒困境要求有一种强有力的机制保证合作持续进行。

法因有着国家暴力作为后盾,能及时规范博弈规则且不再产生任何社会成本,成为人类走出囚徒困境的必然选择。

博弈论里有个很有名的“囚徒困境”模型，说的是两个囚犯由于缺少指控的证据被分开来审问。

如果两个囚犯都招认了犯罪事实，就会分别被处以5年刑期；如果其中一个招认了另一个却没有，那么招认的无罪释放，不招认的处以10年刑期；而如果两个都不招认，则由于缺乏指控证据，只能分别处以6个月监禁。

对两个囚犯来说，最好的选择当然是都选择不招，但是由于信息的不对称，囚犯无法知晓同伴的行为，则在自身利益最大化的原则下，只有选择招供，结果却形成了一个对两个囚犯整体来说并不是最优的选择。

从经济学的角度分析，其实囚徒困境说明的就是：个体的理性选择往往带来的是集体的非理性选择。

画一个最简单的表格（没办法贴图，只有楼主自己先研究一下了，很简单的），很容易看出两个嫌疑犯A和B，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。

可能出现的四种情况：A和B均坦白，A和B均不坦白、A坦白B不坦白，B坦白A不坦白。

我们都知道，对于两名囚犯来说，均不坦白是最好的选择，因为这样两人都只判一年。

但事实上，A和B均坦白才是这个博弈的结果。

为什么呢？这是因为，假定A选择坦白的话，B最好是选择坦白，因为B坦白判8年而抵赖却要判十年；假定A选择抵赖的话，B最好还是选择坦白，因为B坦白判不被判刑而抵赖确要被判刑1年。

即是说，不管A坦白或抵赖，B的最佳选择都是坦白。

反过来，同样地，不管B是坦白还是抵赖，A的最佳选择也是坦白。

结果，两个人都选择了坦白，各判刑8年。

在（坦白、坦白）这个组合中，A和B都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，这个组合被称作纳什均衡。

论个人理性与集体理性

论个人理性与集体理性经济学中有个囚徒困境的例子，通过这个例子，有些书籍的作者会得出“个人理性与集体理性冲突”的结论。

通过的分析可以发现，上述结论值得怀疑。

标签：个人理性;集体理性;囚徒困境1 引言《博弈论与信息经济学》是张维迎教授的著作。

该书从1996年第一次出版到现在已有15年，2004年该书出了新的版本，2009年这个新版本第9次印刷。

此书在中国的影响力，由此可见一般。

在《博弈论与信息经济学》这本书中，有一个著名的囚徒困境的例子，根据这个例子，作者得出一个结论：个人理性与集体理性冲突。

这个结论在1996年的旧版本和2004年的新版本上都有，也就是说这个结论至少存在了15年。

关于囚徒困境的例子，主流经济学有如下三种观点：（1）指明囚徒困境中不存在理性的悖论，但是又没有加以详细的论证和说明。

持这种态度的人比较少，英国的肯·宾默尔是一个，其在《博弈论教程》这本书中有所说明。

（2）明说或者暗示在囚徒困境中存在“个人理性与集体理性冲突”。

持这种态度的人比较多，袁志刚等（2008）、谢识予（2002）、肖条军（2004），等等。

（3）在囚徒困境的例子中，完全不提个人理性与集体理性的问题。

持这种态度的人比较多，汪贤裕等（2008）、赵耀华等（2010）、吴广谋等（2009），等等。

从上面的论述可知，对于囚徒困境这个例子，现在主流的观点还是倾向于“个人理性与集体理性存在冲突”。

本文对这种观点提出质疑。

2 书中原文本文摘录的是2004年版的书中第8-9页的原文。

这个例子的创造本身就部分地奠定了非合作博弈论的理论基础，并且它可以作为实际生活中许多现象的一个抽象概括。

几乎没有一本涉及博弈论的书不举到这个例子。

囚徒困境讲的是两个嫌疑犯作案后被警察抓住，分别被关在不同的屋子里受审讯。

警察告诉他们：如果两人都坦白，各判刑8年；如果两人都抵赖，各判1年；如果其中一个坦白另一个抵赖，坦白的放出去，不坦白的判刑10年。

个体与集体之争_兼论集体行动的逻辑悖论

【理论与改革】２００５・６通常，人们认为具有相同利益的个人所形成的集团均有进一步扩大这种集团利益的倾向，换句话说，人们会为集团的共同利益而努力，并从中获得利益。

但曼瑟尔・奥尔森对“集体行动的逻辑”的研究结果表明，每个人并不一定都会从集团合作中受益，“除非存在强制或其它某些特殊手段以使个人按照他们的共同利益行事，有理性的、寻求自我利益的个人是不会采取行动已实现他们共同的或集团的利益。

换句话说，即使一个大集团中的所有个人都是有理性的和寻求自我利益的，而且作为一个集团，他们采取行动实现他们共同的利益或目标后都能获益，他们仍然不会自愿地采取行动以实现他们共同的或集团的利益。

”①奥尔森指出，由于“搭便车”问题的存在，以及经济学关于人及其行为的假定条件，理性经济人是不会为集团的共同利益而努力的。

由此可见，奥尔森的研究结果和人们的常识是相悖的。

本文把上述奥尔森的研究结果称之为集体行动的“结果悖论”。

那么人们是如何来界定“集体”概念的呢？经验上判断，人们通常从数量上来考察“集体”，认为由两个人以上组成的团体就可以称之为集体。

实则不然。

人们常规的思维将“集体”等同于一个集合概念，认为他们之间是“１＋１＝２”的关系。

本文研究的“集体”并非是“经验集体”，并非是个体简单累加的关系，本文研究的“集体”更注重集体内涵的研究。

奥尔森认为，拥有共同利益的人集合在一起就是“集体”。

他写道，“一些随即挑选的人也可以成为一个＇集体＇；但对集体的大多数讨论看来关心的主要是有共同利益的集体。

”②他引用了阿瑟・本特利以及心理学家雷蒙德・卡特尔的观点，并采用了他们对“集体”的定义，即“每个集团都有其利益”。

③这种利益在一定程度上或在一定范围内具备公共利益的性质（关于公共利益１的阐述不是本文研究的范畴），这样看来集体的存在是以其共同利益（公共利益）的存在为前提。

本文认为，“集体”等同于“团体”，集体行为就是团体行为。

心理学家塔菲尔将“团体行为（ｉｎｔｅｒ－ｇｒｏｕｐｂｅｈａｖｉｏｒ）界定为“人们以团体成员的身份做出的行为，是团体成员采取的统一行为”。

从个体理性到集体理性

从个体理性到集体理性作者：刁文淇曹丽娟来源：《科学与管理》2008年第04期摘要：理性人假设是经济学的基本假设之一。

在经济生活中，以个体效用最大化为目标的个体理性与追求公平、效率的集体理性，既相互依存又相互矛盾。

解决矛盾，实现从个体理性走向集体理性，根本途径在于设计有效的制度安排：对于无差异的个体，引入时间维度，进行重复博弈；对于差异化个体，采用“智猪博弈”思路。

关键词：个体理性集体理性重复博弈差异化当今纷繁复杂的经济世界中，个体理性与集体理性的矛盾越来越显著。

本文正是基于这一现实，抛开道德说教，旨从经济学意义上剖析个体理性对集体理性的背离，以及从个体理性走向集体理性的途径。

一、个体理性与集体理性(一)个体理性为了能够存在，人必需对自己的生存进行谋划、算计和寻找给予本体安全感与价值的源泉。

这就是个体理性的基本行为目标。

通常将其归纳为三个方面：效用、安全、自由。

经济学主要研究效用问题。

人们需要商品和服务并不在于它的本身，而在于其满足人生存需要的功能——效用。

所以，“人类所能生产和消费的只能是效用”。

而且，人类只要存在，对这种效用的追求就会相应存在。

个人的生存过程就是一种不断追求效用满足感的过程，因此总会将个人利益最大化作为行动目标，如此行为即所谓的个体理性。

(二)集体理性集体理性是一个以群体利益为出发点的追求效用的行为，它追求的目标是高效率、内部稳定和成员间的公平。

集体对于个体效用的满足总是要作出有系统的努力，这种系统的努力包括效用的生产和效用的配置，效率是这种努力水平的标志。

通过生产和配置努力提高人们活动的效率，即以尽可能小的代价获得尽可能多的效用，是集体理性的基本行为。

集体的稳定是集体存在的关键，协调好集体内部成员之间的利益关系是保证集体稳定的核心条件，所以公平尤显重要。

对于一个集体而言，效率和公平缺一不可，追求效率最大化和成员间的公平理所当然成为集体理性的表现形式。

(三)二者矛盾的根源个体和集体都是人的存在形态，个体理性和集体理性也都是人的理性。

“囚徒困境”的引申与启示

“囚徒困境”的引申与启示作者：丁华来源：《职业时空》2007年第01期周洋韩雪峰什么是囚徒困境亚当·斯密讲了这样一个故事：有两个因巨额盗窃而正在服刑的囚犯A和B。

区检察官c 正在调查一宗悬而未决的银行抢劫案，并且他相信A和B就是罪犯。

区检察官c正在计划竞选州长，所以希望A和B认罪，因为这样会在他的记录中增加一项重要的定罪案件。

他依靠监狱警卫的帮助，对A和B的牢房进行了突击搜查，发现了隐藏的武器和毒品。

他知道可以利用这一信息控告他们犯有藏匿武器与毒品的小罪而使之被判刑，他将A和B隔离起来并分别对他们作出了如下承诺：如果无人坦白银行抢劫，他将以藏匿武器与毒品罪起诉并使两人各被再判2年监禁：如果两人都认罪，则都因银行抢劫罪而被再判5年监禁；如果只有一人坦白并将对方揭发出来，则对坦白者的抢劫银行与藏匿武器与毒品行为不予起诉并释放他，而没有坦白的人则会因抢劫银行与藏匿武器与毒品而被再判20年监禁。

那么，这两个囚犯该怎么办呢?从表面上看，他们应该互相合作。

如果选择抵赖，他们俩都能得到最好的结果。

但他们不得不仔细考虑对方可能采取什么选择。

对囚徒困境的引申与分析警惕公权力的滥用。

在上边的囚徒困境中，区检察官构造了一种情势，使得个人对自己利益的追求会导致对A和B都不利的结果，两个囚徒都会坦白，从而每个人都达到一个双方都认为是差于双方都不坦白的结果。

事实上，检察官所构造的这个困境对A和B的激励是如此的强烈，以至于很容易想象A和B被迫承认抢劫银行，甚至即使他们是清白的。

我国“文革”中坦白从宽、抗拒从严的政策之所以能使一大批人承认自己的“罪行”，其奥妙即在于此。

个人理性与集体理性的冲突。

囚徒困境反映了一个很深刻的问题，这就是个人理性和集体理性的冲突，即理性人的个人理性行为可能导致集体非理性。

很显然，A和B双方都抵赖(各判2年)比双方都坦白(各判5年)要好，但是，作为理性人的A和B都想占对方的便宜，结果谁也没占到。

囚徒困境博弈论的启示

囚徒困境博弈论的启示囚徒困境博弈论是博弈论中的一个经典模型，它揭示了在特定条件下，个体理性选择可能导致整体结果的恶化。

这一理论对于我们理解人类行为和社会问题具有重要启示。

本文将围绕囚徒困境博弈论展开讨论，探讨其启示对于社会和个体的影响。

囚徒困境博弈论告诉我们，个体的理性选择并不一定能够带来最优结果。

在囚徒困境中，两名犯人面临选择合作或背叛的抉择。

如果两人都选择合作，都会得到较轻的惩罚；而如果两人都选择背叛，都会得到较重的惩罚；如果一人选择合作，而另一人选择背叛，则背叛者得到最小的惩罚，而合作者则得到最大的惩罚。

在这种情况下，个体的最优选择是背叛，但整体结果却是双方都受到了惩罚。

这个例子告诉我们，在某些情况下，个体的自私行为可能会导致整体利益的损失。

在现实社会中，这种情况也经常出现。

例如，资源共享问题。

如果每个人都追求自己的最大利益，可能导致资源的过度消耗，最终损害整个社会的利益。

因此，囚徒困境博弈论提醒我们要考虑整体利益，而不仅仅是个体利益。

囚徒困境博弈论还告诉我们，合作是一种有效的策略。

在囚徒困境中，如果两人都选择合作，都能够得到较轻的惩罚。

这表明，通过合作可以实现双赢的结果。

在现实生活中，合作也是解决许多问题的有效途径。

例如，国际间的合作可以促进共同发展；在企业内部，团队合作可以提高工作效率；在家庭中，夫妻之间的合作可以增进感情和家庭和谐。

因此，囚徒困境博弈论启示我们，通过合作可以实现更好的结果。

囚徒困境博弈论还提醒我们，信任是合作的基础。

在囚徒困境中，如果两人都互相信任，都会选择合作，从而得到较轻的惩罚。

但如果彼此不信任，可能会选择背叛，导致双方都受到较重的惩罚。

在现实社会中，信任的建立也是关键。

没有信任，合作是难以实现的。

因此，囚徒困境博弈论启示我们，要建立互信的关系，才能实现合作的最佳效果。

囚徒困境博弈论还提醒我们，通过协调和合作，可以打破困境。

在囚徒困境中，如果两人能够进行协调，达成合作的共识，就能够避免双方都选择背叛的情况。

非合作博弈中的个体理性悖论

中国人
基于基督教文化心基于儒家文化心理
理的规则
的规则
西方基于基督教文化心
人
理的规则
基于儒家文化心理
的规则
2，4 1，1
0，0 4，2
规则制定博弈
（三）斗鸡博弈其三，来看一种常见的斗鸡博弈，它首先源自进化生物学的分析，
因而也往往将斗鸡博弈称为鹰鸽博弈。这中博弈反映了大量的社会现象，如国际政治、经济关系的博弈，行业进入的博弈，乃至街头的械斗，都是如此。因此，斗鸡博弈也是一个重要的博弈类型，该博弈的特
弈矩阵中，存在两个基本条件：C K A K 且C K D K ， BBB BBBBBBB BBB BBBBBBB
BBB BBBBBBB BBB BBBBBBB
B K A K 且B K D K ，其中K=1或2；因此，从而跟随对 BBB BBBBBBB BBB BBBBBBB
BBB BBBBBBB BBB BBBBBBB
本的博弈类型加以说明。
（一）囚徒博弈
首先，我们来看经典的囚徒博弈，它描述了两个囚徒在面临警察提
供的两种激励合约下理性选择的集体后果：基于个体理性形成的最终博
弈均衡是大家都不愿要的，这就是囚徒困境(prisoner’s dilemma)；
实际上，这反映了一类因背叛而导致两败俱伤的博弈总称，也有很多版
本，如团队生产、卡特尔组织等。显然，在现实生活中，只要存在多数
其他家长
家长甲不减负
减负
不减负
减负
UUU-5UUU，UUU-5UUU UUU10UUU，-10
-10，UUU10UUU
5，5
应试教育下的“减负博弈”
例2.卡特尔式的价格战。目前很多家电行业已经进入寡头垄断的市场结构，寡头垄断厂商常常发现自己处于一种囚徒的困境。像囚徒一样，各厂商都有一种“背叛”和削价与它的竞争者的冲动。虽然合作很吸引人，但各个厂商都担心如果自己坚持合作原则不降价，而它的竞争者则率先降价，就会夺取市场的大半份额，但结果却是事与愿违。例如厂商A和厂商B达成协议，共同保持价格不变。如果两厂商都遵守协议，各拥有10%的市场份额；如果两厂商都不遵守协议，则会两败俱伤，各拥有2%的市场份额；另一方面，如果一个厂商不遵守协议而另一个厂商遵守协议，不遵守的这个厂商就拥有15%的市场份额，而另一个将只拥有1%的市场份额。显然，在下述博弈中，如果他们都能同意遵守，那么他们的市场份额总额最大。但是不管厂商A怎么选择，厂商B不遵守总是优选方案。同样，厂商A不遵守也总是优选方案，所以厂商B必须担心要是遵守，他就会被利用。经营者不能满足这种不公开串通带来的稍高利润，而是宁愿进行攻击性竞争，试图获得大部分市场，结果两败俱伤。

基于综合理性的N(N≥2)囚徒困境问题

ｎｄｖｅｈｏｃｐｉｎｏＯｗｉｅ．Ｆｉａｌ，ｑａｔｔｔｖｎｌｓｓｉｅｏｓｕｙｔｅｉｆｎｅｏａｄａａｃｓｔｅｃｎｅｔｏｆｔｅＣ — ｎｇｎｅｎｈｎｌｙｕｎｉａｉｅａａｙｉｓｕｓｄｔｔｄｎｕｅｃｆｈｌ
ｐｙｆａｄｏｅａｏｆＡａｚｓｔｅＮ（ａｏｔｒｐｙｆｎｌｅ Ⅳ≥２ｐｓｎｒｉｍｒｂｅａｅｎｃｍｒｈｎｉａｏａｔｎｈｓ．ｙｈ）ｒｏｅｄｌｍａｐｏｌｂｓｄｏｏｐｅｅｓｅｒｔｎｉ，ｉＳｅｍｖｉｌｙ
文章编号：６１７７（０８０－２４－６１７－８２２０）３０８－－０
基于综合理性的 ⅣⅣ≥２囚徒困境问题（）
谢能刚。肖加标
（安徽工业大学机械工程学院，安徽马鞍山２３０）４０２
摘要：基于人性中利己主义和利他主义兼具的特征，在理想的个人理性和集体理性基础上，出综合理性。提在博弈目标中采用利
ｔｅｒｓｒｉｅｈｏｙｉａｓｄ，ｗｈｃｓｂａｅｎｔｄａｎｉｉｕａｒｔｏａｉｙａｄｏｌｃｉｅａｉｎｌｔ．Ｉｅｐｏｅｓｏｉｈｉｓｄｏｈｅｉｅｌｉｄｖｄｌａｉｎｌｎｃｌｅｔｖｒｔｏａｉｔｙｎｔｒｃｓｆｈ
维普资讯
Ｖｏ．５１Ｎｏ３２．
安徽工业大学学报
ＪｏｈｉＵｎｖｒｉｆｅｈｏｏｙ．ｆＡｎｕｉｅｓｔｏｃｎｌｇｙＴ

从“囚徒困境”理解博弈论

从“囚徒困境”理解博弈论【摘要】：根据老师的名言“在当今时代，学习了博弈论，就能够成为一位有深度的智者。

”因而本文通过介绍博弈论的相关概念及其引申内容，借助纳什均衡所精炼出的策略组合，剖析博弈论中的经典模型，加强对博弈论这一独特思想分支的理解与领悟。

【关键词】：博弈论，纳什均衡，经典模型，理解。

一、什么是博弈论博弈论，又叫做游戏理论或对策论，是一门以数学为基础，研究对抗冲突中最优解问题的学科。

谈到博弈，首先想到的肯定就是棋盘上的对弈，其实博弈论最初主要是研究象棋、桥牌、赌博中的胜负问题，只是人们对博弈局势的把握只停留在经验上，没有向理论化发展。

而现如今，只要有存在竞争、存在输赢的局面出现，就可以应用到博弈论。

因为在很多层次的格局中，对于决策层来说，正确有效地做出合理的决策一定能够产生决定性因素，而博弈论正是运用在这个过程中的核心方法。

二、博弈论中的纳什均衡博弈论从本质上来讲是研究决策问题．但与传统的决策分析相比，博弈论更加关注的是博弈决策中博弈各方的互动行为。

这是由于每一场竞争的竞争结果依赖于所有局中人的抉择，每个局中人都企图预测其他人的可能抉择，以确定自己的最佳对策。

所以在博弈论的研究中，关注每个人的均衡问题就成为了核心。

约翰·纳什（John Nash）分别在1950年与1951年发表了《n人博弈中的均衡点》和题为《非合作博弈》两篇论文。

在上述论文中，纳什介绍了合作博弈与非合作博弈的区别。

他对非合作博弈的最重要贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念，并证明了均衡解的存在。

论文刊登在美国全国科学院每月公报上后，引起巨大轰动，因此该解概念后来被称为纳什均衡。

以两家公司的价格大战为例，纳什平衡意味着两败俱伤的可能：在对方不改变价格的条件下，既不能提价，否则会进一步丧失市场；也不能降价，因为会出现赔本甩卖。

于是两家公司可以改变原先的利益格局，通过谈判寻求新的利益评估分摊方案，也就是纳什平衡。

博弈论中理性人假设的困境

基本内容
首先，我们来回顾一下理性人假设的概念。在博弈论中，理性人假设指的是参与者总是追求自身利益最大化，并在决策时遵循最优策略。然而，这个假设在现实生活中并不总是成立。心理学家发现，人们往往受到各种心理因素的影响，难以做出真正理性的决策。例如，人们可能过于自信，过分高估自己的能力，或者受到群体压力的影响，从而偏离了理性的轨道。
基本内容
此外，人们还可能选择相信他们的同伴会选择保持沉默，从而做出相应的选择。
基本内容
另外，对于囚徒困境的结论，也有人认为这并不一定与现实情况相符。在某些情况下，个体可能会选择集体利益而非个人利益。例如，在公共品博弈中，个体可能会选择贡献公共品而非从公共品中获利，因为这符合他们的道德观念和公共利益。此外，囚徒困境中的个人理性和集体理性的冲突也并不总是存在。在某些情况下，个体可能会发现他们的利益和集体的利益是一致的，因此并不存在冲突。
参考内容二
基本内容
基本内容
在西方经济学的理论体系中，“理性人”假设是一个核心概念。这一假设认为，个体在经济社会活动中，总是以追求自身利益最大化为目标，通过理性的分析和选择，做出最优的经济决策。然而，这一假设的片面性逐渐在学界引起了和反思。
基本内容
首先，“理性人”假设忽略了人的情感和心理因素对经济行为的影响。在现实生活中，个体的决策往往受到情绪、心理预期、社会环境等多方面因素的影响。这些因素可能导致个体偏离理性决策的路径，甚至可能在特定情境下成为主导决策的力量。
基本内容
在经济学中，博弈论是一种重要的分析工具，它通过研究决策主体之间的互动关系，为理解经济现象提供了独特的视角。而在所有这些决策主体中，理性人假设是最基本、也是最核心的一个。
基本内容

囚徒困境的根源与启示

囚徒困境的根源与启示如同博弈论的其他例证，囚徒困境假定每个参与者(即“囚徒”)都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。

参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”,理性的参与者绝不会选择。

另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

试想像囚徒困境的情况进行十次。

我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。

相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，达致帕累托最优。

当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。

第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。

这种想法合理吗？在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。

问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。

所以第九局双方都一定会背叛对方的。

下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。

只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象在个体之间存在行为和利益相互制约的博弈结构中，以个体理性和个体选择为基础的分散决策方式，无法有效地协调各方面的利益，并实现整体、个体利益共同的最优。

关于囚徒困境的几个问题(有标注)

关于囚徒困境的几个问题摘要：囚徒困境是博奕论中的一个重要范例，对这个问题的研究涉及经济学、政治学、社会学、哲学、伦理学等广泛的领域。

本文简要地介绍和评述了中外学者在这个问题研究中取得的成果及进行解释时提出的多种见解。

囚徒困境提示的个人理性和集体理性、个人主义与道德主义的关系深化了对这些问题的认识。

本文最后介绍了用计算机比赛方法研究重复的囚徒困境和合作问题的成果，分析了“一报还一报”程序取得成功和合作得以出现的原因和条件。

关键词：囚徒困境理性道德合作一、什么是囚徒困境1994年10月12日，瑞典皇家科学院宣布把该年度的诺贝尔经济学奖授予约翰·纳什（J.Nash）、约翰·豪尔绍尼（J.Harsanyi）和莱因哈德·泽尔腾（Reinhard Selten）以表彰他们把博奕论（game theory，又译为对策论或游戏论）应用于现代经济分析所作的卓越贡献。

以此为契机，我国在1995年出现了一个小小的介绍博奕论的“热潮”。

许多读者大概已经注意到：在介绍博奕论的文章中几乎篇篇都会提到所谓的囚徒的困境。

囚徒困境的原文为the Prisoner's Dilemma，又译为囚犯的两难困难，囚犯难题等。

这个问题是大约在1950年首先由社会心理学家梅里尔·M．弗勒德（Merril M.Flood ）和经济学家梅尔文·德雷希尔（Melvin Dresher）提出来的，后来由艾伯特·W．塔克（Albert W.Tucker）明确地叙述了这种“困境”［1，p.3］。

纳什有两篇关于非合作博奕的重要文章分别发表于1950年和1951年。

有人认为：塔克的这项工作同纳什的著作一起“基本上奠定了现代非合作博奕论的基石。

〔2 〕囚徒困境的重要地位和重要意义由此就不难想象了。

所谓囚徒困境可简要地叙述如下：两个涉嫌共谋犯罪的嫌疑犯被捕后被警察关在相互隔离的牢房中。

他们面临的选择是：或者坦白或者保持沉默（即不坦白）。

“囚徒困境”在《经济学基础》教学中的运用

398摘要：“囚徒困境”在《经济学基础》的教学中可以用于理性人思维方式的训练。

在教学中，可以通过经典案例学习——拓展案例分析——解决现实问题的教学思路设计教学过程和使用教学案例。

关键词：博弈论；“囚徒困境”；占座行为中图分类号：G642 文献识别码：A 文章编号：1001-828X(2017)031-0398-01博弈，似围棋，需运筹全局。

“一子错满盘皆落索”恰恰说明了棋手落子之前应充分预见全局。

起源于现代数学的博弈论，就是研究在与他人的竞争中，如何具有预见性的做出选择，战胜对手。

20世纪40年代，冯·诺依曼将博弈论引入经济分析中。

20世纪50年代，纳什均衡的提出。

20世纪90年代开始，诺贝尔经济学奖授予七位与博弈论研究有关的经济学家。

这一系列发展奠定了今天博弈论作为经济学分析标准工具的地位。

此后，博弈论除了是一门高深的理论游戏外，更大的意义在于解释现实生活中的经济现象，乃至社会现象。

因此，浅显易懂的博弈论案例在《经济学基础》教学中，可以启发学生的理性思维，增强学生的解释能力。

一、“囚徒困境”经典案例“囚徒困境”是博弈论中经典案例。

在实际教学中，最易为学生理解。

警察在大案案发现场附近逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人重罪，现有的证据仅够指控二人的小偷行为。

于是警察将嫌疑犯分开关押，并向双方提供相同的选择：若一人认罪并作证检控对方，而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默，则二人同样判监1年。

若二人都互相检举，则二人同样判监5年。

这样两名囚犯面临的选择各有两个：坦白与不坦白；而两人面临的结果却有四种情况：甲乙坦白不坦白坦白 A 5年5年 B 10年0年不坦白C 0年10年D 1年1年从“囚徒困境”的案例中，我们看到了每个人都是追求自身利益最大化的。

这里的利益最大化就是尽可能短的刑期。

在信息不完全的背景下，理性经济人只能从对手可能的策略中，寻找自己的最优策略。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

・
各显理性冲突” 。持这种态度的人比较多，志刚等（０８、袁２０）谢与集体理性的矛盾。如果两个人都抵赖，判刑１年，然比都坦白各判刑８年好。但这个帕累托改进办不到，为因识予（０２、２０）肖条军（０４，等。２０）等（抵不（）囚徒困境的例子中，全不提个人理性与集体理它不满足个人理性要求，抵赖，赖）是纳什均衡。换个３在完即性的问题持这种态度的人比较多，贤裕等（０８、汪２０）赵耀角度看，使两囚徒在被警察抓住之前建立一个攻守同盟
本文摘录的是２０版的书中第８９页的原文。０４年 — 例一：徒困境（表１。囚见）
表１囚徒困境
囚犯Ｂ
Байду номын сангаас
能单独的进行理性选择，Ｂ也只能单独的进行理性选择。对于Ａ而言，果Ｂ坦白，选择坦白的支付为一８选择抵赖如Ａ，的支付为一１，Ｏ因而Ａ会选择坦白；果Ｂ选择抵赖，选如Ａ择坦白的支付为０选择抵赖的支付为一１因而Ａ还是会选，，择坦白。由以上的分析可知，肯定会选择坦白。同理，Ａ对
ＮＯ２，．１２Ｏ１１
现代商贸工业ＭｏｅｎＢｕｉｅｓｒｄｄｓｙｄｒｓｓＴａｅＩｕｔｎｎｒ
２１第１０１年２期
论个人理性与集体理性
对《弈论与信息经济学》囚徒困境结论的质疑博中
胡泽林
（不坦白）这个攻守同盟也没有用，为它不构成纳什均绝，因华等（００、广谋等（０９，等。２１）吴２０）等衡，有人有积极性遵守协定。没从上面的论述可知，于囚徒困境这个例子，在主流对现
个如性与集体理性冲突。这个结论在１９９６年的旧版本和２０论对方如何选择，人的最优选择是坦白。比如说，果Ｂ０４Ａ不所年的新版本上都有，就是说这个结论至少存在了ｌ也５年。坦白，坦白的话被放出来，坦白的话判１年，以坦白比不坦白好；果Ｂ坦白，坦白的话判８年，坦白的话如Ａ不关于囚徒困境的例子，主流经济学有如下三种观点：判１Ｏ年，以坦白还是比不坦白好。这样，白就是Ａ的所坦（）明囚徒困境中不存在理性的悖论，是又没有加１指但坦每以详细的论证和说明。持这种态度的人比较少，国的肯占优战略。同样，白也是Ｂ的占优战略。结果是，个人英都选择坦白，判刑８年。各宾默尔是一个，在《弈论教程》本书中有所说明。其博这囚徒困境反映了一个很深刻的问题，就是个人理性这（）２明说或者暗示在囚徒困境中存在 “ 人理性与集体个
的观点还是倾向于“ 人理性与集体理性存在冲突” 个。本文３两点疑问对这种观点提出质疑。为了将问题讲清楚，者需要不厌其烦的将囚徒困境笔的例子重新分析一遍。从书中原文给出的条件可知，只Ａ２书中原文
（江财经学院经济与国际贸易学院，江杭州３０１）浙浙１０８摘要：济学中有个囚徒困境的例子，过这个例子，些书籍的作者会得出“ 人理性与集体理性冲突 ” 结论。经通有个的
’
通过的分析可以发现，述结论值得怀疑。上关键词：人理性；个集体理性；囚徒困境
中图分类号：４Ｆ９
文献标识码：Ａ
文章编号：６２３９（０１１—２２０１７— １８２１）２０１—２
１引言
数字为囚徒Ｂ的支付。战略形式又称标准形式，博弈论是
它《博弈论与信息经济学》张维迎教授的著作。该书从的两种表述形式之一，特别方便于静态博弈分析。博弈是的另一种表达形式是扩展式表述，们后面会谈到。我１９９６年第一次出版到现在已有１年，０４该书出了新的５２０年在这个例子里，什均衡就是（白，白）给定Ｂ坦纳坦坦：版本，０９年这个新版本第９次印刷。此书在中国的影响２０白的情况下，的最优战略是坦白；样，定Ａ坦白的情Ａ同给力，此可见一般。由是这坦坦在《博弈论与信息经济学》本书中，一个著名的囚这有况下，Ｂ的最优战略也是坦白。事实上，里（白，不而就不徒困境的例子，据这个例子，者得出一个结论：人理白）仅是纳什均衡，且是一个占优战略均衡，是说，根作个