浅析“囚徒困境”模型中的“理性”假设
囚徒困境个人理性与集体理性的矛盾及其解决方式word精品
个人理性与集体理性的矛盾及其解决方式一、囚徒困境举例概述囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特•塔克(Albert tucker ) 1950年提出来的。
他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。
故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。
因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。
这时,合作可能会作为均衡的结果出现。
欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
作为反复接近无限的数1个体理性与集体理性许多行业的价格竞争都是典型的囚徒困境现象,每家企业都以对方为敌手,只关心自己的利益。
在价格博弈中,只要以对方为敌手,那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。
如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。
在国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中每一方的.市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。
如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。
但是往往这些联盟处于利益驱动的“囚徒困境”,双赢也就成泡影。
五花八门的价格联盟总是非常短命,道理就在这里。
并不是每次个人的“理性选择”都能让自我利益最大化,也许会让你陷入一个“囚徒困境”。
博弈论论文囚徒困境的启示和思考
囚徒困境的启示和思考二、囚徒困境的解释如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。
参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。
另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。
就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。
试设想困境中两名理性囚徒会如何作出选择:若对方沉默、背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。
背叛是两种策略之中的支配性策略。
因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。
以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。
但根据以上假设,二人均为理性的个人,且只追求自己个人利益。
均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。
这就是“困境”所在。
实际上囚徒困境在我们的实际生活中也有很多,下面举两个进行说明三、经济学例子:关税战两个国家,在关税上可以有以两个选择:提高关税,以保护自己的商品。
(背叛)与对方达成关税协定,降低关税以利各自商品流通。
(合作)当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。
然后二国又重新达成关税协定。
浅析“囚徒困境”与其启示
浅析“囚徒困境”与其启示作者:胡莎莎戴莹星来源:《消费导刊·理论版》2008年第11期[摘要]博弈论是西方经济学中的重要理论,囚徒困境是博弈论中的一个经典案例,人们经常运用囚徒困境来分析一些实际问题。
本文引入囚徒困境说明了腐败贪污受贿与公权力的滥用的原因,反驳了认为囚徒困境是因为利己这一假设,非理性因素也同样会导致囚徒困境,指出重复博弈要在一定条件下才能走出困境,并给出从囚徒之间附加可置信的威胁,建立合理有效的激励奖惩机制和外部环境决定依存关系等三方面摆脱囚徒困境的方法及囚徒困境的合理利用。
[关键词]囚徒困境个人理性集体理性激励机制可置信威胁一、引言囚徒困境是博弈论的经典案例,我们常用它来解释生活中的现象,如公共物品提供不足,垄断行业价格同盟的破坏等,它是由美国学者图克在1950年提出的,以下是具体内容:两个嫌疑犯A,B作案后被警察抓住,分别被关在不同的屋子里受审。
警察说如果两人都坦白,各判八年;如果两个都抵赖,各判一年;如果其中一人坦白,另一人抵赖,坦白的放出去,不坦白的判十年。
囚徒困境的战略式表述如下:此例中纳什均衡是(坦白,坦白)。
若A坦白,B最佳选择是坦白,若A抵赖,B最佳选择也是坦白;反之A也一样。
囚徒困境反映了个人理性导致集体理性的缺失。
虽然两人都抵赖比双方都坦白要好,但该帕累托最优不满足个人理性要求,即使两人在被捉前建立了不坦白的协议也没用,因为它不构成纳什均衡,没有人积极遵守它。
二、囚徒困境的缺陷(一)公共物品提供不足和公权力的滥用导致腐败。
在公共物品提供时若大家都出钱兴办公用事业,所有人的福利都会增加。
但我出钱你不出钱,我吃亏,而若你出钱我不出钱,我占便宜。
所以都不出钱,这使所有人的福利不能提高。
公权力的滥用导致腐败,腐败是社会的纳什均衡,例如在大型车队车由调度员派给司机,车队有好车也有失修的老车,调度员利用权力向司机收贿。
贿赂的司机得到好车,没有贿赂的得到老车。
调度员因此得到好处,但司机们作为一个整体,就算不行贿也得到同样一批车,成本却比不行贿大。
简述囚徒困境及其结论
简述囚徒困境及其结论
囚徒困境是一个经典的博弈论案例,描述了两个囚犯被捕后被关进两个单独的牢房,无法通过通信相互帮助或寻求逃脱机会。
他们必须选择自己的行为,要么合作,要么互相背叛,以最大化自己的收益。
囚徒困境的假设是:两个人的行为都是理性的,不会考虑到道德或法律的因素;两个人的利益是一致的,他们背叛对方会导致自己受到更严厉的惩罚;他们无法找到第三方来帮助或合作。
在囚徒困境中,两个囚犯的最优策略是合作,这意味着他们应该将对方供出,从而各自获得一次逃脱的机会。
然而,如果他们选择合作,那么他们就必须同时供出对方,这将导致他们一起被判刑。
因此,两个囚犯都选择背叛,并各自获得了更高的收益,即逃脱了惩罚。
囚徒困境的结论是,在极端的情况下,两个人的行为取决于他们的理性和利益一致性,而不考虑道德或法律的因素。
在这种情况下,合作或背叛都是最优策略,但无法找到第三方来协助或合作。
囚徒困境的案例表明,在复杂的社会中,人们的行为往往受到理性和利益因素的影响,而不考虑道德和法律的因素。
这也提醒我们在决策时需要考虑多个因素,并做出理性的判断。
“囚徒困境”引发的思考
“囚徒困境”引发的思考“囚徒困境”博弈是图克(Tucker)1950年提出的一个著名的博弈模型,是完全信息静态博弈的典型例子。
一、基本模型囚徒困境博弈的基本情况如下:警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证他们所犯的罪行。
如果其中至少有一人供认犯罪,就能确认罪名成立。
为了得到所需的口供,警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会;如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判1年徒刑;如果两人中有一人坦白认罪,则坦白者从轻认罪,立即释放,而另一人则将重判8年徒刑;如果两人同时坦白认罪,则他们将被各判5年监禁。
如果分别用-1、-5和-8 表示罪犯被判刑1年、5年和8年的得益,用0表示罪犯被立即释放的得益,则两囚徒的得益矩阵如下:囚徒2坦白不坦白囚徒1 坦白-5,-5 0,-8不坦白-8,0 -1,-1在上图中,“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方,也就是两个罪犯;他们各自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看作是同时做出的。
其中矩阵中第一个数字代表决策结果后囚徒1的得益,第二个数字代表决策结果后囚徒2的得益。
博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想的结果(各判5年),并且这个结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境”。
[1]二、关于完全理性的思考囚徒困境博弈的一个假设是博弈方都是完全理性。
完全理性来源于经济学中的理性人假设,即博弈方都以个体利益最大化为目标,且有准确的判断选择能力,也不会“犯错误”。
以个体利益最大为目标被称为“个体理性”,有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。
浅析“囚徒困境”模型中的“理性”假设
浅析“囚徒困境”模型中的“理性”假设“囚徒困境”博弈模型中个体理性和集体理性的冲突对经济学的基本假设——“理性经济人”造成了严重挑战。
认为“囚徒困境”中之所以出现表面的理性冲突是因为囚徒并非真正理性,之后笔者试着给出了两种可以化解这种冲突的方案:一种是改变博弈的理性选择方式,一种是集体理性工具说或集体利益幻象说,这一过程构成笔者对“理性经济人”假设的反思。
标签:“理性经济人”假设;囚徒困境;个体理性;集体理性引言“理性经济人”假设是西方经济学理论分析的逻辑起点,它为构建精致庞大的经济学理论体系奠定了一个公理化的起点。
在以此为前提取得了丰硕的理论研究成果的同时,它也遭到了众多批判和质疑。
1950年普林斯顿大学的塔克(Tucker)教授提出的“囚徒困境”博弈模型是对这一假设的有力冲击。
在这一模型里,每个囚徒都是“理性的”,而且他们也都知道对方是“理性的”,每个囚徒都选择了对自己而言是理性的“占优策略”,而结果对每个人而言却都是次劣的,对集体而言则是最劣的[1],这不符合“理性经济人”假设的逻辑结果,即个体理性的利益最大化行为的自然结果即是集体利益的最大化。
这促使笔者思考,或者是研究者们在这一模型里对“理性经济人”假设的理解有偏差,或者是这一假设本身即有暗伤存在,囚徒博弈只是帮助我们发现了这一点;或者是这一假设根本不适用于分析该模型中囚徒的策略选择行为,这一点显然是试图逐渐扩张到解释预测一切人类行为的帝国主义经济学所不愿意承认的。
而笔者深信,每个囚徒可以选择的“沉默”(合作)与“坦白”(背叛)两种策略不可能都是不理性的,至少有一个策略是相对最为理性的;同样,仅有可能出现的四种结果(最优,次优,次劣,最劣)也不可能对于每个囚徒而言都是不理性的,至少有一个结果是相对最为理性的[2],在模型中如何使理性的策略与理性的结果统一起来,即实现手段理性与目标理性的统一,这是理性的任务。
一、“囚徒困境”及其出现的原因分析“囚徒困境”博弈模型最初由普林斯顿大学的塔克教授提出。
浅析生活中的囚徒困境
浅析生活中的囚徒困境浅析生活中的囚徒困境电信学院15211082杨哲一.囚徒困境的基本概念“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。
两个共谋犯罪的人被关入监狱,不能互相沟通情况。
如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。
由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。
最终导致纳什均衡仅落在非合作点上的博弈模型。
二.囚徒困境的意义囚徒困境指出市场是残酷的、无情的。
你不追求利润最大化,不追求效用最大化,你就难以存活下去。
同自然界“物竞天择”一样,从这个方面讲,人类社会似乎是一个“利”者生存的社会,没有利润,企业生存不了,工人存活不了。
所以,自利的原则还是存在的。
不可能使得最终所追求的利益最大化,但这并不是说人们不想最大化其利润,个体理性、个体利益最大,不一定能导致集体理性、集体利益最大,“囚徒困境”就是个人利益与集体利益相冲突的典型。
它揭示了非合作的自利行为可能导致两败俱伤的前景。
三.生活中囚徒困境博弈①公共设施修建的囚徒困境设想有两户相居为邻的农家(双方都是理性人),十分需要有一条好路从居住地通往公路。
修一条路的成本为4,每个农家从修好的好路上获得的好处为3。
如果两户居民共同出资联合修路,并平均分摊修路成本,则每户居民获得净的好处(支付)为3-4/2=1;当只有一户人家单独出资修路时,修路的居民获得的支付为3-4=-1(亏损),“搭便车”不出资但仍然可以使用修好的路的另一户人家获得支付3-0=3。
修路博弈的得利如下图所示:表1修路博弈我们看到,对甲和乙两家居民来说,“修路”都是劣战略,因而他们都不会出资修路。
“囚徒困境”问题探讨
“囚徒困境”问题探讨现实世界的资源是有限的,而人的需求和欲望却是无限的。
为了实现社会的福利最大化,就需要有效地配置各种经济资源。
然而,在传统“理性人”的假设下,自利人为了自身利益而展开争夺,最终形成的纳什均衡结果,往往陷入“囚徒困境”的无效率境地,造成资源的无效配置和浪费。
为此,试从合作博弈和交易费用的视角探讨帕累托改进的路径,寻找“囚徒困境”的破解方法,以图实现帕累托最优结果。
标签:囚徒困境;帕累托最优;合作博弈;交易费用1 引言传统经济学中,“理性人”假设是一切经济分析的基础,每个人都是聪明绝顶且自私自利,为实现自身效用最大而努力。
然而,最终的纳什均衡解却往往是无效率的,不仅没有实现自己的效用最大,也造成社会福利的损失,出现个体理性和集体理性之间冲突局面,既不是帕累托最优,甚至也不是希克斯-卡尔多有效的。
根据达尔文《物种起源》中的论点,可以假设:所有的生命个体在面临选择时,都是自私自利的,完全忽视其他个体的利益,没有悲悯之情。
但是,即便是这样的起点,也会有类似于兄弟姐妹的伙伴关系的出现,并且实现个体利益和集体利益的协调。
“囚徒困境”并非是不可破除的魔咒,只要找到合适的能够影响参与者收益和行为的有效机制,就能走出困境的阴霾,实现帕累托最优。
同时,应该认识到:囚徒困境中的参与者并非是“真正的理性人”,“囚徒困境”只是两个自私自利的人“聪明反被聪明误”的结局,不是真正的“聪明绝顶”的人所应该做出的决策。
如果是真正的“理性人”,他们就应该掌握博弈论的基本知识,能预计到自己的处境,最后两个囚徒都会毫无顾忌的选择抵赖,从而实现另一个均衡(并不坦白,不坦白)。
此外,如果博弈的参与者是利他人或为己利他,也可以有效突破困境。
2 “囚徒困境”模型“囚徒困境”是博弈论研究中虚构的一个经典案例,最早是在20世纪50年代,由美国Rand公司的Dresher和Flood采用。
在之后,鉴于“囚徒困境”模型在社会科学研究方面的作用,普林斯顿大学的教授Albert Tucker逐渐将它推广开来。
博弈论经典案例“囚徒困境”及其实证分析
博弈论经典案例“囚徒困境”及其实证分析最近三四十年,经济学经历了一场“博弈论革命”,就是引入博弈论的概念和方法改造经济学的思维,推进经济学的研究。
诺贝尔经济学奖授予包括美国普林斯顿大学的纳什博士在内的3位博弈论专家,可以看作是一个标志,这自然也激发了人们了解博弈论的热情。
博弈论作为现代经济学的前沿领域,已成为占据主流的基本分析工具。
博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡,也就是说,当一个主体的选择受到其他主体选择的影响,而且反过来影响到其他主体选择时的决策问题和均衡问题。
一个完整的博弈应当包括五个方面的内容:第一,博弈的参加者,即博弈过程中独立决策、独立承担后果的个人和组织;第二,博弈信息,即博弈者所掌握的对选择策略有帮助的情报资料;第三,博弈方可选择的全部行为或策略的集合;第四,博弈的次序,即博弈参加者做出策略选择的先后;第五,博弈方的收益,即各博弈方做出决策选择后的所得和所失。
“囚徒困境”“囚徒困境”是博弈论里最经典的例子之一。
讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。
可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。
A和B均坦白是这个博弈的纳什均衡。
这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。
即是说,不管A坦白或抵赖,B的最佳选择都是坦白。
反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。
结果,两个人都选择了坦白,各判刑8年。
“囚徒困境”博弈的理论模型及现实思考
“囚徒困境”博弈的理论模型及现实思考(安徽大学经济学院,安徽合肥230601)从剖析“囚徒困境”博弈的4个基本理论模型入手,深入研究导致“囚徒”陷入困境的原因,再结合现实生活的实际,给出了解决“囚徒困境”问题的有效办法。
标签:“囚徒困境”博弈;理论模型;现实思考1 引言囚徒困境是博弈论中非零和博弈的经典范例,它最早是由Tucker于1950年提出。
它是建立在具有个人理性的理性人的基础上的,反映了个人最佳选择而非团体最佳选择。
虽然囚徒困境本身只具有模型性质,但是现实生活中类似囚徒困境的例子却屡见不鲜。
“人不为己,天诛地灭”这句古话虽然过于极端,但揭露了人性中的理性自利一面。
在很多时候,个体理性带来的却很可能是集体的不理性,如果每个人都仅按照自利的原则行事,其结果往往是所有人都遭受损失。
博弈论中的“囚徒困境”,正是对这一现象的真实写照。
可谓“你我谁不是囚徒,天下何处无困境”。
随着经济社会的不断发展,构建和谐社会成为我国社会发展的首要目标。
面对这些生活中普遍存在的“囚徒困境”问题,需要我们深入研究囚徒困境博弈的经典理论模型,结合我国现实,找到一条能够真正帮助我们走出困境的道路。
2 囚徒困境博弈的理论模型囚徒困境博弈模型随着博弈论的深入发展,具有很多不同的形式,通常分为:完全信息的静态博弈、完全信息的动态博弈、不完全信息的静态博弈和不完全信息的动态博弈。
在讨论囚徒困境博弈的各种理论模型之前,先让我们看看它的基本模型的内容:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。
为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”。
如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。
当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1年徒刑。
囚徒困境的省思
囚徒困境的省思
《囚徒困境》,是政治学家波洛克和动物行为学家安德森共同提出的一个普遍的、能够跨越行业领域的博弈论模型。
在这个模型中,两个人形成囚徒困境,当它们两个都采取一个最差的选择,才能获得最大的利益。
而实际上,我们也可以把这种困境抽象为各种社会问题,当一方采取某种行动,另一方改变行为,最终导致负面结果。
面对囚徒困境中的普遍性和复杂性,在政府决策中,我们必须特别小心。
一个
更加优雅的方式,应该采用系统性地思考,把大局统筹考虑进来考量。
总的而言,对所有的行动,包括政治、经济、法律等,都要提前全面考量其可能产生的不利影响,达到一种有利可图的全局平衡。
基于此,我们应该将明智共识引入作为一种制约,只有在明智共识的框架下,囚徒困境能够得到解除,保障政府政策的科学性和可行性。
同时,为了避免不必要的惩罚,政府设计的政策还需要有绩效反馈机制,让实
施者通过绩效考核来获取更好的结果,从而避免采取没有斩获成果的失败行动。
此外,为了获得更全面的政策反馈以及有效的风险识别,政府也应该充分考虑公众观点,以让每一个受众都了解政府决策对他们而言最好的可能结果,并且参与政策方案的设计和研讨之中。
总而言之,政治决策必须秉承全面的原则,并不搞一刀切的革新行动,因为此
种行为会给囚徒困境增加更多障碍。
因此,我们再次强调了明智共识的重要性,只有通过采纳全方位考虑,政府方针才能走上正确的路径,避免囚徒困境的情况出现。
囚徒困境原理
囚徒困境原理囚徒困境原理是一种博弈论中常见的情境,它揭示了在某些情况下,个体理性选择可能导致整体利益的损失。
这一原理最早由美国数学家阿尔伯特·塔克纳提出,并在20世纪50年代由美国数学家梅尔文·德雷福斯和美国经济学家墨尔文·斯特恩等人进一步发展和完善。
在囚徒困境中,两名犯罪嫌疑人被捕后分别被关押在不同的监狱。
检察官对每名嫌疑人提出了类似的交易,如果两人都选择沉默,那么每人将被判处较轻的刑罚;如果一人选择交代而另一人选择沉默,那么交代的人将获得豁免,而沉默的人将被判处重刑;如果两人都选择交代,那么每人都将被判处较重的刑罚。
在这种情况下,每个人都会根据自己的利益来做出选择,但最终结果可能是双方都选择交代,导致双方都蒙受损失。
囚徒困境原理在现实生活中也有广泛的应用。
例如,在国际贸易中,各国之间存在着相互制裁和贸易战的可能性。
如果每个国家都只考虑自身利益,可能会导致整体贸易体系的崩溃,给各国带来更大的损失。
在环境保护方面,每个企业都可能会选择排放污染物以获取短期利益,但如果所有企业都这样做,最终将对整个社会和自然环境造成严重破坏。
为了避免囚徒困境带来的负面影响,需要在个体利益和整体利益之间寻求平衡。
这就需要建立合作机制和监管制度,引导个体行为朝着整体利益的方向发展。
在国际关系中,需要通过多边合作和协商来解决各种争端和矛盾,避免陷入零和博弈的困境。
在企业管理中,需要建立健全的法律法规和监管机制,引导企业遵守环保标准和社会责任,实现可持续发展。
总之,囚徒困境原理揭示了在某些情况下,个体理性选择可能会导致整体利益的损失。
要避免这种困境带来的负面影响,需要在个体利益和整体利益之间寻求平衡,建立合作机制和监管制度,引导个体行为朝着整体利益的方向发展。
这对于国际关系、企业管理以及社会治理都具有重要的指导意义。
囚徒困境博弈论的启示
囚徒困境博弈论的启示囚徒困境博弈论是博弈论中的一个经典模型,它揭示了在特定条件下,个体理性选择可能导致整体结果的恶化。
这一理论对于我们理解人类行为和社会问题具有重要启示。
本文将围绕囚徒困境博弈论展开讨论,探讨其启示对于社会和个体的影响。
囚徒困境博弈论告诉我们,个体的理性选择并不一定能够带来最优结果。
在囚徒困境中,两名犯人面临选择合作或背叛的抉择。
如果两人都选择合作,都会得到较轻的惩罚;而如果两人都选择背叛,都会得到较重的惩罚;如果一人选择合作,而另一人选择背叛,则背叛者得到最小的惩罚,而合作者则得到最大的惩罚。
在这种情况下,个体的最优选择是背叛,但整体结果却是双方都受到了惩罚。
这个例子告诉我们,在某些情况下,个体的自私行为可能会导致整体利益的损失。
在现实社会中,这种情况也经常出现。
例如,资源共享问题。
如果每个人都追求自己的最大利益,可能导致资源的过度消耗,最终损害整个社会的利益。
因此,囚徒困境博弈论提醒我们要考虑整体利益,而不仅仅是个体利益。
囚徒困境博弈论还告诉我们,合作是一种有效的策略。
在囚徒困境中,如果两人都选择合作,都能够得到较轻的惩罚。
这表明,通过合作可以实现双赢的结果。
在现实生活中,合作也是解决许多问题的有效途径。
例如,国际间的合作可以促进共同发展;在企业内部,团队合作可以提高工作效率;在家庭中,夫妻之间的合作可以增进感情和家庭和谐。
因此,囚徒困境博弈论启示我们,通过合作可以实现更好的结果。
囚徒困境博弈论还提醒我们,信任是合作的基础。
在囚徒困境中,如果两人都互相信任,都会选择合作,从而得到较轻的惩罚。
但如果彼此不信任,可能会选择背叛,导致双方都受到较重的惩罚。
在现实社会中,信任的建立也是关键。
没有信任,合作是难以实现的。
因此,囚徒困境博弈论启示我们,要建立互信的关系,才能实现合作的最佳效果。
囚徒困境博弈论还提醒我们,通过协调和合作,可以打破困境。
在囚徒困境中,如果两人能够进行协调,达成合作的共识,就能够避免双方都选择背叛的情况。
关于囚徒困境的认识
关于囚徒困境的认识囚徒困境是博弈论中一个经典的问题,它描述了两个合作关系下的囚徒面临的困境。
在这个问题中,两个囚徒被捕并分开审问,警方缺乏直接证据,只能依靠囚徒之间的供述来定罪。
如果两个囚徒都保持沉默,那么警方只能以轻罪定罪,每人判刑 1 年;如果其中一个人供出另一个人,自己保持沉默,那么供出者将被判无罪,而另一个人将被判重刑 10 年;如果两人都供出对方,那么每人将被判刑 5 年。
囚徒困境的关键在于囚徒之间的合作。
合作指的是两个囚徒都选择保持沉默,这样每人只需判刑 1 年。
然而,由于缺乏信任,每个囚徒都有动机去供出对方,从而减轻自己的刑期或者逃脱刑罚。
在理性选择的前提下,囚徒困境的最佳策略是背叛。
无论对方选择什么,背叛都能带来更好的结果。
如果对方保持沉默,背叛者将被判无罪;如果对方供出自己,背叛者将只被判刑 5 年,相对于供出对方的刑期来说仍然较轻。
然而,囚徒困境的最佳策略并不一定是最优解。
如果两个囚徒能够建立信任关系,并达成合作的共识,那么合作将是最有利的选择。
通过合作,囚徒们可以共同避免判重刑的风险,双方都只需判刑 1 年。
为了实现合作,可以采取一些策略。
首先,双方需要建立起互相的信任。
这需要时间和交流,通过了解对方的动机和利益,建立起共同的目标和合作意愿。
其次,可以借助承诺和奖惩机制来确保合作的可行性。
通过设定奖励和惩罚机制,激励囚徒们选择合作,同时惩罚背叛行为。
最后,可以引入重复博弈的概念,即进行多次博弈。
通过多次博弈,囚徒们可以逐渐建立信任,观察对方的行为,选择合作的概率将会增加。
囚徒困境的核心是合作与背叛的矛盾。
在现实生活中,我们也经常遇到类似的困境。
例如,环保问题中的国际合作,各国都希望其他国家减少排放,但自己又不愿意承担成本。
这时,如果每个国家都选择背叛,那么环境问题将无法得到解决;而如果各国能够建立起合作机制,共同减排,环境问题将会得到改善。
囚徒困境告诉我们,合作是一种理性的选择,可以带来更好的结果。
囚徒困境中的人类理性与道德
囚徒困境中的人类理性与道德叶航“囚徒困境”也许是博弈论中最著名的案例。
据说,到1975年为止已有2000多篇论文对其进行了深入的研究。
两名当事人从各自的理性出发,结果却导致了非最大化的“纳什均衡”。
这一事实对经济学的意义在于:它使现代经济理论的逻辑起点“理性人”和“最大化”假设面临空前的挑战,因为在“纳什均衡”中它们是绝对不相容的。
在波普尔的哲学语境中,“纳什均衡”将成为现代经济理论的“证伪之剑”。
正是在这个意义上,汪丁丁提出对经济学的“理性主义运动”必须进行“现代批判”。
现代经济理论陷入了一个范式意义上的“两难选择”。
记得几年前与同事张旭昆教授讨论这一问题时,我曾提出一个猜想:如果必须坚持经济学的“最大化”假设,“囚徒困境”中的“纳什均衡”就将在一定程度上被重新描述或改写。
没有想到,最近偶尔翻阅的一本杂志却记载了一件发生于十多年前的著名实验,以毋庸置疑的事实证实了我的“猜想”。
(参见《科学》1983年第9期)美国计算机专家爱克塞罗德(Robert Axelrod)组织了一次针对“囚徒困境”的计算机程序设计比赛,比赛规则是根据“囚徒困境”中的前提设定的:互相合作,各得3分;互相背叛,各罚1分;欺骗(对方合作,自己背叛),得5分;被骗(对方背叛,自己合作),罚10分;经过一定回合的博弈后,以得分高低作为程序优劣的评判标准。
爱克塞罗德先后收到14份参赛程序,为了便于评出等级,他又自己设计了一份“随机策略”程序。
所谓“随机策略”即没有策略的“策略”,也就是随意地表示“合作”或“背叛”。
他的意图是用此程序作为底线——如果有哪个得分低于它,那么肯定是非常蹩脚的。
爱克塞罗德把15种竞赛程序输入一台大型电脑并让它们一一对垒,总共有225(15×15)场不同的比赛,每场比赛玩过200个回合后对结果进行统计,公布胜利者。
比赛结果十分出人意料,那些以“纳什均衡”为设计主线的程序,用爱克塞罗德的话说,即以欺骗和背叛为主要得分手段的“恶”的程序并没有取得预想中的高分,得分较高的反而是那些采取合作行为的“善良”程序。
关于囚徒困境的几个问题的论文
关于囚徒困境的几个问题的论文关于囚徒困境的几个问题的论文摘要:囚徒困境是博奕论中的一个重要范例,对这个问题的研究涉及经济学、政治学、社会学、哲学、伦理学等广泛的领域。
本文简要地介绍和评述了中外学者在这个问题研究中取得的成果及进行解释时提出的多种见解。
囚徒困境提示的个人理性和集体理性、个人主义与道德主义的关系深化了对这些问题的认识。
本文最后介绍了用计算机比赛方法研究重复的囚徒困境和合作问题的成果,分析了“一报还一报”程序取得成功和合作得以出现的原因和条件。
关键词:囚徒困境理性道德合作一、什么是囚徒困境1994年10月12日,瑞典皇家科学院宣布把该年度的诺贝尔经济学奖授予约翰·纳什(j.nash)、约翰·豪尔绍尼(j.harsanyi)和莱因哈德·泽尔腾(reinhard selten)以表彰他们把博奕论(game theory,又译为对策论或游戏论)应用于现代经济分析所作的卓越贡献。
以此为契机,我国在1995年出现了一个小小的介绍博奕论的“热潮”。
许多读者大概已经注意到:在介绍博奕论的文章中几乎篇篇都会提到所谓的囚徒的困境。
囚徒困境的原文为the prisoner's dilemma,又译为囚犯的两难困难,囚犯难题等。
这个问题是大约在1950年首先由社会心理学家梅里尔·m.弗勒德(merril m.flood )和经济学家梅尔文·德雷希尔(melvin dresher)提出来的,后来由艾伯特·ma)”性甚至“悖论(paradox)”性因素更突出、更尖锐地显示出来,有人虚构了一个更“典型”的情景[1,p.6](按:以下的中文转述,为了便于理解,略有改动):假定在前述“案例”中,法庭向两个囚犯“宣布”了新的“判决规则”:如果两人都坦白认罪,将被判为快刀砍头的死刑;如果两人都沉默,则两人将被宣布无罪释放并获赔偿1000元;如果一人坦白,一人沉默,则坦白者可获自由并加10000元奖赏,而沉默者将被凌迟处死。
囚徒困境 个人理性与集体理性的矛盾及其解决方式
个人理性与集体理性的矛盾及其解决方式一、囚徒困境举例概述囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克(Albert tucker)1950年提出来的。
他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。
故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8 年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。
因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。
这时,合作可能会作为均衡的结果出现。
欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
作为反复接近无限的数1 个体理性与集体理性许多行业的价格竞争都是典型的囚徒困境现象,每家企业都以对方为敌手,只关心自己的利益。
在价格博弈中,只要以对方为敌手,那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。
如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。
在国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中每一方的.市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。
如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。
但是往往这些联盟处于利益驱动的“囚徒困境”,双赢也就成泡影。
五花八门的价格联盟总是非常短命,道理就在这里。
并不是每次个人的“理性选择”都能让自我利益最大化,也许会让你陷入一个“囚徒困境”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅析“囚徒困境”模型中的“理性”假设
“囚徒困境”博弈模型中个体理性和集体理性的冲突对经济学的基本假设——“理性经济人”造成了严重挑战。
认为“囚徒困境”中之所以出现表面的理性冲突是因为囚徒并非真正理性,之后笔者试着给出了两种可以化解这种冲突的方案:一种是改变博弈的理性选择方式,一种是集体理性工具说或集体利益幻象说,这一过程构成笔者对“理性经济人”假设的反思。
标签:“理性经济人”假设;囚徒困境;个体理性;集体理性
引言
“理性经济人”假设是西方经济学理论分析的逻辑起点,它为构建精致庞大的经济学理论体系奠定了一个公理化的起点。
在以此为前提取得了丰硕的理论研究成果的同时,它也遭到了众多批判和质疑。
1950年普林斯顿大学的塔克(Tucker)教授提出的“囚徒困境”博弈模型是对这一假设的有力冲击。
在这一模型里,每个囚徒都是“理性的”,而且他们也都知道对方是“理性的”,每个囚徒都选择了对自己而言是理性的“占优策略”,而结果对每个人而言却都是次劣的,对集体而言则是最劣的[1],这不符合“理性经济人”假设的逻辑结果,即个体理性的利益最大化行为的自然结果即是集体利益的最大化。
这促使笔者思考,或者是研究者们在这一模型里对“理性经济人”假设的理解有偏差,或者是这一假设本身即有暗伤存在,囚徒博弈只是帮助我们发现了这一点;或者是这一假设根本不适用于分析该模型中囚徒的策略选择行为,这一点显然是试图逐渐扩张到解释预测一切人类行为的帝国主义经济学所不愿意承认的。
而笔者深信,每个囚徒可以选择的“沉默”(合作)与“坦白”(背叛)两种策略不可能都是不理性的,至少有一个策略是相对最为理性的;同样,仅有可能出现的四种结果(最优,次优,次劣,最劣)也不可能对于每个囚徒而言都是不理性的,至少有一个结果是相对最为理性的[2],在模型中如何使理性的策略与理性的结果统一起来,即实现手段理性与目标理性的统一,这是理性的任务。
一、“囚徒困境”及其出现的原因分析
“囚徒困境”博弈模型最初由普林斯顿大学的塔克教授提出。
经典的“囚徒困境”如下所述[3]:
两个囚徒被警察抓住后分别关押,警方知道他们有罪,但是苦于缺乏充足的证据。
警察给他们的政策是“坦白从宽,抗拒从严”。
每个囚徒面临的两个策略选择“沉默”(合作)和“坦白”(背叛)。
如果一方“坦白”,而另外一方“沉默”,则坦白方将被释放,而沉默方将被判重刑10年;如果双方均“坦白”,则每人将被判刑8年;如果双方均“沉默”,警方因为没有足够的证据而只能给他们轻微的象征性惩戒,判刑半年。
他们的支付矩阵如下所示:
显然,这是一个完全静态的一次性非合作博弈,且双方都有一个占优策略,博弈的最终结果是占优策略纳什均衡,即双方都选择“坦白”策略,最后的支付是(-8,-8)。
这一支付结果显然要劣于(-0.5,-0.5),个体理性的结果对集体而言并不是理性的,个体理性和集体理性发生了冲突;或者我们也可以说,结果不是帕累托最优的,仍有改进的空间,每个囚徒都可以在不损害自己利益的前提下增进对方的福利(少坐牢7年半),同时也增进自己的福利。
那么问题究竟出在哪里呢?
首先,囚徒能不能被抽象为“理性经济人”或者说“理性经济人”能不能以囚徒为代表从某种程度上说,囚徒(比如说他们去偷钱)希望通过偷盗的行为去获取利益,这种不劳而获的想法如果从成本—收益角度考虑自然是理性的,因为它的成本低廉,几乎为零(仅从货币角度而言),而收益相对于成本可能会很大,试图以最小投入获得最大产出毫无疑问是理性的。
不过笔者认为社会中大部分人不会通过偷盗或者类似的犯罪行为去获取自身利益,“理性经济人”假设是从千千万万普通的生产者和消费者身上抽象出来的,现在我们不能把它还原为囚徒。
其次,囚徒的偏好发生了变化。
当两个囚徒一起作案的时候,他们是集体主义的,通过他们的合作,彼此获益,比如说一个把风,另一个偷盗,为了自己可以分到一部分钱,他们必须为另一个人着想:把风的人要让行窃的人成功偷到钱,而行窃的人必须承诺给把风的人一笔钱,否则把风的人就会告发他;可是当被抓到以后,他们都变成了只顾自己的个人主义者。
(事实上,这里所说的个人主义或者集体主义有尚未被挖掘到的内涵,笔者将在后文展开论述。
)如果主体的偏好前后发生变化,不再有一致性,那我们也不能称该主体为“理性经济人”,“理性经济人”的偏好具有稳定性。
第三,即使我们承认囚徒也可以是“理性经济人”,难道他们不可以有其它的理性选择方式而不是根据占优策略行事吗?打个比方,两个囚徒通过做一道只可能有四个选项的单项选择题来选择自己坐多少年牢,ABCD四个选项分别对应矩阵中的四个结果:
A.(-0.5,-0.5)
B.(-10,0)
C.(0,-10)
D.(-8,-8)(甲在前,乙在后)
由于甲乙两个囚徒同样是“理性经济人”,他们可以被认为是同质的,有理由认为两个同质的人在相同的情景下做出的选择也应该完全一致,他们承担的罪责也一定和对方的一样多,因为他们谁也不比谁更聪明些,任何一个也就没有能力让对方承担更多的罪责,那么就只剩下AD两个选项,又因为他们都是理性的人,他们当然都会选择A,于是他们都只能选择“沉默”。
既然至少有两条理性的道路,而它们得出的结论又大相径庭,这就让笔者不得不认为根据占优策略行事的原则是不是理性的,而笔者的思路则显然不会引起这种冲突。
二、重新定义“集体理性”——不依靠第三方解决冲突的一种努力
在上面的分析里笔者曾指出,个人主义和集体主义有尚待挖掘的内涵。
首先,集体是由个体组成的,没有个体就不会有集体,那么集体的种种属性便只可能是个体某种属性的集合或者说结果。
个体有理性和非理性两种属性,集体同样也有这两种属性,问题是:集体的非理性是不是有可能是个体理性的结果?首先,把“囚徒困境”中的集体非理性移植到这里,将其单纯理解为某一行为将对集体中的所有个体造成利益损失,那么集体非理性对于每一个总是理性的个体而言也将造成损失,为了逻辑自洽,个体在明知道自己的选择行为会造成集体非理性的情况下不进行相关行为才是理性的,对每个个体而言都是这样。
至少在囚徒博弈模型里,每个人都仍然是从自利出发并且着眼于自身利益的最大化,只不过他们的自利必须通过利他的手段来实现,或者说利他只是每个人自利的自然结果,所谓的集体利益或者集体理性不过是个体实现自利的工具;集体利益是不存在的,就像集体理性是个体理性或者非理性的组合与结果一样,集体利益是个体利益的加总,而且最终还是会落实到个体身上,所以它就只是作为词汇在概念上有意义,作为工具在分析时起作用,集体利益是一种幻相。
两个囚徒正像组成了一个卡特尔组织,他们都应选择“沉默”策略,通过实现集体理性这一手段来达到个体理性这一目的。
真正理性的行为主体是可以为了长远个体利益选择不去打开提供了自我瓦解激励的潘多拉盒子的,一个理性的决策者知道应该在哪一点停止,理性王国是有其领土范围的。
结论
传统的“理性经济人”假设在“囚徒困境”中遇到了挑战,在种种困境出现的可能的原因里面有一点是对于“理性”定义的误解导致的。
文章首先简要地回顾了一下“囚徒困境”模型,分析了其出现的可能原因在于根据占优策略原则行事是我们对“理性”的一种误解,然后通过思辨和对个体理性与集体理性的重新界定,笔者找到了解决囚徒困境的两种方案:一是把“理性经济人”理解为同质的行为主体,完全剥离掉现实因素的影响,纯粹在逻辑层面分析囚徒博弈的必然结果是双方合作,个体理性实现个体利益在约束条件下的最大化(尽管是次优的,然而已经是约束下的最优),同时集体理性作为结果也得到实现;二是重新理解个体理性与集体理性的内涵及二者关系,指出了集体利益和集体理性作为概念的虚假性,笔者认为个体利益和个体理性才是第一义的,个体利益既是理性选择行为的出发点也是其最终归宿,集体利益和集体理性只是个体利益和个体理性的组合或者结果,从而博弈中自利的囚徒个体将集体作为一个工具加以利用来实现其利益,而且每个囚徒都必须理性地通过集体这一幻象。
有读者可能会困惑:本文究竟是对“理性经济人”的质疑还是维护?笔者的思路是这样的:诸多研究者认为是“理性经济人”假设造成了“囚徒困境”,而笔者认为“困境”并不是这一假设的必然逻辑结果,于是本文就是对多数人理解的“理性经济人”的质疑;笔者自己则认为质疑是对假设的重新发现,重新回到经济学的理论原点,然而却已经是站在一个更高的层次上。
参考文献:
[1]王玉珍.理性只是对自利最大化的追求吗[J].经济学家.2004.(6):84—89.
[2]保罗·魏里希.均衡与理性[M].北京.经济科学出版社.2000:12.
[3]高鸿业.微观经济学(第三版)[M].北京.中国人民大学出版社.2004:9. 注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。