囚徒困境理论

合集下载

囚徒困境和博弈论

囚徒困境和博弈论

囚徒困境和博弈论二十九、囚徒困境现代的博弈理论,最为人熟知要数纳什(John Nash)的经典故事"囚徒的困境"。

故事是这样的:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证指控对方(相关术语称"背叛"对方),而对方保持沉默,此人将即时获释,对方将判监十年。

若二人都沉默(相关术语称互相"合作"),则二人同样判监一年。

若二人都互相检举(互相"背叛"),则二人同样判监五年。

囚徒困境的故事有一个前提,就是假定每个参与者(即"囚徒")都是利己的,即都寻求最大的自身利益,而不关心另一参与者的利益。

那么,在本例中,囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够完全相信对方的决定。

从个人利益角度出发来选择,检举背叛对方所得刑期,总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择:若对方沉默,背叛会让我获释,所以会选择背叛。

若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

二人面对的情况一样,所以二人的思考都会得出相同的结论--选择背叛。

背叛是双方经过理性思考得出的最佳选择。

因此,这场博弈中唯一的结果就是双方参与者都背叛对方,结果二人同样服刑五年。

这种策略就叫做纳什均衡。

1994年,纳什因这一理论获得了诺贝尔经济学奖。

这场博弈的纳什均衡,虽然是个体从各自利益最大化的角度经过仔细衡量得出的结果,然而以整体利益而言,却不是最好的选择。

如果两个参与者都合作保持沉默,两人都只会被判刑一年,无论是个体利益还是整体利益,都要高于基于自私前提下的理性选择。

个体出于自私的角度考虑,却得出并不是最有利于自己的结果,这就是"困境"所在。

囚徒困境

囚徒困境
一般形式
整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例:
有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:
囚徒困境的主旨
囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
5, 0
1, 1
背叛
T, S
P, P
背叛
大胜-大负
负-负
简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表符号分数英文中文(非术语)解释
T 5 Temptation背叛诱惑单独背叛成功所得。R 3 Reward合作报酬共同合作所得P 1 Punishment背叛惩罚共同背叛所得S
0
Suckers
下一个问题是,双方都有相同的想法,明知第九局对方会背叛自己,所以第八局保持沉默也是没有意思的,第七局亦然,如此类推,纳什均衡是十局都会互相背叛,建立互信关系是没有可能的。
只有在囚徒困境的局数大家都不肯定的情况下,上述的推论才不会发生,才会出现互相保持沉默的现象。
经典的囚徒困境
例子
1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:

走出囚徒困境的方法

走出囚徒困境的方法

走出囚徒困境的方法走出囚徒困境是囚徒困境理论中的一种博弈策略,目的是通过合作而达到双赢的结果。

在囚徒困境中,两名囚犯面临着合作与背叛的选择,而他们的选择会影响到自己和对方的利益。

在博弈中,囚徒之间往往会因为互相不信任而无法合作,导致最终双方都会选择背叛,得不到最优利益。

然而,通过一些方法和策略,我们可以尝试走出囚徒困境,实现合作的局面。

以下是一些可能的方法:1. 互信建立:在囚徒困境中,缺乏互信是导致背叛行为的主要原因之一。

因此,建立互信是走出困境的关键。

可以通过多次合作而逐渐建立互信,或者通过个人交流和沟通来减少误解和不信任。

2. 共同利益的确立:为了走出囚徒困境,双方需要认识到彼此的共同利益。

只有意识到合作对双方都有好处,才会更有动力选择合作。

因此,需要明确表达共同的目标和利益,以激发囚犯们的合作动机。

3. 合作约束的设立:为了增加合作的可能性,可以引入一些合作约束。

例如,设立一个规则或约定,双方必须遵守合作原则,在确定的条件下共同决策。

这样可以提供一种制约机制,减少背叛的可能性。

4. 长期思维:在囚徒困境中,双方往往会陷入短期利益最大化的思维,导致最终陷入困境。

通过引入长期思维,囚犯们可以意识到合作的长远好处,从而更有动力选择合作。

可以通过宣传教育,让囚犯们意识到合作的长远利益,从而改变他们的行为。

5. 多次博弈的机会:为了增加合作的机会,可以提供多次博弈的机会。

通过多次博弈,囚犯们可以逐渐建立信任,积累经验,并且有机会改变策略。

多次博弈可以为双方提供尝试合作的机会,从而逐渐改变困境。

6. 外部监督与奖惩机制:引入外部监督与奖惩机制可以促使囚犯选择合作。

通过设立奖励机制,对合作行为给予积极激励;同时,对背叛行为进行惩罚,以增强合作的动力。

外部监督与奖惩机制可以起到约束和引导作用,帮助囚犯们走出困境。

总的来说,走出囚徒困境需要通过建立互信、确立共同利益、设立合作约束、引入长期思维、提供多次博弈机会以及引入外部监督与奖惩机制等方法。

囚徒效应

囚徒效应

囚徒效应1、百科名片囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

2、概念释义囚徒困境(prisoner's dilemma ):两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。

(源自曼昆《经济学原理》第五版,北京大学出版社)单次和多次重单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中,博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

囚徒困境的主旨囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。

但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

固定局数的囚徒困境试想像囚徒困境的情况进行十次。

我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。

相反,如果第一次别人保持沉默,建立了互信的关系,你也会保持沉默,达致帕累托最优。

当然,两个囚徒都会有相似的想法,在第一局保持沉默,以期望建立互信关系,所以双方都会保持沉默。

第二局时,双方亦应有相似的想法,继续保持沉默,以期继续在互信的情况下进行第三局,以致余下的八局。

这种想法合理吗?在第十局时,互信的关系明显是没有意义的,因为十局已经完结,囚徒没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背叛对方的,理由和只有一局囚徒困境一样。

经典的囚徒困境

经典的囚徒困境

经典的囚徒困境1950年,由就職於兰德公司的梅里尔·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式阐述,並命名为「囚徒困境」。

经典的囚徒困境如下:警方逮捕甲、乙两名嫌疑犯,但沒有足够证据指控二人入罪。

於是警方分开囚禁嫌疑犯,分别和二人见面,并向雙方提供以下相同的选择:∙若一人認罪並作证检控對方(相關術語稱「背叛」對方),而對方保持沉默,此人将即時獲释,沉默者将判監10年。

∙若二人都保持沉默(相關術語稱互相「合作」),则二人同樣判监半年。

∙若二人都互相检举(互相「背叛」),則二人同樣判監2年。

用表格概述如下:解說如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。

參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。

另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方选择;而即使他们能交谈,還是未必能夠盡信對方不會反口。

就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。

試設想困境中兩名理性囚徒會如何作出選擇:∙若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。

∙若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。

二人面對的情況一樣,所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是兩種策略之中的支配性策略。

因此,这場博弈中唯一可能达到的纳什均衡,就是雙方参与者都背叛對方,結果二人同樣服刑2年。

这場博弈的纳什均衡,顯然不是顧及團體利益的帕累托最优解决方案。

以全体利益而言,如果两个参与者都合作保持沉默,兩人都只會被判刑半年,总体利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。

囚徒困境、纳什均衡、帕累托最优

囚徒困境、纳什均衡、帕累托最优

囚徒困境“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。

两个共谋犯罪的人被关入监狱,不能互相沟通情况。

如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑两年。

由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。

囚徒困境(prisoner's dilemma ):两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。

囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

帕累托优化帕累托改进一般指帕累托优化帕累托优化(Pareto Improvement),也称为帕累托改善或帕累托改进,是以意大利经济学家帕累托(Vilfredo Pareto)命名的,并基于帕累托最优变化,在没有使任何人境况变坏的前提下,使得至少一个人变得更好。

一方面,帕累托最优是指没有进行帕累托改进的余地的状态;另一方面,帕累托改进是达到帕累托最优的路径和方法。

帕累托最优是公平与效率的“理想王国”。

一般来说,达到帕累托最优时,会同时满足以下3个条件:交换最优:即使再交易,个人也不能从中得到更大的利益。

此时对任意两个消费者,任意两种商品的边际替代率是相同的,且两个消费者的效用同时得到最大化。

[1]生产最优:这个经济体必须在自己的生产可能性边界上。

此时对任意两个生产不同产品的生产者,需要投入的两种生产要素的边际技术替代率是相同的,且两个生产者的产量同时得到最大化。

囚徒困境

囚徒困境

博弈论——囚徒困境囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中,博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。

但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。

经典的囚徒困境如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

若二人都互相检举(互相“背叛”),则二人同样判监2年。

用表格概述如下:甲沉默(合作) 甲认罪(背叛)乙沉默(合作)二人同服刑半年 甲即时获释;乙服刑10年乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年解说如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。

囚徒困境理论

囚徒困境理论

囚徒困境理论 Prepared on 22 November 2020论“囚徒困境理论”“囚徒困境”是博弈论里最经典的例子之一。

其中对于囚徒困境的描述:话说有一天,一位富翁在家中被杀,财物被盗。

警方在此案的侦破过程中,抓到两个犯罪嫌疑人,甲和乙,并从他们的住处搜出被害人家中丢失的财物。

但是,他们都否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。

于是警方将两人隔离,分别关在不同的房间进行审讯。

由警察分别和每个人单独谈话。

警察说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。

但是,我可以和你做个交易。

如果你单独坦白杀人的罪行,我只判你半年的***,但你的同伙要被判十年刑。

如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判半年的***。

但是,如果你们两人都坦白交代,那么,你们都要被判五年刑。

”囚徒甲和乙该怎么办呢他们作为本博弈中的两个博弈方,他们都有两个选择——坦白或抵赖。

很显然,最好的策略是双方都抵赖,结果是大家都只被判一年。

但是由于两人处于隔离的情况下无法串供。

所以,根据个体理性原则,两个博弈方的目标都是要实现自身利益最大化。

对于囚徒甲来说,囚徒乙有坦白和抵赖的两种可能的选择,如果囚徒乙选的是抵赖,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益为-1,坦白的得益为-1/2;,如果囚徒乙选的是坦白,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益-10,坦白的得益为-5。

因此,在本博弈中,无论囚徒乙选择何种策略,囚徒甲选择坦白给自己带来的收益是最大的;同样的,囚徒乙和囚徒甲的情况一样,因此囚徒乙的选择和囚徒甲一样。

因此,该博弈的最终结果是博弈双方同选择坦白策略,同时获益-5,都判五年刑。

囚徒的困境该理论其中的意义在于:个人理性与集体理性的矛盾,个体追求的利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。

这由于两人都是在选择策略时首先想到自己,因此他们必然要服长的刑期。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

“囚徒困境”是博弈论里最经典的例子之一。

其中对于囚徒困境的描述:话说有一天,一位富翁在家中被杀,财物被盗。

警方在此案的侦破过程中,抓到两个犯罪嫌疑人,甲和乙,并从他们的住处搜出被害人家中丢失的财物。

但是,他们都否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。

于是警方将两人隔离,分别关在不同的房间进行审讯。

由警察分别和每个人单独谈话。

警察说,“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。

但是,我可以和你做个交易。

如果你单独坦白杀人的罪行,我只判你半年的***,但你的同伙要被判十年刑。

如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判半年的***。

但是,如果你们两人都坦白交代,那么,你们都要被判五年刑。


囚徒甲和乙该怎么办呢?他们作为本博弈中的两个博弈方,他们都有两个选择——坦白或抵赖。

很显然,最好的策略是双方都抵赖,结果是大家都只被判一年。

但是由于两人处于隔离的情况下无法串供。

所以,根据个体理性原则,两个博弈方的目标都是要实现自身利益最大化。

对于囚徒甲来说,囚徒乙有坦白和抵赖的两种可能的选择,如果囚徒乙选的是抵赖,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益为-1,坦白的得益为-1/2;,如果囚徒乙选的是坦白,则对于囚徒甲来说,他应该选择坦白,因为抵赖的得益-10,坦白的得益为-5。

因此,在本博弈中,无论囚徒乙选择何种策略,囚徒甲选择坦白给自己带来的收益是最大的;同样的,囚徒乙和囚徒甲的情况一样,因此囚徒乙的选择和囚徒甲一样。

因此,该博弈的最终结果是博弈双方同选择坦白策略,同时获益-5,都判五年刑。

囚徒的困境
该理论其中的意义在于:个人理性与集体理性的矛盾,个体追求的利己行为而导致的最
终结局是一个“纳什均衡”,也是对所有人都不利的结局。

这由于两人都是在选择策略时首先想到自己,因此他们必然要服长的刑期。

针对这种情况,本文从另外的角度来探讨囚徒理论。

再谈这个问题之前,我们首先要对理性人这一概念进行讨论。

西方经济学家指出,所谓的“理性人”的假设是对在经济社会中从事经济活动的所有人的基本特征的一个一般性的抽象。

这个被抽象出来的基本特征就是:每一个从事经济活动的人都是利己的。

也可以说,每一个从事经济活动的人所采取的经济行为都是力图以自己的最小经济代价去获得自己的最大经济利益。

西方经济学家认为,在任何经济活动中,只有这样的人才是“合乎理性的人”,否则,就是非理性的人。

既然如此,“每一个从事经济活动的人所采取的经济行为都是力图以自己的最小经济代价去获得自己的最大经济利益”中间所说的经济代价和经济利益到底是怎样的经济代价和经济利益呢?是长期的还是短期的呢?因此,本文认为,我们有必要对理性人这一概念做出重新解释。

本文认为,理性人是并非是纯粹的理性人,而是有道德因素,任何人在行为过程中无法撇开这一因素而展开行动。

解决了这个问题之后,本文将主要从两个方面来看:
第一种情况:
假设甲乙两个囚徒绝顶聪明,考虑问题都比较周到,颇有战略眼观,之如孔明等,也就是说是理性的,根据个人理性的原则,囚徒甲乙根据自身利益最大的原则行事,那么在警察所提出的条件中,则会做出与囚徒理论相反的选择。

原因在于囚徒甲乙分别对警察说提出的条件充分考虑过后,也就是说,对“囚徒理论”做出了分析,得出如果“坦白”将会都获得五年的徒刑的结论,那么,作为理性人的甲和乙,只有做出“抵赖”的选择才可能获得最小惩罚,即一年的徒刑,得益最大。

第二种情况:
在现实生活中,人是理性的动物,同样也是有感情的,那么在这种情况下,我们做出如下推断:
甲乙囚徒两人的关系坚如磐石,情比金坚,两人价值观都是先义后利,以义制利的思想,在此危难时刻都会作出宁可牺牲自己以成全他人的情操,比如伯夷叔齐等,此时此刻,囚犯
甲乙都以使对方获益最大来作为自身利益最大化的选择。

那么,可做以下分析:
对于囚徒甲而言,囚徒乙有坦白和抵赖两种选择,如果囚徒乙坦白,因为坦白则对方获益为-5,抵赖则获益为-1/2,尽量使对方获益最大,因此囚徒甲则选择抵赖;如果囚徒乙选择抵赖,自然囚徒甲选择抵赖同样也是最佳选择,因为对方获益为-1。

同样的,因为囚徒乙和囚徒甲的情况完全相同,所以选择抵赖。

其最终结果为两人都是选择抵赖,获得最短时间的***,即一年。

囚徒甲和乙在这两种情况之下出发点尽管有所不同,但是其结果都是达到了其利益最大化,并且在某种程度上也遵循了个体理性原则。

通过以上的分析,我们不难发现,博弈论中囚徒困境理论也有其不合理之处,大家都知道理论的重要意义在于类似的情况之下给人们社会经济生活带来指导。

在经济发展中,我们应该认识到“看不见的手”还有更多内涵,有待我们去发掘。

本文主要通过对该理论的分析,从中发现对企业经营管理活动的有义启示。

第一,在市场竞争过程中,一名优秀的经营者,无论做任何决策还是考虑问题应该有战略眼观,特别是在做出对企业乃至行业今后发展的竞争策略时,从长远出发,做正确的决断。

第二,保存对手就是保存自己。

在市场竞争中,让竞争对手发展就是自己发展,本着求同存异的思想,共谋发展,避免恶性竞争,避免两败俱伤的情况。

第三,市场竞争不是纯粹的竞争,在义和利之间应该如何取舍,是一位有战略眼观的企业家该做的第一个选择。

相关文档
最新文档