囚徒困境的根源与启示

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

囚徒困境解说
• 如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。
• 在囚徒困境中，参与者会受到背叛（坦白）的短期诱惑，但是通过与对方建立长期的合作的模式，可以获得更多的长期的好处。 • 所以，要破解囚徒困境，就要跳出这个模型本身，从更高的层面上给以制度性的约束，或让大家都明白合作的好处。
囚徒困境的实际运用
举例来是说，我是供应商，你是大超市，你可以选择拖欠货款，我也可以选择延迟发货或较低的质量，套用上面的模型：
单次和多次重
• 单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。 • 在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚” 另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。
如果一人坦白另一人不坦白，坦白的放出去，不坦白的判15年；
如果都不坦白则各判１年。
这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？
经典案例——囚徒困境
甲背叛（0，15）（8，8）
合作
（1，1）合作
（15，0）
乙
背叛
囚徒困境解说
囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比保持沉默（或抵赖）要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。
囚徒困境的内在根源
• 在个体之间存在行为和利益相互制约的博弈结构中，以个体理性和个体选择为基础的分散决策方式，无法有效地协调各方面的利益，并实现整体、个体利益共同的最优。简单地说， “囚徒的困境”问题都是个体理性和集体理性的矛盾引起的。
囚徒困境的启示
“ 囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁的结果。
囚徒困境的现实意义
简单的说，就是如果你认为以后大家
还要相处，那么最好选择合作；反之，如
果你认为以后不再会相遇或对你以后的利
益不太关心，那么就选择背叛（把对方供出来）。这样又回到问题的原点：如果未来是重要的Biblioteka Baidu那么就要选择合作，而合作的策略取决于对方的策略。于是结论是：没有最优策略!
囚徒困境的现实意义
经典囚徒困境来由
• 1950年，由就职于兰德公司的梅里尔· 弗勒德（Merrill Flood）和梅尔文· 德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特· 塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。
经典案例——囚徒困境
两个嫌疑犯（甲和乙）作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”：如果两人都坦白则各判8年；
• 情况一：两家都丰收，供应量1500担，价格跌到40 元/担，销售收入都是30 000元，减去生产成本30 000元，净收入是0。 • 情况二：两家都歉收，供应量只有500担，价格升至240元/担，每家销售收入都是60 000元，减去生产成本30 000元，净收入是30 000元。 • 情况三：一家收获750担，一家收获250担。价格是 100元/担，收获750担的农户销售收入是75 000元，减去生产成本30 000元，净收入是45 000元；收获 250担农户销售收入则为25 000，减去30 000元成本后，净收入是负5 000元。稻谷的供应量之比是3： 1，净收入之比却是45 000：-5000，一正一负，远远不止3：1
囚徒困境的实际运用
• 大家都合作，大家都赢利，长期利益；一方不合作，一方盈利，短期利益；都不合作全都陪钱，没有利益；一般情况下，长期赢利都会比短期赢利要高的多。
囚徒困境的解释力——农业增产不增收
假设在一给封闭的小地方，只有两家农户向市场供应稻谷，而稻谷是当地居民的当家粮，是家家户户的必需品，因为稻谷是这个小地方居民的必需品，所有他们对于稻谷的需求相当稳定，大致在1000担左右。如果稻谷的供给也在1000担左右，那么稻谷的交易价格在每担100元/担。而如果稻谷的供给比1000担多了几百担，那么因为供大于求，稻谷的价格会从100元/担下滑到50元/ 担甚至40元/担；相反，如果稻谷的供给比居民的需求少了几百担，造成供不应求，那么物以稀为贵，稻谷的交易价格马上大幅度上升。
囚徒困境解说
二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默（不坦白），两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低，这里存在着矛盾。
囚徒困境的现实意义
• 囚徒困境的现实意义就是个人理性导致集体非理性。在囚徒博弈的模型中，只存在一个纳什均衡，即：在参与者理性的情况下，坦白为最优策略。这同时导致了集体利益的最小化。事实上，在囚徒困境中的最佳策略取决于对方采用的策略，特别是取决于这个策略为双方合作留出多大的余地。而这个原则的基础是：以后对于现在的权重足够大，即：未来是重要的。
囚徒困境的实际运用
• 但是，这与我们的日常经验不符合。为什么现实中的供应商与经销商都会选择合作呢? 原因在于： 1.不嫉妒，现实中的博弈大多是非零合的。大家赚取自己应有的利润，没有理由去嫉妒对方的高额利润，因为对方的成功是你成功的前提。 2.不首先背叛，对合作或背叛都要给于惩罚。在契约社会，有法律、行规的制约，背叛是要付出巨大的代价的。再回到囚徒困境中，则是黑社会团伙对囚犯家属的行动。这会让囚徒在做决策时,偏向于合作。当双方尝到合作的甜头，又知道背叛的惩罚后，合作就会成为第一选择。囚徒困境的解决方法应该在困境本身之外。
囚徒困境的解释力——农业增产不增收
• 所以，上述粮农困境实际上也是囚徒困境，对于每个粮农来说，都是丰收比歉收好，但是合在一起，两家农户都丰收，不如两家农户都歉收。
上述粮农博弈没有体现参与人的策略
选择，丰收歉收是老天爷的安排。所以对上述模型进行一定的改造：变成假设两家农户都丰收，但是两家农户都很有商业头脑，他们会盘算向市场供应多少稻谷能够实现最大利益。
不合作供应商合作
超市不合作合作 -5 -5 2 -8
-8 2 1 1
囚徒困境的实际运用
1984年，美国联邦预算赤字实在太高了。裁减必要的巨额开支在政治上并不可行，因此，大幅增税应该是不可避免的。不过，谁愿意带头主张这么做呢？民主党总统候选人沃尔特· 蒙代尔在竞选活动中提出增税政策，却被罗纳德· 里根打得落花流水，因为里根许诺绝不加税。里根当选之后，这个议题陷入僵局，无论你怎么划分政治派别，民主党对共和党，众议院对参议院，还是政府对国会，各方都希望把提出加税的主动权推给对方。双方都知道，联合起来共同倡议加税和削减开支，可以共同分享荣誉，分担谴责。这么做与同时坚守被动，眼看巨额赤字上升而无所作为相比，显然会对整个国家更有利，即便对他们自己的政治生涯从长期而言也会有好处。但是，假如自己提出这样的政策,而对方并不附和,则自己会落得糟糕的下场。显而易见，对每一方而言，保持被动是一个优势策略。而这正是真实发生的情况：这一届国会根本没有作出任何加税决定。这就是为什么美国是世界上最富有的国家，却同时又是最大的债务国的原因。
囚徒困境的解释力——农业增产不增收
乙
丰收丰收甲歉收
0
0 45 45
-5
30
歉收 -5
30 粮农的困境
如果把生产750担稻谷叫做丰收，把生产250担叫做歉收，而每家农户生产稻谷的成本都是30 000元，那么以千元为单位，两家农户净收入情况表述为如下博弈：
囚徒困境的解释力——农业增产不增收
囚徒困境的实际运用
在这个假设的模型里，超市会想：如果供应商合作，我只要不合作，就可以得到2个单位的利润，而合作却只有1个单位的利润，显然不合作比合作好；如果供应商不合作，我若合作，则要损失8个单位的利润，但不合作却只损失5个单位的利润，显然还是不合作比较好。无论供应商是否合作，超市的最佳策略都是不合作。自然，供应商也会如此推理。按照博弈论的观点，这是唯一的平衡点，在这一点上，任何一方改变策略，都会得到更差的结果。
固定局数的囚徒困境
试想像囚徒困境的情况进行十次。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，达致帕累托最优。当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。这种想法合理吗？在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局)，所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象
“ 纳什均衡”对亚当 · 斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。《国富论》中有这样一句名言：“通过追求 ( 个人的 ) 自身利益，他常常会比其实际上想做的那样更有效地促进社会利益”。从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。
囚徒困境的解释力——农业增产不增收
乙
多卖少卖如果把博弈参与人所得的单位由千元改为万元，并且把相应的数字四舍五入， -0.5变成-1，4.5变成5。对于每个粮农来说，不论对方多卖还是少卖，自己总是多卖比少卖好。结果，两家都选择多卖策略，得益都是0。
多卖
甲
0
0 5 5
-1
3
从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的“利己策略”。但它必须符合以下黄金定律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。