摆脱“囚徒困境”对策研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摆脱“囚徒困境”对策研究
【摘要】“囚徒困境”是博弈论中的一个经典案例,对这个问题的研究涉及经济学、政治学、社会学、哲学、伦理学等广泛的领域。本文通过分析“囚徒困境”及其假设条件,找出“囚徒困境”的缺陷,进而结合案例提出摆脱“囚徒困境”的方法。
【关键词】“囚徒困境”;理性人;信息不对称;重复博弈
一、“囚徒困境”的含义及其提出
博弈论是西方经济学中的重要理论,而“囚徒困境”是博弈论中的一个经典案例,人们经常运用“囚徒困境”来分析一些实际问题。在现实世界中,“囚徒困境”也是随处可见,正所谓”你我皆囚徒,何处无困境”。
(一)定义
“囚徒困境”(prisoner’s dilemma)是指两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的①。
(二)提出及其模型分析
1950年,由就职于兰德公司的梅里·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。
“囚徒困境”是博弈论的经典案例,常被用来解释生活中的一些现象,如公共物品提供不足,垄断行业价格同盟的破坏等[2],它的具体内容如下:两个嫌疑犯A、B 合伙作案后被警察抓住,由于缺乏足够的证据指证他们所犯的罪行,分别把他们关在不同的屋子里审讯以防止他们串供。警察分别告诉他们:如果两个人都认罪坦白,各判八年;如果两个人都抵赖不坦白,各判一年(或许因证据不足);如果其中一人坦白另一人抵赖,坦白的被释放,不坦白的判刑十年(“坦白从宽,抗拒从严”)。
在两个囚犯都是理性人的前提假设下,囚犯A会进行权衡抉择:如果B坦白了,A选择坦白被判8年,不坦白被判10年,坦白是优势策略;如果B不坦白,A坦白被释放,不坦白被判1年,同样对于A来说坦白是优势策略,这样A 就选择了坦白。囚犯B基于同样的考虑,也选择了坦白,两人都被判8年。易知囚徒双方都独立地追求个人利益最大化,坦白成为了两个囚徒的优势策略,是唯一的纳什均衡:(坦白、坦白),其结果是(- 8,- 8),但是最终却未能达到帕累托最优的集体利益最大化结果(- 1,- 1)。显然如果两个囚徒都抵赖,下场会好于都坦白,两人只会被判1年而不是8年,即好于纳什均衡的情况。两个囚徒陷入了“求之不得”却又“身不由己”的困境[3]。
二、“囚徒困境”的缺陷
(一)给定他人的战略条件不充足
“囚徒困境”这一模型中,给定他人的战略条件不充足,因为当囚徒A看到对方“抵赖”时囚徒A选择坦白,实际上囚徒B同时也在考虑这个问题,B想到A 选择坦白,囚徒B就不会选择“抵赖”,这样你假设的“给定他人的战略”就变了,成了他人的战略不确定[6]。这个模型虽然是静态博弈,但是博弈双方考虑整个过程时都在模拟对方的选择,这其中有动态的成分(你假设对方抵赖,你选择坦白,实际对方猜到你选择坦白,他会改变自己的策略不再抵赖也选择坦白,最后达到均衡(坦白,坦白),这个决策过程有先后顺序,实际上是动态博弈过程),所以完全按照静态博弈方法分析会有问题,导致“囚徒困境”的产生。
(二)博弈双方并不是真正的理性人
“囚徒困境”博弈模型中个体理性和集体理性的冲突对经济学的基本假设——“理性经济人”造成了严重挑战。其实“囚徒困境”中之所以出现个体理性导致了集体的非理性,这种表面的理性冲突是因为囚徒并非真正“理性人”[7]。双方相互不能猜透对方,从而各自只能采取自己的优势策略。如果是两个嫌疑人都是理性人,而且都是博弈论专家,他们相互理解对方且确信对方的策略,最后博弈均衡就会变为(抵赖,抵赖)。所以说参与人实际上是不完全理性的。
(三)利己主义者的前提不成立
有人认为“囚徒困境”的产生源于利己主义,而在小说《麦琪的礼物》中吉姆和德拉在圣诞节都想给对方买礼物,因拮据吉姆卖了心爱的金表,买了漂亮发卡,德拉卖了心爱的头发,买了表链和表袋。但是失去了头发的德拉得到了漂亮发夹也无法发挥发夹的作用,同样,没有了金表,吉姆得到的表链也变得毫无价值。他们无私利他的选择却使两人的利益受损,可见“囚徒困境”无须受限于利己的假设,只要局中人受非理性因素(感情、信念、同情心等)的影响,就无法避免个体理性和集体理性的矛盾[8]。
三、摆脱“囚徒困境”的途径
(一)利用强化的力量
当出现“囚徒困境”时,靠囚徒们的自律,并不总是能够走出困境。一个鲜活的例子是中国彩电企业首次“价格联盟” 的失败[9],当不合作有很高的“利润” 诱惑时,没有哪家企业愿意合作。此时政府可以通过制度、政策、奖惩措施等强化手段约束成员的个人理性与行为,鼓励和激发创新与奉献,通过强化手段的诱发和约束,加大群体成员进行更具建设性选择的酬赏与份量,引发成员在引入了新的强化因素后做出更具合理性的个人选择,打破原有利益格局中的纳什均衡,建立起更有利于群体进化和群体成员利益的新的“纳什均衡”,克服多人“囚徒困
境”所带来的群体内耗[10]。
例如当两家烟草公司——万宝路与骆驼用广告来吸引相同的顾客时,它们面临与“囚徒困境”类似的问题,并且最终走出困境的方法也颇具意义。如果两家烟草公司都不做广告,它们瓜分市场。如果两家公司都做广告,它们依然瓜分市场,但利润减少了,因为每家公司都要承担广告费用。但如果一家公司做广告而另一家不做,做广告的一家就把另一家的顾客吸引走了,不做广告的一家利润就会减少。
做广告是骆驼和万宝路两家公司的优势策略,所以两家公司都选择了做广告,但其实两家企业都不做广告,状况会更好,分别得到40亿美元利润而不仅仅是30亿美元利润。
这种广告理论的检验出现在1971年,当时美国国会通过了禁止在电视上做香烟广告的法律。另许多观察者奇怪的是,烟草公司并没有利用他们在政治上相当大的影响力去反对这项法律。当该法律实施后,香烟广告减少了,烟草公司的利润却增加了。这项法律为烟草公司做了一件它们自己做不到的事:它通过强制禁止实现了低广告高利润的合作,成功解决了“囚徒困境”问题。(二)由外部环境决定的依存关系有可能使双方摆脱囚徒的困境
有时候,由于来自外部环境的威胁,进行“囚徒困境”博弈的两个囚徒之间的合作(抵赖、抵赖)可能作为一种受迫性反应而出现[11]。还是“囚徒困境”中的两个囚徒A、B,不同的是这里假设A、B被抓前一起得罪过一个流氓C,囚徒A、B 都知道若他们同在一起生活,C不敢报复(可能是A、B 在一起,实力较强,C 斗不过),但若A、B 有一个在监狱中,另一个在社会上一定会遭到C 的报复而得- 2 单位的支付。C 报复A、B 之一可得到4 单位的支付,不实施报复可得零单位支付。
此模型用逆向归纳法很容易地解出此两阶段动态博弈的唯一纳什均衡②是:A 抵赖,B 抵赖;C 当A、B 不合作时报复其中坦白者。均衡结果是(- 1,- 1,0),均衡时该博弈实际上不会进入第二阶段,也即囚徒A、B 不会给C 以报复的机会[12],这或许可以解释如下事实:当村民们修公共防水堤时,人们的劳动力供给成了公共物品,当未涨水时,人们懒散、窝工现象严重,陷入“囚徒困境”,公共防水堤的质量不高;当涨水且岌岌可危时,人们更加齐心合力修建水堤,公共防水堤的质量明显提高,走出了囚徒的困境。以上例子说明:来自外部的竞争压力会凸显集体的重要,合作可以作为一个受迫性反应出现[13],从而迫使囚徒进行合作而走出困境。
(三)运用“重复博弈”走出“囚徒困境”
囚徒两难的困境抓住了人与人之间不信任和需要相互防范背叛这种真实的一面,但是在现实世界里,信任与合作很少达到如此两难的境地。无论在自然界还是在人类社会,合作都是一种随处可见的现象。通过无限次重复博弈,合作的可能性增强,就有可能走出困境。