囚徒困境

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

囚徒困境

一、故事再现

塔克是从这样一个小故事开始的:两个夜贼,鲍伯(Bob)和艾尔(Al),在行窃现场附近被抓获并被警方隔离拷问。每个夜贼都必须选择是否坦白和揭发对方。如果两个贼都不坦白,他们都将被判刑1年。如果每个贼都坦白并揭发对方,他们都将在监狱中度过10年。但是,如果一个贼坦白并揭发对方,而另一个贼不坦白,那么与警方合作的贼将被释放而另一个贼将在监狱中度过20年。在这个例子中的战略是:坦白与不坦白。赢利(payoff)(实际上是处罚)是判刑。我们可以用“赢利表(payoff table)”简洁地表达上述信息,这类赢利表已经成为博弈论中很好的标准表达式。以下是囚徒困境博弈的赢利表。

这个表的读法是这样的:每个囚犯从两个战略中选择一个。即,艾尔选择一列,鲍伯选择一行。每个单元格的两个数字告诉两个囚犯相应的战略被选择后的结果。逗号左边的数字表示选择行的人(鲍伯)的赢利,逗号右边的数字表示选择列的人(艾尔)的赢利。因此(先

阅读第一列),如果他们都选择坦白,每人将判刑10年,但是如果艾尔坦白而鲍伯不坦白,鲍伯被判20年而艾尔将被释放。那么:怎样求解这个博弈?如果双方都想使自己呆在监狱的时间最短,他们选择什么战略是“理性的”?艾尔可能会做这样的推理:“两种事件可能发生:鲍伯要么坦白要么保持沉默。假定鲍伯坦白,我不坦白的话将被判20年,我也坦白的话则判10年。另一方面,如果鲍伯不坦白,我不坦白我被判刑1年,但在这种情况下,如果我坦白我可以被释放。无论怎样,我选择坦白都是最好的。因此,我将坦白。”但是鲍伯能够而且大概也将做同样的推理——因此他们都将坦白并且都在监狱呆10年。然而,如果他们“不理性”地行动,都保持沉默,他们都可以在1年后被释放。

对于这个经典案例,很早就有人分析过,博弈论成立的基础是把别人当作傻瓜。那张赢利表是问题的关键:

根据这张表,我们假设囚犯会概率论(尽管这是比较荒唐的),以艾尔为例,可以看到如果选择坦白一列,可能的结果是10X50%+0X50%=5年,而不坦白一列,结果是20X50%+1X50%=10.5年。如果他会概率论,他就会选择坦白。可问题是他如果不会概率论呢?

又,假设警察告诉他们的是另一张表:

显然这时候两个人的选择都是不坦白,因为不坦白那一列的可能囚禁年数较少。

因此这张表才是问题的关键,作为会概率论的罪犯,他们的选择完全取决于这张表。因此对于象纳什那样既天真而又会概率论的囚徒,警察可以任意使用不同的表来获得自己想要的回答。

但事实是,这套把戏只能对付新手。稍微老道一点的囚徒,都会意识到这张表是问题的关键,在他们被捕之前,肯定已对于这张表或者说法律的程序了如指掌,因此无论警察如何套供,肯定是拒不承认。这一点,可以在众多香港影片中看到:黑帮被抓之后,都是死不认帐,最终获释,因为他们很清楚法律:在没有证据的情况下,是没有理由治罪的。

很多问题的关键不在博弈而在于信息优势,信息的多寡和力量的高低才是决定性的。

二、“囚徒困境”揭示的道理

“囚徒困境”通常被用以说明这样的道理:一个人自私地寻求最大效益并不意味着就能得到最好的结果,也不意味着由此可以促进公共的善。相反,只有合作才能获得最好的结果。

这一道理被许多事实印证。如我国家电销售商为使消费者多买自己产品,时常竞相降价、引发“价格大战”,其结果是“各败俱伤”,不仅谁也得不到最大利益。而且利润日益走低甚至赔本。可是如果他们在较高价格上形成某种默契,就都会得到不错的利润。又如冷战时期超级大国起先不合作,都想凭军事实力压倒对方,结果被拖入昂贵

的军备竞赛并面临核屠杀的危险,后来有了一些合作(如签订限制战略武器协议),这种恶性竞争的“囚徒困境”才有所缓解。

“囚徒困境”揭示的道理显然是从对局者即“囚徒”的立场说的,所以所谓没有促进“公共的善”,其实是指没有促进两个“囚徒”的共同利益。但是如果我们换个角度,从设局者,即检察官、法官、警察等社会管理者出发,结论则恰恰相反,“囚徒困境”的结局不是没有促进,而是促进了真正的“公共的善”,即社会利益。这样说的依据之一是罪犯受到了应有的惩罚,社会正义得以维护和伸张;依据之二是罪犯坦白意味自新的开始,这就有利于罪犯的改造,减少其以后再次犯罪或危害社会的可能。

三、走出“囚徒困境”

设局者是如何让囚徒做出有利于社会的选择的呢?简单说来,这里靠的是两个制度安排。其一是阻止囚徒合作的制度安排。其二是制订了一套“坦白从宽,抗拒从严”的赏罚规则。

这两个制度缺一不可。没有前者,囚徒可以串供、订立攻守同盟,“困境”不复存在,两人都会毫不犹豫地选择抗拒。没有后者,意味着囚徒选择坦白和选择抗拒得到的惩罚一样,既然如此,囚徒何不心存侥幸地抗拒一回?“囚徒困境”对囚徒来说是令他们左右为难的“困境”,但对设局的社会管理者来说,则绝对是一个制度安排的杰作。它的杰出之处就在于:纵然被管理者自私自利,一心为自己打算,最终也不得不自动做出有利于社会公益的抉择。这是好制度的一个特征。社会任何方面的制度安排,都应当向“囚徒困境”学习。当然这

不是说把被管理者当“囚徒”看待,而是说社会在设计制度时,不能以有德性的人为起点,只能以最没有德性的人为起点。好的制度安排不会对有德性的人造成任何不便,只会让缺德的人感到不便。只要做到让最缺德的人都不得不从善为之,那这个社会还会有什么人不择善而行吗?问题是社会制度的设局者是否有权阻止某些合作或某些行为的发生?当然有。囚徒的合作是以损害社会利益或他人利益为结果的,所以必须排除掉它,社会正义才有保障。

由此可知,并非凡是合作都是好事,都要支持。世上有利己利人的好合作,也有相互勾结起来损人利己的坏合作。前者可用制度促进,后者则需制度阻止。坏合作随处都可能发生。除了囚徒间的合作之外,权力寻租者与权力承租者的合作、项目发标人与个别投标人的合作、造假者与售假者的合作、医院医生与药品推销商的合作、警察与黑社会的合作等等,也统统都不是好事。因此,制度阻止不好的合作,就是阻止损人利己。而阻止损人利己,才能剩下利人利己,避免社会内耗,从而增进社会福祉。市场经济颇似“囚徒困境”。所谓市场经济可以通过“看不见的手”将自利人追求最大效益的行动转变为社会公益的论断,其实是需要有一个前提条件的。这就是:必须有有效的制度安排来排除自利人选择损人利己的行为。舍此条件,市场经济的优越性必将荡然无存。

四、“囚徒困境”对主流经济理论的挑战

在“囚徒困境”中提到的两个“囚徒”都是理性人,都从自身效用最大化出发,但由此得到的纳什均衡却是一个非帕累托最优的不合

相关文档
最新文档