囚徒困境

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

囚徒困境
一、故事再现
塔克是从这样一个小故事开始的：两个夜贼，鲍伯(Bob)和艾尔(Al)，在行窃现场附近被抓获并被警方隔离拷问。

每个夜贼都必须选择是否坦白和揭发对方。

如果两个贼都不坦白，他们都将被判刑1年。

如果每个贼都坦白并揭发对方，他们都将在监狱中度过10年。

但是，如果一个贼坦白并揭发对方，而另一个贼不坦白，那么与警方合作的贼将被释放而另一个贼将在监狱中度过20年。

在这个例子中的战略是：坦白与不坦白。

赢利（payoff）（实际上是处罚）是判刑。

我们可以用“赢利表（payoff table）”简洁地表达上述信息，这类赢利表已经成为博弈论中很好的标准表达式。

以下是囚徒困境博弈的赢利表。

这个表的读法是这样的：每个囚犯从两个战略中选择一个。

即，艾尔选择一列，鲍伯选择一行。

每个单元格的两个数字告诉两个囚犯相应的战略被选择后的结果。

逗号左边的数字表示选择行的人（鲍伯）的赢利，逗号右边的数字表示选择列的人（艾尔）的赢利。

因此（先
阅读第一列），如果他们都选择坦白，每人将判刑10年，但是如果艾尔坦白而鲍伯不坦白，鲍伯被判20年而艾尔将被释放。

那么：怎样求解这个博弈？如果双方都想使自己呆在监狱的时间最短，他们选择什么战略是“理性的”？艾尔可能会做这样的推理：“两种事件可能发生：鲍伯要么坦白要么保持沉默。

假定鲍伯坦白，我不坦白的话将被判20年，我也坦白的话则判10年。

另一方面，如果鲍伯不坦白，我不坦白我被判刑1年，但在这种情况下，如果我坦白我可以被释放。

无论怎样，我选择坦白都是最好的。

因此，我将坦白。

”但是鲍伯能够而且大概也将做同样的推理——因此他们都将坦白并且都在监狱呆10年。

然而，如果他们“不理性”地行动，都保持沉默，他们都可以在1年后被释放。

对于这个经典案例，很早就有人分析过，博弈论成立的基础是把别人当作傻瓜。

那张赢利表是问题的关键：
根据这张表，我们假设囚犯会概率论(尽管这是比较荒唐的)，以艾尔为例，可以看到如果选择坦白一列，可能的结果是10X50%+0X50%=5年，而不坦白一列，结果是20X50%+1X50%=10.5年。

如果他会概率论，他就会选择坦白。

可问题是他如果不会概率论呢？
又，假设警察告诉他们的是另一张表：
显然这时候两个人的选择都是不坦白，因为不坦白那一列的可能囚禁年数较少。

因此这张表才是问题的关键，作为会概率论的罪犯，他们的选择完全取决于这张表。

因此对于象纳什那样既天真而又会概率论的囚徒，警察可以任意使用不同的表来获得自己想要的回答。

但事实是，这套把戏只能对付新手。

稍微老道一点的囚徒，都会意识到这张表是问题的关键，在他们被捕之前，肯定已对于这张表或者说法律的程序了如指掌，因此无论警察如何套供，肯定是拒不承认。

这一点，可以在众多香港影片中看到：黑帮被抓之后，都是死不认帐，最终获释，因为他们很清楚法律：在没有证据的情况下，是没有理由治罪的。

很多问题的关键不在博弈而在于信息优势，信息的多寡和力量的高低才是决定性的。

二、“囚徒困境”揭示的道理
“囚徒困境”通常被用以说明这样的道理：一个人自私地寻求最大效益并不意味着就能得到最好的结果，也不意味着由此可以促进公共的善。

相反，只有合作才能获得最好的结果。

这一道理被许多事实印证。

如我国家电销售商为使消费者多买自己产品，时常竞相降价、引发“价格大战”，其结果是“各败俱伤”，不仅谁也得不到最大利益。

而且利润日益走低甚至赔本。

可是如果他们在较高价格上形成某种默契，就都会得到不错的利润。

又如冷战时期超级大国起先不合作，都想凭军事实力压倒对方，结果被拖入昂贵
的军备竞赛并面临核屠杀的危险，后来有了一些合作（如签订限制战略武器协议），这种恶性竞争的“囚徒困境”才有所缓解。

“囚徒困境”揭示的道理显然是从对局者即“囚徒”的立场说的，所以所谓没有促进“公共的善”，其实是指没有促进两个“囚徒”的共同利益。

但是如果我们换个角度，从设局者，即检察官、法官、警察等社会管理者出发，结论则恰恰相反，“囚徒困境”的结局不是没有促进，而是促进了真正的“公共的善”，即社会利益。

这样说的依据之一是罪犯受到了应有的惩罚，社会正义得以维护和伸张；依据之二是罪犯坦白意味自新的开始，这就有利于罪犯的改造，减少其以后再次犯罪或危害社会的可能。

三、走出“囚徒困境”
设局者是如何让囚徒做出有利于社会的选择的呢？简单说来，这里靠的是两个制度安排。

其一是阻止囚徒合作的制度安排。

其二是制订了一套“坦白从宽，抗拒从严”的赏罚规则。

这两个制度缺一不可。

没有前者，囚徒可以串供、订立攻守同盟，“困境”不复存在，两人都会毫不犹豫地选择抗拒。

没有后者，意味着囚徒选择坦白和选择抗拒得到的惩罚一样，既然如此，囚徒何不心存侥幸地抗拒一回？“囚徒困境”对囚徒来说是令他们左右为难的“困境”，但对设局的社会管理者来说，则绝对是一个制度安排的杰作。

它的杰出之处就在于：纵然被管理者自私自利，一心为自己打算，最终也不得不自动做出有利于社会公益的抉择。

这是好制度的一个特征。

社会任何方面的制度安排，都应当向“囚徒困境”学习。

当然这
不是说把被管理者当“囚徒”看待，而是说社会在设计制度时，不能以有德性的人为起点，只能以最没有德性的人为起点。

好的制度安排不会对有德性的人造成任何不便，只会让缺德的人感到不便。

只要做到让最缺德的人都不得不从善为之，那这个社会还会有什么人不择善而行吗？问题是社会制度的设局者是否有权阻止某些合作或某些行为的发生？当然有。

囚徒的合作是以损害社会利益或他人利益为结果的，所以必须排除掉它，社会正义才有保障。

由此可知，并非凡是合作都是好事，都要支持。

世上有利己利人的好合作，也有相互勾结起来损人利己的坏合作。

前者可用制度促进，后者则需制度阻止。

坏合作随处都可能发生。

除了囚徒间的合作之外，权力寻租者与权力承租者的合作、项目发标人与个别投标人的合作、造假者与售假者的合作、医院医生与药品推销商的合作、警察与黑社会的合作等等，也统统都不是好事。

因此，制度阻止不好的合作，就是阻止损人利己。

而阻止损人利己，才能剩下利人利己，避免社会内耗，从而增进社会福祉。

市场经济颇似“囚徒困境”。

所谓市场经济可以通过“看不见的手”将自利人追求最大效益的行动转变为社会公益的论断，其实是需要有一个前提条件的。

这就是：必须有有效的制度安排来排除自利人选择损人利己的行为。

舍此条件，市场经济的优越性必将荡然无存。

四、“囚徒困境”对主流经济理论的挑战
在“囚徒困境”中提到的两个“囚徒”都是理性人，都从自身效用最大化出发，但由此得到的纳什均衡却是一个非帕累托最优的不合
作解。

“囚徒困境”的这个结果，意味着经济学逻辑体系的不合法。

“理性”带来“效率”是经济学逻辑体系最基本的预设。

但在“囚徒困境”中，经济学的这个逻辑假设是“自相矛盾”的。

“理性”不仅没有带来帕累托最优，而且恰恰成了非帕累托最优产生的原因。

这意味着什么？意味着逻辑前提不自恰！意味着你不能用原来的理由给你后面的逻辑演绎规定前提。

原来的理由是“理性”可以给每个经济人带来更好的结果，正因为如此，经济学才把“理性”作为整个经济学逻辑推理的前提。

但现在我们发现事实并非如此，“理性”也可以带来不好的结果。

那你的整个逻辑前提不是不合法了吗？
也许有人会说，“囚徒困境”只是个别的、偶然的情况；在大多数情况下，“理性”还是会导致帕累托最优的；我们能不能“宽容”一些？把“理性”假设的条件放得宽松一些，这样不是就不至于对整个经济学的逻辑体系构成威胁了吗？但我要说，如果你们对形式逻辑有基本了解的话，你们就知道这是不可以的。

为什么？因为你无法证明这样的“偶然”是不是还会发生，你怎么来证明它真的只是“偶然”？如果你真的能够证明这点，那也说明你原先的假定不是你推理的前提，它还有一个更基本的前提，因此你必须修改这个前提。

而如果原有的逻辑前提被修改了，那么原来你根据这一前提做出的所有逻辑推论都必须重新加以修改！
因此，要么你必须把一个逻辑过程推到它的极至，从这个起点上构建你的整个逻辑体系，这叫“逻辑演绎”；要么你必须用枚举的方法来证明你的逻辑前提是没有反例的，从而以它为起点来构建你的整
个逻辑体系，这叫“逻辑归纳”。

但逻辑归纳的要求就是不能出现反例，否则就是逻辑不自恰。

按照波普尔的说法，反例就意味着原有逻辑体系的证伪。

这叫“一票否决”，没有“宽容”的余地！逻辑就必须这么严密，否则怎么叫人信服？因此，我们必须正视“囚徒困境”给传统经济理论带来的挑战。

1950年，普林斯顿大学的数学家图克教授，在一次例行讨论会上，为了解释一名学生提出的理论，随手在黑板上举了一个例子，这个例子就是后来举世闻名的“囚徒困境”。

这名学生呢？则是纳什，当时还是普林斯顿大学的博士生。

他提出的理论，后来被命名为“纳什均衡”，并使他获得了1994年的诺贝尔经济学奖。

半个多世纪过去了，“囚徒困境”早已僭越它的“主人”获得了自己独立的学术地位。

一个人可以不知道这个博弈后面的“纳什均衡”以及它的数学描述，但是他不得不停下来思考这个案例本身所包含的深刻内涵：如果每个人都依据“理性”的决策原则，那么人类合作何以可能？人类社会何以可能？
1950年代以后，涌现出大量有关“囚徒困境”的研究文献。

一个似乎有希望的解决方案是，把一次性的“囚徒困境”视作多次重复博弈的一个“子博弈”，则人类的“理性”能力，包括试错、学习与讨价还价的能力，也许可以导致博弈双方的合作。

但也不是在所有场合，它还要依赖许多严格的条件。

即便如此，我认为在逻辑上还是存在问题。

因为对传统经济理论提出挑战的是“单次”囚徒困境，你现在用“重复”博弈来替代“单
次”博弈，事实上已经偷换了前提。

从逻辑上看，它不具备论证的合法性。

因此，要使经济学摆脱上述困境，你就必须证明单次囚徒困境可以求得合作解。

不过非常遗憾，到目前为止我们还没有发现，在传统的“理性”范式下，这个问题是可以或者有希望解决的。

桑塔费学派经济学家的最新研究为解决单次囚徒困境博弈中的合作问题提供了新的思路。

这个思路很简洁：突变产生出有利于合作的行为，合作导致了合作剩余；合作剩余增加了这类行为的生存适应性，从而有利于这种行为被自然和环境所选择，使行为人在进化过程中形成一种稳定的道德偏好；而道德偏好一经形成，就突破了博弈者原有的策略集合，打破了完全按自利原则推演出来的“纳什均衡”。

就这么简单！桑塔费学派经济学家所做的博弈实验证明，在具有同情心的条件下，囚徒困境完全可以有合作解。

其实，可能不仅仅是同情心，还有诸如正义感、愧疚感、宗教信仰等社会性情感，都可以在囚徒困境条件下诱导出合作行为。

参考文章：
1、/bbs/thread-174681-1-1.html
2、/bbs/viewthread.php?tid=40541&hig
hlight=%C7%F4%CD%BD
3、/bbs/viewthread.php?tid=12749&hig
hlight=%C7%F4%CD%BD。