“囚徒困境”引发的思考
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“囚徒困境”引发的思考
“囚徒困境”博弈是图克(Tucker)1950年提出的一个著名的博弈模型,是完全信息静态博弈的典型例子。
一、基本模型
囚徒困境博弈的基本情况如下:警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证他们所犯的罪行。如果其中至少有一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会;如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判1年徒刑;如果两人中有一人坦白认罪,则坦白者从轻认罪,立即释放,而另一人则将重判8年徒刑;如果两人同时坦白认罪,则他们将被各判5年监禁。
如果分别用-1、-5和-8 表示罪犯被判刑1年、5年和8年的得益,用0表示罪犯被立即释放的得益,则两囚徒的得益矩阵如下:
囚徒2
坦白不坦白
囚徒1 坦白-5,-5 0,-8
不坦白-8,0 -1,-1
在上图中,“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方,也就是两个罪犯;他们各自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看作是同时做出的。其中矩阵中第一个数字代表决策结果后囚徒1的得益,第二个数字代表决策结果后囚徒2的得益。
博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想的结果(各判5年),并且这个结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境”。[1]
二、关于完全理性的思考
囚徒困境博弈的一个假设是博弈方都是完全理性。完全理性来源于经济学中的理性人假设,即博弈方都以个体利益最大化为目标,且有准确的判断选择能力,也不会“犯错误”。以个体利益最大为目标被称为“个体理性”,有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。完全理性包括追求最大利益的理性意识、分析推理能力、识别判断能力、记忆能力和准确行为能力等多方面的完美性要求,其中任何一方面不完美就不属于完全理性。[1]我们可以看出,这是一个要求非常严格的假设。即便如此,完全理性仍在一个方面没有做出规定(至少是没有意识到或明确地规定出来),就是思维方式,也即是博弈方是以将问题分解的方式来思考问题呢,还是以系统的整体的方式来思考问题的。我引用《第五项修炼》上的一段话来表达这两种思维方式的不同。
自幼我们就被教导把问题加以分解,把世界拆成片片段段来理解。这显然能够使复杂的问题容易处理,但是无形中,我们却付出了巨大的代价——全然失掉对“整体”的连属感,也不了解自身行动所带来的一连串后果。于是,当我们想一窥全貌时,便努力重整心中的
片段,试图拼凑所有的碎片。但是就如物理学家鲍姆(David Bohm)所说的,这只是白费力气;就像试着重新组合一面破镜子的碎片,想要看清镜中的真像。经过一阵子努力,我们甚至干脆放弃一窥全貌的意图。
现在我们以系统的整体的思维方式来重新分析囚徒困境博弈。警察的目的是获得证据,以使囚徒获得应有的惩罚,囚徒的目的是“获取”最少的惩罚。双方的这种矛盾使得囚徒有串通的倾向,为了离间两个囚徒,警察确立了模型中的规则(且不论这些规则和设置合不合理)。对每个囚徒来说,要想达到自身的目的,而不考虑整个模型设置的目的,很显然是不行的。囚徒该如何选择呢?答案是不坦白。如果囚徒看出了该模型的目的,若选择坦白,以自推人,对方也会选择坦白,必然落入警察的圈套,此所谓鹬蚌相争,渔翁得利。当两博弈方都用系统思维来考虑这个问题时,相互配合1是其最好的选择,因为在完全理性假设前提下,自己选择坦白而另一方选择不坦白,这种机会是没有的,这种饶幸心理也是取不得的,剩余的只有要不都坦白,要不都不坦白,所以相互配合是其最好的选择,结果一定是不坦白。此所谓兄弟阋于墙,外御其侮,这也是空城记能够唱成的原因。如果任何博弈方不是采用系统的思维方式来思虑这个问题的,因为一方用分解的思维方式来思考囚徒困境,他会选择坦白,那么另一方不管用什么思维方式来思考这个问题,选择坦白都是最好的,因此其结果必然是都坦白。
三、关于概率的思考
从概率上来说,都坦白的概率上是非常大的,可能很接近1或者等于1。但概率没有表示出事件到底是怎么样发生的,它只表示了发生的可能。概率等于1代表的是事件发生的可能性是100%,而不是事件发生了;同样,概率为0代表的是事件发生的可能性为0,但这不能就此说事件不会发生了。例如,我们掷飞镖,从理论上讲,对于圆盘上每一点来说概率都为0,但只要我们把飞镖掷到了圆盘上,对于圆盘上的被掷到的那一点来说,被掷到的概率为0,但它还是被掷到了,事件还是发生了。这有点像红军的爬雪山过草地,在蒋介石看来,并且从当时的历史和实际来看,红军的爬过雪山走过草地的可能性为0,但正是这个0的概率,使中国的历史走到了今天。反过来,我们也可以说概率等于1的事件不一定就发生。
在概率论中,随机变量分为离散型随机变量和连续型随机变量两种。对于离散型随机变量,由于其对概率为0的可能值不会包括在内,这使我们习惯性地把概率为0的可能值视为不会发生。也正是由于此,我们无法找到概率为0的离散型随机变量,也就无法证明它会发生。
对于任意的连续型随机变量,对于任何常数和(),。对于随机变量的取值范围内的任何一点来说,其概率为,显然为0;对于某一事件来说,其发生的值假定为,那么,我们得出在概率为0的点事件发生了。
在大家都认为都坦白的概率等于1时,其实其前提是大家都是以分解的思维方式来考虑问题的。现在我们假定在社会中用系统思维方式考虑问题的人占所有社会人的(),用分解思维方式考虑问题的为。假定用系统思维方式考虑问题的人相遇时,囚徒困境的结果是都不坦白。假定一方坦白,另一方不坦白的概率为0。假定两种不同的思维方式相遇或都用分解思维方式时,结果都是坦白。那么警察能够达到目的的概率为。
在双方都知道对方是什么样的思维方式的前提下,一方坦白另一方不坦白的博弈结果,因为其概率为0,所以不会对我们的概率(统计)结果有什么明显的影响。然而就某一次博弈来说,我们无法确定最后的结果是什么,只能说一切皆有可能发生。