海盗分金囚徒困境丛林法则

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

恩格斯说过：‚伟大的阶级，正如伟大的民族一样，无论从哪方面学习都不如从自己所犯的错误中学习来得快。

‛
企业家必须认真对待的或许不会发生的故事——
‚海盗分金‛
话说五个海盗抢得100枚金币，他们通过了这样一个关于分配的制度安排：
1、抽签决定各人的号码（1，2，3，4，5）；
2、由1号提出分配方案，然后5人表决，当且仅当超过半数同意，方案才能通过，否则他将被扔入大海喂鲨鱼；
3、1号死后，由2号提方案，4人表决，当且仅当超过半数同意，方案才能通过，否则2号同样被扔入大海；
4、依次类推……
假定‚每个海盗都是很聪明的人，都能很理智的判断得失，从而做出选择‛，那么‚第一个海盗提出怎样的分配方案才能够使自己的收益最大化？‛
据说，凡在20分钟答出此题的人有望在美国赚取8万以上的年薪。

标准答案是：1号海盗分给3号1枚金币，4号或5号海盗2枚，独得97枚。

分配方案可写成（97，0，1，2，0）或（97，0，1，0，2）。

推理过程是这样的：从后向前推，如果1-3号海盗都喂了鲨鱼，只剩4号和5号的话，5号一定投反对票让4号喂鲨鱼，以独吞全部金币。

所以，4号惟有支持3号才能保命。

3号知道这一点，就会提（100，0，0）的分配方案，对4号、5号一毛不拔而将全部金币归为已有，因为他知道4号一无所获但还是会投赞成票，再加上自己一票他的方案即可通过。

不过，2号推知到3号的方案，就会提出（98，0，1，1）的方案，即放弃3号，而给予4号和5号各一枚金币。

由于该方案对于4号和5号来说比在3号分配时更为有利，他们将支持他而不希望他出局而由3号来分配。

这样，2号将拿走98枚金币。

不过，2号的方案会被1号所洞悉，1号并将提出（97 ，0，1，2，0）或（97，0，1，0，2）的方案，即放弃2号，而给3号一枚金币，同时给4号（或5号）2枚金币。

由于1号的这一方案对于3号和4号（或5号）来说，相比2号分配时更优，他们将投1号的赞成票，再加上1号自己的票，1号的方案可获通过，97枚金币可轻松落入囊中。

这无疑是1号能够获取最大收益的方案了！
思考：
1、当老大是不容易的，企业家就是要把各方面‚摆平‛。

这里说的企业家包括熊比特
说的政治家。

2、任何‚分配者‛想让自己的方案获得通过的关键是事先考虑清楚‚挑战者‛的分配方案是什么，并用最小的代价获取最大收益，拉拢‚挑战者‛分配方案中最不得意的人们。

想一想历朝历代的农民起义，想一想绵延起不断的宫廷斗争，想一想我们这个时代比比皆是的结盟与背叛，想一想企业内部的明争暗斗，想一想办公室脚下使绊的政治，哪一个得胜者不是采用的类似‚海盗分金‛的办法？
为什么革命者总是找穷苦人，因为他们是最失意的人。

为什么恐怖分子拉登在沙特阿拉伯没有市场，在阿富汗却大受欢迎，因为阿富汗是全球化的弃儿。

为什么企业中的一把手，在搞内部人控制时，经常是抛开二号人物，而与会计和出纳们打得火热，难道不是因为公司里的小人物好收买，而二号人物却总是野心勃勃地想着取而代之……
3、国际交易中的先发优势和后发劣势。

1号看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。

这不正是全球化过程中先进国家先发优势吗？而5号，看起来最安全，没有死亡的威胁，甚至还能坐收渔人之利。

却因不得不看别人脸色行事而只能分得一小杯羹。

这难道不是后发劣势的写照？可以预料，如果中国人总是处于5号位臵，总是坐等别人制定规则，未来就不见得会比5号好到那里去！
4、海盗的逻辑当然不是真实世界的唯一内幕。

‚海盗分金‛模型是一个非常精致的模型，但它只是一个有益的智力测验，而现实世界要比这个模型复杂得多。

5、现实中肯定不会是人人都绝顶聪明兼‚绝对理性‛。

回到‚海盗分金‚的模型中，只要3号，4号或5号中有一个人偏离了绝对聪明兼绝顶理性的假设，海盗1号保不准就会被扔到海里去了。

所以，1号首先要考虑的就是他的海盗兄弟们的聪明和理性究竟靠得住靠不住，而断断不敢自取97颗金币，拼了性命去狂赌。

6、偏好和效用及其替代是另外的一个大问题。

现实中人们是如此的复杂，某人的神经末稍微偏离一毫，就可能表现得对金币满不在乎而偏偏喜欢看同伙被扔进海里喂鲨鱼。

果真如此，1号自以为得计的方案岂成了自掘坟墓！
7、再就是俗话所说的‚人心隔肚皮‛。

这翻译成经济学语言则是信息不对称。

由于信息不对称，谎言和虚假承诺就大有用武之地，而阴谋也会象杂草般疯长，并借机获益。

譬如，2号完全可以对3、4、5号大放烟幕弹，假称对于1号所提出任何分配方案，他一定会再多加上一个金币给他们。

果真如此，结果又当如何？
8、通常，在现实世界中，人人都有自认的公平标准，因而时常会嘟嚷：‚谁动了我的
奶酪‛？而且，规则是由人制订的，所以，当人一旦意识到这个规则对自己不利的时候，并且知道这对大多数人不利的时候，就会想到修改规则。

也就是我们说的‚文化可以颠覆制度‛。

可以料想，一旦1号所提方案和大家所想的不符合的时候，就会有人大闹……当大家都闹将起来的时候，1号能拿着97枚金币毫发不损地、镇定自若地走出去吗？最大的可能就是，海盗们会要求修改规则，然后重新分配。

9、假如由一次博弈变成重复博弈呢？比如，大家讲清楚下次再得100枚金币时，先由2号海盗来分……然后是3号……这颇有点象美国总统选举，轮流主政。

说白了，其实是民主制度下的分赃制。

可能还会有比这更闹得凶的。

比如，四人会想：1号居然要独得97枚金币，这还得了。

于是，他们立即形成一个反1号的大联盟并制定出新规则：四人平分金币，独将1号扔进大海……这便是阿Q式的革命理想：高举平均主义的旗臶，将富人扔进死亡深渊，睡吴妈的床……
10、制度的重要在这个故事中得到了最突出的体现，这样一个分配制度，很容易诱导人们走向自相残杀，这是在游戏中容易被人忽略的。

美国的总统制度中有一条重要的规则是，总统下台后可以建一个图书馆（当然还有其它优厚的条件），而不是‚推到海里‛，这就保证了文明的权力交替，可以想象，如果所有的总统都没有好下场，那总统不仅不愿意下台，而且还会做很多的保护自己的手脚，政治就不可能清明。

11、现实的确是太复杂了。

这也说明制度是多么的重要，也说明参与制度的制定是多么重要。

12、每个个体在每一件事上都诉诸理性，是不经济的。

因为理性的成本太高了，所以人们在多数事情上，是按社会的规范和习俗行事。

还有很多，不能全说出来了，留给大家在实践中思考和总结。

囚徒困境的理论研究
第一部分：什么是囚徒困境（prisoner's dilemma）
一、囚徒困境（prisoner's dilemma）
是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去‚惩罚‛另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。

但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

二、经典的囚徒困境
1950年，由就职于兰德公司的梅里尔〃弗勒德（Merrill Flood）和梅尔文〃德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特〃塔克（Albert T ucker）以囚徒方式阐述，并命名为‚囚徒困境‛。

经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：
若一人认罪并作证检控对方（相关术语称‚背叛‛对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相‚合作‛），则二人同样判监半年。

若二人都互相检举（互相‚背叛‛），则二人同样判监2年。

用表格概述如下：
甲沉默（合作）甲认罪（背叛）
乙沉默（合作）二人同服刑半年甲即时获释；乙服刑10年
乙认罪（背叛）甲服刑10年；乙即时获释二人同服刑2年
解说
如同博弈论的其它例证，囚徒困境假定每个参与者（即‚囚徒‛）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。

参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为‚严格劣势‛，理性的参与者绝
不会选择。

另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。

就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择：
若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是两种策略之中的支配性策略。

因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。

以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。

但根据以上假设，二人均为理性的个人，且只追求自己个人利益。

均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。

这就是‚困境‛所在。

例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

三、一般形式
整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。

实验经济学常用这种博弈的一般形式分析各种论题。

以下是实现一般形式的其中一例：
有两个参与者和一个庄家。

参与者每人有一式两张卡片，各印有‚合作‛和‚背叛‛。

参与者各把一张卡片文字面朝下，放在庄家面前。

文字面朝下排除了参与者知道对方选择的可能性1。

然后，庄家翻开两个参与者卡片，根据以下规则支付利益：一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。

二人都合作：各得3分（合作报酬）。

二人都背叛：各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：
一般形式囚徒困境的支付矩阵合作背叛
合作3, 3 0, 5
背叛5, 0 1, 1
以‚T、R、P、S‛符号表示合作背叛
合作R, R S, T
背叛T, S P, P
以‚胜－负‛术语表示合作背叛
合作胜-胜大负-大胜
背叛大胜-大负负-负
简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表
符号分数英文中文（非术语）解释
T 5 Temptation 背叛诱惑单独背叛成功所得。

R 3 Reward 合作报酬共同合作所得
P 1 Punishment 背叛惩罚共同背叛所得
S 0 Suckers 受骗支付被单独背叛所获
若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。

T>R>P>S
（解：从5>3>1>0获得以上不等式）
若以整体获分而言，将得出以下不等式。

2R>T+S或2R>2P
（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。

合作在团体而言是支配性策略。

）而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+ S。

就是说将使参与者脱离困境。

以上理论是道格拉斯〃霍夫施塔特创建的。

四、现实的例子
上述例子可能显得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成同样的支付矩阵。

社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模拟生物面对无止境的囚徒困境博弈。

囚徒困境可以广为使用，说明这种博弈的重要性。

以下为各界例子：
1、政治学例子：军备竞赛
在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。

两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。

两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。

似乎自相矛盾的是，虽然增加军备会是两国的‚理性‛行为，但结果却显得‚非理性‛（例如会对经济造成都有损坏等）。

这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

2、经济学例子：关税战
两个国家，在关税上可以有以两个选择:
提高关税，以保护自己的商品。

（背叛）
与对方达成关税协定，降低关税以利各自商品流通。

（合作）
当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。

然后二国又重新达成关税协定。

（重复博弈的结果是将发现共同合作利益最大。

）
3、商业例子：广告战
商业活动中亦会出现各种囚徒困境例子。

以广告竞争为例。

两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告，收入增加很少但成本增加。

但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：
互相达成协议，减少广告的开支。

（合作）
增加广告开支，设法提升广告的质量，压倒对方。

（背叛）
若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。

在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

4、自行车赛例子
自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。

例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。

而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。

通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位臵，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位臵（背叛），其他选手以及大队伍就会赶上（共同背叛）。

而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

五、与囚徒困境相关的各事件
1、异想
威廉〃庞德斯通（William Poundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。

在新西兰，报亭即无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。

当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。

这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。

并没有任何人特别去注意报亭，人们守规则是为了避免共同背叛带来的恶果。

这种避免囚徒困境的大家共同的推理或想法被称为‚异想（magical thinking）‛。

[3]
2、‚认罪减刑‛不可行
囚徒困境的结论是许多国家中认罪减刑（英文：plea bargain）被禁止的原因之一。

囚徒困境带来的结论是：如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪
者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。

最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。

3、公用品悲剧
现实的博弈参与者不只一方，会有多方参与的囚徒困境。

加勒特〃詹姆斯〃哈丁（Garrett James Hardin）的公用品悲剧就是一例：‚公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物‛，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。

但是，多方囚徒困境的提法有待商榷，因为其总是可以被分解为一组组经典的二方囚徒困境。

就是说只有二方的囚徒困境，没有多方的。

所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。

六、重复的囚徒困境
罗伯特〃阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作‚重复的囚徒困境‛（IPD）。

在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。

阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。

参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终‚贪婪‛策略趋向于减少，而比较‚利他‛策略更多地被采用。

他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是‚以牙还牙‛，这是阿纳托尔〃拉波波特（Anatol Rap oport）开发并运用到锦标赛中的方法。

它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。

这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。

更好些的策略是‚宽恕地以牙还牙‛。

当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%~5%）时而合作一下。

这是考虑到偶尔要从循环背叛的受骗中复原。

当错误传达被引入博弈时，‚宽恕地以牙还牙‛是最佳的。

这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。

通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。

1、友善
最重要的条件是策略必须‚友善‛，这就是说，不要在对手背叛之前先背叛。

几乎所有的高分策略都是友善的。

因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。

2、报复
但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。

要始终报复。

一个非报复策略的例子是始终合作。

这是一个非常糟糕的选择，因为‚下流‛策略将残酷地剥削这样的傻瓜。

3、宽恕
成功策略的另一个品质是必须要宽恕。

虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。

这停止了报复和反报复的长期进行，最大化了得分点数。

4、不嫉妒
最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于‚友善‛的策略来说这也是不可能的，也就是说‚友善‛的策略永远无法得到高于对手的分数）。

因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。

阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。

重新考虑经典的囚徒困境一节中给定的军备竞赛模型：结论是，只是理性策略增进了军事力量，似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。

有趣的是，企图说明对抗国家实际上以这种方式（在‚重复囚徒困境假定‛下的不同时期，军费支出在‚高‛和‚低‛之间反复）竞赛的尝试，却经常表明假定的军备竞赛并没有如预想的那样出现。

（例如希腊人和土耳其人的军费支出，看来并不像遵循‚以牙还牙‛的重复囚徒困境式的军备竞赛，却更可能是被其国内的政策所驱使。

）这可能是一次性博弈和重复性博弈中的理性行为不同的例子。

对一次性囚徒困境博弈来说，最佳（点数最大化的）策略是简单地背叛；正如前面解释的，无论对手的行动可能是什么，这都是真实的。

但是，在重复的囚徒困境博弈中，最佳策略依赖于可能的对手的策略，和他们怎样对背叛和合作作出反应。

例如，考虑这样一个人群，那里每个人每次都背叛，除了一个人是遵循以牙还牙策略。

这个人处于一种轻微的不利地位，因为第一回合的损失。

在这样的人群中，对这个人来说最佳策略就是每次都背叛。

在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中，对个人来说的最佳策略依赖于这个百分比和博弈的长度。

一般有两种方法得到最佳策略：
贝叶斯纳什均衡：如果对抗策略的统计分布能被确定（例如，50％以牙还牙，50％一直合作），就能从数学上获得最佳的相对策略[4]。

已经有了人群的蒙特卡罗模拟，在这里低分个人消失了，高分个人一再被生产出来（一种获得最佳策略的天才算法）。

决赛人群中的算法合成通常依赖于初赛人群中的算法合成。

尽管以牙还牙始终被认为是最可靠的基本策略，但是在重复囚徒困境的20周年纪念赛中，来英国南安普敦大学的一个小组（由尼古拉斯〃詹宁斯（Nicholas Jenning s）[1]领导，包括了拉蒂普〃达什（Rajdeep Dash）、萨瓦帕里〃拉姆琼（Sarvapali R amchurn）、亚历克斯〃罗杰斯（Alex Rogers）斯和皮鲁克里士南〃维特林根（Peruk rishnen Vytelingum））介绍了一个新的策略，这个策略证明了它比以牙还牙更成功。

海盗分金 囚徒困境 丛林法则

海盗分金囚徒困境丛林法则