博弈论经典例子(13)重复囚徒困境的游戏
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
重复囚徒困境的游戏
其目的就是要研究在无限次数的对局游戏中人为什么要合作,人什么时候是合作的,什么时候又是不合作的,如何使别人与你合作。
一位美国科学院院士、著名的行为分析和国际关系专家罗伯符·艾克斯罗德搞了一场关于“重复囚徒困境”的游戏,艾克斯罗德的游戏思路非常简单,任何想参加这个计算机竞赛的人都扮演“囚徒困境” 案例中一个囚犯的角色,他们把自己的策略编入到计算机程序中,然后他们的程序会被成双成对地融入到不同的组合,在分好组以后,参与者就开始玩“囚徒困境”的游戏。在游戏中,有两个对策者,他们可以有两个选择:合作或背叛,每个人都必须在不知道对方选择的情况下,做出自己的选择。
艾克斯罗德邀请了来自经济界,心理学,补会学、政治学和数学领域的14位专家参与这一游戏,每个参加者每一步都要写出个体选择合作或不合作的程序,这个程序在作选择时可以利用对局的历史情况来分析,从而决定自己的策略。游戏双方的选择,放在一起就产生了四种可能的结果,即:
1. 合作.合作;
2. 合作,背叛;
3. 背叛,合作;
4. 背叛,背叛;
在这个游戏中,如果双方选择合作,双方都能得到较好的结果,即“对双方合作的奖励”为3分,如果一个合作而另一方背叛,那么,背叛者因为占了便宜,所以得到“对背叛投机”的5分,而合作者因为被对方占了便宜,只能得到0分。如果双方都背叛,那么双方既没有得到利益,也没有失去什么,双方都得1分。
我们设想甲、乙两个程序在一起博弈,就出现这样的结果:
甲:合作(3)乙:合作(3)
甲:合作(0)乙:背叛(5)
甲:背叛(5)乙:合作(0)
甲:背叛(1)乙:背叛(1)
就这种情形来看,对双方最好的结果是选择合作,总体得6分,如果一方选择合作,一方选不合作,总体得5分,如果两个人都不合作,总体得2分。
竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。按照事先约定的竞赛规则,每一个参赛程序还要与自己对局,以及和一个随机程序对局,所谓随机程序是以相等的概率50%随机选择合作或背叛;
艾克斯罗德要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两对局,以找出什么样的策略得分最高。
14个程序再加上一个“随机程序“彼此开始了第一轮游戏,让我们来分析一下这个重复囚徒困境的游戏,虽然对个体而言最大的利益是得5分,但是如果对局在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契是,对策者就能持续的得3分,这是一个相对理想的结果,但如果持续不合作的话,每个人就永远得一分,因此,对每个参赛者而言,不可能得到高分,这样,合作成为了这个游戏的优势策略。
在这个游戏中,参赛者提出了各种程序,根据程序的本意大致可分为善良的,邪恶的和随意的三类,所谓善良即以合作为主导的策略,邪恶即以背叛占便宜的为主的策略。
最后胜出的是一个称为“一报还一报”的策略,它是所有提交程序中最简单,结果却是最好的,这个策略的特点是,第一次对局采用合作的策略,以后每一步
都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。
假设某人的策略是:第一次合作,以后只要对方不合作一次,他就永远不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多,对于总是不合作的人,也只能采取不合作的策略。
为什么一报还一报这样简单的策略会打败其他学者绞尽脑汁写出来的复杂程序呢?
让我们再来反思一下,一报还一报稳定成功的原因,简单的说,这个以其人之道还治其人之身的策略有着四个特点。
一,清晰性,以牙还牙,以眼还眼,以合作还合作,以背叛还背叛,使他容易被对方理解,从而引出长期合作的关系。
二,善良性,这种策略一开始便以善意和对方合作,也绝不会先背叛对方,这可防止它陷入不必要的麻烦。
三,报复性,如果对方背叛,下一次一定如法炮制,自动报复对面,绝不原谅,报复性使得对方试着背叛一次后就不敢背叛。
四,宽容性,如果对方又主动恢复合作,要立刻与对方握手言欢,既往不咎,有助于重新恢复合作。
一报还一报,策略是有关囚徒困境的最著名的也是被讨论最多的策略,它非常容易理解也非常容易被编成程序,更因为这个策略能引发人们的合作关系而著名。
一报还一报的成功可以说明它是一个很具适应性的规则,即它在很大范围内
表现极佳。
有趣的足,“一报还报”这个策略与单独某个策略相遇时,没有一次是赢了对方的,顶多是和对方打成平手。“一报还一报”策略从来没有一次在竞赛中比对方得更多的分!它总是让对方先背叛,而它自己背叛次数也绝不比对方多,它的得分往往比对方少,至多与对方相等。但是,打与多样化的对手分别比赛之后,最后加起来的,它的总分仍然有可能是最高的;今天如果比赛的规则改变了,在单独比赛赢的人将得到所有的分数.输的为零分。那么,“一报还一报”可能就没机会坐上冠军的宝座了。
一报还一报的成功部分是由于其他规则预料到它的存在并被设计得与它很好相处。要和“一报还一报”很好的相处就要求和它合作,这反过来就帮助了“一报还一报”规则,即使,是那些想伺机占便宜而不被惩罚的规则,也很快向“一报还一报”规则道歉。
任何想占“一报还一报”便宜的规则最终伤害自己,“一报还一报”从自己的不可欺负性中得到好处,这是因为遇到“一报还一报”很容易被识别出来,一旦被识别出来,其不可欺负性就显示出来了,因此,一报还一报从它自己的清晰性中得到好处。
一报还一报这个策略放弃了占他人便宜的可能性,尽管这种机会有时是很有利可图的,但是在广泛的环境中,试图占便宜而引来的问题也多种多样。
在与一报还一报的策略的接触中,如果一个规则用背叛试探是否可以占便宜,它就得被那些可激怒的规则报复的风险,如果双方反击一旦开始,就很难使自己解脱。
最后,试图识别那些“随机规则”或者那些过分不合作的规则,放弃与他