博弈论经典例子

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[笔记]——博弈论经典例子的思考

摘要:博弈论就是关于在包含相互依存情况中的理性行为的研究,是研究对策现象中各方是否存在最合理的行动方案,以及如何找到合理的行动方案的理论和方法。本文分析思考了博弈论的两个典型例子,也对博弈价格战提出了自己的看法,希望能带给大家一些启发。

关键词:纳什均衡非合作博弈无限博弈

田忌赛马

战国时期,齐王和大将田忌赛马,双方各出三匹马各赛一局。各方的马根据好坏分别称为上马、中马、下马。田忌的马比齐王同一级的马差但比齐王低一级的马好一些。若用同一级马比赛,田忌必然连输三局。每局的赌注为1千金,田忌要输3千金。田忌的谋士建议田忌在赛前先探听齐王赛马的出场次序,然后用自己的下马对齐王的上马,用中马对齐王的下马,用上马对齐王的中马。结果负一局胜两局赢得1千金。但若事先并不知道对方马的出场次序,双方应取何种策略?双方采用的赛马出场次序安排及相应的结果(齐王赢的

由图可知,田忌赢的概率只有六分之一,孙膑只是掌握了齐王的思维定势侥幸赢了一把,在一把定胜负的时候管用,当试验的机会增多,田忌就输了。如果赛马的规则发生变化,每个人要将自己的马严格的划分等级,上等马速度必须比中等马快,中等马必须比下等马快,且比赛时同等级的马才可以比赛的话,那么田忌就只有输的份了。孙膑只是一时抓住了规则的某些漏洞耍了些小聪明才取得一盘的胜利,我们只对他的小聪明淡然一笑罢了。

博弈根据不同的游戏规则会产生与之相适应的策略。

囚徒的困境

有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话:检察官说,“由

于你们的偷盗罪已有确凿的证据,所以可以判你们1年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,你将无罪释放,但你的同伙要被判10年刑。如果你拒不坦白,而被同伙检举,那么你就将被判10年刑,他无罪释放。但是,如果你们两人都坦白交代,那么,你们都要被判8年刑。”斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况下无法串供,所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到无罪释放,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判8年,总比被判10年好。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要延长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时

问的监禁的结果。

有理由相信现实生活当中不是冤家不聚头。结果第二次,第三次这两个囚徒又被抓到一起。有了第一次教训之后他们会在接下来的审讯里做何选择呢?这就是有限次重复的"囚徒的困境"。博弈论里有一种倒推法来解决这个问题。假设这个例子只重复5次,因为在狱中渡过太多的岁月之后他们都老到做不动坏事了。我们先看第5次他们会怎么选。显然第5次的面临的选择和第1次是一模一样的,因此没有理由相信这两个囚徒会在第5次审讯里合作。如果第5次不合作,为什么他们会在第4次合作呢?如此倒推,有限次重复的"囚徒的困境"和一次的结果没有任何不同,即双双坦白,入狱8年。

如果把这种体验无限延长,或至少是他们俩知道肯定还有这种事,只是不知道什么时候才能停止这种把戏,这就是无限次重复的"囚徒的困境",让我们再来看看这会不会有不同。因为无限博弈不存在最后一次,倒推法不再适用。假设一个人在监狱里呆久了会适应这种环境变得油滑。因此第一个8年最长,后来再进去的8年变得只有象6年一样长,再后来是4年...。因此这里引入一个表示监狱生活适应性指数的符号——"&",0<&<1。这个&值越大表明对监狱生活越难适应,前一个8年和后一个8年差不多一样漫长。如果&越小则表示这个囚犯对环境适应很快,后来呆上8年都没什么感觉了。对于一个经常被判8年的人来说,他的受惩罚实际感受的总量是:(-8)+&(-8)+&[&(-8)]+...。易知,如果0<&<1,则

1+&+&&+&&&+...的极限值是1/(1-&)。假设这两个囚徒选择这样一种战略:最开始选择抵

赖,然后一直选择抵赖直到另一方选择了坦白,然后就永远选择坦白。这样的话其中任一个囚徒选择永远抵赖的总收益是:(-1)+&(-1)+&[&(-1)]+...=(-1)/1-&。如果其中某一次他选择了坦白,则那一次他将获无罪释放,之后对方将用永远坦白来惩罚他,他们俩都一直被判8年。因此总收益是:0+&(-8)+& [&(-8)]+...=(-8&)/(1-&)。如果要使某次坦白对其中一个囚犯有利,显然需要其中坦白一次这种选择所带来的收益(-8&)/(1-&)大于等于一直互相合作抵赖所带来的总收益(-1)/1-&,也就是&<=1/8的情况下(即某人实在认为狱中岁月妙不可言,判得久对他来说无所谓,&值极低)才会有人选择中途坦白,否则在无限次重复的"囚徒的困境"当中他们都会选择一直抵赖以使自己能尽量减少在监狱中渡过时光。因此在无限次重复的"囚徒的困境"中最后的结果和一次或是有限次完全不同。在很大概率上囚徒会选择合作而不是各自为战。也就是说,在长期的双方关系中任何短视的行为都是得不偿失的。这个结果可以用来说明为什么我们的传统文化里强调人与人的关系"以和为贵"。数千年来中国一直是农业国家,农业人口缚系于土地,乡间邻里相对固定。因此人们彼此之间的很多利益冲突可以用无限次重复的囚徒困境来描述。也就是说如果某次利益是通过冲突而不是合作解决,那么失利的一方必然会设法报复,而且这种对立的情绪很有可能在后辈中延续,也就是无限次被重复,结果必然是双方都得不偿失。此所谓"冤冤相报何时了"!

我的看法是:现实中囚徒要考虑更多的因素,即使他们合谋决定合作,他们商量好都抵赖,但是真正面对警察的审讯时,他们又会考虑对放是否会出卖自己,他们有可能会继续出卖对方。但是人都有报复心理的,如果一方违背了约定,虽然能很快出狱,但是若干年后呢,那位囚徒刑满释放后会放过他吗?考虑到若干年后的情况,两个囚徒也许会都选择抵赖。如果惩罚和奖赏的度发生改变:两人都坦白的话,则均判刑1年;A坦白B抵赖,则A无罪释放,B判刑5年;两人都抵赖的话,则均判刑3个月,这样的情况下,两个囚徒会做怎样的选择呢?这样两个囚徒都选择坦白的可能性比较大,毕竟一年的时间比较短,不必为了3个月的刑而冒坐牢5年的风险。这里涉及到了风险收益不对称问题,湖北省的一些官员,明明知道某些问题存在,却坐视不理,很大的原因就是风险收益不对称,不治理问题不会太大,治理好了奖励表彰也不怎么样,治理差了要受到责怪,于是湖北就有些落后,原因

就是湖北的官太聪明了。

总之,囚徒的困境涉及到的问题众多,不仅仅是心理与智力的较量,游戏规则的指定对结果产生的影响是比较明显的。而现实中我们要考虑的相关因素会更多,博弈论只有与我们已经掌握的情况充分的结合才能得出比较满意的策略。

博弈价格战

现在我们经常会遇到各种各样的家电价格大战,彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战,百姓都会“没事儿偷着乐”。在这里,我们可以解释厂家价格大战的结局也是一个“纳什均衡”,而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的,即是一个“纳什均衡”。这个结果可能对消费者是有利的,但对厂商而言是灾难性的。所以,价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题,一是竞争削

相关文档
最新文档