博弈论——换一种方式思考问题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

博弈论——换一种方式思考问题
花了一个月的时间研究了下博弈论,收获很多,于是又花了一个礼拜写了这篇算是读后感的日志,希望能激起大家对博弈论的兴趣,尤其是几个经典博弈,真的很有意思。

Ø 博弈论的内涵
什么是博弈论?简单的说,就是“互动的决策论”,指在充分考虑对方的决策后做出的决策。

“博弈论”的英文是“Game Theory”,所以博弈论最贴切的直译是“游戏理论”。

现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立,对于冯·诺伊曼我们更为熟知的头衔是“计算机之父”,其实,他还有另一个身份,就是“博弈论之父”。

1944年,他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》,标志着现代系统博弈理论的初步形成。

诺伊曼与摩根斯特恩认为,博弈论就是运用数学的方法研究有利益冲突的双方在竞争性活动中制定最优化策略的理论。

但是诺伊曼所解决的只有二人零和博弈,1949年,21岁的纳什写下一篇著名的论文《多人博弈的均衡点》,提出了纳什均衡的概念和解法。

这是整个现代博弈论中最重要的思想之一。

相信很多人都知道纳什,因为那部经典的奥斯卡最佳影片《美丽心灵》,他传奇的人生,坚强的毅力,深深的打动了我。

他在普林斯顿大学深造时,冯·诺伊曼正好在普林斯顿任教,那个时候的普林斯顿还聚集了众多著名的科学大师,包括罗伯特?奥本海默、诺曼·斯蒂恩罗德以及爱因斯坦,据说纳什曾经造访过爱因斯坦,向他讲述自己对于重力的看法。

在一个小时的讨论之后,爱因斯坦对纳什说:“年轻人,你应该来学一点物理。


1950年和1951年纳什的两篇关于非合作博弈论的重要论文,彻底改变了人们对竞争和市场的看法。

他证明了非合作博弈及其均衡解,并证明了均衡解的存在性,即著名的纳什均衡。

表面上看,博弈论似乎是数学家玩的游戏,而事实上,博弈论首先是我们思考现实世界的一套逻辑,其次才是把这套逻辑严密化的数学形式,博弈论的目的在于巧妙的策略,而不是解法。

我们学习博弈论的目的,不是为了享受博弈论的分析过程,而在于赢得更好的结局。

说到底,博弈论只是一个分析问题的工具,用这个工具来简化问题,使问题的分析清晰明了就够了。

Ø 博弈论的基本概念
首先我们需要了解的是纳什均衡。

在某个房地产开发中,假定市场需求有限,只能满足某种规模的开发量,A、B两个开发商都想开发这一规模的房地产,如果A选择开发,则B 的最优策略是不开发,同样,如果B选择开发,则A的最优策略是不开发。

这时无论对A 还是B,都不存在一种策略优于另一种策略,也不存在严格劣策略(不论其它人采取的策略,某人采取对自己不利的策略)。

研究这类问题的均衡解,需要引入纳什均衡。

在纳什均衡中,每个参与人都确信,在给定其它参与人的策略情况下,己方选择了最优策略。

所以在纳什均衡点上,每个参与者的策略都是最好的,此时没人愿意先改变或主动改变自己的策略。

在博弈论中,博弈行为都可以分为两类,即零和博弈与非零和博弈。

零和博弈是一种完全对抗,强烈竞争的对局。

参与者的总收益为零,因此一个参与者的所得必然是另一个参与者的损失。

而非零和博弈,是各参与者的目标不完全对立,参与者只按本身的厉害关系单方面做出决策,有时为了共同利益而合作,有时为了个人利益而对立,收益的总和是可变的,参与者可以同时有所得和有所失。

在博弈论中,最基本的假设之一就是:人是理性的。

所谓理性人是指行动者具有推理能力,在具体策略选择时的目的是使自己的利益最大化。

而现实生活中,人们在做决策时往往是有限理性的。

每个人都不是绝对聪明的人,而且绝对聪明的人也未必会用绝对聪明的方式去做决策,因此博弈论是有局限性的。

尽管如此,人类至今还没有找到一种比博弈更好的思考工具,可以对现实的客观世界进行如此近似的描述。

就像力学是自然科学的哲学和数学一样,博弈论是社会科学的哲学与数学。

没有牛顿力学我们连最简单的物理现象都无法理解;同样的道路,没有博弈论我们也无法解释分析很多的社会现象。

Ø 囚徒困境:博弈论的经典模型
有这样一个案例:两个共同偷窃的犯罪嫌疑人甲和乙被带到警察局。

警方对两名犯罪嫌疑人实行隔离关押,隔离审讯,每个犯罪嫌疑人都无法观察到同伴的选择。

警方虽然怀疑他们作案,但手中没有掌握确凿的证据,于是分别告知两名犯罪嫌疑人:对犯罪事实的认定及相应的量刑完全取决于他们自己的招供。

如果你们一方供认,而另一方抵赖,那么供认方将作为证人无罪释放,而另一方将被判10年徒刑;如果双方都与警方合作,共同招认,则都将被判5年有期徒刑;如果双方均不认罪,则各判2年。

我们先不管这样的量刑方式是否合理,假设规则就是这个样子,从常理来看,双方都不认罪是最好的选择,但从博弈论角度出发,对于A来说,如果B招供,则A如果不招供的话,将会受到重罚,因此A的最佳策略是招供,如果B不招供,A的最佳策略仍然是招供,所以理性的A一定会选择招供,对于B来说,也是一样的道理。

这样双方都招供就是一个纳什均衡。

从逻辑上分析确实没问题,但生活中我们可以这样来分析问题吗?有这样一则故事:两位交往甚密的大学生修化学课。

两人在小考、实验和中期考中都表现都很优秀。

在期末考试前的周末,他们非常自信,于是去参加了一场聚会。

聚会太尽兴了,结果周日这天睡过了头,来不及准备周一的考试,要知道,大学里的考试全都要看考前一两天的复习。

他们没有参加考试,而是向老师撒了个谎,说在回来的路上轮胎爆了,由于没有备用胎,只好整夜在路边整夜等待救援。

现在他们太累了,请求老师容许他们隔天再考。

老师想了想,同意了。

他们便好好准备了一个晚上,周二来考试了。

老师安排他们在两间教室做答。

第一个题目在考卷第一页,占了十分,非常简单,两人都写出了正确答案,心情舒畅的翻到了第二页,第二页只有一个问题,占了九十分,题目是:“请问是哪只轮胎爆了?”结果不言而喻,两位学生只有乖乖向老师认错。

所以利用囚徒困境,我们至少可以学到一点,在生活中,如果能善于建立囚徒困境,往往能将看似很棘手的问题用很简单的方法解决。

也许你现在跟我一样有一个疑问,按照上面的分析,对每个参与者来说选择背叛永远比选择合作获得更多的利益,在现实生活中,这显然不合理。

原因在于博弈的次数问题,在任何博弈中,表现最好的策略直接取决于对方采用的策略,总的来说,如果你认为今后将难以与对方相遇,或者你不关心自己未来的利益,那现在就选择背叛。

而事实上,现实生活中反复交往的人际关系,则是一种“不定次数的重复博弈”。

因此,我们在博弈过程中,必然要考虑是否还有重复博弈的可能,如果将来的重复博弈带来的利益要更多的话,那当前博弈就会选择合作。

有了重复博弈还是不够的,当我们在确定合作时必须要制定相应的规则,规定背叛后的惩罚,只有带剑的契约才是游戏合作的保证。

当参与者在博弈过程中选择背叛后为此要付出更大的代价后,就自然降低了他的背叛动机。

从囚徒困境中我们获得以下几点启发:第一,善于建立囚徒困境,如上面警察与教授就
通过建立囚徒困境成为了“渔翁得利”者。

第二,当自己处于不利地位时可以将对方也拉入囚徒困境中,为自己谋得最大利益。

《战国策》有这样一则故事,公元前522年,楚平王怀疑太子谋反,迁怒于伍家,将伍子胥的父亲与哥哥均杀害,伍子胥只身逃往吴国。

在逃亡中,伍子胥被守关的斥候抓住,伍子胥说:“你知道楚王为什么要抓我吗?是因为有人跟楚王说我有一颗宝珠,可我的宝珠已经丢失了,楚王不信,以为我在欺骗他。

没有办法,我只有逃走,现在你抓住我,还要把握交给楚王,那我将在楚王面前说是你夺去了我的宝珠,并吞到肚子里,楚王为了得到宝就一定会先把你杀掉。

”斥候信以为真,就赶紧把伍子胥给放了。

这是书中提到的一个故事,听起来有点假,不过还是可以说明问题的。

在这个故事中,伍子胥自身处于极不利的形式,但他巧妙的构造了一个囚徒困境,而且自己先做了决策。

本来斥候的最大利益是将伍子胥送给楚王,并且伍子胥不揭发他,而这是伍子胥的严格劣策略,也就是说伍子胥肯定不会采取这个策略的,而在伍子胥肯定揭发他这个前提下,斥候做出的最好选择就是放了伍子胥。

呵呵,是不是有点绕啊,不过把关系理顺了,还是觉得用博弈论来分析问题确实挺有意思的。

第三,也是囚徒困境最直接告诉我们的一个道理,在大多数情况下,背叛都是最优的选择。

也许你要说道德问题,当然,如果是朋友跟亲人,那就先忘了博弈吧,而如果我们身陷囚徒困境中,就应该分析形势,首先判断与对方有无再合作的可能,如果本次合作会为双方将来谋得更大利益,则选择合作;如果不是的话,而双方又无严格的相互约束的话那就要选择背叛,因为对方同样有背叛的倾向,不背叛自己的利益就会受到侵害。

Ø 酒吧博弈:混沌系统中的博弈
这也是博弈论中的一个经典模型,而且很有意思,案例是这样的:
假设有100个人很喜欢泡酒吧。

这些人在每个周末,都要决定是去酒吧活动还是待在家里休息。

酒吧的容量是有限的,也就是说座位是有限的。

如果去的人多了,去酒吧的人会感到不舒服。

此时,他们留在家中比去酒吧更舒服。

假定酒吧的容量是60人,如果某人预测去酒吧的人数超过60人,他的决定是不去,反之则去。

这100人如何做出去还是不去的决定呢?
这个博弈的前提条件做了如下限制:每一个参与者面临的信息只是以前去酒吧的人数,因此,他们只能根据以前的历史数据,归纳出此次行动的策略,没有其它的信息可以参考,他们之间更没有信息交流。

酒吧问题所模拟的情况,非常接近于一个赌博者下注时面临的情景,比如股票选择、足球博彩。

这个博弈的每个参与者,都面临着这样一个困惑:如果许多人预测去的人数超过60,而决定不去,那么酒吧的人数会很少,这时候做出的这些预测就错了。

反过来,如果有很大一部分人预测去的人数少于60,他们因而去了酒吧,则去的人会很多,超过了60,此时他们的预测也错了。

因而一个做出正确预测的人应该是,他能知道其他人如何做出预测。

但是在这个问题中每个人预测时面临的信息来源都是一样的,即过去的历史,同时每个人无法知道别人如何做出预测,因此所谓正确的预测几乎不可能存在。

呵呵,如果知道怎么去预测,那了解博弈论的人都可以去买炒股了。

有位学者通过真实的人群以及计算机模拟两种实验得到了两个迥异的、有趣的结果。

在对真实人群的实验中,实验对象的预测呈有规律的波浪状形态,更多的博弈者是根据上一次其他人做出的选择而做出这一次的预测,这种预测是一个非线性的过程。

所谓这样一个非线性的过程是说,系统的未来情形对初始值有着强烈的敏感性,这就是人们常说的“蝴蝶效应”:在北京的一只蝴蝶动了一下翅膀,华盛顿就下了一场大暴雨。

通过计算机的模拟实验,得出了另一个结果:起初,去酒吧的人数没有一个固定的规律,然而,经过一段时间后,这个系统去与不去的人数之比接近于60:40,尽管每个人不会固定地属于去或不去的人群,但这个系统的这个比例是不变的。

如果把计算机模拟实验当作是更为全面的、客观的情形来看,计算机模拟的结果说明的是更为一般的规律。

生活中有很多例子与这个模型的道理是相通的。

“股票买卖”、“交通拥挤”以及“足球博彩”等等问题都是这个模型的延伸。

对这一类问题一般称之为“少数人博弈”。

“少数人博弈”中有一个特殊的结论,即:记忆长度长的人未必一定具有优势。

还有一个与酒吧博弈有点类似的案例:假如某个小镇上只有一名警察和一个小偷,他负责整个镇的治安,现在假定小镇的一头有一家酒馆,另一头有一家银行。

因为分身乏术,警察一次只能在一个地方巡逻,而小偷一次也只能去一个地方偷窃。

若警察选择了小偷偷窃的地方巡逻,就能把小偷抓住,反正,则小偷偷窃成功。

假定银行需要保护的财产为2万元,酒馆为1万元,那么警察应该怎么巡逻才使效果最好?
从直观上看,警察应该选择保护银行,但是这样酒馆就很容易招窃,在这个博弈中,如果警察总是根据历史预测小偷将去哪偷窃,而小偷也会根据历史预测警察去偷巡逻,因此,这个博弈也是混沌的。

现在的问题是,当我们遇到类似酒吧博弈这种困境的时候该如何解决呢?
在酒吧博弈中,每个人都无法根据历史预测未来,而且每个人做出的决定都会直接影响预测的结果,因此,在这种博弈中,我们最好的选择策略就是根据概率论随机的做出选择。

比如在酒吧博弈中,我们应该随机去酒吧,并且保证概率基本控制在60%,在警察与小偷博弈中,警察应该随机选择守卫的地点,并且去银行的概率应该为2/3,去酒馆为1/3,小偷同样随机选择,但他去银行的概率为1/3,去酒馆的概率为2/3。

从酒吧博弈中我想到了我们玩的“石头-剪刀-布”游戏,这个游戏也是一种典型的酒吧博弈,游戏中我们最容易犯的错误就是自己的出拳按照一定的规律,并且不幸的事,这种规律还被对方所掌握。

事实上,我们只要随机的出拳,至少可以确保自己处去不败的地位,如果能掌握对方的规律,那当然赢得概率更大一点。

所以,有时不要故作聪明,妄想从历史规律中推测未来,如果发现自己面临的是酒吧博弈,“瞎猜”未必不是一种最好的选择。

Ø 枪战博弈:如何选择进攻目标
同样先介绍案例:在美国的一个小镇上,有三个枪手因为之间的仇恨决定生死决斗,三个枪手对于彼此间的实力都了如指掌:甲枪法精准,十发八中;乙枪法不错,十分六中;丙枪法最差,十发四中,那么,如果三个人同时开枪,谁活下来的机会大一些?
首先,我们需要确定的是三个人的进攻方向选择,对于乙来说,甲的威胁明显比丙要大得多,而且如果将甲打死后,再下一轮的决斗中,自己将占有优势;对于甲来说,同样乙的威胁比丙大,而且他知道乙一定后首先进攻他的,所以他必须要先解决乙;对于丙来说,进攻谁自己下一轮都会处于劣势,但显然下一轮面对乙要比面对甲要好,因此他也会向甲开枪。

这样,一轮枪战后,甲存活的概率为24%,乙为20%,而丙呢,竟然是100%。

概率是我们自己算出来的,奇怪的是,几乎所有的博弈论书上都是说甲存活的概率最低,难道是我算错了?
如果三个人不是同时开枪呢?比如甲先开枪,他仍然会进攻乙,同样,乙先开枪,他也会选择进攻甲,这两种情况下,丙都是最安全的,而且他还有可能获得下一轮的优先权。

但是,如果丙先开枪呢,他该如何选择?当然,他可以选择进攻甲,这样自己在下一轮取胜的机会更大,但事实上,丙最好的策略是谁都不打,从而不改变这场博弈的均衡,坐享渔翁之利。

从枪战博弈中我们可以发现,在多方博弈中进攻方向的选择其实是与各方的实力相关的。

即使我们实力处于劣势的话,擅于运用枪战博弈,往往能提升自己获胜的概率。

但如果自己不小心是甲呢,呵呵,虽然本来是件好事,但枪战博弈还是告诉我们,在这种多方博弈中,最强者未必是最有优势的,我们需要做的是擅于伪装自己,明明是只乌龟,却背了一个蜗牛的壳,这才是真正的高手。

Ø 猎鹿博弈:团结就是力量
假设某个部落有两个出色的猎人,某一天他们狩猎的时候,看到一头梅花鹿。

只要他们能够齐心协力,梅花鹿就会成为他们的盘中餐。

不过只要其中有任何一人放弃围捕,梅花鹿就会逃跑掉。

“福兮祸之所依;祸兮福之所伏。

”有时运气太好并不一定有好的结果。

正当两个猎人严阵以待,围捕梅花鹿的时候,在两个路口都跑过一群兔子,如果猎人去抓兔子,会抓住4只兔子。

从维持生存的角度来看,4只兔子可以供一个人吃4天,1只梅花鹿如果被抓住将被两个猎人平分,可供每人吃10天。

在这个博弈中,可以得到该博弈有两个纳什均衡点,那就是:要么分别打兔子,每人吃饱4天;要么合作,每人吃饱10天。

两个纳什均衡,就是两个可能的结局。

两种结局到底哪一个最终发生,这无法用纳什均衡本身来确定。

按照经济学的说法,合作猎鹿的纳什均衡,分头抓打兔子的纳什均衡,具有帕累托优势。

经济学中,如果想再改善任何人都必须损害别的人了,这时候就说一个经济已经实现了帕累托效率。

相反,如果还可以在不损害别人的情况下改善任何人,就认为经济资源尚未充分利用,即任何重新改变资源配置的方式,都不可能使一部分人在没有其他人受损的情况下受益。

这一资源配置的状态,被称为“帕累托最优”状态。

这个也挺有意思的,大家如果有兴趣的话可以看一下曼昆的《经济学原理》,里面介绍的比较详细。

我们不妨做这样一种假设,A猎人与B猎人合作猎鹿之后的分配不是两人平分成果,而是A猎人仅分到了够吃2天的梅花鹿肉,B猎人却分到了够吃18天的梅花鹿肉。

在这种情况下,整体效率虽然提高,但却不是帕累托改善,因为整体的改善反而伤害到猎人A的利益。

所以这时,猎鹿对于A来说就是严格劣策略了。

当然,纳什均衡也就剩了一个了。

猎鹿博弈与囚徒困境不一样的是,在个体追求利益最大化时团体也能达到利益最大化,这个好像在《美丽心灵》中有提过,纳什在酒吧中看见一个美女,受到启发,提出博弈中应该考虑团体利益,然后就把亚当.斯密的理论推翻了,不知道是真的假的。

还有一个比较有意思的是,猎鹿博弈的理论源泉来自于卢梭的《论人类不平等的起源与基础》,在远古时候,人类没有什么对未来的预见,所以当他们在共同猎鹿的过程中,如果有兔子在某个人面前走过,他们会不犹豫的选择捕捉兔子,就这样人类社会的种种矛盾就产生了。

猎鹿博弈很好的解释了现实生活中合作共赢的局面,对于现代社会的我们,必须站在更高的角度制定策略,眼前利益虽然很重要,但更需要考虑长远利益。

Ø 智猪博弈:多劳未必多得
世上有没有免费的午餐呢?智猪博弈告诉你,这个,还真有。

假设笼子里面有两只猪,一只大,一只小。

笼子很长,一头有一个踏板,另一头是饲料的出口和食槽。

每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。

如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。

踩一下踏板,将有相当于10个单位的猪食流进食槽,但是踩完踏板之后跑到食槽所需要付出的“劳动”,要消耗相当于2个单位的猪食;如果两只猪同时踩踏板,再一起跑到食槽吃,大猪吃到7个单位,小猪吃到3个单位,减去劳动耗费各自2个单位,大猪净得益5个单位,小猪净得益1个单位;如果大猪踩踏板,小猪等着先吃,大猪再赶过去吃,大猪吃到6个单位,去掉踩踏板的
劳动耗费2个单位净得4个单位,小猪也吃到4个单位;如果小猪踩踏板,大猪等着先吃,大猪吃到9个单位,小猪吃到1个单位,再减去踩踏板的劳动耗费,小猪是净亏损1个单位;如果大家都等待,结果是谁都吃不到。

听起来有点复杂,其实只要列一个表就很清楚了,如果想真正了解智猪博弈,再看两遍哦。

可以得出结论,唯一解是大猪踩踏板,小猪等待。

因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。

对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。

反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。

怎么样,世上确实有“免费的午餐”吧,而且这种情况在日常生活中比比皆是,比如两户人家需要修一条路,一户条件很好,另一户没有能力修,那最终的结果肯定是富裕的那户人修路,贫穷的那户人坐享其成。

从智猪博弈中,我不禁想到微软的市场策略,对于新技术都是从模仿跟随,再到创新超越。

在新领域中微软一开始扮演的就是小猪的角色,这种跟随能确保自己处于风险最低的形式,也可以说最大限度的处于不败的地步。

比如有一场赌局,每个人都有1000块筹码,赌到最后谁筹码最多就获胜,假设最后一局之前甲已经领先了,这时乙只有获胜才有可能超过甲,那对于甲来说,最佳策略就是跟随乙,乙如何决定甲都照跟,哪怕乙做出的决策很荒唐,这样他最后一局就能不败,最终就能赢得比赛。

从更高的角度来说,就是当你在对局中处于不利的地位,冒更大的风险去做决定更有利;而在对局中处于有利的地位,采取保守策略跟随对付就比较有利。

当然,我们也不能一直扮小猪空手套白狼,我们必须正确的意识到自己是否是小猪,如果确实是小猪,没有必要打肿脸充胖子,而是善于让大猪明白,自己除了不作为没有其它选择了,然后在跟随中不断发展自己;如果自己是大猪的话,更要清楚的分析自己的付出会不会有让小猪威胁到自己的地步,如果自己能得到远多于小猪利益的话,就必须担负起做大猪的义务。

Ø 蜈蚣博弈:倒过来想问题
假设A、B轮流进行策略选择,可供选择的策略有“合作”与“不合作”两种,规则是:A、B两次决策为一组,第一轮若A决策结束,A、B都得n,若B结束,则A得n-1而B得n+2;下一轮A、B都从n+1开始。

假设一共博弈100次。

说的更明确点就是A、B分别做决策,而且合作次数越多,双方获得的利益越大。

蜈蚣博弈其实反映的是一种“倒推法”这种思考问题的方法。

从倒数第二轮来看,B显然选择“不合作”能获得更多的利益,而A知道B会不合作,所以他也选择“不合作”,这样一直往前推,最终的结果就是双方根本就一次也不合作。

这样说有点枯燥,我们可以用蜈蚣博弈来分析恋爱过程。

假设小丽与小东谈恋爱,这个博弈中他们都有两个选择,一是继续,另一个是分手。

他们的博弈展开式如下:事实上,每一轮的决定后,两个人的总效益都是在不断增加的,所以对团体来说,最好的结果就是一直选择继续到最后。

而按照蜈蚣博弈的理论,用倒推的方法来分析,小东在最后一轮肯定会选择分手,因为选择恋爱对自己没有更多好处,小丽在倒数第二轮会考虑,既然小东最后会选择分手,那自己选分手可以得到更多利益,这样一直往前推,最终的结果就是小丽从一开始就选择分手,两者所得各为1。

从逻辑推理来看,倒推法是严密的,但结论却违反直觉。

这就是蜈蚣博弈的悖论,通过实验可以发现,双方在一开始不会选择分手,但随着博弈的进行,理性的人出于自身利益的考虑,肯定会在某一步选择分手,倒推法肯定会在某一步起作用,只要倒推法起作用,合作则无法继续。

相关文档
最新文档