博弈游戏——来自SeviaTangBD的推荐读者心得分享

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

博弈游戏——来自Sevia Tang(BD)的推荐读者心得分享
————————————————————————————————作者：————————————————————————————————日期：
博弈游戏
今天我来与大家分享一下这本《博弈游戏》。

分以下四个部分：博弈论、博弈策略、策略困境、走出困境。

1944年冯．诺依曼和奥地利经济学家奥．摩根斯坦合作《博弈论与经济行为》（Theory of games and economic behavior）该书的出版，标志着博弈论的创立。

“博弈”这个词听起来高深莫测，其实，博-赌博，弈-下棋，都是一种可以分出胜负的游戏。

在游戏中，我们要不断的决定下一步该怎么走。

博弈论（Game Theory,又称对策论）研究决策主体的行为在发生直接的相互作用时，人们如何进行决策以及这种决策如何达到均衡的问题。

S3 我们每天的生活和工作，都可以看作是永不停息的博弈决策过程。

小到比如说今天中午吃什么，大到签合同、工作、结婚、要不要孩子……在这些决策过程中，你我的身边充斥着和我们一样的决策者，他们的选择与我们的选择相互作用，而且直接影响着我们的决策结果。

在人与人的博弈中，必须认识到无论是商业对手还是伴侣、孩子，他们都是聪明而有主见的人，是关心自己利益的活生生的人。

一方面，他们的目标常常与我们的发生冲突，另一方面，他们与我们有潜在的合作因素。

决策形成的五个步骤是：
1.列出所有可以采取的行动；
2.尽可能列出每个行动的可见后果；
3.尽量评估每种结果可能发生的机会；
4.试着表达你对每种结果的渴望或恐惧程度；
5.把列出来的所有因素全部放在一起考量，做出合理的决策。

当我们面临一场博弈时，有一些简单的策略可以作为我们行动的指导。

博弈大致分为出招有先后的相继博弈和同时行动的博弈。

相继博弈就类似于我们下棋，我们可以根据对方上一步走的棋子去猜测对方的意图。

这时我们的策略就要向前展望对方这一步对他的最终目的起到何种作用，然后倒后推理我方这一步该怎么走。

这种博弈的特点是线性推理，如果对方这么做我该怎么做。

关键在于看穿对方的目的，比如说下棋是要将君或自保。

因此难点在于如何收集信息，理解信息。

相继博弈的策略是向前展望，倒后推理。

与相继博弈不同，同时博弈的双方无法事先知道对方如何出招，双方只能根据往常的经验来猜测对方的行动。

而且需要猜测对方对自己的看法。

这种博弈的特点是推理最终会陷入一个循环。

这个循环是怎样的呢？每个星期，《时代》和《新闻周刊》都会暗自较劲，要做出最引人注目的封面故事。

一个精彩的杂志封面可以吸引站在报摊前的潜在主顾的目光。

因此，每个星期《时代》的编辑们一定会举行闭门会议，选择下一个封面故事。

他们这么做的时候，很清楚在此时《新闻周刊》的编辑们也在关起门来开会，选择下一个封面故事。

这时仅仅猜测《新闻周刊》会选哪一个新闻是猜不出来的，因为《时代》知道《新》的策略也会以他们的《时代》为前提。

因此就陷入了假如我们认为他们认为我们会……关键在于能否解开这个循环。

一些情况下是可以的，另一些情况下就未必。

以下有两个简单的策略，优势策略、劣
势策略。

假定本周有两个大新闻：一是发布了一种据说对艾滋病有特效的新药；二是国会就预算问题吵得不可开交。

在报摊前的买主当中，假设30%的人对预算问题感兴趣，70%的人对艾滋病新药感兴趣。

如果两本杂志采用同一条新闻做封面，那么各得50%的顾客。

《新闻周刊》将做如下推理：当《时代》采用艾滋新药时，我采用预算问题可得30%的顾客，而艾滋新药可得35%，这时艾滋病新药的策略优于预算问题；当《时代》采用预算问题时，艾滋病新药仍然优于预算问题。

像艾滋病新药这样的策略就是《新闻周刊》的优势策略。

优势策略是指对自己的其他策略占有优势的策略，与对手的选择无关。

无论《时代》选择哪一个新闻，《新》都应当采用艾滋病新药作为下一期杂志的封面。

因为是对称的，《时代》也有一个优势策略，也是艾滋新药。

像这样各方都有优势策略的博弈是最简单的。

有时候，某一参与者有优势，而其他参与者没有，那么没有优势策略的参与者又应当如何决策呢？假设全体读者略偏向于选择《时代》。

如果两个杂志选择同样的新闻做封面，喜欢这个新闻的潜在买主当中有60%的人选择《时代》，只有40%的人选择《新闻周刊》。

我们可以算出《新闻周刊》可能得到的读者数量。

没有一个策略相对于另一个占优，必须取决于《时代》的选择。

虽然《新》不知道《时代》的选择，但他们不必陷入推理循环。

因为《新》可以分析出艾滋病新药是《时代》的优势策略。

因此，《新闻周刊》可以很有把握地假定《时代》已选择了艾滋病新药，根据这个前提来做出判断他们应该用预算问题作为封面就可以了。

所以，没有优势的一方只要则针对对方的优势策略采用自己的最佳策略即可。

优势策略可以大大简化决策的难度，但不是所有博弈都有优势策略，实际上，在现实生活中有优势策略的情况是极少的。

这时我们需要用到其他策略。

劣势策略，具体说是规避劣势的策略，劣势策略是建立在至少一方拥有三个以上策略(两个策略，有劣势就有优势)的博弈基础上的。

假如你有一个劣势策略，你应该避免使用，同时应知道如果你的对手有一个劣势策略他也会规避。

通常决策之所以困难是因为我们有太多选择。

采用劣势策略可以缩小整个博弈的规模，降低博弈的复杂程度。

当整个博弈的复杂度降到最低限度后，我们还不得不面对循环推理的问题。

此时的最佳策略一定要以对方的最佳策略为基础。

我们都玩过的猜拳，就是这样的情况，当对方出石头的时候我的最佳策略是布。

我的三个策略当中没有优劣之分，完全取决于对方的策略。

如果是单次博弈，我只能靠运气成功，但如果是多次博弈，三局两胜或是五局三胜，我应该如何做呢？我要判断对方的倾向，他喜欢出剪刀，我就多出锤子。

对方也是这样想的，所以我在出拳的时候就不能带有倾向性，让对方有机可乘。

因此我的最佳策略是随机出拳，各用1/3。

请大家注意，策略用到这一步，输赢不是最终的目的了，用什么方法走出推理循环才是目的，因为所有的决策都有时效性，我们不能让自己陷在循环当中。

随机出拳并不能保证我赢得最终的胜利，但在出拳之前我的决策是绝不能让对方看出我要出什么。

当然为了不同的目的，采用各种备选策略的概率也不同。

举一个不太恰当的例子，某小镇上只有一个警察，他要负责整个镇的治安。

假如，小镇
的一头有一家酒馆，另一头有一家银行。

银行需要保护的财产价格为2万元，酒馆的1万元。

若警察在某地巡逻，而小偷也选择了去该地，就会被警察抓住；若警察没有巡逻的地方小偷去了，则小偷偷盗成功。

警察怎么巡逻才能使效果最好？可以肯定的是，警察如果一直呆在某一地，则小偷在另一地很容易成功。

因此警察最好不被小偷看穿，他应当有时去银行，有时去酒馆，让小偷不敢在某一地为所欲为。

警察可以抽签决定今天去哪里，这样随机性最强。

要考虑的是应该使得他去两地的频率满足什么样的概率才能尽可能的多保护财产？当我们做策略组合时，我们要尽量评估每种结果可能发生的机会并试着表达对每种结果的渴望或恐惧程度从而决定我们每策略采用的概率。

像警察，银行的财产是酒馆的两倍，为了多保护财产，可以用两个签代表银行，比如如果抽到1、2号签去银行，抽到3号签去酒馆。

这样警察有2/3的机会去银行巡逻，1/3的机会去酒馆。

大家也可以从小偷的角度想一想小偷的最佳策略组合是什么。

因为环境是变化的，所以再好的策略也不能保证我们一定得到最佳的结果。

有时哪怕是运用优势策略也不一定能带来最好的结果。

让我们一起来看看策略困境。

最常见的策略困境是囚徒困境。

S4 1950年数学家塔克在斯坦福大学给一些心理学家作演讲时，用了两个囚犯的故事形象化的解释了当时专家们正在研究的某一类博弈问题。

后来，类似的博弈问题便被称为“囚徒困境”。

所谓的囚徒困境，大意是这个样子的：
甲乙两人一起携枪准备作案，被警察发现抓了起来。

警方怀疑，这两个人可能还犯有其他重罪，但没有证据。

于是分别进行审讯，为了分化瓦解双方，警方告诉他们，如果主动坦白，可以减轻处罚；顽抗到底，一旦同伙招供，你就要受到严惩。

当然，如果两人都坦白，那么所谓“主动交代”也就不那么值钱了，在这种情况下，两人还是要受到严惩，只不过比一人顽抗到底要轻一些。

在这种情形下，两个囚犯都可以作出自己的选择：或者供出他的同伙，或者保持沉默。

这样就会出现以下几种情况：
如果两人都不坦白，警察会以非法携带枪支罪而将二人各判1年；
如果其中一人招供而另一人不招，坦白者作为证人将不会被起诉，另一人将会被重判15年；
如果两人都招供，则两人都会因罪名各判10年。

这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果—只判刑1年。

但他们不得不仔细考虑对方可能采取什么选择。

问题就这样开始了，甲乙两人都十分精明，而且都只关心减少自己的刑期，并不在乎对方被判多少年。

S5 甲会这样推理：假如乙不招，我只要一招供，马上可以获得自由，而不招却要坐牢1年，显然招比不招好；假如乙招了，我若不招，则要坐牢15年，招了只坐10年，显然还是以招认为好。

无论乙招与不招，我的最佳选择都是招认。

还是招了吧。

自然，乙也同样精明，也会同样推理。

招认是两个囚徒的优势策略却并未给他俩带来好的结局。

无论对哪个人来说，两个人都不招供只判1年，要比两个人都招供好得多。

个体对优势策略的理性追求最终导致双方得到的比可能得到的要少，这就是“困境”。

(根本问题：个体对自身利益的追求会损害整体的利益。

)
前面我说了，博弈论是在游戏中学习决策的理论，下面就让我们在游戏中体会一下。

S6 假设在座每位都拥有一家企业，现在有一个产品市场前景看好，如果市场上没有假冒产品，每卖掉一个，可以赚$1.08。

这是这个游戏的条件，由于生产假冒产品的成本低于正品，当正品可以赚$1.08时，假冒品可以赚$1.58，比正品多$0.5。

现在请各位选择是生产1-高质量商品来帮助维持较高价格，还是2-生产假货来通过别人所失换取自己所得。

我们将根据选择1的人数将收入平均分配给大家。

(计算：例：共20人，10人选1,10人选2
每个选1的人得10*1.08/20 选2的人得：选1的人的收入+0.5)
给大家2分钟，不可以讨论，各位都是在市场上各为其主的企业。

不太理想？好，现在允许结盟，可以讨论，再选一次，给大家5分钟。

有多少收入超过$1.00？让我们看看损失了多少社会财富？
所以说：个体对自身利益的追求会损害整体的利益。

政治家也会面临同样的困境。

1984年，大多数人都很明白，美国联邦预算赤字实在太高了。

因为裁减政府开支在政治上并不可行，因此，大幅增税应该是不可避免的。

民主党和共和党都知道，联合起来共同倡议加税和削减开支，可以共同分享荣誉，分担遣责。

这么做显然会对整修国家更有利，即便对他们自己的政治生涯从长期而言也会有好处。

但由于双方都担心假如自己提出这样的政策，而对方坚守被动局面，并不附和，自己就会落得最糟糕的下场。

而这正是真实发生的情况：民主党总统政策转变制造声势，却被罗纳德.里根打得落花流水，因为里根许诺绝不加税。

里根当选后，加税的议题陷入了僵局，这就是为什么美国是世界上最富有的国家，却同时又是最大的债务一的原因。

我国目前的基础教育也是一个囚徒困境。

博弈的一方是学校，另一方是孩子和家长。

学校的策略是应试教育和素质教育，学生和家长的选择是会学费和不付。

虽然应试教育的弊端已为社会所公认，但家长和学生可以却无法对不好的教育说不，因为但尽管这种教育不好，家长还是会想：其他小孩采取的是这种教育，衡量标准也是依据这种教育，我的小孩如不这样做，在竞争方面就会吃亏。

也就是说，由于教育的目的是通过选拔，使得家长、孩子以及学校陷入了囚徒困境，大家都认为素质教育好，争相付高价，结果却导致变相“增负”。

因为时间是有限的。

那么这样的困境要如何打破呢？因为个体对根本利益的追求会破坏整体利益，因此我们要促进个体之间的合作。

让我们来看看促进合作有哪些方法。

–双方主动合作。

比如达成价格联盟获取高额利润。

–分解，增大未来的影响；如果未来对于现在是重要的，就没有人会轻易背叛。

比如说分期付款的定单可以让供应商积极地按期交货。

–(而对于两个囚犯，各位有没有什么好方法？)
•改变收益值-如果两囚犯同属一个黑帮，都知道背叛兄弟即使被放出来，下场可能会是家破人亡，谁也不敢背叛。

这样问题就解决了。

因为得到自由不再是优势了。

于是，黑帮这个组织的存在使得两人的合作成为可能。

从这个角度讲，管理的目的不是让每个人做到最好，而是避免内耗过多。

政府或其他制定公共游戏规则的组织应当通过规则引导人们的行为趋向社会福利的提高。

•
•就教育来说，唯一办法是改变教育的博弈结构，即改变博弈规则或游戏规则，
让“全面发展”的学生获得更多的机会。

可是要在实践中达到这个效果，却又困难重重，除了教育投入不足、师资水平不高等现实问题，最大的难度就是如何找到一个更科学、合理，同时又能保证公平的新的“游戏规则”。

因为游戏规则定得太死，游戏不好玩；
太松，游戏又玩不下去。

至少到现在，教育的游戏规则还是个没有答案的问题。

下面让我们看看一次计算机生态模拟竞赛对于促进合作的启示。

S7为了验证面对“囚徒困境”时人们可选择的策略以及这些策略的有效程度，美国的学者组织了一次以此为主题的计算机竞赛。

竞赛的游戏方法是：游戏双方都在不知对方将如何选择的情况下，选择合作或背叛。

双方合作，各得3分(各位可以把分数看作丰厚的奖金)；双方背叛，各得1分(对双方背叛的惩罚)，一方合作，一方背叛，背叛者得到5分的诱惑，合作者得到0分，这是“给笨蛋的报酬”。

S8参赛者提出了各种程序，大致可分为：善良的、邪恶的和随意的三种。

善良的-以合作为主，不首先背叛的规则。

甚至许多专家也没有意识到善良性对避免不必要的冲突的价值。

在第一轮竞赛中，由对策论专家送来的规则中几乎有一半是不善良的。

邪恶的-以占便宜为主的规则。

下面让我们考虑一个对局的情况。

S9 1) 对局一方采用总是背叛的策略，另一方采用一报还一报的策略，即第一步合作，然后就采用对方上一步的选择。

返回S8
竞赛结果：“以合作为主”的善良策略大获全胜。

而善良的规则中“一报还一报”取得了最终的且惊人的胜利!(P54)
S10“一报还一报”在整个生态模拟过程中一直保持领先，到了第1000代，它是最成功的规则，并且比其他任何规则增长得都快。

游戏举办方在第一轮竞赛后又进行了第二轮竞赛。

每一个第二轮竞赛的参赛者都知道一报还一报的胜利。

很多人针对一报还一报来设计他们的规则，但“一报还一报”又赢了第二轮竞赛。

“一报还一报”成功分析
着眼于未来-“一报还一报”赢得竞赛不是靠打击对方，而是靠从对方引出合作获胜的。

那么它是如何做到的呢？首先它是善良的，放弃了占他人便宜的可能性。

这样就不会与报复性强的规则纠缠不休。

那些报复性强的规则只要受到一次背叛就永不合作。

其次它是清晰的，易于理解的。

当一些有辨别能力的规则遇到一报还一报后，经过几轮的试探，就会明白一报还一报的规则。

而参赛规则中有些规则非常复杂，复杂到其他策略不能把它们与纯粹的随机选择区分开来。

由于对方感受不到与这些复杂规则合作的激励，对方认为不值得有任何反应，结果自然导致背叛。

因为一个不可预测的规则会被看作不可改造的。

因此，复杂到不可理解是非常危险的。

当然，在许多人类事务中，一个使用复杂规则的人可以向对方解释每一个选择的理由。

然而，问题来了，对方可能怀疑所提供的这些理由。

因此回报是很重要的，对合作和背叛都要给予回报。

对背叛的回报使得一报还一报是可激怒的，区分善良规则好坏的一个特征是，看它们如何迅速地和可靠地对来自对方的挑战做出反应。

而对合作的回报显示出了一报还一报的宽容性，有助于重新恢复合作。

让我们看两个例子。

有些规则只要在遇到报复时就撤回背叛…而有些规则被设计成伺机占便宜的…一报还一报通过它的回报成功地侵入小人的世界，引出对双方都有好处的行为。

从现实世界来说，回报不仅帮助了自己，而且间接地帮助了别人，采用回报策略的人可以惩罚那些试图占别人便宜的人，这将有助于整个社会。

这些人可以传授回报策略，这也可以减少他们将来必须对付的不合作的人的数目。

“一报还一报”由于与其他多种多样的策略相处得很好而赢得了竞赛。

平均来说，它比竞赛中的其他任何策略都做得更好。

但是“一报还一报”从来没有一次在游戏中比对方得更多的分!
所以说，你没有必要非得比对方做得更好。

在现实世界里，要求自己比对方做得好不是一个很好的标准，除非你的目的是消灭对方。

在大多数情况下，这个目的是不可能实现的。

我们要多着眼于未来，发掘合作的可能性。

未来影响现在
走出囚徒困境取决于双方的策略为发展合作留出多大的余地。

从消极层面看，我们互不侵犯，是为了避免没完没了、两败俱伤的循环报应。

•最后再让我们回顾一下决策形成的五个步骤：
1.列出所有可以采取的行动；包括不采用的行动也要列出来，而决策就是从各种可能的行动方案中选出一个或一个策略组合。

2.尽可能列出每个行动的可见后果；
3.尽量评估每种结果可能发生的机会，这一点常被忽略，因此应仔细加以讨论。

4.试着表达你对每种结果的渴望或恐惧程度，这样在选择策略组合时强以确定各个备选策略的权重。

5.把列出来的所有因素全部放在一起考量，做出合理的决策。

我今天所讲的仅仅为博弈游戏这本书开了个头，在书中举了大量有趣的例子，这里列出了一些。

语言挺幽默还充满玄机，引人思考。

可以参考学习运用博弈策略与概率。

这本书在最后强调，无论你想做什么，不管是赌博、运动、投资股市、择偶，甚或发动战争，之前你最好弄清楚自己在做什么。

不要把赢作为唯一目标，也不要总是追求最好结果。

你不可能永远控制局面，也不必永远控制局面。

在许多类似囚徒困境的博弈中，双方的关系并不是简单的“你赢我输”的对抗关系。

双方可以都做得很好，也可能都做得很糟。

制胜不是靠打击对方、压倒对方，而是靠引导对方合作。

有连续性、让合作方明白易懂的策略往往是最优的。

公开声明自己所持的态度，并在任何时间、任何利益诱惑下都始终如一地坚持下去，才会使自己立于不败之地。

大家有什么问题？
如果没有问题，我们再来玩一个游戏。

我这里有10元钱，现在拍卖。

每次最少加5角，喊价最高的和第二高的人要付你的出价，最高的人得到这10元钱。