第十三章博弈论和竞争策略
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
赌胜博弈——猜硬币博弈
盖 正面 硬 币 反面 方
猜硬币方
正面
反面
-1, 1
1, -1
1, -1
-1, 1
赌胜博弈——石头、剪子、布
博弈方2
石头
博
石头1
布
-1, 1 1, -1
剪子
1, -1 0, 0 -1, 1
布
-1, 1 1, -1 0, 0
石头剪子布的策略探讨
❖ 从数学上来讲,最优玩法(根据博弈论)其实就是一种随机的选择,因此,当排 除心理因素后,这是一个简单并且直观的游戏,就如同和计算机玩一样。但是, 这里所说的“最优”是指不存在有比期望的随机概率更好的玩法。然而,对手如 果不是采用“最优”策略,而是采用某种“次优”策略的话,采用随机玩法并不 一定是最好的玩法。事实上,如果对手是人或者非随机程序的话,那么几乎可以 肯定他采用的是某种“次优”策略,这种情况下,针对对手的弱点可以设计出一 个更好的策略。基于这种思路而设计的Roshambot计算机程序,轻松击败了人 类玩家(甚至包括它的开发者Perry Friedman,他曾经在2001年8月击败7名对 手,包括前世界扑克大赛冠军Phil Hellmuth,并赢得800美元的奖金) 。
❖ 在这个例子中混合策略所得到的结果是随机的,双方的期望得益 都是2/3。
男 歌剧
足球
歌剧
2,1
女
足球
0,0
0,0 1,2
极大化极小策略
❖ 纳什均衡及其依赖于个人理性。各博弈方的策略选择不仅取决于自己的 理性,也取决于对手的理性。如下图所示,如果博弈方2碰巧错误的选 择了“左”,那对博弈方1来说损失就相当大了。所以如果博弈方1是一 个谨慎的人,且考虑到博弈方2不一定清楚博弈或不一定理性,博弈方1 可能选择“上”,这将保证赚到1元,并不会损失1000元。这种策略就 是极大化极小策略。
❖ 所谓混合策略是指参与者采取的不是惟一的策 略,而是其策略空间上的概率分布。
赌胜博弈——田忌赛马
上中下
齐 上下中 威 中上下 王 中下上
下上中
下中上
上 中 下
3,-3 1,-1 1,-1 -1,1 1,-1 1,-1
上 下 中
1,-1 3,-3 -1,1 1,-1, 1,-1 1,-1
田忌
中
中
上
❖ 下图是一个囚徒的困境,假设这个博弈一次次的重复进行, 例如,你和你的竞争者每个月的头一天同时宣布你们的价格, 此时应该如何选择策略?
厂商A
低价 高价
低价 10,10
厂商B
高价 100,-50
-50,100
50,50
重复博弈中的策略选择
❖ 罗伯特·阿克赛罗的研究表明,在重复博弈中“针锋 相对”(以牙还牙)的策略是最有策略。即,我从 一个高价开始,只要你继续合作,也定高价,我就 会一直保持下去,一旦你降低你的价格,我马上也 会降低我的价格,如果你以后决定合作并在提高价 格,我马上也会提高我的价格。
❖ 极大化极小策略是最大化可能得到的最小得益。
下图博弈中,博弈方1和博弈方2如果都采取极大化极小策略,极大化极 小均衡解就是(1,1)。而(2,1)是这个博弈中的唯一的纳什均衡。
博弈方2
左
右
博弈方1
上
1,0
1,1
下 -1000,0
2,1
生活中的博弈——爱情故事
❖ 《麦吉的礼物》描述的这样一个爱情故事。新婚不久的MM和GG,很是 穷困潦倒。除了MM那一头美丽的金色长发,GG那一只祖传的金怀表, 便再也没有什么东西可以让他们引以为傲了。虽然生活很累很苦,他们 却彼此相爱至深。每个人关心对方都胜过关心自己。为了促进对方的利 益,他们愿意奉献和牺牲自己的一切。 话说明天就是圣诞节了,小两口都是身无余钱。为了让爱人过得好 一点,每个人还是想悄悄儿准备一份礼物给对方。GG卖掉了心爱的怀表, 买了一套漂亮发卡,去配MM那一头金色长发。MM剪掉心爱的长发,拿 去卖钱,为GG的怀表买了表链和表袋。 最后,到了交换礼物的时刻,他们无可奈何地发现,自己如此珍视 的东西,对方已作为礼物的代价而出卖了。花了惨痛代价换回的东西, 竟成了无用之物。出于无私爱心的利他主义行为,结果却使得双方的利 益同时受损。
几个经典的博弈
1. 囚徒的困境 2. 赌胜博弈 3. 性别之战
囚徒的困境与破解
❖ 囚徒的困境是图克(Tucker)1950年提出的 ❖ 该博弈是博弈论最经典、著名的博弈 ❖ 该博弈本身讲的是一个法律刑侦或犯罪学方面
的问题,但可以扩展到许多经济问题,以及各 种社会问题,可以揭示市场经济的根本缺陷。 ❖ 上一章我们发现寡头市场存在囚徒困境。囚徒 困境还在我们生活中的很多地方存在,例如军 备竞赛等等。
❖ 这个时候国家出台法令对于烟草行业来说反而是个好事,烟 草公司靠自己做不到的事情,政府做到了。因为国家法律具 有强制性的作用,相当于是烟草集团之间签订了极具约束力 的协议,同时政府承担了监督烟草公司是否违反协议的成本。
囚徒困境的破解——重复博弈
❖ 囚徒的困境是静态的,因而是有限的博弈,双方实际上只进 行一次博弈,而在现实生活中,博弈往往是重复的。在经济 中面临囚徒困境的双方,在每次的博弈中,各厂商都会造成 关于他们的行为的名声,并且研究他们的竞争者的行为。
性别之战
❖ 小两口偏好不同,男的喜欢足球,女的喜欢歌剧,但是他们更喜 欢在一起进行活动。得益矩阵如下所示。
❖ 在这个博弈中有两个纳什均衡。只要有事先的沟通,两个纳什均 衡都有可能实现。
❖ 这个博弈还有一个混合策略均衡:男以2/3的概率选择摔跤,1/3 的概率选择看歌剧;女的以1/3的概率选择摔跤,以2/3的概率选 择看歌剧。你可以验证如果男的选择了混合策略,女的也只有选 择混合策略,而没有其他更好的策略。
❖ 由此可见:纯策略是参与者一次性选取的,并且坚持他选取 的策略;而混合策略是参与者在各种备选策略中采取随机方 式选取的。在博弈中,参与者可以改变他的策略,而使得他 的策略选取满足一定的概率。当博弈是零和博弈时,即一方 所得是另外一方的所失时,此时只有混合策略均衡。对于任 何一方来说,此时不可能有纯策略的占优策略。
❖ 恋人们在恋爱中的海誓山盟,最终还是分手;企业之间相互 沟通信誓旦旦,价格战仍然会爆发;美苏两国经常会晤,甚 至签订核不扩散条约,但军费一年高过一年。这些现象都反 映了上面所说明的问题。
囚徒困境的破解——合作
❖ 以协议形式的合作,具有约束力,实际上是改变了 得益矩阵。
❖ 例如,存在一个黑帮老大,他告诉两个囚徒,如果 因为坦白而让自己的兄弟坐牢,坦白的人将被做掉, 那么囚徒的困境也就破解了。因为此时的得益矩阵 已经改变。
赌胜博弈与混合策略
❖ 赌博、竞技等构成的博弈问题,在经济中也有 许多应用,赌胜博弈也是一类重要的博弈问题, 对经济竞争和合作也有很大启示。
❖ 赌胜博弈的特点是一方得等于另一方失,不可 能双赢,属于“零和博弈”。
❖ 所谓纯策略是指参与者在他的策略空间中选取 惟一确定的策略。有时,纯策略并不是博弈中 的最佳策略。
❖ 且让我们暂时抛开爱情的温馨,单从利益的角度来解读。我们假定,他 们每个人,有一个“毫不利己专门利人”的偏好系统,毫不考虑自身利 益,专门谋求别人的幸福。这样,个人选择付出还是不付出,只看对方 能不能得益,与自己是否受损无关。以这样的偏好来衡量,最好的结果 自然是自己付出而对方不付出,对方收益增大;次好的结果是大家都不 付出,对方不得益也不牺牲;再次的结果是大家都付出;最坏的结果是 别人付出而自己不付出,靠牺牲别人来使自己得益。我们不妨可用数字 来代表个人对这四种结果的评价:第一种结果给3分,第二种结果给1分, 第三种结果给1分,最后那种给0分。
❖ 选手之间的策略可包括应用心理学去预测,或者干扰对手的行为。使用迷惑性的 语言(例如:“敦厚老实的石头哟,可是战无不胜的啊!”)去干扰对手的作法 是允许的。真正的石头、剪子、布的比赛是一个有趣的心理学较量。石头、剪子、 布的策略是随机地选一个,但是人类不能达到真正随机,所以比赛的技术在于利 用对手的非随机性。某些有经验的选手能连续达到比赛决赛就能证明技术能影响 比赛结果
混合博弈——警察与小偷
❖ 某个村庄上只有一名警察,他要负责整个村的治安。小村的两头住着两个全村最 富有的村民A和B,A、B分别需要保护的财产为2万元、1万元。整个小村某一天 来了个小偷,要在村中偷盗A和B的财产,这个消息被警察得知。因为分身乏术, 警察一次只能在一个地方巡逻;而小偷也只能偷盗其中一家。若警察在某家看守 财产,而小偷也选择了去该富户家,就会被警察抓住;若警察没有看守财产的富 户家而小偷去了,则小偷偷盗成功。 一般人会凭着感觉认为,警察当然应该看守富户A家财产,因为A2万元的财 产而B只有1万元的财产。实际上,对于警察的一个最好的做法是,警察抽签决 定去A还是B家。因为A家的财产是B家的2倍,所以用两个签代表A家,比如如果 抽到1、2号签去A家,抽到3号签去B家。这样警察有2/3的机会去A家进行做看 守,1/3的机会去B家做看守。而小偷的最优选择是:以同样抽签的办法决定去 A家还是去B家实施偷盗,只是抽到1、2号签去A家,抽到3号签去B家,那么, 小偷有l/3的机会去A家,2/3的机会去B家。这些数值是可以通过联立方程准 确计算出的。
囚徒困境的破解——合作
❖ 在这里我们不妨将条件放宽,允许囚犯A和B在审讯室李一 起单独呆上10分钟,然后再决定是否坦白。很明显,双方交 流的主旨就是建立攻守同盟,克服自利心理,甚至可能订立 一个口头协议,要求双方都不去坦白。然后,双方再单独被 提审。我们不妨设想,囚犯A的心理,他一定会认为,如果 囚犯B遵守约定的话,则自己坦白就可获得自由;如果囚犯 B告密的话,若不坦白就会被终生囚禁。事实上,囚犯A的 策略并没有因为简单的沟通或协议而摆脱两难境地。
❖ 在实际中,虽然博弈是有限次的,但是由于厂商们不知道博弈会进行多久,最后 一个月降价的基础就不存在了,这时候厂商们就会像在无限博弈中一样采用针锋 相对的策略。
❖ 佛家讲因果律,儒家讲究“财自道生,利缘义取”。从囚徒困境看来,如果一味 地想算计别人,算来算去,最后算计到自己头上来了。如果我们将囚徒困境中的 有期徒刑改为死刑,那么“机关算尽太聪明,反误了卿卿性命”用在这里是再恰 当不过的了。
不坦白 囚徒A 坦白
囚徒B 不坦白
坦白
-3,-3
-10,-100
-100,-10
-5,-5
囚徒困境的破解——实例
❖ 1971年,美国国会通过了禁止在电视上做烟草广告的法律。 令许多人奇怪的是,财大气粗的各大烟草公司反应相当平静, 并没有动用其庞大的社会资源和影响力阻止这个法律的通过。 政府管制最终的结果是,尽管烟草广告因受到限制而减少, 可是烟草公司的利润却提高了。实际上,政府禁令不仅没有 打击烟草公司,反而是把陷入白热化广告战的各大烟草集团 从“囚徒困境”中解放了出来。
❖ 最常见混和策略就是猜硬币游戏。比如在足球比较开场,裁 判将手中的硬币抛掷到空中,让双方队长猜硬币落下的正反 面。由于硬币落下是正是反是随机的,概率应该都是1/2。 那么,猜硬币游戏的参与者都是1/2的概率选择正与反,这 时博弈达到混和策略纳什均衡。再比如我们儿时玩的“剪、 布、锤”就不存在纯策略均衡,对每个小孩来说,自己采取 出“剪”、“布”还是“锤”的策略应当是随机的。一旦一 方知道另一方出其中某个策略的可能性增大,那么这个对弈 者在游戏中输的可能性就增大。因此,每个小孩的最优混合 策略是采取每个策略的可能性是l/3。在这样的博弈中,每 个小孩各取三个策略的1/3是纳什均衡。
下
下
上
1,-1 1,-1 3,-3 1,-1 1,-1 -1,1
1,-1 1,-1 1,-1 3,-3 -1,1 1,-1
下 上 中
-1,1 1,-1 1,-1 1,-1 3,-3 1,-1
下 中 上
1,-1 -1,1 1,-1 1,-1 1,-1 3,-3
得益矩阵
取胜关键:不让对方猜到自己策略,尽可能猜出对方策略
❖ 对于无限重复的博弈,针锋相对是可行的,而且往 往会破解囚徒的困境,即双方都定高价,或者说两 个囚徒都不坦白。
❖ 考虑一下,在有限次博弈中,又会如何?
重复有限次博弈的策略选择
❖ 假设博弈只进行有限次数N个月。如果我们的竞争者是理性的,并且相信我也是 理性的,它就可以这样推理:“因为对手采取以牙还牙的策略,我在最后一个月 之前不能削价竞争,我应该在最后一个月削价,这样我在最后一个月就能赚到较 大的利润,接着博弈就结束了,竞争者也没办法报复”。可是我们也会这样想, 即在最后一个月定低价。由于我们和竞争者都是理性的,他也会预料到我在最后 一个月会定低价,从而他会在倒数第二月就定低价,同样的道理我也会在倒数第 二月定低价………最后,我们又落入了囚徒的困境。