囚徒困境的根源与启示

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
囚徒困境解说
• 如同博弈论的其他例证,囚徒困境假定每 个参与者(即“囚徒”)都是利己的,即 都寻求最大自身利益,而不关心另一参与 者的利益。参与者某一策略所得利益,如 果在任何情况下都比其他策略要低的话, 此策略称为“严格劣势”,理性的参与者 绝不会选择。另外,没有任何其他力量干 预个人决策,参与者可完全按照自己意愿 选择策略。
• 在囚徒困境中,参与者会受到背叛(坦 白)的短期诱惑,但是通过与对方建立 长期的合作的模式,可以获得更多的长 期的好处。 • 所以,要破解囚徒困境,就要跳出这个 模型本身,从更高的层面上给以制度性 的约束,或让大家都明白合作的好处。
囚徒困境的实际运用
举例来是说,我是供应商,你是大超市, 你可以选择拖欠货款,我也可以选择延迟发 货或较低的质量,套用上面的模型:
单次和多次重
• 单次发生的囚徒困境,和多次重复的囚徒 困境结果不会一样。 • 在重复的囚徒困境中,博弈被反复地 进行。因而每个参与者都有机会去“惩罚” 另一个参与者前一回合的不合作行为。这 时,合作可能会作为均衡的结果出现。欺 骗的动机这时可能被受到惩罚的威胁所克 服,从而可能导向一个较好的、合作的结 果。作为反复接近无限的数量,纳什均衡 趋向于帕累托最优。
如果一人坦白另一人不坦白,坦白的放出去,不坦白的 判15年;
如果都不坦白则各判1年。
这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?
经典案例——囚徒困境
甲 背叛 (0,15) (8,8)
合作
(1,1) 合作
(15,0)

背叛
囚徒困境解说
囚徒到底应该选择哪一项策略,才能将自己 个人的刑期缩至最短?两名囚徒由于隔绝监禁, 并不知道对方选择;而即使他们能交谈,还是 未必能够尽信对方不会反口。就个人的理性选 择而言,检举背叛对方所得刑期,总比保持沉 默(或抵赖)要来得低。试设想困境中两名理 性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选 择背叛。 若对方背叛指控我,我也要指控对方才能 得到较低的刑期,所以也是会选择背叛。
囚徒困境的内在根源
• 在个体之间存在行为和利益相互制约 的博弈结构中,以个体理性和个体选 择为基础的分散决策方式,无法有效 地协调各方面的利益,并实现整体、 个体利益共同的最优。简单地说, “囚徒的困境”问题都是个体理性和 集体理性的矛盾引起的。
囚徒困境的启示
“ 囚徒的两难选择”有着广泛而深刻的意 义。个人理性与集体理性的冲突,各人追 求利己行为而导致的最终结局是一个“纳 什均衡”,也是对所有人都不利的结局。 他们两人都是在坦白与抵赖策略上首先想 到自己,这样他们必然要服长的刑期。只 有当他们都首先替对方着想时,或者相互 合谋(串供)时,才可以得到最短时间的监 禁的结果。
囚徒困境的现实意义
简单的说,就是如果你认为以后大家
还要相处,那么最好选择合作;反之,如
果你认为以后不再会相遇或对你以后的利
益不太关心,那么就 选择背叛(把对方供 出来)。这样又回到问题的原点:如果未 来是重要的Biblioteka Baidu那么就要选择合作,而合作 的策略取决于对方的策略。于是结论是: 没有最优策略!
囚徒困境的现实意义
经典囚徒困境来由
• 1950年,由就职于兰德公司的梅里尔· 弗 勒德(Merrill Flood)和梅尔文· 德雷希尔 (Melvin Dresher)拟定出相关困境的理论, 后来由顾问艾伯特· 塔克(Albert Tucker) 以囚徒方式阐述,并命名为“囚徒困境”。
经典案例——囚徒困境
两个嫌疑犯(甲和乙)作案后被警察抓住,隔离审讯;警 方的政策是“坦白从宽,抗拒从严”: 如果两人都坦白则各判8年;
• 情况一:两家都丰收,供应量1500担,价格跌到40 元/担,销售收入都是30 000元,减去生产成本30 000元,净收入是0。 • 情况二:两家都歉收,供应量只有500担,价格升 至240元/担,每家销售收入都是60 000元,减去生 产成本30 000元,净收入是30 000元。 • 情况三:一家收获750担,一家收获250担。价格是 100元/担,收获750担的农户销售收入是75 000元, 减去生产成本30 000元,净收入是45 000元;收获 250担农户销售收入则为25 000,减去30 000元成本 后,净收入是负5 000元。稻谷的供应量之比是3: 1,净收入之比却是45 000:-5000,一正一负,远 远不止3:1
囚徒困境的实际运用
• 大家都合作 ,大家都赢利,长期利益; 一方不合作,一方盈利,短期利益; 都不合作全都陪钱,没有利益; 一般情况下,长期赢利都会比短期赢利 要高的多。
囚徒困境的解释力——农业增产不增收
假设在一给封闭的小地方,只有两家农户向 市场供应稻谷,而稻谷是当地居民的当家粮,是 家家户户的必需品,因为稻谷是这个小地方居民 的必需品,所有他们对于稻谷的需求相当稳定, 大致在1000担左右。如果稻谷的供给也在1000担 左右,那么稻谷的交易价格在每担100元/担。而 如果稻谷的供给比1000担多了几百担,那么因为 供大于求,稻谷的价格会从100元/担下滑到50元/ 担甚至40元/担;相反,如果稻谷的供给比居民的 需求少了几百担,造成供不应求,那么物以稀为 贵,稻谷的交易价格马上大幅度上升。
囚徒困境解说
二人面对的情况一样,所以二人的理性思考都 会得出相同的结论——选择背叛。背叛是两种策略 之中的支配性策略。因此,这场博弈中唯一可能达 到的纳什均衡,就是双方参与者都背叛对方,结果 二人同样服刑8年。 这场博弈的纳什均衡,显然不是顾及团体利益 的帕累托最优解决方案。以全体利益而言,如果两 个参与者都合作保持沉默(不坦白),两人都只会 被判刑1年,总体利益更高,结果也比两人背叛对 方、判刑8年的情况较佳。但根据以上假设,二人 均为理性的个人,且只追求自己个人利益。均衡状 况会是两个囚徒都选择背叛,结果二人判决均比合 作为高,总体利益较合作为低,这里存在着矛盾。
囚徒困境的现实意义
• 囚徒困境的现实意义就是个人理性导致集体非理 性。 在囚徒博弈的模型中,只存在一个纳什均 衡,即:在参与者理性的情况下,坦白为最优策 略。这同时导致了集体利益的最小化。 事实上,在囚徒困境中的最佳策略取决于对 方采用的策略,特别是取决于这个策略为双方 合作留出多大的余地。而这个原则的基础是:以 后对于现在的权重足够大,即:未来是重要的。
囚徒困境的实际运用
• 但是,这与我们的日常经验不符合。为什么现 实中的供应商与经销商都会选择合作呢? 原因在于: 1.不嫉妒,现实中的博弈大多是非零合的。大家赚 取自己应有的利润,没有理由去嫉妒对方的高额 利润,因为对方的成功是你成功的前提。 2.不首先背叛,对合作或背叛都要给于惩罚。在契 约社会,有法律、行规的制约,背叛是要付出巨 大的代价的。再回到囚徒困境中,则是黑社会团 伙对囚犯家属的行动。这会让囚徒在做决策时,偏 向于合作。当双方尝到合作的甜头,又知道背叛 的惩罚后,合作就会成为第一选择。 囚徒困境的解决方法应该在困境本身之外。
囚徒困境的解释力——农业增产不增收
• 所以,上述粮农困境实际上也是囚徒困 境,对于每个粮农来说,都是丰收比歉 收好,但是合在一起,两家农户都丰收, 不如两家农户都歉收。
上述粮农博弈没有体现参与人的策略
选择,丰收歉收是老天爷的安排。所以 对上述模型进行一定的改造:变成假设 两家农户都丰收,但是两家农户都很有 商业头脑,他们会盘算向市场供应多少 稻谷能够实现最大利益。
不合作 供应商 合作
超市 不合作 合作 -5 -5 2 -8
-8 2 1 1
囚徒困境的实际运用
1984年,美国联邦预算赤字实在太高了。裁减必要的巨 额开支在政治上并不可行,因此,大幅增税应该是不可避免 的。不过,谁愿意带头主张这么做呢? 民主党总统候选人沃尔特· 蒙代尔在竞选活动中提出增税 政策,却被罗纳德· 里根打得落花流水,因为里根许诺绝不加 税。 里根当选之后,这个议题陷入僵局,无论你怎么划分政 治派别,民主党对共和党,众议院对参议院,还是政府对国 会,各方都希望把提出加税的主动权推给对方。 双方都知道,联合起来共同倡议加税和削减开支,可以 共同分享荣誉,分担谴责。这么做与同时坚守被动,眼看巨 额赤字上升而无所作为相比,显然会对整个国家更有利,即 便对他们自己的政治生涯从长期而言也会有好处。 但是,假如自己提出这样的政策,而对方并不附和,则自己会落得糟糕的下场。显而易见,对 每一方而言,保持被动是一个优势策略。而这正是真实发生的情况:这一届国会根本没有作出任 何加税决定。这就是为什么美国是世界上最富有的国家,却同时又是最大的债务国的原因。
囚徒困境的解释力——农业增产不增收

丰收 丰收 甲 歉收
0
0 45 45
-5
30
歉收 -5
30 粮农的困境
如果把生产750担稻谷叫做 丰收,把生产250担叫做 歉收,而每家农户生产稻 谷的成本都是30 000元, 那么以千元为单位,两家 农户净收入情况表述为如 下博弈:
囚徒困境的解释力——农业增产不增收
囚徒困境的实际运用
在这个假设的模型里,超市会想:如果供应 商合作,我只要不合作,就可以得到2个单位的 利润,而合作却只有1个单位的利润,显然不合 作比合作好;如果供应商不合作,我若合作,则 要损失8个单位的利润,但不合作却只损失5个单 位的利润,显然还是不合作比较好。无论供应商 是否合作,超市的最佳策略都是不合作。 自然,供应商也会如此推理。按照博弈论的 观点,这是唯一的平衡点,在这一点上,任何一 方改变策略,都会得到更差的结果。
固定局数的囚徒困境
试想像囚徒困境的情况进行十次。 我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也 会指控对方。相反,如果第一次 别人保持沉默,建立了互信的关系,你也会保持沉默,达致帕累托最优。 当然,两个囚徒都会有相似的想法,在第一局保持沉默,以期望建立互 信关系,所以双方都会保持沉默。第二局时,双方亦应有相似的想法,继续 保持沉默,以期继续在互信的情况下进行第三局,以致余下的八局。 这种想法合理吗? 在第十局时,互信的关系明显是没有意义的,因为十局已经完结,囚徒没 有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背 叛对方的,理由和只有一局囚徒困境一样。 问题是,既然大家都知道在第十局,无论如何对方都会背叛自己的,你在 第九局保持沉默也是没有意思的,要知道,保持沉默(友好关系)的原因是为 了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。 下一个问题是,双方都有相同的想法,明知第九局对方会背叛自己,所以 第八局保持沉默也是没有意思的,第七局亦然,如此类推,纳什均衡是十局 都会互相背叛,建立互信关系是没有可能的。 只有在囚徒困境的局数大家都不肯定的情况下,上述的推论才不会发生, 才会出现互相保持沉默的现象
“ 纳什均衡”对亚当 · 斯密的“看不见的 手”的原理提出挑战。按照斯密的理论, 在市场经济中,每一个人都从利己的目 的出发,而最终全社会达到利他的效果。 《国富论》中有这样一句名言:“通过 追求 ( 个人的 ) 自身利益,他常常会比其 实际上想做的那样更有效地促进社会利 益”。从“纳什均衡”我们引出了“看 不见的手”的原理的一个悖论:从利己 目的出发,结果损人不利己,既不利己 也不利他。两个囚徒的命运就是如此。
囚徒困境的解释力——农业增产不增收

多卖 少卖 如果把博弈参与人所得的 单位由千元改为万元,并 且把相应的数字四舍五入, -0.5变成-1,4.5变成5。 对于每个粮农来说,不论 对方多卖还是少卖,自己 总是多卖比少卖好。结果, 两家都选择多卖策略,得 益都是0。
多卖

0
0 5 5
-1
3
从这个意义上说,“纳什均衡”提出的悖 论实际上动摇了西方经济学的基石。因此, 从“纳什均衡”中我们还可以悟出一条真 理:合作是有利的“利己策略”。但它必 须符合以下黄金定律:按照你愿意别人对 你的方式来对别人,但只有他们也按同样 方式行事才行。也就是中国人说的“己所 不欲勿施于人”。但前提是人所不欲勿施 于我。
相关文档
最新文档