浅析囚徒困境与纳什均衡之欧阳家百创编

合集下载

囚徒困境的均衡辨析

囚徒困境的均衡辨析郭洪伟【摘要】传统的《博弈论》分析最终结果是两个囚徒均会坦白,但这并不是两个囚徒的最好结局,如何才能达到最好结局？本文从《博弈论》动中“理性人”的假设出发,对传统的(坦白,坦白)均衡提出质疑.本文指出理性人不会满足于传统的均衡,理性人会积极寻找双方利益最大化的均衡,并达到此均衡.本文给出了新的均衡:广义均衡,并给出广义均衡的求解过程.通过对引入公共支付函数的概念,公共支付函数表达了两个人的共同利益.通过公共支付函数的最大化,使两个囚徒公共利益最大化,以求得囚徒困境的新的均衡,让两个囚徒的结果达到最好——即两人均抵赖.本文还将公共支付函数运用于其他《博弈论》案例,并指出广义均衡比纳什均衡更具有社会意义,因为前者体现了公共利益.文中还对囚徒困境的机制设计问题做了分析,指出囚徒困境中机制的设计会诱导囚徒作出不正确的选择,从而没有达到双方利益的最大化.【期刊名称】《技术经济与管理研究》【年(卷),期】2011(000)002【总页数】4页(P22-25)【关键词】囚徒困境;公共支付;纳什均衡;广义均衡:支付函数【作者】郭洪伟【作者单位】首都经济贸易大学统计学院,北京100070【正文语种】中文【中图分类】F224博弈论研究的是存在相互影响关系下的个人选择问题。

这里的参与人都是理性人。

按照文献[1]的定义：理性人是在面临给定的约束条件下，能最大化自己偏好的那些人。

这里理性的人与自私的人不同。

理性人可能是利己主义者，也可能是利他主义者。

理性人假设是博弈论的分析前提。

基于这个前提，所有的参与人都尽量使自己的偏好（利益）最大化，如果存在某种行动会使参与人变的更好，参与人会积极努力达成更好的结果。

理性人在最大化偏好时，需要相互合作，而合作中又存在着冲突。

下面分析博弈论中经典的案例——囚徒困境，如表1所示。

假设有两名嫌疑人作案后被警察抓住，分别被关在不同的屋子里接受审讯（关在不同的屋子里是怕他们串供，这也是影响他们博弈的关键因素之一）。

纳什均衡与囚徒困境

个人理性与集体理性的冲突
• “囚徒困境”表明个人理性与集体理性的冲突。 • 囚徒困境反映个人最佳选择并非团体最佳选择。 • 明知道合作是最佳选择，但事情的发展往往向坏的
一方面发展。 • 囚徒困境中的合作是不可信的，没有人愿意遵守合
作的承诺。 • 其结果是竞争、“背叛”，最终造成该行业集体受
损。
广告战：增加广告开支
卡尔多-希克斯（Kaldor-Hicks）标准
• 设想：状态X下，A的收入是100，B的收入也是 100；在状态Y下，A的收入是1000，B的收入是99 。依帕累托标准，这两个状态是不可比较的：A在状态Y下更好，B在状态X下更好。
• 卡尔多-希克斯标准：如果一种变革使得受益者的所得足以弥补受损者的所失，这种变革就是一个卡尔多-希克斯改进。如果补偿实际发生，就是帕累托改进。因此，“卡尔多-希克斯标准”就是“ 财富最大化”。
• 很多社会变革都是卡尔多—希克斯改进，要将其转化为帕累托改进，就必须解决利益受损者的补偿问题。根据科斯定理：
• 如果产权界定是清楚的，在交易成本为零（很小）的前提下，无论初始的产权安排如何，市场谈判都可以实现帕累托最优。
• 《社会成本问题》（1960，科斯） • 个人谈判可以保证卡尔多—希克斯效率作为
帕累托效率出现。
现实如何？
• 改革涉及的人数不多，补偿问题一般通过谈判解决；
• 但对社会层面的大变革来说，由于受益者和受损者人数众多，谈判并不是一件容易的事情，更由于，许多潜在（相对收入和相对地位）的卡尔多—希克斯改进根本没有办法进行。
公平问题
• 假设原来每个人得100，现在第一个人得到 1000，第二个还是100，按照先前的标准，这是一个帕累托改进。

囚徒困境、智猪博弈、纳什均衡与一致预期（博弈论入门学习笔记二）

囚徒困境、智猪博弈、纳什均衡与一致预期（博弈论入门学习笔记二）0 囚徒困境：假定有两个犯罪嫌疑人共同作案。

警察抓住他们以后，分开拘押，并告诉他们：可以选择坦白，或是不坦白；如果一个人坦白，而另一个人不坦白，则坦白的一方会被立即释放，而不坦白的一方被判10年；如果两人都坦白，则会每人各判8年；如果两人都抵赖，因证据不足，则每人在关押1年后释放。

那么，这两个犯罪嫌疑人该如何选择呢？现在我们来看参与人甲和乙会如何决策。

我们假设参与人是理性的，都不想坐牢，能少坐牢尽量少坐牢。

我们先考虑甲的选择，他面对的问题是：如果乙坦白的话，自己坦白判8年，不坦白判10年，那么坦白比不坦白好；如果乙不坦白，自己坦白会被立即释放，不坦白则判1年，坦白还是比不坦白好。

因此，不论对方坦白不坦白，甲或乙自己的最优选择都是坦白。

占优均衡：一般来说，由于每个参与人的效用依赖于所有人的选择，因此每个人的最优选择（战略）也依赖于所有其他人的选择（战略）。

但由囚徒困境我们可以看出，一个人的最优选择并不依赖于他人的选择。

这样的最优战略，被称为“占优战略”。

由所有参与人的占优战略构成的战略组合被称为“占优均衡”。

占优战略均衡的出现只要求所有人都是理性的，但不要求每个参与人知道其他人是否理性。

囚徒困境博弈有占优均衡，所以其结果很容易预测。

“囚徒困境”表明个人理性与集体理性的冲突。

这样的例子有很多：寡头竞争，军备竞赛，团队生产中的劳动供给，公共产品的供给，等等。

许多的制度就是为了解决“囚徒困境”而存在的。

私人产品是志愿购买的，但公共产品可能需要强制购买；税收制度就是保证公共产品的生产，解决公共产品生产上的“囚徒困境”。

囚徒困境的一般表示：要使上述博弈成为一个囚徒困境需要满足这样一个条件：R>T>P>S。

解决囚徒困境的一种方式：用法律解决“囚徒困境”满足：X>R-T1 “智猪博弈”：设想猪圈里有两头猪，一头大猪和一头小猪。

囚徒困境与纳什均衡的关系

囚徒困境与纳什均衡的关系这两个概念都是博弈论中的概念，那什么是博弈论呢，博弈论是研究竞争现象的一种理论方法。

既然是理论方法就会有许多假设的前提，但在现实情况下，这些前提很可能不会同时存在。

所以所有理论方法，只是有助于你分析并理解现实世界，它只是一种方法，或者是一种思维工具而已，切不可生搬硬套。

博弈论在经济学、生物学、物理学、社会学、政治学中都有应用，所以博弈论是一种十分有用的分析框架。

先介绍一下囚徒困境，然后在囚徒困境中找到纳什均衡的局面，最后进行一下总结。

1.囚徒困境1.1两个犯罪嫌疑人都被抓了起来，并且这两个人都是理性、自利的，并且不能相互交流。

都被告知如下规则。

在这种情况下，两个人会做什么选择？答案是两个人都会选择背叛对方。

分析如下：甲想：如果乙沉默，我背叛的话，就会立即获释。

如果乙背叛，我沉默的话，就会判刑十年。

所以甲会选择背叛。

同理乙也会选择背叛。

最终两人都会服刑5年。

其实有一个最优解就是：甲乙都选择沉默。

这就是“困境”所在：个人的最优解，并不是全局的最优解。

1.2知道次数的囚徒困境。

比如限制十次经过上次的教训，甲知道了沉默是全局的最优解，但是最后一次，甲背叛，乙沉默的话，甲会立马获释。

所以前九次甲都会选择沉默，已获得对方的信任，最后一次会选择背叛。

同理乙也会这么想。

当双方都知道对方在最后一局选择背叛，那么会有人在第九局选择背叛，依次类推。

第一局双方都会选择背叛。

1.3不知道次数的囚徒困境经过多次博弈，背叛会受到惩罚，双方趋向于选择合作。

2.纳什均衡在博弈中会存在一个均衡，任何一方都不愿改变策略，因为这种状况下改变策略会不利于自己。

囚徒困境下的纳什均衡是：双方都背叛。

可以用排除法找到答案，如果两人都沉默的话，只要任何一方背叛，会立马获释。

这种双方都沉默的局面并不稳定。

如果一方沉默，另一方背叛的话。

没有人傻到自己沉默，所以这种情况也是不稳定的。

3.总结3.1局部最优解不是全局最优解。

3.2个人的理性选择，会造成全局的非理性。

浅谈侦查讯问中“囚徒困境”的分析与运用

＼＼
行贿者
招供拒供
＼爱贿者＼＼
优 ”㈣，在 “ 囚徒困境 ” 中， “ 累托最优 ”是不帕
可能实现的，因为它不满足理性人的需求。理性的人会这样考虑：假定Ａ选择招供，Ｂ的最优策略也是招供，因为Ｂ招供判５而拒供却要被判１年；年０假定Ａ选择拒供，Ｂ最好还是选择招供，因为Ｂ招供不判刑而拒供却要被判１年。所以不管Ａ选择招供还是拒供，Ｂ的最佳策略都是招供。同样地，不管
…
…
…
…
・
蠢州■富职业学院掌报 … … … … … … ・
ＪＵ＿ＦＵＨＵＯＩＯｆ明ＶＣＴ ¨ ＬＬＧＯｌ儿ＯＧＩＯＰＬＥｆＣＯ＾ＯＣＬＥＺＣｌｌＯＥ
下的犯罪嫌疑人在被及时采取强制措施之后，由于
缺乏信息来源，一方面担心侦查机关对自己的罪行
可以零口供提起公诉，两人将分别获刑１年和５０年
（０５）。１，
的利益所在，有时候也并非把实现利益最大化作为唯一追求。 “ 囚徒困境 ”之所以有效，主要是因为人们出于自私的天性，为了实现自己的利益而相互背叛。尽管趋利避害的自私天陡是人的本能，但是
利的境况；另一方面又担心同案犯在利益诱惑面前结果将会是（招供，招供），ｆＡ均被判刑５ｌ和ＢＤ年。
＼
Hale Waihona Puke 嫌Ｂ犯＼招供拒供
＼
害。犯罪嫌疑人招也不是，拒也不是，从而陷入了选择招供还是拒供的两难处境。 “ 囚徒困境”模型最早由塔克（ｕｋｒＴｃｅ）在１５年给出定义。【 “ ９５１囚］徒困境”是非合作博弈理论的经典模型，属于完全信息静态博弈。根据犯罪主体的不同，侦查讯问

浅谈我眼中的“囚徒困境”

浅谈我眼中的“囚徒困境”闫锐河南师范大学２００９级经济学二班【摘要】“囚徒困境”是非合作博弈的均衡即“纳什均衡”的最经典的例子。

从这个例子，我们能知道“纳什均衡”的精要所在。

本文从“囚徒困境”案例出发，出“纳什均衡”的原理，并由此去探寻日常生活中的非合作博弈。

【关键词】囚徒困境纳什均衡１９５０年和１９５１年纳什的两篇关于非合作博弈的重要论文，彻底改变了人们对竞争和市场的看法。

他证明了非合作博弈极其均衡解，并证明了均衡解的存在性，即著名的“纳什均衡”，从而揭示了博弈均衡与均衡的内在联系奠定了非合作博弈论的基石。

要了解纳什均衡，首先要知道什么是非合作博弈问题。

“囚徒困境”是该问题最经典的例子，我们也从该例为切入点进行探讨。

一、囚徒困境的基本意义首先，一个完整的博弈应当包括五个方面的内容：第一，博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织；第二，博弈信息，即博弈者所掌握的对选择策略有帮助的情报资料；第三，博弈方可选择的全部行为或策略的集合；第四，博弈的次序，即博弈参加者做出策略选择的先后；第五，博弈方的收益，即各博弈方做出决策选择后的所得和所失。

二、生活中的囚徒困境从“囚徒困境”的普遍意义中我们可以深刻领悟司空见惯的社会、日常生活中的博弈现象：１．大学生不如农民工的再思考———囚徒困境与社会最优。

根据劳动和社会保障部的一项调查，２００６年进城务工农民的月薪平均预期１１００多元，而应届大学毕业生对月薪的平均预期仅为１０００元。

而据《南方周末》４月１２日报道，今年２月，广东汕头，峡山镇的一个织带厂因奇缺熟练技工和高级技工，老板开出的月薪３０００元至１万元之间。

当地工人称，把自己训练成一个高级技工一般需三五年，甚至小学文化都不难做到。

技工身价的水涨船高，大学应届毕业生预期月薪却屡创新低，两种之间有其必然联系。

每个人的最优选择都是考虑对方策略的基础上得出的相对最优。

但结果却往往不是集体最优，我国目前的“大学热”及由此带来的大学生就业难问题与之休戚相关。

浅析囚徒困境与纳什均衡

浅析囚徒困境欧阳学文囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。

囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。

囚徒困境在生活中最常见的表现就是挤公共汽车。

从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。

学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。

但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。

可见“减负令”难以见效，中小学生课业负担不减反增。

又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。

可是，我错了吗？没有。

当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。

人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。

可是，我对了吗？没有。

”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。

含泪的“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。

再看中国的法治之路。

虽然法治让所有人都长期受益，甚至执政者自己也不例外，但是一个狭隘理性社会却偏偏无力支撑法治，以至最后每个理性人都不得不忍受法治缺位的非理性之苦。

绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。

不过，任何事物都有两面性，“理性”过了头也就成了非理性。

这就是充斥着当今中国社会的“囚徒困境”：一种行为模式对于个人看起来是很理性的，但是对于个人构成的集体来说却是非理性的，最后对于每个人来说也是非理性的。

我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法治。

但囚徒困境一定是坏事吗？就以囚徒困境的经典案例来说，作为一个比喻，我们会为囚犯不能合作而遗憾；可是如果它发生在现实中，我们就巴不得他们不能合作。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅析囚徒困境
欧阳家百（2021.03.07）
囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。

囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。

囚徒困境在生活中最常见的表现就是挤公共汽车。

从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。

学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。

但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。

可见“减负令”难以见效，中小学生课业负担不减反增。

又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。

可是，我错了吗？没有。

当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。

人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。

可是，我对了吗？没有。

”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。

含泪的
“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。

再看中国的法治之路。

绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。

不过，任何事物都有两面性，“理性”过了头也就成了非理性。

我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法治。

然而如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。

连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”的含义。

但合作的可能性不是必然性。

博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方（最好是实力更强的一方）必须主动通过可信的承诺，向另一方表示合作的善意，努力把这个善意表达清楚，并传达出去。

比如在楼市的囚徒困境中，政府能
适当调控房价，给予购房者房价稳定合理的承诺，那么楼市的囚徒困境是有可能破解的。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

在博弈达到纳什均衡时，局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益，于是各方为了自己利益的最大化而选择了某中最优策略，并与其他对手达成了某种暂时的平衡。

这种平衡在外界环境没有变化的情况下，倘若有关各方坚持原有的利益最大化原则并理性面对现实，那么这种平衡状况就能够长期保持稳定。

在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

在“囚徒困境”变形的博弈中，双方都不坦白就是一个纳什均衡，这对双方来说都是最优选择。

同时在这个博弈中，其均衡对双方来说是全局最优的。

当然博弈达到纳什均衡，并不一定是对参与者最有利的结果博弈达到纳什均衡，并不一定是对参与者最有利的结果，更不意味着是对整个社会而言最有利的结果，比如囚徒困境就导致了整体的不利。

囚徒双方没有信息交换下的博弈，就是博弈论中的静态博弈静态博弈概念。

在同静态博弈时行动的静态博弈里，没有一个博弈者可以在自己行动之前得知另一
个博弈者的整个计划。

“纳什均衡”对亚当斯密的“看不见的手”的原理提出挑战。

按照斯密的理论，在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。

《国富论》中有这样一句名言：“ 通过追求个人的自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。

”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。

两个囚徒的命运就是如此。

囚徒困境中，每个人采取的都是最优的战略,但是结果却是最劣,原因在于个人理性和集体理性的冲突。

在“囚徒困境”中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。

独立于对方所用策略之外的最好决策规则是不存在的。

“囚徒困境”一般是一些非常普遍而有趣的情形的简单抽象。

在这些情形中，从个人的角度来说，背叛是最好的选择，但双方背叛就会导致不甚理想的结果出现。