浅析囚徒困境与纳什均衡之欧阳家百创编

合集下载

囚徒困境的均衡辨析

囚徒困境的均衡辨析

囚徒困境的均衡辨析郭洪伟【摘要】传统的《博弈论》分析最终结果是两个囚徒均会坦白,但这并不是两个囚徒的最好结局,如何才能达到最好结局?本文从《博弈论》动中“理性人”的假设出发,对传统的(坦白,坦白)均衡提出质疑.本文指出理性人不会满足于传统的均衡,理性人会积极寻找双方利益最大化的均衡,并达到此均衡.本文给出了新的均衡:广义均衡,并给出广义均衡的求解过程.通过对引入公共支付函数的概念,公共支付函数表达了两个人的共同利益.通过公共支付函数的最大化,使两个囚徒公共利益最大化,以求得囚徒困境的新的均衡,让两个囚徒的结果达到最好——即两人均抵赖.本文还将公共支付函数运用于其他《博弈论》案例,并指出广义均衡比纳什均衡更具有社会意义,因为前者体现了公共利益.文中还对囚徒困境的机制设计问题做了分析,指出囚徒困境中机制的设计会诱导囚徒作出不正确的选择,从而没有达到双方利益的最大化.【期刊名称】《技术经济与管理研究》【年(卷),期】2011(000)002【总页数】4页(P22-25)【关键词】囚徒困境;公共支付;纳什均衡;广义均衡:支付函数【作者】郭洪伟【作者单位】首都经济贸易大学统计学院,北京100070【正文语种】中文【中图分类】F224博弈论研究的是存在相互影响关系下的个人选择问题。

这里的参与人都是理性人。

按照文献[1]的定义:理性人是在面临给定的约束条件下,能最大化自己偏好的那些人。

这里理性的人与自私的人不同。

理性人可能是利己主义者,也可能是利他主义者。

理性人假设是博弈论的分析前提。

基于这个前提,所有的参与人都尽量使自己的偏好(利益)最大化,如果存在某种行动会使参与人变的更好,参与人会积极努力达成更好的结果。

理性人在最大化偏好时,需要相互合作,而合作中又存在着冲突。

下面分析博弈论中经典的案例——囚徒困境,如表1所示。

假设有两名嫌疑人作案后被警察抓住,分别被关在不同的屋子里接受审讯(关在不同的屋子里是怕他们串供,这也是影响他们博弈的关键因素之一)。

纳什均衡与囚徒困境

纳什均衡与囚徒困境

个人理性与集体理性的冲突
• “囚徒困境”表明个人理性与集体理性的冲突。 • 囚徒困境反映个人最佳选择并非团体最佳选择。 • 明知道合作是最佳选择,但事情的发展往往向坏的
一方面发展。 • 囚徒困境中的合作是不可信的,没有人愿意遵守合
作的承诺。 • 其结果是竞争、“背叛”,最终造成该行业集体受
损。
广告战 :增加广告开支
卡尔多-希克斯(Kaldor-Hicks)标准
• 设想:状态X下,A的收入是100,B的收入也是 100;在状态Y下,A的收入是1000,B的收入是99 。依帕累托标准,这两个状态是不可比较的:A在 状态Y下更好,B在状态X下更好。
• 卡尔多-希克斯标准:如果一种变革使得受益者的 所得足以弥补受损者的所失,这种变革就是一个 卡尔多-希克斯改进。如果补偿实际发生,就是帕 累托改进。因此,“卡尔多-希克斯标准”就是“ 财富最大化”。
• 很多社会变革都是卡尔多—希克斯改进,要 将其转化为帕累托改进,就必须解决利益受 损者的补偿问题。根据科斯定理:
• 如果产权界定是清楚的,在交易成本为零( 很小)的前提下,无论初始的产权安排如何 ,市场谈判都可以实现帕累托最优。
• 《社会成本问题》(1960,科斯) • 个人谈判可以保证卡尔多—希克斯效率作为
帕累托效率出现。
现实如何?
• 改革涉及的人数不多,补偿问题一般通过 谈判解决;
• 但对社会层面的大变革来说,由于受益者 和受损者人数众多,谈判并不是一件容易 的事情,更由于,许多潜在(相对收入和 相对地位)的卡尔多—希克斯改进根本没有 办法进行。
公平问题
• 假设原来每个人得100,现在第一个人得到 1000,第二个还是100,按照先前的标准,这 是一个帕累托改进。

囚徒困境、智猪博弈、纳什均衡与一致预期(博弈论入门学习笔记二)

囚徒困境、智猪博弈、纳什均衡与一致预期(博弈论入门学习笔记二)

囚徒困境、智猪博弈、纳什均衡与一致预期(博弈论入门学习笔记二)0 囚徒困境:假定有两个犯罪嫌疑人共同作案。

警察抓住他们以后,分开拘押,并告诉他们:可以选择坦白,或是不坦白;如果一个人坦白,而另一个人不坦白,则坦白的一方会被立即释放,而不坦白的一方被判10年;如果两人都坦白,则会每人各判8年;如果两人都抵赖,因证据不足,则每人在关押1年后释放。

那么,这两个犯罪嫌疑人该如何选择呢?现在我们来看参与人甲和乙会如何决策。

我们假设参与人是理性的,都不想坐牢,能少坐牢尽量少坐牢。

我们先考虑甲的选择,他面对的问题是:如果乙坦白的话,自己坦白判8年,不坦白判10年,那么坦白比不坦白好;如果乙不坦白,自己坦白会被立即释放,不坦白则判1年,坦白还是比不坦白好。

因此,不论对方坦白不坦白,甲或乙自己的最优选择都是坦白。

占优均衡:一般来说,由于每个参与人的效用依赖于所有人的选择,因此每个人的最优选择(战略)也依赖于所有其他人的选择(战略)。

但由囚徒困境我们可以看出,一个人的最优选择并不依赖于他人的选择。

这样的最优战略,被称为“占优战略”。

由所有参与人的占优战略构成的战略组合被称为“占优均衡”。

占优战略均衡的出现只要求所有人都是理性的,但不要求每个参与人知道其他人是否理性。

囚徒困境博弈有占优均衡,所以其结果很容易预测。

“囚徒困境”表明个人理性与集体理性的冲突。

这样的例子有很多:寡头竞争,军备竞赛,团队生产中的劳动供给,公共产品的供给,等等。

许多的制度就是为了解决“囚徒困境”而存在的。

私人产品是志愿购买的,但公共产品可能需要强制购买;税收制度就是保证公共产品的生产,解决公共产品生产上的“囚徒困境”。

囚徒困境的一般表示:要使上述博弈成为一个囚徒困境需要满足这样一个条件:R>T>P>S。

解决囚徒困境的一种方式:用法律解决“囚徒困境”满足:X>R-T1 “智猪博弈”:设想猪圈里有两头猪,一头大猪和一头小猪。

最新囚徒困境和纳什均衡

最新囚徒困境和纳什均衡

囚徒困境和纳什均衡当对手知道了你的决定之后,就能做出对自己最有利的决定------普林斯顿大学数学家约翰·纳什囚徒困境著名的“囚徒困境”,是纳什均衡理论的经典案例。

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供一下相同的选择:若有一人认罪并作证检控对方(背叛对方)而对方保持沉默,此人将立即获释,沉默者将判监禁十年。

若两人都保持沉默(互相合作)则两人同时被判监禁半年。

若两人都互相检举(互相背叛)则两人同时监禁两年。

如同博弈论的其他论证,囚徒困境假设每个囚徒都是利己的,激斗寻求自己的最大利益。

囚徒到底应该选择哪一项策略,才能将自己的刑期缩至最短?两名囚徒由于相互隔离监禁,并不知道对方的选择。

试想困境中两名理性的囚徒会如何选择:若对方沉默,背叛会让我获释,所以对方会选择背叛。

若对方背叛我,我也要指控对方才能得到较低的刑期,所以也是这样会选择背叛。

二人面对的情况一样,所以二人的理想思考会得到相同的答案----选择背叛。

背叛是两种策略之间的支配性策略。

因此这场博弈中唯一可能达到的纳什均衡就是两人选择同时背叛对方,结果两人同时服刑两年。

这场博弈的纳什均衡,显然不是最优的解决方案。

如果两人都选择沉默,两人都只会被判刑半年。

但根据以上假设,两人均为理性的个人,均衡状况回事两个囚徒都选择背叛。

这就是“困境”所在。

寻找“纳什均衡点”在现实生活中,纳什均衡理论影响着人们的行为。

比如,在有些国家,报亭既无管理人员也不上锁,买报纸的人在自行放下前后拿走报纸。

当然某些人可能取走报纸却不付钱(背叛)但由于大家意识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。

在商业活动中,也会出现各种各样的囚徒困境的例子。

两个公司相互竞争,他们的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告,收入增加很少但成本增加。

囚徒困境与纳什均衡的关系

囚徒困境与纳什均衡的关系

囚徒困境与纳什均衡的关系这两个概念都是博弈论中的概念,那什么是博弈论呢,博弈论是研究竞争现象的一种理论方法。

既然是理论方法就会有许多假设的前提,但在现实情况下,这些前提很可能不会同时存在。

所以所有理论方法,只是有助于你分析并理解现实世界,它只是一种方法,或者是一种思维工具而已,切不可生搬硬套。

博弈论在经济学、生物学、物理学、社会学、政治学中都有应用,所以博弈论是一种十分有用的分析框架。

先介绍一下囚徒困境,然后在囚徒困境中找到纳什均衡的局面,最后进行一下总结。

1.囚徒困境1.1两个犯罪嫌疑人都被抓了起来,并且这两个人都是理性、自利的,并且不能相互交流。

都被告知如下规则。

在这种情况下,两个人会做什么选择?答案是两个人都会选择背叛对方。

分析如下:甲想:如果乙沉默,我背叛的话,就会立即获释。

如果乙背叛,我沉默的话,就会判刑十年。

所以甲会选择背叛。

同理乙也会选择背叛。

最终两人都会服刑5年。

其实有一个最优解就是:甲乙都选择沉默。

这就是“困境”所在:个人的最优解,并不是全局的最优解。

1.2知道次数的囚徒困境。

比如限制十次经过上次的教训,甲知道了沉默是全局的最优解,但是最后一次,甲背叛,乙沉默的话,甲会立马获释。

所以前九次甲都会选择沉默,已获得对方的信任,最后一次会选择背叛。

同理乙也会这么想。

当双方都知道对方在最后一局选择背叛,那么会有人在第九局选择背叛,依次类推。

第一局双方都会选择背叛。

1.3不知道次数的囚徒困境经过多次博弈,背叛会受到惩罚,双方趋向于选择合作。

2.纳什均衡在博弈中会存在一个均衡,任何一方都不愿改变策略,因为这种状况下改变策略会不利于自己。

囚徒困境下的纳什均衡是:双方都背叛。

可以用排除法找到答案,如果两人都沉默的话,只要任何一方背叛,会立马获释。

这种双方都沉默的局面并不稳定。

如果一方沉默,另一方背叛的话。

没有人傻到自己沉默,所以这种情况也是不稳定的。

3.总结3.1局部最优解不是全局最优解。

3.2个人的理性选择,会造成全局的非理性。

浅谈侦查讯问中“囚徒困境”的分析与运用

浅谈侦查讯问中“囚徒困境”的分析与运用

\\
行贿者
招供 拒供
\ 爱贿者 \\
优 ”㈣,在 “ 囚徒 困境 ” 中 , “ 累托 最优 ”是 不 帕
可能实现的 ,因为它不满足理性人的需求 。理性的 人会这样考虑 :假定A 选择招供 ,B 的最优策略也 是招供 ,因为B 招供判5 而拒供却要被判 1 年 ; 年 0 假定A 选择拒供 ,B 最好还是选择招供 ,因为B 招供 不判刑而拒供却要被判 1 年。所 以不管A 选择招供 还是拒供 ,B 的最佳策略都是招供。同样地 ,不管





蠢州■富职业 学院掌报 … … … … … … ・
JU_ FU HU OI Of 明VCT ¨ L L G O l儿OG I O PL E f C O ^ O C L E Z C l l O E
下的犯罪嫌疑人在被及时采取强制措施之后 ,由于
缺乏 信 息来 源 ,一方 面担 心 侦查机 关对 自己 的罪行
可 以零 口供提 起 公诉 ,两人 将 分 别获 刑 1 年 和5 0 年
( 05)。 1,
的利 益所 在 ,有 时候 也并 非把 实现利 益最 大化作 为 唯一 追求 。 “ 囚徒 困境 ”之所 以有效 ,主要是 因为 人们 出于 自私 的天性 ,为 了实 现 自己的利 益而相 互 背叛 。尽管 趋利 避害 的 自私天 陡是人 的本 能 ,但 是
利的境况 ;另一方面又担心同案犯在利益诱惑面前 结果将会是 ( 招供,招供 ),fA 均被判刑5 l 和B D 年。

Hale Waihona Puke 嫌 B 犯 \ 招供 拒供

害。犯罪嫌疑人招也不是 ,拒也不是 ,从而陷入了 选择招供还是拒供的两难处境 。 “ 囚徒 困境”模型 最早 由塔 克 ( uk r T ce )在 15 年 给 出定 义 。【 “ 95 1 囚 ] 徒困境”是非合作博弈理论的经典模型 ,属于完全 信息静态博弈。 根据犯罪主体的不同 ,侦查讯 问

浅谈我眼中的“囚徒困境”

浅谈我眼中的“囚徒困境”

浅谈我眼中的“囚徒困境”闫锐河南师范大学2009级经济学二班【摘要】“囚徒困境”是非合作博弈的均衡即“纳什均衡”的最经典的例子。

从这个例子,我们能知道“纳什均衡”的精要所在。

本文从“囚徒困境”案例出发,出“纳什均衡”的原理,并由此去探寻日常生活中的非合作博弈。

【关键词】囚徒困境纳什均衡1950年和1951年纳什的两篇关于非合作博弈的重要论文,彻底改变了人们对竞争和市场的看法。

他证明了非合作博弈极其均衡解,并证明了均衡解的存在性,即著名的“纳什均衡”,从而揭示了博弈均衡与均衡的内在联系奠定了非合作博弈论的基石。

要了解纳什均衡,首先要知道什么是非合作博弈问题。

“囚徒困境”是该问题最经典的例子,我们也从该例为切入点进行探讨。

一、囚徒困境的基本意义首先,一个完整的博弈应当包括五个方面的内容:第一,博弈的参加者,即博弈过程中独立决策、独立承担后果的个人和组织;第二,博弈信息,即博弈者所掌握的对选择策略有帮助的情报资料;第三,博弈方可选择的全部行为或策略的集合;第四,博弈的次序,即博弈参加者做出策略选择的先后;第五,博弈方的收益,即各博弈方做出决策选择后的所得和所失。

二、生活中的囚徒困境从“囚徒困境”的普遍意义中我们可以深刻领悟司空见惯的社会、日常生活中的博弈现象:1.大学生不如农民工的再思考———囚徒困境与社会最优。

根据劳动和社会保障部的一项调查,2006年进城务工农民的月薪平均预期1100多元,而应届大学毕业生对月薪的平均预期仅为1000元。

而据《南方周末》4月12日报道,今年2月,广东汕头,峡山镇的一个织带厂因奇缺熟练技工和高级技工,老板开出的月薪3000元至1万元之间。

当地工人称,把自己训练成一个高级技工一般需三五年,甚至小学文化都不难做到。

技工身价的水涨船高,大学应届毕业生预期月薪却屡创新低,两种之间有其必然联系。

每个人的最优选择都是考虑对方策略的基础上得出的相对最优。

但结果却往往不是集体最优,我国目前的“大学热”及由此带来的大学生就业难问题与之休戚相关。

浅析囚徒困境与纳什均衡

浅析囚徒困境与纳什均衡

浅析囚徒困境欧阳学文囚徒困境是博弈论的非零和博弈中具代表性的例子,指反映个人最佳选择并非团体最佳选择。

囚徒困境的经典案例这里不再复述,让我们看一下身边的例子。

囚徒困境在生活中最常见的表现就是挤公共汽车。

从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。

学生也同样遭遇囚徒困境:减轻中小学生过重负担喊了20多年,仅1985年至2000年的15年里,中央就下达“减负令”49次。

但实际情况却是学生课业负担不但没减下来,反倒呈现出越演越烈之势,致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。

可见“减负令”难以见效,中小学生课业负担不减反增。

又比如近年来炒得火热的楼市——“我没买房,结果房价还是涨了,因为我们无法保证大家都不买房。

可是,我错了吗?没有。

当初如果我买房了,房价下跌了呢?因为我不能保证大家都买房。

人们根本不能预知在疾风暴雨式的调控之下,房价竟还能且调且涨。

可是,我对了吗?没有。

”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。

含泪的“调侃”折射出当下楼市的“囚徒困境”:买,难担高房价重负;不买,难受房价节节攀升的煎熬。

再看中国的法治之路。

虽然法治让所有人都长期受益,甚至执政者自己也不例外,但是一个狭隘理性社会却偏偏无力支撑法治,以至最后每个理性人都不得不忍受法治缺位的非理性之苦。

绝大多数中国人都是很识时务的理性人,不会故意给自己找茬,多数律师也不例外。

不过,任何事物都有两面性,“理性”过了头也就成了非理性。

这就是充斥着当今中国社会的“囚徒困境”:一种行为模式对于个人看起来是很理性的,但是对于个人构成的集体来说却是非理性的,最后对于每个人来说也是非理性的。

我们都不敢站出来说话,对每个人来说都是很“理性”的一种行为方式,但最后的结果只能是让整个社会丧失法治。

但囚徒困境一定是坏事吗?就以囚徒困境的经典案例来说,作为一个比喻,我们会为囚犯不能合作而遗憾;可是如果它发生在现实中,我们就巴不得他们不能合作。

论纳什均衡与“囚徒困境”的解决方式论文

论纳什均衡与“囚徒困境”的解决方式论文

论纳什均衡与“囚徒困境”的解决方式摘要本文对于“囚徒困境”与纳什平均进行了简要分析,提出了静态博弈中要找出自己的优势策略以及动态博弈中合作重要性的观点。

关键词:“囚徒困境”优势策略合作一、“囚徒困境”博弈及其纳什均衡“囚徒困境”博弈是图克(Tucker)1950年提出的一个著名的博弈模型,是完全信息静态博弈的典型例子。

囚徒困境博弈的基本情况如下:警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证他们所犯的罪行。

如果其中至少有一人供认犯罪,就能确认罪名成立。

为了得到所需的口供,警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会;如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判1年徒刑;如果两人中有一人坦白认罪,则坦白者从轻认罪,立即释放,而另一人则将重判8年徒刑;如果两人同时坦白认罪,则他们将被各判5年监禁如果分别用-1、-5和-8 表示罪犯被判刑1年、5年和8年的得益,用0表示罪犯被立即释放的得益,则两囚徒的得益矩阵如下:囚徒2囚徒1在上图中,“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方,也就是两个罪犯;他们各自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同,我们都可以把他们的决策看作是同时做出的。

其中矩阵中第一个数字代表决策结果后囚徒1的得益,第二个数字代表决策结果后囚徒2的得益。

博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想的结果(各判5年),并且这个结果具有必然性,很难摆脱,因此这个博弈被称为“囚徒困境。

二、寻找自己的优势策略从“极小极大原理”到“纳什理论”,都是希望揭示博弈中的策略选择和博弈结果之间的关系,使博弈论研究可以在一个博弈结构里寻找比较稳定的结果,并为策略的选择提供依据。

“囚徒困境”中非纳什均衡出现的可能性及其原因分析

“囚徒困境”中非纳什均衡出现的可能性及其原因分析

“囚徒困境”中非纳什均衡出现的可能性及其原因分析一、囚徒困境:非纳什均衡出现的可能性二、博弈论视角下的囚徒困境三、囚徒困境的分析框架四、非纳什均衡出现的原因分析五、应对囚徒困境的有效措施囚徒困境是博弈论研究的经典问题之一,是由于多个博弈参与者之间的行动决策互相影响而产生的问题。

在囚徒困境中,每个参与者都面临一个抉择:是合作还是背叛。

囚徒困境的最优解是合作,然而,每个参与者都有诱惑去背叛,导致难以实现最优解。

囚徒困境存在非纳什均衡出现的可能性,这需要我们从博弈论视角下对此进行深入分析。

从博弈论的角度看,囚徒困境被定义为一种非零和博弈,即参与者之间的利益并不完全相反也不完全相同,其中一个参与者的收益不一定是另一个参与者的损失。

在囚徒困境中,每个参与者都面临着两个策略选择:“合作”和“背叛”。

当两个参与者都选择了“合作”时,他们的收益都将受益于合作的结果;当两个参与者都选择“背叛”时,他们都将受益于他们自己的决策。

当其中一个参与者选择“背叛”而另一个参与者选择“合作”时,背叛者将获得更多的收益而合作者将会受到惩罚;同样地,当两个参与者中的一个选择“合作”而另一个选择“背叛”时,前者将会受到惩罚而后者将获得更多的收益。

在囚徒困境中,存在一种非纳什均衡出现的可能性,即博弈参与者不会采取最优策略而是选择了次优策略或者甚至劣策略。

这种情况通常导致所有人的利益都不如原本预计的理想情况。

造成非纳什均衡的原因有很多,其中包括缺少信息、恶意策略、小数定律等。

例如,在双方博弈时,如果两个参与者都缺乏相互之间的信息,那么他们可能会出现非最优选择,导致非纳什平衡的出现。

要应对囚徒困境,必须制定切实可行的策略。

为了实现理想的博弈结果,参与者必须发挥积极主动的作用,增加彼此的互信。

例如,在企业面临市场竞争时,任何一家企业都需要尽简增强自身的信誉和品牌,提升顾客满意度,这样才能在市场竞争中获得更多的支持。

此外,不断强化参与方的合作信念和倡导良性竞争,也是解决囚徒困境重要的策略之一。

囚徒困境与纳什均衡

囚徒困境与纳什均衡

囚徒困境与纳什均衡
囚徒困境是两个囚犯之间的一个“博弈”,常用来说明不是最优性质的纳什均衡。

当然,囚徒困境的纳什均衡虽然不利于博弈的参与人,但却有利于整个社会。

事例基本内容是:张三和李四以前抢过银行,后来在一次偷汽车的时候被抓住了,警察对他们进行隔离审问,而且向他们每个人都提出了如下的交易:现在可以判你坐一年牢,但如果你承认你和你的同伙前不久抢过银行,我们就可以把你放了,而你的同伙则要坐20年牢;反之,如果你不承认,而你的同伙招供了,那你的同伙就可以自由,而你则要坐20年牢;如果你和你的同伙都承认了抢银行的事,你们2人要坐8年牢。

此时,张三会想:对我来说,最好的结果就是李四不坦白而我坦白,这样我就不用坐牢了;但李四也可能坦白,如果李四坦白了,我该怎么办呢?我最好还是坦白,因为如果我不坦白,就要坐20年牢,而坦白了只要坐8年牢;所以,不管李四坦白不坦白,我最好都要坦白。

当然,李四也会这么想,结果两人都坐8年牢。

由此可见,在有些情况下,每个参与人都追求自己的利益,可能既不能给自己带来好处,也不能给别人带来好处。

囚徒困境表明,合作是困难的,解决囚徒困境最经常的情况是:参与者的博弈不是一次性的而是多次的,而且参与者在开始合作时可以签订协议并规定如果一方违约将如何处理。

所以,只要参与者都非常关心自己未来的利益,他们就会放弃违规带来的一次性好处。

这样,在多次囚徒困境博弈中,参与者就可能达到合作性的结果。

纳什均衡与囚徒困境

纳什均衡与囚徒困境

交通拥堵中的纳什均衡
在交通拥堵中,如果所有驾驶员都选择走某一 条路,那么这条路就会变得非常拥堵。
如果一个驾驶员选择走另一条路,那么他可能 会更快地到达目的地,但其他驾驶员也可能会 效仿,导致另一条路也变得拥堵。
纳什均衡在交通拥堵中的表现为:所有驾驶员 都选择走同一条路,形成一种稳定的交通状态。
公共资源中的纳什均衡
建立信任
通过建立信任机制,让囚犯相 信对方不会出卖自己,从而都
选择抵赖。
引入第三方监管
由第三方监管机构介入,制定 规则并监督执行,确保双方都 遵守规则。
改变奖励机制
改变奖励机制,使得双方都选 择抵赖成为最优解,例如将坦 白惩罚变得更重。
增加沟通机会
让囚犯有更多的沟通机会,了 解对方的想法和处境,从而更
企业竞争中的囚徒困境
价格战
01
企业为了争夺市场份额,可能会采取降价策略,但这种策略可
能导致整个行业的利润下降。
技术研发
02
企业在研发新技术时面临投入不足或过度投入的困境,如何平
衡研发投入与市场收益是一大挑战。
广告策略
03
企业在广告投放上可能存在囚徒困境,过多的广告投入可能增
加品牌知名度,但也可能导致广告费用过高而降低利润。
01
02
03
公共资源是指那些不属于任何个 人或组织的资源,如海洋、森林、 空气等。
在公共资源的使用中,如果每个 人或组织都过度使用资源,那么 资源将会被耗尽或使用 资源,导致资源的过度消耗和破 坏,形成一种稳定的竞争状态。
05 囚徒困境的实例分析
促进学科发展
纳什均衡与囚徒困境的研究推动了博弈论和其他相关学科的发展,促进了学术交流和知识创新。

纳什均衡与囚徒困境

纳什均衡与囚徒困境

纳什均衡纳什均衡,Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名,是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。

首先我们先简单看一下纳什均衡的经济学含义:所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处。

换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。

纳什均衡(Nash equilibrium),无一参与者可以通过独自行动而增加收益的策略组合。

纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。

纳什均衡可以分成两类:"纯战略纳什均衡"和"混合战略纳什均衡"。

纯战略是提供给玩家要如何进行赛局的一个完整的定义。

特别地是,纯战略决定在任何一种情况下要做的移动。

战略集合是由玩家能够施行的纯战略所组成的集合。

混合战略是对每个纯战略分配一个机率而形成的战略。

混合战略允许玩家随机选择一个纯战略。

混合战略博弈均衡中要用概率计算,因为每一种策略都是随机的,达到某一概率时,可以实现支付最优。

因为机率是连续的,所以即使战略集合是有限的,也会有无限多个混合战略。

案例:智猪博弈、囚徒困境、普通范式博弈(公司合作背叛)、饿狮博弈、硬币正反。

这里有一个理想化假设,那就是假设双方都知道博弈次数是无限的话,也就是说双方的商业往来是无止尽的,那么二者的策略都将持续选择合作,最终的博弈收益将定格在(3,3),这就是一个纳什均衡。

既然博弈次数是无限的,那么任何一方都没有理由选择背叛策略去冒险追求5点短暂收益,而招致对方在下一轮博弈中的报复(这种报复在博弈论里称作“以牙还牙”策略)。

还有另一种假设情况是,假使双方都知道博弈次数是有限的,也许下一次博弈就是最后一次,那么为了避免对方在最后一轮博弈中选择背叛策略而使我方遭受-3的收益损失,于是双方都重新采取了背叛的策略选择,最后的博弈结果又回到了(-1,-1),这就形成了第二个纳什均衡。

纳什均衡与囚徒困境的关系

纳什均衡与囚徒困境的关系

纳什均衡与囚徒困境的关系纳什均衡和囚徒困境是博弈论中两个重要的概念。

纳什均衡是指在一个博弈中,每个玩家都选择了最优的策略,而其他玩家也选择了最优的策略,这种情况下,每个玩家都无法通过单方面改变策略来获得更大的收益。

囚徒困境则是指,在一个博弈中,每个玩家都会倾向于选择自己的最优策略,但是这种最优策略对于其他玩家来说并不是最优的,导致所有玩家都会得到较差的结果。

那么,纳什均衡和囚徒困境有什么关系呢?首先,纳什均衡可以被用来解决囚徒困境。

在囚徒困境中,每个囚徒都会选择背叛对方,因为这是他们自己的最优策略。

但是,如果两个囚徒都选择合作,那么他们都能获得比背叛更好的结果。

这种情况下,囚徒困境的纳什均衡就是合作。

如果两个囚徒都选择合作,那么他们都不会通过单方面改变策略来获得更大的收益。

其次,囚徒困境可以被用来解释为什么人们会选择不合作的策略。

在现实生活中,人们经常会面临类似于囚徒困境的情况。

例如,在商业谈判中,每个公司都希望获得更多的收益,但是如果所有公司都选择了竞争,那么他们都会得到比合作更差的结果。

这种情况下,每个公司都可能会选择竞争,因为这是他们自己的最优策略。

但是,如果所有公司都选择了合作,那么他们都能获得比竞争更好的结果。

这种情况下,囚徒困境的纳什均衡就是竞争。

最后,纳什均衡和囚徒困境的研究对于社会科学和经济学有着重要的意义。

在社会科学中,博弈论被广泛应用于研究人类行为和社会互动。

在经济学中,博弈论被用来研究市场竞争、拍卖和合同等问题。

纳什均衡和囚徒困境作为博弈论的核心概念,对于解决这些问题具有重要的理论和实践意义。

总之,纳什均衡和囚徒困境是博弈论中两个重要的概念,它们之间有着密切的关系。

纳什均衡可以被用来解决囚徒困境,囚徒困境可以被用来解释为什么人们会选择不合作的策略。

这些研究对于社会科学和经济学具有重要的意义,为我们深入理解人类行为和社会互动提供了重要的理论基础。

纳什均衡——非合作博弈,囚徒困境

纳什均衡——非合作博弈,囚徒困境

纳什均衡——⾮合作博弈,囚徒困境1、⾮合作博弈是指在策略环境下,⾮合作的框架把所有的⼈的⾏动都当成是个别⾏动。

它主要强调⼀个⼈进⾏⾃主的决策,⽽与这个策略环境中其他⼈⽆关。

博弈并⾮只包含了冲突的元素,往往在很多情况下,既包含了冲突元素,也包含了合作元素。

即冲突和合作是重叠的。

===》求个⼈利益最⼤化2、合作博弈是指⼀些参与者以同盟、合作的⽅式进⾏的博弈,博弈活动就是不同集团之间的对抗。

在合作博弈中,参与者未必会做出合作⾏为,然⽽会有⼀个来⾃外部的机构惩罚⾮合作者。

合作博弈亦称为正和博弈,是指博弈双⽅的利益都有所增加,或者⾄少是⼀⽅的利益增加,⽽另⼀⽅的利益不受损害,因⽽整个社会的利益有所增加的。

===》求集体利益最⼤化囚徒困境终于被破解了!⼩伙1句狠话轻松破解难题,豪取50万英镑==》本质上的解法是在将⾮合作博弈变成合作博弈发布时间: 05-1122:12教育领域创作者囚徒困境,据说是博弈论中最棘⼿的难题,⽆⼈可破!不过,这个世纪难题却被⼀个年轻的英国街头混混⽤1句话给轻松破解了,并且豪取50万英镑。

01、什么是囚徒困境?囚徒困境,是1950年美国兰德公司提出来的,并以故事的形式进⾏阐述:两⼈因合伙盗窃杀⼈被逮捕,警⽅将他们两⼈分开进⾏审讯,并给了他们3个选择:1、如果两个⼈都抵赖,各判刑1年;2、如果两个⼈都坦⽩,各判刑8年;3、如果其中⼀⼈坦⽩,坦⽩者会被释放,抵赖者则会判刑10年。

很明显,两个囚徒都⾯临着两种选择:坦⽩或者抵赖。

由于两⼈处于隔离状态,并不知道同伙会如何选择,那么,他们就只能基于⼈性的⾃私,⽽去断定同伙肯定会去对其来说最有利的⽅式:坦⽩!既然同伙坦⽩了,那么⾃⼰抵赖就会被判10年,太亏了。

于是,他⾃⼰也会选择坦⽩——最坏也是8年,如果运⽓好,还可能直接释放。

这样⼀来,每个⼈都这样猜想对⽅,那么他们最终的结果就是都坦⽩,同时被判刑8年。

02、英国⼩伙破解囚徒困境的神操作!囚徒困境充分利⽤了⼈性的⾃私,基本⽆法破解。

“囚徒困境”中非纳什均衡出现的可能性及其原因分析

“囚徒困境”中非纳什均衡出现的可能性及其原因分析

摘要:“囚徒困境”博弈是完全信息静态博弈的典型例子,被认为是上策纳什均衡,具有必然性,但在现实中非纳什均衡也同样出现。

本文就“囚徒困境”中非纳什均衡出现的问题,对博弈的前提假设完全理性、完全信息以及概率进行了分析,得出的结论是:完全理性中的整体思维方式和概率为零的事件的发生以及完全信息等于一致信念时引起的不确定性,都可能导致非纳什均衡出现,而其出现的可能性则取决于采取整体思维方式的人的比例。

关键词:囚徒困境;完全理性;概率;完全信息;整体思维方式The Analysis about the Probability and Reasons of Non-Nash Equilibrium in Prisoners’DilemmaAbstract: The prisoners’dilemma, which is the representative example of complete information static game, is deemed to dominant-strategy Nash equilibrium and has the inevitability, but in fact non-Nash equilibrium also appears. To the question of non-Nash equilibrium in prisoners’dilemma, this paper makes an analysis to Game Theory’s hypothesis: complete rationality, complete information and probability, and gets a result: sy stems thinking style in complete rationality, the happen of the event of zero probability, and the uncertainty that is brought out when complete information is concordant beliefs,all can bring the appearance of non-Nash equilibrium, and the probability of appearance is decided by the proportion of men who think in systems thinking s tyle.Key Words: prisoners’dilemma; complete rationality; probabili ty; complete information; systems thinking style“囚徒困境”博弈是图克(Tucker)1950年提出的一个著名的博弈模型,是完全信息静态博弈的典型例子。

囚徒困境——纳什均衡

囚徒困境——纳什均衡

囚徒困境——纳什均衡警⽅逮捕甲、⼄两名嫌疑犯,但没有⾜够证据指控⼆⼈⼊罪。

于是警⽅分开囚禁嫌疑犯,分别和⼆⼈见⾯,并向双⽅提供以下相同的选择: 若⼀⼈认罪并作证检控对⽅(相关术语称“背叛”对⽅),⽽对⽅保持沉默,此⼈将即时获释,沉默者将判监10年。

若⼆⼈都保持沉默(相关术语称互相“合作”),则⼆⼈同样判监1年。

若⼆⼈都互相检举(相关术语称互相“背叛”),则⼆⼈同样判监8年。

⽤表格概述如下:甲沉默甲背叛⼄沉默⼆⼈同服刑1年⼄服刑10年,甲即时获释⼄背叛甲服刑10年,⼄即时获释⼆⼈同服刑8年 如同的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利⼰的,即都寻求最⼤⾃⾝利益,⽽不关⼼另⼀参与者的利益。

参与者某⼀策略所得利益,如果在任何情况下都⽐其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。

另外,没有任何其他⼒量⼲预个⼈决策,参与者可完全按照⾃⼰意愿选择策略。

囚徒到底应该选择哪⼀项策略,才能将⾃⼰个⼈的刑期缩⾄最短?两名囚徒由于隔绝监禁,并不知道对⽅选择;⽽即使他们能交谈,还是未必能够尽信对⽅不会反⼝。

就个⼈的理性选择⽽⾔,检举背叛对⽅所得刑期,总⽐沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择: 若对⽅沉默、背叛会让我获释,所以会选择背叛。

若对⽅背叛指控我,我也要指控对⽅才能得到较低的刑期,所以也是会选择背叛。

⼆⼈⾯对的情况⼀样,所以⼆⼈的理性思考都会得出相同的结论——选择背叛。

背叛是两种策略之中的⽀配性策略。

因此,这场博弈中唯⼀可能达到的纳什均衡,就是双⽅参与者都背叛对⽅,结果⼆⼈同样服刑8年。

这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决⽅案。

以全体利益⽽⾔,如果两个参与者都合作保持沉默,两⼈都只会被判刑1年,总体利益更⾼,结果也⽐两⼈背叛对⽅、判刑8年的情况较佳。

但根据以上假设,⼆⼈均为理性的个⼈,且只追求⾃⼰个⼈利益。

均衡状况会是两个囚徒都选择背叛,结果⼆⼈判决均⽐合作为⾼,总体利益较合作为低。

纳什均衡囚徒困境帕雷托最优-最通俗的解答

纳什均衡囚徒困境帕雷托最优-最通俗的解答

纳什均衡囚徒困境帕雷托最优-最通俗的解答在知乎的纳什均衡回答里看到这么一个观点:1. 三个火枪手中那句名言:All for one,one for all (人人为我,我为人人),我的理解是,贵族武士之间,通过自利和利他的行为实现共同目的2. 亚当斯密提出invisible hand理论时候的基本前提:当市场中每个人都进行自利行为的时候,在客观上说,市场(或社会)整体的福利会被提升而纳什均衡恰好否定了前面的观点,我认为这也是这一理论如此著名的原因:当市场中每个人都进行自利行为的时候,在客观上说,市场(或社会)整体的福利是无法达到最优的。

纳什均衡(Nash equilibrium),无一参与者可以通过独自行动而增加收益的策略组合。

其经典的例子就是囚徒困境(Prisoner's Dilemma)。

囚徒困境是一个非零和博弈,反映个人最佳选择并非团体最佳选择。

或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。

大意是:一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被立即释放,而对方将被判刑十年;如果两人均招供,将均被判刑两年。

如果两人均不招供,将最有利,只被判刑半年。

于是,两人同时陷入招供还是不招供的两难处境。

但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供,这种情况就称为纳什均衡。

这时,个体的理性利益选择是与整体的理性利益选择不一致的。

囚犯的博弈矩阵囚犯甲招供不招供囚犯乙招供各判刑两年甲判刑十年,乙立即释放不招供甲立即释放,乙判刑十年各判刑半年基于经济学中“理性经济人”的前提假设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被判刑半年就不会出现。

事实上,这样两人都选择坦白的策略以及因此被判两年的结局被称作是“纳什均衡”(也叫非合作均衡),换言之,在此情况下,无一参与者可以“独自行动”(即单方面改变决定)而增加收获。

囚徒困境与纳什均衡

囚徒困境与纳什均衡

陈鲁豫亲手抓盗版书《心相约》
无论怎么打击,盗版书仍是屡禁不绝。而 一个更加奇怪的现象出现了:一些畅销书还没 有印刷完毕,其盗版书竟已堂而皇之地走上了
书摊———他们一改过去“跟风”的传统, 抢在了正版书的前面。而且盗版和正版几 乎没有什么差别。这种情况下,人们只能 得出一个结论:出版部门出了“内奸” 。
0
1
A
B
1/4麦当劳
1/2
3/4肯德基
在顾客均匀散布的情况下,从资源的最佳配置来看,麦当劳、 肯德基应该分别开在1/4、3/4处是最优,各自拥有1/2的顾客量, 同时顾客到快餐店的总距离最短。
现在学习的是第27页,共52页
位置博弈
出于理性考虑,肯德基肯定会想到:如果将店铺从3/4点处向左 移一点,将从麦当劳抢夺走部分顾客。而麦当劳自然也想到从 1/4点处向右移动以争取更多的顾客。
“假如经济学家是按照他们撰写的论文平 均每篇的贡献大小排定座次的话,那么约
翰•纳什就有极好的理由争夺头把交椅。 ……假如别人每次写到或说到“纳什均衡
”,纳什就能得到1美元,那么他早就变 成大富翁了。”
现在学习的是第12页,共52页
二、现实生活中的“囚徒困境 ”
现在学习的是第13页,共52页
现实生活中的“囚徒困境 ”
“囚徒困境”是一些非常普遍而有趣的情形的简单抽象。 [明]宋濂《宋文宪公全集》记有一个故事:
玉寅生与三乌丛臣是朋友,他们曾歃血盟誓:“我辈应自励,他日 入朝为官,绝不趋炎附势。如有违此誓,请神明惩罚。”
没多久,他们一起到晋国为官。当时赵宣子是晋王宠臣,各 大夫均奔走于他家。玉寅生重申以前的誓言,三乌丛臣也说:“
个故事: 第二次世界大战胜利在望,投弹手
尤塞里安不想成为胜利前夕最后一批 牺牲者,千方百计逃避执行任务。他 的上级军官问:“可是,假如我方士 兵都这么想呢?”可尤塞里安答道:“ 那我若是不这么想,岂不就成了一个大 傻瓜?”
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析囚徒困境
欧阳家百(2021.03.07)
囚徒困境是博弈论的非零和博弈中具代表性的例子,指反映个人最佳选择并非团体最佳选择。

囚徒困境的经典案例这里不再复述,让我们看一下身边的例子。

囚徒困境在生活中最常见的表现就是挤公共汽车。

从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。

学生也同样遭遇囚徒困境:减轻中小学生过重负担喊了20多年,仅1985年至2000年的15年里,中央就下达“减负令”49次。

但实际情况却是学生课业负担不但没减下来,反倒呈现出越演越烈之势,致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。

可见“减负令”难以见效,中小学生课业负担不减反增。

又比如近年来炒得火热的楼市——“我没买房,结果房价还是涨了,因为我们无法保证大家都不买房。

可是,我错了吗?没有。

当初如果我买房了,房价下跌了呢?因为我不能保证大家都买房。

人们根本不能预知在疾风暴雨式的调控之下,房价竟还能且调且涨。

可是,我对了吗?没有。

”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。

含泪的
“调侃”折射出当下楼市的“囚徒困境”:买,难担高房价重负;不买,难受房价节节攀升的煎熬。

再看中国的法治之路。

虽然法治让所有人都长期受益,甚至执政者自己也不例外,但是一个狭隘理性社会却偏偏无力支撑法治,以至最后每个理性人都不得不忍受法治缺位的非理性之苦。

绝大多数中国人都是很识时务的理性人,不会故意给自己找茬,多数律师也不例外。

不过,任何事物都有两面性,“理性”过了头也就成了非理性。

这就是充斥着当今中国社会的“囚徒困境”:一种行为模式对于个人看起来是很理性的,但是对于个人构成的集体来说却是非理性的,最后对于每个人来说也是非理性的。

我们都不敢站出来说话,对每个人来说都是很“理性”的一种行为方式,但最后的结果只能是让整个社会丧失法治。

但囚徒困境一定是坏事吗?就以囚徒困境的经典案例来说,作为一个比喻,我们会为囚犯不能合作而遗憾;可是如果它发生在现实中,我们就巴不得他们不能合作。

然而如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。

连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”的含义。

但合作的可能性不是必然性。

博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。

比如在楼市的囚徒困境中,政府能
适当调控房价,给予购房者房价稳定合理的承诺,那么楼市的囚徒困境是有可能破解的。

在重复的囚徒困境中,博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时,合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

在博弈达到纳什均衡时,局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益,于是各方为了自己利益的最大化而选择了某中最优策略,并与其他对手达成了某种暂时的平衡。

这种平衡在外界环境没有变化的情况下,倘若有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳定。

在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。

在“囚徒困境”变形的博弈中,双方都不坦白就是一个纳什均衡,这对双方来说都是最优选择。

同时在这个博弈中,其均衡对双方来说是全局最优的。

当然博弈达到纳什均衡,并不一定是对参与者最有利的结果博弈达到纳什均衡,并不一定是对参与者最有利的结果,更不意味着是对整个社会而言最有利的结果,比如囚徒困境就导致了整体的不利。

囚徒双方没有信息交换下的博弈,就是博弈论中的静态博弈静态博弈概念。

在同静态博弈时行动的静态博弈里,没有一个博弈者可以在自己行动之前得知另一
个博弈者的整个计划。

“纳什均衡”对亚当斯密的“看不见的手”的原理提出挑战。

按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。

《国富论》中有这样一句名言:“ 通过追求个人的自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。

”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。

两个囚徒的命运就是如此。

囚徒困境中,每个人采取的都是最优的战略,但是结果却是最劣,原因在于个人理性和集体理性的冲突。

在“囚徒困境”中表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。

独立于对方所用策略之外的最好决策规则是不存在的。

“囚徒困境”一般是一些非常普遍而有趣的情形的简单抽象。

在这些情形中,从个人的角度来说,背叛是最好的选择,但双方背叛就会导致不甚理想的结果出现。

相关文档
最新文档