浅析囚徒困境与纳什均衡

合集下载

好的纳什均衡例子(一)

好的纳什均衡例子(一)好的纳什均衡什么是纳什均衡？纳什均衡是博弈论中的一个重要概念，指的是在博弈参与者之间形成的一种稳定和平衡的策略选择状态。

在纳什均衡下，任何一个参与者都无法通过改变自己的策略来获得更大的利益。

好的纳什均衡指的是存在多个纳什均衡时，其中某些纳什均衡比其他纳什均衡更为理想。

例子一：囚徒困境囚徒困境是博弈论中最经典的例子之一。

假设有两个犯人，他们因为涉嫌合谋犯罪被捕，警察只有有限的证据。

警察与每个犯人分别进行单独审讯，并给他们提供了合作和背叛两个选项，这两个选项对应于认罪和抵赖。

如果两个人都选择合作，即认罪，则每个人都会被判刑2年；如果两个人都选择背叛，即抵赖，则每个人都会被判刑5年；如果一个人选择合作而另一个选择背叛，则合作的人会被判刑6年，而背叛的人会被判刑1年。

在这个案例中，存在两个纳什均衡：互相背叛和互相合作。

然而，互相合作是更为理想的纳什均衡，因为如果两个人都选择合作，他们的总刑期将会最短，只有2年。

例子二：拍卖拍卖是另一个常见的博弈场景。

假设有两个竞拍者A和B，他们在一个拍卖会上竞价购买一件物品。

物品的最低价格为100元。

竞拍者A知道他的估值是200元，而竞拍者B知道他的估值是150元。

他们每次可以按照一定幅度加价，但不能超过自己的估值。

在这个案例中，存在两个纳什均衡：A出价200元，B不出价；B 出价150元，A不出价。

然而，对于卖家来说，A出价200元，B不出价是更好的纳什均衡，因为这样卖家可以以更高的价格售出物品。

例子三：价格战价格战是市场竞争中常见的博弈情景。

假设有两家公司A和B，它们在同一个市场上销售类似的产品。

它们可以根据自己的利润目标制定价格。

如果两家公司的价格相等，则它们将平分市场份额；如果一家公司的价格比另一家低，则它将获得更大的市场份额。

在这个案例中，存在两个纳什均衡：价格相等和一家公司的价格低于另一家。

然而，价格相等是更好的纳什均衡，因为这样两家公司可以共享更多的市场份额，并且避免因为价格战而导致的利润下降。

完整揭示纳什均衡概念的内涵及解决囚徒的困境

Advances in Applied Mathematics 应用数学进展, 2018, 7(10), 1317-1324Published Online October 2018 in Hans. /journal/aamhttps:///10.12677/aam.2018.710153Complete Disclosure of the Connotations of Nash Equilibrium Concept and Solution tothe Prisoners’ DilemmaLiusheng YangShaanxi Chang’an Normal School, Xi’an ShaanxiReceived: Oct. 7th, 2018; accepted: Oct. 22nd, 2018; published: Oct. 30th, 2018AbstractIn order to solve the inconsistency caused by prisoners’ dilemma, it is necessary to re-examine the validity of the previous argumentation. The results reveal that the connotations of Nash Equili-brium Concept fail to be completely disclosed, and thus it is necessary to rectify the definitions of Nash Equilibrium, Dominant Strategy and other concepts; the logical necessity of the answer is the reason and condition for two prisoners to cooperate with each other. Conclusion: ① The reason for the occurrence of Prisoners’ Dilemma is as follows: logically, one side involved in the dilemma intends to regard ahead the selection of the assumptive opposite side but behind his own strategy in times of inference, but in fact, the both sides typically make their own selections simultaneously, and if resultant strategy profile is not Nash Equilibrium, it should not have existed in theory. ② In the game of Prisoner’s Dilemma, the optimal plan is provable and there. ③ There is no dominant strategy and dominant strategy equilibrium. ④ Both the “guilty plea of both sides” and “plea of not guilty of both sides” are Nash Equilibrium. ⑤ Nash Equilibrium, the “invisible hand” theory of Adam Smith and Pareto optimality are coordinated.KeywordsPrisoners’ Dilemma, Nash Equilibrium, Dominant Strategy, Adam Smith, Pareto Optimality,Rational People完整揭示纳什均衡概念的内涵及解决囚徒的困境杨六省陕西省长安师范学校，陕西西安杨六省收稿日期：2018年10月7日；录用日期：2018年10月22日；发布日期：2018年10月30日摘要为了解决囚徒的困境所引起的不一致性，有必要对以往论证的有效性进行重新审查，结果发现，纳什均衡概念的内涵并未得到完整的揭示，从而，纳什均衡及占优策略等概念的定义需要修正；答案所具有的逻辑必然性是两个囚徒应该和能够进行合作的理由和条件。

证明囚徒困境复制因子方程的稳定均衡为纳什均衡

证明囚徒困境复制因子方程的稳定均衡为纳什均衡
囚徒困境复制因子方程是一种模型，用于描述两个个体之间的竞争或合作关系。

该模型中存在一个稳定均衡点，称为纳什均衡。

证明囚徒困境复制因子方程的稳定均衡为纳什均衡，需要先了解什么是囚徒困境。

囚徒困境是指两个犯罪嫌疑人被捕后，分别被关押在不同的房间里。

警方让他们各自交代出对方的罪行，如果两人都不说，那么两人各判刑1年；如果两人都说，那么两人各判刑3年；如果一个人说，一个人不说，那么说的人免罪，不说的人则判刑5年。

在囚徒困境中，两个人都想要尽可能地减轻自己的惩罚，但同时也要考虑对方的行为。

这就是典型的非合作博弈。

在复制因子方程中，每个人都有一个策略，即说或者不说。

每次博弈之后，双方的策略会根据结果进行复制，赢家的策略更容易被复制。

这就是复制因子方程的核心思想。

在囚徒困境复制因子方程中，存在一个稳定均衡点，即当两个人都选择不说的时候，这个状态稳定，即使有一方改变策略，也不会有太大的影响。

这个稳定均衡点就是纳什均衡。

为什么说这个稳定均衡点是纳什均衡呢？因为纳什均衡是指在
博弈中，每个人都选择了自己最优的策略，而不考虑对方的策略。

在囚徒困境中，两个人都选择不说的话，对于个体来说，这是最优的策略。

即使对方改变了策略，自己也不会受到太大的影响，因此这个稳定均衡点就是纳什均衡。

综上所述，囚徒困境复制因子方程的稳定均衡为纳什均衡的证明
就是这样的。

纳什均衡和囚徒困境的关系

纳什均衡和囚徒困境的关系
囚徒困境所形成的均衡解就是纳什均衡解，即两个囚徒从自身效用最大化的角度考虑都会选择坦白，但这并非帕累托最优状态。

纳什均衡由约翰•纳什于20世纪50年代在一系列有关博弈论的论文中提出。

他假设有n个局中人参与博弈，在给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己效用最大化。

所有局中人策略构成一个策略组合（StrategyProfile）。

纳什均衡就是指这样一种战略组合，这种策略组合由所有参与人最优策略组成，即在给定别人策略的情况下，没有人有足够理由打破这种均衡。

囚徒困境、智猪博弈、纳什均衡与一致预期（博弈论入门学习笔记二）

囚徒困境、智猪博弈、纳什均衡与一致预期（博弈论入门学习笔记二）0 囚徒困境：假定有两个犯罪嫌疑人共同作案。

警察抓住他们以后，分开拘押，并告诉他们：可以选择坦白，或是不坦白；如果一个人坦白，而另一个人不坦白，则坦白的一方会被立即释放，而不坦白的一方被判10年；如果两人都坦白，则会每人各判8年；如果两人都抵赖，因证据不足，则每人在关押1年后释放。

那么，这两个犯罪嫌疑人该如何选择呢？现在我们来看参与人甲和乙会如何决策。

我们假设参与人是理性的，都不想坐牢，能少坐牢尽量少坐牢。

我们先考虑甲的选择，他面对的问题是：如果乙坦白的话，自己坦白判8年，不坦白判10年，那么坦白比不坦白好；如果乙不坦白，自己坦白会被立即释放，不坦白则判1年，坦白还是比不坦白好。

因此，不论对方坦白不坦白，甲或乙自己的最优选择都是坦白。

占优均衡：一般来说，由于每个参与人的效用依赖于所有人的选择，因此每个人的最优选择（战略）也依赖于所有其他人的选择（战略）。

但由囚徒困境我们可以看出，一个人的最优选择并不依赖于他人的选择。

这样的最优战略，被称为“占优战略”。

由所有参与人的占优战略构成的战略组合被称为“占优均衡”。

占优战略均衡的出现只要求所有人都是理性的，但不要求每个参与人知道其他人是否理性。

囚徒困境博弈有占优均衡，所以其结果很容易预测。

“囚徒困境”表明个人理性与集体理性的冲突。

这样的例子有很多：寡头竞争，军备竞赛，团队生产中的劳动供给，公共产品的供给，等等。

许多的制度就是为了解决“囚徒困境”而存在的。

私人产品是志愿购买的，但公共产品可能需要强制购买；税收制度就是保证公共产品的生产，解决公共产品生产上的“囚徒困境”。

囚徒困境的一般表示：要使上述博弈成为一个囚徒困境需要满足这样一个条件：R>T>P>S。

解决囚徒困境的一种方式：用法律解决“囚徒困境”满足：X>R-T1 “智猪博弈”：设想猪圈里有两头猪，一头大猪和一头小猪。

囚徒困境与纳什均衡的关系

囚徒困境与纳什均衡的关系这两个概念都是博弈论中的概念，那什么是博弈论呢，博弈论是研究竞争现象的一种理论方法。

既然是理论方法就会有许多假设的前提，但在现实情况下，这些前提很可能不会同时存在。

所以所有理论方法，只是有助于你分析并理解现实世界，它只是一种方法，或者是一种思维工具而已，切不可生搬硬套。

博弈论在经济学、生物学、物理学、社会学、政治学中都有应用，所以博弈论是一种十分有用的分析框架。

先介绍一下囚徒困境，然后在囚徒困境中找到纳什均衡的局面，最后进行一下总结。

1.囚徒困境1.1两个犯罪嫌疑人都被抓了起来，并且这两个人都是理性、自利的，并且不能相互交流。

都被告知如下规则。

在这种情况下，两个人会做什么选择？答案是两个人都会选择背叛对方。

分析如下：甲想：如果乙沉默，我背叛的话，就会立即获释。

如果乙背叛，我沉默的话，就会判刑十年。

所以甲会选择背叛。

同理乙也会选择背叛。

最终两人都会服刑5年。

其实有一个最优解就是：甲乙都选择沉默。

这就是“困境”所在：个人的最优解，并不是全局的最优解。

1.2知道次数的囚徒困境。

比如限制十次经过上次的教训，甲知道了沉默是全局的最优解，但是最后一次，甲背叛，乙沉默的话，甲会立马获释。

所以前九次甲都会选择沉默，已获得对方的信任，最后一次会选择背叛。

同理乙也会这么想。

当双方都知道对方在最后一局选择背叛，那么会有人在第九局选择背叛，依次类推。

第一局双方都会选择背叛。

1.3不知道次数的囚徒困境经过多次博弈，背叛会受到惩罚，双方趋向于选择合作。

2.纳什均衡在博弈中会存在一个均衡，任何一方都不愿改变策略，因为这种状况下改变策略会不利于自己。

囚徒困境下的纳什均衡是：双方都背叛。

可以用排除法找到答案，如果两人都沉默的话，只要任何一方背叛，会立马获释。

这种双方都沉默的局面并不稳定。

如果一方沉默，另一方背叛的话。

没有人傻到自己沉默，所以这种情况也是不稳定的。

3.总结3.1局部最优解不是全局最优解。

3.2个人的理性选择，会造成全局的非理性。

纳什均衡-囚徒困境

纳什均衡
囚徒困境
纳什最重要的理论就是现在广泛出现在经济学教科书上的“纳什均衡”。

而“纳什均衡”最著名的一个例子就是“囚徒困境”，大意是：一个案子的两个嫌疑犯被分开审讯，警官分别告诉两个囚犯，如果两人均不招供，将各被判刑一年；如果你招供，而对方不招供，则你将被判刑三个月，而对方将被判刑十年；如果两人均招供，将均被判刑五年。

于是，两人同时陷入招供还是不招供的两难处境。

两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被判刑1年就不会出现。

这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”，也叫非合作均衡。

“纳什均衡”是他21岁博士毕业的论文，也奠定了数十年后他获得诺贝尔经济学奖的基础。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅析囚徒困境
令狐采学
囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。

囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。

囚徒困境在生活中最常见的表现就是挤公共汽车。

从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。

学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。

但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。

可见“减负令”难以见效，中小学生课业负担不减反增。

又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。

可是，我错了吗？没有。

当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。

人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。

可是，我对了吗？没有。

”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的
经典对白。

含泪的“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。

再看中国的法治之路。

虽然法治让所有人都长期受益，甚至执政者自己也不例外，但是一个狭隘理性社会却偏偏无力支撑法治，以至最后每个理性人都不得不忍受法治缺位的非理性之苦。

绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。

不过，任何事物都有两面性，“理性”过了头也就成了非理性。

这就是充斥着当今中国社会的“囚徒困境”：一种行为模式对于个人看起来是很理性的，但是对于个人构成的集体来说却是非理性的，最后对于每个人来说也是非理性的。

我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法治。

但囚徒困境一定是坏事吗？就以囚徒困境的经典案例来说，作为一个比喻，我们会为囚犯不能合作而遗憾；可是如果它发生在现实中，我们就巴不得他们不能合作。

然而如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。

连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”的含义。

但合作的可能性不是必然性。

博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方（最好是实力更强的一方）必须主动通过可信的承诺，向另一方表示合
作的善意，努力把这个善意表达清楚，并传达出去。

比如在楼市的囚徒困境中，政府能适当调控房价，给予购房者房价稳定合理的承诺，那么楼市的囚徒困境是有可能破解的。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

在博弈达到纳什均衡时，局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益，于是各方为了自己利益的最大化而选择了某中最优策略，并与其他对手达成了某种暂时的平衡。

这种平衡在外界环境没有变化的情况下，倘若有关各方坚持原有的利益最大化原则并理性面对现实，那么这种平衡状况就能够长期保持稳定。

在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

在“囚徒困境”变形的博弈中，双方都不坦白就是一个纳什均衡，这对双方来说都是最优选择。

同时在这个博弈中，其均衡对双方来说是全局最优的。

当然博弈达到纳什均衡，并不一定是对参与者最有利的结果博弈达到纳什均衡，并不一定是对参与者最有利的结果，更不意味着是对整个社会而言最有利的结果，比如囚徒困境就导致了整体的不利。

囚徒双方没
有信息交换下的博弈，就是博弈论中的静态博弈静态博弈概念。

在同静态博弈时行动的静态博弈里，没有一个博弈者可以在自己行动之前得知另一个博弈者的整个计划。

“纳什均衡”对亚当斯密的“看不见的手”的原理提出挑战。

按照斯密的理论，在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。

《国富论》中有这样一句名言：“ 通过追求个人的自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。

”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。

两个囚徒的命运就是如此。

囚徒困境中，每个人采取的都是最优的战略,但是结果却是最劣,原因在于个人理性和集体理性的冲突。

在“囚徒困境”中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。

独立于对方所用策略之外的最好决策规则是不存在的。

“囚徒困境”一般是一些非常普遍而有趣的情形的简单抽象。

在这些情形中，从个人的角度来说，背叛是最好的选择，但双方背叛就会导致不甚理想的结果出现。