浅析生活中的囚徒困境

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅析生活中的囚徒困境
商学院0908210313 工程一班杨鹏
内容摘要: 我们把动物利用大自然移动的瘾魂，在决策人期待的空间里，形成相对均衡的语文学理论，称为博弈论。

博弈论（Game Theory），亦名“对策论”、“赛局理论”，属应用数学的一个分支,近年来,在经济学中的应用越来越广,近年来的诺贝尔奖不断授予研究博弈论的人. 生活中，博弈仍然无处不在。

博弈论代表着一种全新的分析方法和全新的思想,最经典的当属于出现在生活中各处的囚徒理论，探讨个体最优和整体最优的矛盾。

关键词:博弈论经济学生活囚徒困境
一、博弈论的产生和发展
博弈论思想古已有之，我国古代的《孙子兵法》就不仅是一部军事著作，而且算是最早的一部博弈论专著。

博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上,没有向理论化发展，正式发展成一门学科则是在20世纪初。

1928年冯·诺意曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。

1944年，冯·诺意曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。

谈到博弈论就不能忽略博弈论天才纳什，纳什的开创性论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出了纳什均衡的概念和均衡存在定理。

此外，塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。

直至《博弈圣经》的出现，《博弈圣经》与原有博弈论书籍最大的不同就在于，独创了国正论、国正双赢理论和粒子行为论，书中博弈取胜的文化理论统一了人类的博弈占优行为。

更重要的是，它让博弈理论终于可以在现实生活中具体操作，让普通大众通过研习，成为真正的博弈高手。

因此，《博弈圣经》中的博弈理论在政治、经济、文化、生活、娱乐等社会的各个领域具有可应用性，并且对于个人的工作、生活也有具体的指导意义。

此外，塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。

今天博弈论已发展成一门较完善的的学科。

二、博弈论的基本概念
1.基本假设
“理性人”假设（hypothesis of rational man）是指作为经济决策的主体都是充满理智的, 既不会感情用事, 也不会盲从, 而是精于判断和计算, 其行为是理性的。

在经济活动中, 主体所追求的惟一目标是自身经济利益的最优化。

2.基本要素
①决策人：在博弈中率先作出决策的一方，这一方往往依据自身的感受、经验和
表面状态优先采取一种有方向性的行动。

②对抗者：在博弈二人对局中行动滞后的那个人，与决策人要作出基本反面的决
定，并且他的动作是滞后的、默认的、被动的，但最终占优。

他的策略可能依赖
于决策人劣势的策略选择，占去空间特性，因此对抗是唯一占优的方式，实为领
导人的阶段性终结行为。

③生物亲序：所有生物在恶劣、未知的环境中都有寻找规律和有序的本能。

在博
弈中指参与者有从混乱的环境中等待、寻找有序的亲近行为。

④局中人（players）：在一场竞赛或博弈中，每一个有决策权的参与者成为一
个局中人。

只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的
博弈称为“多人博弈”。

⑤策略(strategiges)：一局博弈中，每个局中人都有选择实际可行的完整的行
动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局
中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策
略。

如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则
称为“无限博弈”。

⑥得失(payoffs)：一局博弈结局时的结果称为得失。

每个局中人在一局博弈结
束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的
一组策略有关。

所以，一局博弈结束时每个局中人的“得失”是全体局中人所取
定的一组策略的函数，通常称为支付（payoff）函数。

⑦次序（orders）：各博弈方的决策有先后之分，且一个博弈方要作不止一次的
决策选择，就出现了次序问题；其他要素相同次序不同，博弈就不同。

3.基本类型
① 合作博弈——研究人们达成合作时如何分配合作得到的收益，即收益分配
问题。

② 非合作博弈——研究人们在利益相互影响的局势中如何选决策使自己的
收益最大，即策略选择问题。

③ 完全信息不完全信息博弈：参与者对所有参与者的策略空间及策略组合下
的支付有充了解称为完全信息；反之，则称为不完全信息。

④ 静态博弈和动态博弈
（1）静态博弈：指参与者同时采取行动，或者尽管有先后顺序，但后行动者不知道先行动者的策略。

⑤ （2）动态博弈：指双方的的行动有先后顺序并且后行动者可以知道先行
动者的策略。

博弈论在经济学中主要用两种形式：策略型博弈与展开型博弈，即纯策略（局中人确定性地从自己的策略集中选取一个策略）和混和策略（局中人在自己的策略集中随机地选取策略）
三、博弈在当今经济中的意义
经典意义上的经济学,以经济主体人的自利行为以及相应的市场反应作为研究的出发点。

无论是消费者还是生产者,也无论是竞争形势还是垄断形势,基本上是经济主体人面对市场作出自己的最优决策。

无论形势严峻也好还是宽松也好,行为的结果是主体人自己决策的结果。

现代经济活动早已超出上述模式。

竞争的结果是许多行业都剩下少数几家企业,每一方的市场份额都很大,每一个主体人的行为后果,受对手的行为的影响很大。

博弈论就是研究利益冲突的主体人的对局的理论。

现代经济学的创始人亚当·斯密曾经描述市场机制这只“看不见的手”,会引导人们自利的行为促进社会的福利。

博弈论的“囚徒困境”却揭示,非合作的自利行为可能导致两败俱伤的前景。

在工作中，你在和上司博弈，也在和下属博弈，你也同样会跟其他相关部门人员博弈；而要开展业务，你更是在和你的客户以及竞争对手博弈。

在生活中，博弈仍然无处不在。

博弈论代表着一种全新的分析方法和全新的思,生活就是和某一件事有关利益群体的集中博弈后呈现出来的结果,可以说,现在社会中的人的一举一动都是博弈出来的结果,彼此相互妥协得到的.
四、生活中囚徒困境博弈
有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”（prisoners’ dilemma）博弈模型,.市场是残酷的，是无情的，你不追求利润最大化，不追求效用最大化，你就难以存活下去，同自然界“物竞选择”一样，从这个方面讲，人类社会似乎是一个“利”者生存的社会，没有利润，企业生存不了，工人存活不了。

所以，自利的原则还是存在的。

不可能使得最终所追求的利益最大化，但这并不是说人们不想最大化其利润，个体理性、个体利益最大，不一定能导致集体理性、集体利益最大，“囚徒困境”就是个人利益与集体利益相冲突的典型。

①价格大战的囚徒困境
这方面以中国电信和中国联通的来说明.根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。

假设此博弈的参加者为电信运营商A与B,他们在电信某一领域展开竞争，一开始的价格都是P0。

A（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；B（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。

正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中就有B的价格可以比P0低10％。

这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。

在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。

这时候，A该怎么做？不妨假定：
A降价而B维持，则A获利15，B损失5，整体获利10；
A维持且B也维持，则A获利5，B获利10，整体获利15；
A维持而B降价，则A损失10，B获利15，整体获利5；
A降价且B也降价，则A损失5，B损失5，整体损失10。

从A角度看，显然降价要比维持好，降价至少可以保证比B好，在概率均等的情况下，A降价的收益为15×50％－5×50％＝5，维持的收益为5×50％－10×50％＝－2．5，为了自身利益的最大化，A就不可避免地选择了降价。

从B角度看，效果也一样，降价同样比维持好，其降价收益为5，维持收益为2．5，它也同样会选择降价。

在这轮博弈中，A、B都将降价作为策略，因此各损失5，整体损失10，整体收益是最差的。

这就是此博弈最终所出现的纳什均衡。

我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象，各个局部都寻求利益的最大化，而整体利益却不是最优，甚至是最差
②公共设施修建的囚徒困境
设想有两户相居为邻的农家（双方都是理性人），十分需要有一条好路从居住地通往公路。

修一条路的成本为4，每个农家从修好的好路上获得的好处为3。

如果两户居民共同出资联合修路，并平均分摊修路成本，则每户居民获得净的好处（支付）为3-4/2=1；当只有一户人家单独出资修路时，修路的居民获得的支付为3-4=-1（亏损），“搭便车”不出资但仍然可以使用修好的路的另一户人家获得支付3-0=3.修路博弈的得利如下图所示:
表2 修路博弈
我们看到，对甲和乙两家居民来说，“修路”都是劣战略，因而他们都不会出资修路。

这里，为了解决这条新路的建设问题，需要政府强制性地分别向每家征税2单位，然后投入4单位资金修好这条对大家都有好处的路，并使两家居民的生活水平都得到改善。

③教育类囚徒困境
我国的中小学的教育一直在提倡肩负,但大家多知道,减到现在反而是越减越重了,已经陷入到素质和作业的囚徒困境中去了. 在现有的教育体制下，学生（或学生家长）有两个可选择的策略：“减负”和“增负”。

学生的精力是有限的，如果选择“减负”策略，意味着学生有更多的时间学习课本以外的东西，这样学生的素质得到提高，因此，“减负”策略往往与素质教育联系在一起；而如果选择“增负”策略，则意味着学生花大量的时间做大量的习题，以“学透”、“学精”课本规定的东西，此时，学生没有时间学习课本以外的没有规定的内容。

“减负”的结果是学生的全面发展；而“增负”的结果是学生获得高的分数。

在这样的博弈结构下，学生（或学生家长）如何选择呢？每个学生这样想：其他人采取的是“增负”教育策略的话，如果我采取“减负”教育策略，我的考试分数不如他人，在求学方面我会落后，接受不了好的教育，在未来求职时我也赶不上他人。

在他人采取“增负”的策略下，我也应当采取“增负”策略。

如果其他人采取的是“减负”策略，我应当采取什
么策略呢？还是应当采取“增负”策略！因为，如果其他人采取的是“减负”策略的话，如果我采取的是“增负”策略，我的考试分数会比其他人高，我会上好的学校，在未来的职业竞争中我会处于优势。

因此，无论其他人采取的是什么策略，我采取“增负”策略都是最好的。

当每个学生都这样想的时候，全社会便进入了应试教育这样一个囚徒困境之中。

如果我国现有的考试制度没有改变，现在假设所有的学生都选择“减负”策略，即除了做少量的巩固性的作业外，不补课、不做其他的练习题，情况会是什么样子？
假设这种状态会出现，我们说，这种状态会很快消失，而立即会出现所有学生都进入“增负”的这样一个状态。

可以说，均选择“减负”策略的状态是不稳定的，而“增负”的状态是稳定的均衡。

原因就是，目前的教育的博弈结构规定了各种行动或行为的收益或好处：获得高分的会进入好的初中、高中，进入好的初中、高中的学生可以考高分进入好的大学。

在这个博弈中，对于教师来说，学生的升学率高意味着其成绩大、奖金高，对自己的学生采取“增负”策略，对于自己而言是占优策略。

我国基础教育的博弈与囚徒困境有共同的结构，大家均选择“增负”策略构成基础教育博弈的纳什均衡。

纳什均衡是一个稳定的博弈结果，这也是为什么我国目前的应试教育难以改变的原因。

④恋人变心的囚徒困境
两个人相爱后,在以后的时间内,如果双方都不变心，那是最好的结局，在天愿为比翼鸟，在地愿为连理枝嘛；如果都变了心，效果也不坏，你走你的阳关道，我过我的独木桥嘛；如果一方变了心，另外找到了更好的情侣，一方却还傻乎乎地忠贞不二，那么，另觅新欢的一方是最幸福的，比两人都不变心的结果还幸福，因为他找见了更好的情人，而被抛弃的一方是最不幸的，比两人都变心的结果更不幸，因为他承担的压力既来自于对方的太幸福，也来自于自己的太不幸福。

按照囚徒困境的分析结论，恋人最得意的选择是另觅新欢，最天真的选择是天荒地老，最理性的选择是分道扬镳，最糟糕的选择是被另有新欢的对方无情抛弃。

但是，反关现实中的恋人，大都天真的认为能够天荒地老, 对于最理性的选择,又认为结局过于残酷, 没有谁愿意回头是岸，甚至被对方抛弃了还不死心,反而结果变成了最糟糕的选择.所以这就是假设为理性人的情况下,个体的最优化选择和整体最优的矛盾.
五、囚徒困境的博弈和分析感受
囚徒困境的理性人假设,注定每个人都是利己的,在消息不对称的情况下,每个人只能根据自身要采取的利己措施,来保证自己的利益最大化,但当每个人都这么想的话,都会采取对别人最坏的措施,最终的结果是整体处于一个非常糟糕的状态,但由于此时已经达到纳什均衡,这个状态时稳定的,所以最后就陷入了恶性循环中.这个时候就要有类似于公共设施的政府来保证整体的利益维持在最坏和最好的之间,保持稳定..
这个个体和集体的矛盾,解决的办法就是彼此相信,合作共赢. 当然，在现实世界里，信任与合作很少达到如此两难的境地。

谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。

但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。

正如中国的一句俗话“冤冤相报何时了”，要想避免两败俱伤的情况出现，就要对彼此有信心，相互了解，在这样的博弈中，善意的；2．宽容的；3．强硬的；4．简单明了的人最后都会是大赢家。

每个人都应该以自己的实际行动展现自己的善意，创造双赢的局面，共同走出囚徒困境。

参考文献:
[1] 王春永.《博弈论的诡计》 [J]. 中国发展出版社，2007.
[2] 弗登博格，梯若尔.《博弈论》 [J].中国人名大学出版社》2010。