Chapter11囚徒困境和重复博弈
囚徒困境(博弈论的经典案例)
![囚徒困境(博弈论的经典案例)](https://img.taocdn.com/s3/m/68ab8b573c1ec5da50e270a6.png)
囚徒困境(博弈论的经典案例)学习管理学或经济学的人一定都了解一些博弈论方面的知识。
在博弈论中有一个经典案例--囚徒困境,非常耐人回味。
囚徒困境,说的是两个囚犯的故事。
这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。
在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。
这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。
但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。
而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。
当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
----那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。
但他们不得不仔细考虑对方可能采取什么选择。
A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。
这种想法的诱惑力实在太大了。
但他也意识到,他的同伙也不是傻子,也会这样来设想他。
所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。
而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。
所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
当然,在现实世界里,信任与合作很少达到如此两难的境地。
谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。
重复博弈走出囚犯困境
![重复博弈走出囚犯困境](https://img.taocdn.com/s3/m/3b78990d2af90242a895e592.png)
重复博弈:走出囚犯困境前面所分析的博弈都是一次性的,即每个参与者只有一次策略选择。
而且,在每一个参与者选择自己的策略时,他并不知道其他竞争对手的选择。
也可以理解为,每个参与者都是同时做出自己的一次性的策略选择的。
在这种一次性的博弈中,一旦每个参与者的策略选定,整个博弈的均衡结局也就确定了,每个参与者不可能再对博弈的过程和结果施加什么影响。
这类博弈被称为静态博弈。
与静态博弈相对应的是动态博弈。
动态博弈是一种反复进行的博弈。
重复博弈是动态博弈的一种特殊情况。
在重复博弈中,一个结构相同的博弈被重复多次。
在一次性静态博弈的情况下,寡头市场上结成共谋的每个寡头都面临着囚犯困境:每个寡头出自个人理性的占优策略选择却导致了从整体而言的最坏的结局,即在占优策略均衡中不仅总体利益下降,而且个人利益也是下降的。
造成这一结局的原因很清楚:一方面,在达成合作协议以后,每个寡头厂商出于对自己利益的考虑,都有一种采取机会主义行为的冲动,即单方面偷偷独自采取不合作的策略,以期获得更大的利益。
例如,当合作协议规定各寡头厂商共同维持一个较高的市场价格水平时,每个厂商都会有一种利己的冲动去单方面偷偷降低自己产品的销售价格,以期获得更大的市场份额和销售收入。
当每个寡头厂商都这样想并且这样做之后,整个市场的价格水平就会下降,寡头们的合作协议便被撕毁,最后,每个寡头都落到了最差的结局。
另一方面,需要指出的是,在一次性博弈中,任何厂商的违约和欺骗行为都不会受到惩罚。
因为,当每个厂商完成一次性的策略选择(包括违约和欺骗的策略选择)以后,整个博弈也就永远地结束了,即没有后续的博弈来对已经发生的违约和欺骗行为进行惩罚。
正因为如此,寡头厂商之间的共谋不稳定性是不可避免的,或者说,一次性博弈的囚犯困境的不合作解是必然的。
在重复博弈中,以上的情况就会得到改变。
在分析重复博弈时,我们首先要增加一个假定条件,该假定条件是:在结成合作同盟的寡头厂商之间都采取一种“以牙还牙”的策略。
重复囚徒困境博弈中群体策略演化研究
![重复囚徒困境博弈中群体策略演化研究](https://img.taocdn.com/s3/m/4ba39274a66e58fafab069dc5022aaea998f4194.png)
重复囚徒困境博弈中群体策略演化研究一、囚徒困境:为什么“选择合作”这么难?咱们来聊聊“囚徒困境”,这听起来像是个高深的数学课题对吧?简单说就是两个人被关进了不同的牢房,警察告诉他们,如果都坦白,各判10年;如果一个坦白一个不说话,坦白的那个轻判,那个保持沉默的就判20年;如果都不说话,两人各判5年。
大家能猜到,最理智的选择是“互相背叛”,因为这样自己能少判点罪。
可是,问题来了,背叛的结果对两个人来说其实都不好。
这就像是两个人都明明知道应该合作才能过得好,但偏偏就是没有人愿意先迈出这一步。
人类的这种“背叛倾向”其实挺有意思的,不管是历史上,还是日常生活中,我们总是更容易相信“自己多说两句、自己先动手”,这样看似能避免更坏的结果。
可是,大家都这样想,结果每个人都赔了。
为什么呢?因为,咱们每个人的理性总是会告诉我们“自私一点,能少吃亏”。
这就像你和别人合伙做生意,总是担心对方会先占便宜,结果两人各自背后都在做“防备”,最后钱没赚到,关系也坏了,互相算计成了最后的结果。
二、群体策略的演化:看谁最后笑到最后再往深了说,咱们在说“重复囚徒困境”时,其实就像是在玩一场长期的博弈。
这种博弈不是一次性的,而是每个人都会和对方不断互动、反复博弈。
如果咱们把这个游戏当成一个漫长的马拉松,那每一次的选择,都会影响下一次的决策。
在这种背景下,你是不是觉得有些不太一样呢?对,长期的合作能不能成功?这就要看“群体策略”是怎么演化的了。
人类社会其实一直在面对着这样的问题,怎么选择一个能够长期合作的策略?如果大家都互相背叛,最后的结果会非常惨,损失的可是全体群体的利益。
怎么才能让大家都合作呢?答案似乎很简单:“信任”二字。
你得让大家知道,如果大家都相互合作,大家最终都能受益。
而这种合作又不是一蹴而就的,它需要在反复博弈的过程中,通过一些规则来建立。
比如,有时候你得给对方一些“甜头”,让对方看到合作的好处。
而如果对方背叛了你,你就给点“惩罚”,让他们知道,如果不合作,会有什么后果。
重复博弈囚徒困境【精选】
![重复博弈囚徒困境【精选】](https://img.taocdn.com/s3/m/3bd92b25581b6bd97f19ea65.png)
如果采取合作,设V为j在无限博弈中的最优反
映的收益现值,则有:
a、V 4 4 ... 4 (4 4 ...) 4 V (2)
故:V 4
1
商人1
诚信
欺骗
b、
4 5 1 1
1 4
商 诚信
人 2
欺骗
4,4
0,5
5,0
1,1
图6 信用困境(1)
5、影响重复博弈均衡结果的主要因素是博 弈的重复次数。重复次数的重要性来源 于参与人在短期利益和长远利益之间的 权衡。
2.5—1 有限次重复博弈:连锁店悖论
例1:见下图市场进入博弈,假定同样的市场有20 个,其均衡会与单个市场不同吗? 均衡1:进入者总是选择进入,在位者选择默许; 均衡2:在位者选择斗争,进入者总是选择不进入。
进 进入
入 者
不进入
在位者
默许
斗争
40,50
-10,0
0,300
0,300
图1 市场进入博弈
定理1、如果阶段博弈G有惟一的纳什均衡,则对 任意有限的T,重复博弈G(T)有惟一的子博弈完 美纳什均衡,即G的纳什均衡结果在每一个阶段 重复进行。
注意:此定律的一个重要条件是:单阶段博弈存 在“唯一”的纳什均衡。
1,6
此题解释了现实中
人 2
欺骗
பைடு நூலகம்
6,1
2,2
存在的一类现象——
图3 信用困境(2)
普遍的欺诈行为;没有解释另一类现象——广泛 的合作。
为了在理论上容纳合作解,博弈论主要从三 个方面来加以发展:
一是引入多重均衡;
二是引入无限重复博弈;
三是引入信息不完全。
重复博弈.ppt
![重复博弈.ppt](https://img.taocdn.com/s3/m/bb407ab9ff00bed5b8f31d3b.png)
中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2
囚徒困境从单次博弈到重复博弈
![囚徒困境从单次博弈到重复博弈](https://img.taocdn.com/s3/m/df3ddb1efc4ffe473368ab5d.png)
D
(17q-22,-12) (8q-13,8p-13)
表4
类型
t=1
t=2
t=3
非理性
D
囚徒 1,2 理性
D
D
D
D
C
表5
类型 t=1 t=2 t=3 t=4
囚徒 1,2 非理性 D
D
D
D
理性
D
D
D
C
成就者当推罗伯特·艾克斯罗德、泰勒、哈 丁等人。在其《合作的进化》一书中,艾克 斯罗德用实验证明,在重复博弈条件下,一 次性囚徒困境下背叛的占优策略将会为有 条件合作的占优策略所取代,换言之,在 一次性囚徒困境中,选择不合作策略的博 弈者,在“重复性囚徒困境”中,将会采取 合作策略以最大化个人利益、即“有条件 合作”策略将是重复性囚徒困境下博弈者 的占优策略。
在其合作的进化一书中艾克斯罗德用实验证明在重复博弈条件下一次性囚徒困境下背叛的占优策略将会为有条件合作的占优策略所取代换言之在一次性囚徒困境中选择不合作策略的博弈者在重复性囚徒困境中将会采取合作策略以最大化个人利益即有条件合作策略将是重复性囚徒困境下博弈者的占优策略
先驱论坛 Herald Forum
艾克斯罗德的结论,肯定了纯由利己 主义者组成的世界中,建立互惠合作关系 的可能性。这一结论对于人类社会的意义 在于,即使在缺少政府权威的人群中,人 们合作或建立社会秩序也是可能的,因为 合作本身符合当事人长远的、根本的利益。 合作产生的条件就是:“人们重新相遇的机 会足够大”,即“合作是基于互利互惠的基 础;而且未来的影响十分重要,它足以保 证目前的互利互惠关系的稳定”。
《囚徒困境》课件
![《囚徒困境》课件](https://img.taocdn.com/s3/m/c234799d4128915f804d2b160b4e767f5acf803f.png)
囚徒困境源于现实生活中的囚犯困境问题,即两个同谋的囚犯 在接受审判时,如果他们都保持沉默,则可能获得较轻的判决; 但如果他们互相背叛,则可能获得较重的判决。
囚徒困境的起源与演变
起源
囚徒困境最早由美国数学家阿尔伯 特·塔克在20世纪50年代提出,用于 解释纳粹战犯审判中的囚犯困境问题。
演变
随着博弈论的发展,囚徒困境逐渐成为 研究合作与竞争、信任与背叛等问题的 经典模型,广泛应用于经济学、政治学、 社会学等领域。
对未来发展的影响
全球化与合作
随着全球化的发展,各国之间的相互依存度 越来越高,囚徒困境的启示有助于推动国际 间的合作与交流,共同应对全球性的挑战。
创新与变革
面对囚徒困境,我们需要勇于创新和变革, 打破固有的思维模式和制度限制,寻找更好 的解决方案。这有助于推动社会的进步和发
展。
THANKS FOR
囚徒困境的应用领域
经济学
囚徒困境被用于解释市场竞争、贸易保护主义等问题,以及探讨 如何通过合作实现共赢。
政治学
囚徒困境被用于分析国际关系、核武器扩散、恐怖主义等问题,以 及探讨如何建立国际信任和合作机制。
社会学
囚徒困境被用于研究社会行为、道德伦理、社会规范等问题,以及 探讨如何促进社会合作和公正。
社会问题中的囚徒困境
公共资源如森林、湖泊等可能因为过度使用而 遭受破坏,个人或团体为了自身利益而过度利 用资源,导致整体利益受损。
公共资源过度使用 城市中的居民可能因为个人便利而乱扔垃圾、 破坏环境,导致整个城市的环境质量下降。
城市环境问题
囚
第 示徒
五 章
与困 思境 考的
启
对个人选择的启示
理性思考
技术研发
博弈论读书笔记(五)重复博弈
![博弈论读书笔记(五)重复博弈](https://img.taocdn.com/s3/m/b6c6bd6000f69e3143323968011ca300a6c3f683.png)
博弈论读书笔记(五)重复博弈2.3重复博弈从这⾥开始,就进⼊博弈论⽐较难以理解的地⽅了。
我也不跟着书上的章节⾛,根据⾃⼰的理解和书上的例⼦来写,如果理解有什么不对的地⽅,欢迎各位⼤佬的指正。
⾸先我们来明晰博弈论到底在讨论些什么:对于这个问题,前⾯⼏章的内容可能对⼤家会造成⼀定的误导。
因为根据前⾯⼏章的例⼦,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。
这句话本⾝没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒⼀样,选择“保证对⽅不会背叛并且⾃⼰在此情况下能获得最⼤利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明⽩我的意思)。
例如第⼀章第⼀节中囚徒困境双⽅都选择招认(因为选择合作即不招认,结果可能是被背叛)。
但是⼀旦进⼊了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),⽽要考虑多次重复博弈的总收益。
这个时候就需要参与双⽅共同商定⼀个“协议”(例如双⽅说好都选择不招认),这个协议必须是对于双⽅都有利的(⾄少由于选择单次博弈的纳什均衡,例如双⽅不招认总⽐双⽅都招认要好),并且协议中会对不遵守规则的进⾏惩罚,以便于对每个⼈来说选择合作是最好的结果。
从这⾥我们就可以理解“博弈论教你如何制定规则的”这句话了。
好了,这⼀章最核⼼的思想在这⾥已经讲完了,虽然我可能说的不是那么清晰,不过还是希望你能认真理解上⾯所说的,这会对下⾯的概念理解有很⼤帮助。
2.3.A两阶段重复博弈先给出⼏个先⾏的定义和定理:定义:对个定的阶段博弈G,令G(T)表⽰G重复T次的有限重复博弈,并且在下⼀次博弈开始前,所有以前的博弈都可以被观测到。
G(T)的收益为T次阶段博弈收益的简单相加。
这个定义最重要的是引出⼀个重复博弈中收益的概念,即T次博弈的收益简单相加,后⾯我们会提到贴现的概念,不过到这⾥先理解到简单相加就⾏。
定理:如果阶段博弈G有唯⼀的纳什均衡,则对任意有限的T,重复博弈G(T)有唯⼀的⼦博弈精炼解:即G的纳什均衡结果在每⼀阶段重复进⾏。
囚徒困境中的博弈方参与合作的
![囚徒困境中的博弈方参与合作的](https://img.taocdn.com/s3/m/06d097818762caaedd33d45a.png)
囚徒困境中的博弈方参与合作的----------重复博弈分析摘要:在单次博弈的囚徒困境中,每个参与者都是对自己利益最大化的主体,在最求最大化个人利益的过程中形成了“囚徒困境”的纳什均衡解。
但是这样的纳什均衡对于所有的博弈者来说并不是最优的。
通过重复博弈的,增加博弈的次数可以增加信息的透明度、提高博弈者之间的信任程度进而减少欺诈行为的发生,为合作博弈提供了可能性。
试图分析囚徒困境的参与者相互合作的原因,并提出如何让博弈参与者走出“囚徒的困境”错误!未找到图形项目表。
关键词:重复博弈;囚徒困境;合作;最优一、引言人类社会和大自然中都存在着竞争与矛盾冲突。
自然界有捕食者和猎物之间的生存竞争,人类社会有国家与国家之间的军备竞争,以及公司与公司之间的价格战。
现实经济生活中,有很多一次博弈的“囚徒困境”的例子,例如两个之间的价格竞争,为了自己的经济利益最大化都不消减产量,使得两个厂商都达不到真正的最优。
“囚徒困境”启示我们,只顾及单方面利益的做法往往不但无法达到理想的目标,而且可能会使个体利益水平在原有的基础上下降,社会总利益也会受损。
基于提高博弈者之间博弈的效率、使博弈双方效用最大化的目的,以博弈论的基本原理之一——重复博弈理论为切入点,试图通过对囚徒困境的参与者彼此合作行为的解析,达到在重复博弈条件下走出囚徒困境的目的。
在单独的一次博弈过程中,每个人都倾向于利用自身的优势为自己谋求最大的利益,而对方只要有机会也会这么做,于是双方都要采取措施来防范对方,这就是“囚徒困境”。
但运用“重复博弈”,可以减少欺骗,增加相互的信任,因为上当受骗的人能够进行“一报还一报”的报复行动,从而走出“囚徒困境”。
本文在认识“囚徒困境”和“重复博弈”的基础上,试图分析在重复博弈的条件下如何使“囚徒困境”得到破解从而促进合作,实现共赢。
二、重复博弈理论综述(一)重复博弈的定义重复博弈是指动态或静态博弈的重复进行,或者说重复进行的过程。
博弈论-囚徒困境与重复囚徒困境的启示
![博弈论-囚徒困境与重复囚徒困境的启示](https://img.taocdn.com/s3/m/b78408f85ff7ba0d4a7302768e9951e79b89697e.png)
博弈论-囚徒困境与重复囚徒困境的启示58沈剑架构师之路 2014-09-30 15:36“囚徒困境”囚徒困境(prisoner’s dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么“在合作对双方都有利时,保持合作也是困难的”。
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。
警察知道两人有罪,但缺乏足够的证据。
警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。
于是,每个囚徒都面临两种选择:坦白或抵赖。
B-坦白 B-抵赖A-坦白 8,8 0,10A-抵赖 10,0 1,1然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。
最终的结果,两个嫌疑犯都选择坦白,各判刑八年。
在囚徒困境中,如果两人选择合作,即两人都抵赖,各判一年,显然是最好的结果。
但由于大家都优先考虑自己的最优选择,导致了最终整体选择并不是最好的。
囚徒困境所反映出的深刻问题是,个人利益的最大化并不能保证集体利益的最大化,自以为聪明的人可能会作茧自缚。
“重复囚徒困境”与“艾克斯罗德博弈论实验”囚徒困境是一个一次性的博弈实验,如果增加博弈的次数,让每个参与者都有机会去“惩罚”对方前一个回合的行为,此时每个参与者的决策可能会发生变化。
其中最有名的实验莫过于艾克斯罗德的博弈实验。
艾克斯罗德组织了一场计算机竞赛:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。
他们把自己的策略编入计算机程序,然后随机的与其他人进行囚徒困境博弈,每次博弈完毕后会获得一定的分数,并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况,每个参赛选手都会进行200次博弈对决。
博弈分数的设计如下:对方-好意对方-恶意自己-好意 2,2 0,3自己-恶意 3,0 1,1初看会发现,如果这是一个一次性博弈,不管对方选择好意还是恶意,自己选择恶意都是最优的,都将赢得更高的分数。
重复博弈的详细介绍
![重复博弈的详细介绍](https://img.taocdn.com/s3/m/7c26a19c88eb172ded630b1c59eef8c75fbf9539.png)
收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现 率 ,无限的收1益,序2,列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益 相等时的总收益
2 t1t t 1
重复博 弈总收益
所以 故
也称触发战略;
以囚徒困境为例:开始 选择抵赖,而且一直选 择抵赖直到有一方选择 了坦白,然后永远选择 坦白;
这意味着:一旦哪个参 与人选择了坦白,就触 发了惩罚的扳机。
根据上述原则,可构造如下战略:
01 S1:第一阶段选择M1;如果第一阶段结果为(M1, M2),则下一阶段选R1;否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂 的战略。但使爱克斯罗德和其他人深为吃惊的是,竞赛 的桂冠属于其中最简单的战略:一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上 来的战略。
2
一报还一报战略:它总是以合作开局,但从此以后就采 取以其人之道还治其人之身的战略。也就是说,一报还 一报的战略实行了胡萝卜加大棒的原则。
i
集合。 若存在
G(, )
(x , x , , x ) 则 存 在 贴 现 率 , 使 无 限 重 复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡,其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中,如果参与人具有足够的耐心(只要满足一定的 条件),那么任何满足个人理性的可行收益向量都可以通过一个特定的
博弈论——囚徒困境
![博弈论——囚徒困境](https://img.taocdn.com/s3/m/2c1a03c0185f312b3169a45177232f60ddcce74c.png)
博弈论——囚徒困境博弈论(经济学学科分支)博弈论又被称为对策论(Game Theory)既是现代数学的一个新分支,也是运筹学的一个重要学科。
博弈论主要研究公式化了的激励结构间的相互作用。
是研究具有斗争或竞争性质现象的数学理论和方法。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
生物学家使用博弈理论来理解和预测进化论的某些结果。
博弈论已经成为经济学的标准分析工具之一。
在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
基本概念中包括局中人、行动、信息、策略、收益、均衡和结果等。
其中局中人、策略和收益是最基本要素。
局中人、行动和结果被统称为博弈规则。
别名:对策论、赛局理论所属学科:应用数学创始人:冯·诺依曼与奧斯卡·摩根斯特恩理论历史博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。
博弈论思想古已有之,中国古代的《孙子兵法》等著作就不仅是一部军事著作,而且算是最早的一部博弈论著作。
博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
近代对于博弈论的研究,开始于策梅洛(Zermelo),波莱尔(Borel)及冯·诺依曼(von Neumann)。
1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。
1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域,从而奠定了这一学科的基础和理论体系。
1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。
囚徒困境博弈重复博弈态计算
![囚徒困境博弈重复博弈态计算](https://img.taocdn.com/s3/m/ed70425011661ed9ad51f01dc281e53a58025195.png)
囚徒困境博弈重复博弈态计算今天咱们来讲一个特别有趣的事儿,就像玩一场很特别的游戏一样。
有两个小伙伴,咱们就叫他们小明和小刚吧。
他们不小心做了点小错事,被警察叔叔抓住了。
警察叔叔呢,没有足够的证据证明他们做了很大的坏事,就想出了一个办法。
警察叔叔把小明和小刚分开,分别对他们说:“要是你老实交代,而你的小伙伴不交代,那你就可以直接回家啦,你的小伙伴就得被关很久很久。
要是你们俩都不交代呢,那你们都只要被关一小会儿。
可要是你们俩都交代了,那你们都得被关挺长时间的。
”这时候小明就想啊,要是小刚交代了,我不交代,那我可就惨了,要被关好久,我还是交代吧。
小刚呢,也这么想。
所以呀,最后他们俩都交代了,都被关了一段时间,这就是囚徒困境啦。
那要是这个事儿不是只发生一次,而是一次又一次呢?这就是重复博弈态啦。
比如说,小明和小刚知道以后还可能会遇到这样的情况。
再想象一下,小明和小刚是住在同一个村子里的好朋友。
第一次他们都交代了,出来之后,他们就想啊,这样可不好,下次咱们得团结点。
第二次被抓的时候,小明就想,小刚上次被关了之后很不开心,他这次应该不会再轻易交代了,那我也不交代。
小刚也是这么想的。
所以这次他们俩都选择了不交代,就只被关了一小会儿。
从这个故事里我们能看到,在重复博弈态的时候,和只玩一次的情况就不一样了。
因为大家会考虑到以后的事情,就不会只想着自己眼前的利益啦。
再比如说,咱们在学校里也会有类似的情况。
有两个同学一起在教室里打闹,把教室的花瓶弄碎了。
老师过来问是谁弄的。
如果这两个同学只想着这一次,可能都会互相指责。
但要是他们想到以后还要一起在这个班级里学习,还要做朋友,那他们可能就会一起向老师承认错误,然后一起承担比较小的惩罚,比如一起打扫教室一个星期。
Chapter11囚徒困境和重复博弈
![Chapter11囚徒困境和重复博弈](https://img.taocdn.com/s3/m/e11c34452e3f5727a5e96236.png)
囚徒困境和重复博弈 The Prisoners’ Dilemma and Repeated Games第11章 Chapter 11囚徒困境 Prisoners’ Dilemma囚徒困境是这样一个博弈:每个参与者有一个 优势策略,但是,当所有参与者使用他们这一 优势策略时,所产生的均衡对于每个人的结果, 比他们都使用劣势策略反而还要差。
The prisoners’ dilemma is a game in which each player has a dominant strategy, but the equilibrium that arises when all players use their dominant strategies provides a worse outcome for every player than would arise if they all used their dominated strategies instead.Slide 2囚徒困境 Prisoners’ Dilemma本章考虑囚徒困境中的参与者是否以及如何获得和保 持对他们都有利的合作结果,克服为了自身利益而背 叛的个人激励。
In this chapter, we consider whether and how the players in a prisoners’ dilemma can attain and sustain their mutually beneficial cooperative outcome, overcoming their separate incentives to defect for individual gain. 三种解 Three categories of solutions:重复 Repetition 惩罚和奖励 Penalty and reward 领导 LeadershipSlide 3内容提要 Outline基本博弈(回顾) The Basic Game (Review) 解之一:重复 Solutions I: Repetition 解之二:惩罚和奖励 Solutions II: Penalties and Rewards 解之三:领导 Solutions III: Leadership 实验证据 Experimental Evidence 真实世界中的囚徒困境 Real-world DilemmasSlide 4基本博弈(回顾) The Basic Game (Review)WIFE Confess (Defect) Confess (Defect) HUSBAND 10 yr, 10 yr Deny (Cooperate) 1 yr, 25 yr 3 yr, 3 yrDeny 25 yr, 1 yr (Cooperate)Slide 5基本博弈(回顾) The Basic Game (Review)在任何一个囚徒困境中,总会有一个合作策略 和一个欺骗或背叛策略。
博弈论经典例子(13)重复囚徒困境的游戏
![博弈论经典例子(13)重复囚徒困境的游戏](https://img.taocdn.com/s3/m/f27fc1fc69eae009591bec2a.png)
重复囚徒困境的游戏其目的就是要研究在无限次数的对局游戏中人为什么要合作,人什么时候是合作的,什么时候又是不合作的,如何使别人与你合作。
一位美国科学院院士、著名的行为分析和国际关系专家罗伯符·艾克斯罗德搞了一场关于“重复囚徒困境”的游戏,艾克斯罗德的游戏思路非常简单,任何想参加这个计算机竞赛的人都扮演“囚徒困境” 案例中一个囚犯的角色,他们把自己的策略编入到计算机程序中,然后他们的程序会被成双成对地融入到不同的组合,在分好组以后,参与者就开始玩“囚徒困境”的游戏。
在游戏中,有两个对策者,他们可以有两个选择:合作或背叛,每个人都必须在不知道对方选择的情况下,做出自己的选择。
艾克斯罗德邀请了来自经济界,心理学,补会学、政治学和数学领域的14位专家参与这一游戏,每个参加者每一步都要写出个体选择合作或不合作的程序,这个程序在作选择时可以利用对局的历史情况来分析,从而决定自己的策略。
游戏双方的选择,放在一起就产生了四种可能的结果,即:1. 合作.合作;2. 合作,背叛;3. 背叛,合作;4. 背叛,背叛;在这个游戏中,如果双方选择合作,双方都能得到较好的结果,即“对双方合作的奖励”为3分,如果一个合作而另一方背叛,那么,背叛者因为占了便宜,所以得到“对背叛投机”的5分,而合作者因为被对方占了便宜,只能得到0分。
如果双方都背叛,那么双方既没有得到利益,也没有失去什么,双方都得1分。
我们设想甲、乙两个程序在一起博弈,就出现这样的结果:甲:合作(3)乙:合作(3)甲:合作(0)乙:背叛(5)甲:背叛(5)乙:合作(0)甲:背叛(1)乙:背叛(1)就这种情形来看,对双方最好的结果是选择合作,总体得6分,如果一方选择合作,一方选不合作,总体得5分,如果两个人都不合作,总体得2分。
竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。
按照事先约定的竞赛规则,每一个参赛程序还要与自己对局,以及和一个随机程序对局,所谓随机程序是以相等的概率50%随机选择合作或背叛;艾克斯罗德要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两对局,以找出什么样的策略得分最高。
囚徒困境博弈的主要内容
![囚徒困境博弈的主要内容](https://img.taocdn.com/s3/m/4ac9b8fb29ea81c758f5f61fb7360b4c2e3f2a2a.png)
囚徒困境博弈的主要内容
犯人囚徒困境博弈(Prisoner's Dilemma)是一种有名的博弈,
可以模拟个人决策制定者之间在互利冲突下的合作行为。
它可以用来
模拟一对合作者被当局拘捕时出现的某种情形,每个人犯案后必须要
决定自己是否配合当局,在做出自己的决定前,另一方也未作出决定。
该游戏被当局用来阻止两名同谋在一个弅濉局面下合作,但它们也可
以用来模拟竞争环境中的任何可能存在的冲突。
在犯人囚徒困境博弈中,两个参与者有其各自的利益,但是两者之间有一个博弈格局——
如果两者都照着各自的利益去决定,就会出现比自己先思考那么一步
的损失,也就是说如果当事两方在决定之前没有得到双方的协商,他
们都是不会受益的。
最终的结果,取决于参与者怎么决定,他们获得
的利益最大化,还是只有其中一方获得利益?。
6.3囚徒困境的破解——重复博弈...
![6.3囚徒困境的破解——重复博弈...](https://img.taocdn.com/s3/m/08bdecd4aff8941ea76e58fafab069dc502247b9.png)
6.3囚徒困境的破解——重复博弈...不再有买卖机会的时候,特点是尽量谋取暴利并且带欺骗性,比如车站、码头、旅游景点的东西往往质次价高,其原因就在于买卖双方很少有'重复博弈'的机会。
经济学家罗伯特·阿克塞尔洛德设计了一个重复博弈的计算机程序,探索重复博弈产生的合作机制,共几十名测试者参加。
最终结果是:“一报还一报”的战略原则,获得了最终胜利。
所谓“一报还一报”,是指第一回合进行合作,以后不管对方怎么走,均采取对方上一个回合中的策略。
这一结果又为多次实验共同证实。
深入分析这个颇似“以其人之道还治其人之身”的“一报还一报”原则,其中包含四个特点:(1)善意的,即不首先背叛对方;(2)宽容的,对方背叛一次只惩罚一次;只要对方合作,即予以接纳,并不计前嫌;(3)强硬的,只要对方本次背叛,下次必定给予背叛的报复。
(4)简单明了的,即自己的意图清晰简洁,能很直接的为对方识别。
而输掉这个竞赛的策略,总是在上述四个方面做得不够好。
比如竞赛者的脾气过于好,总是'以德报怨',结果就被狡猾之徒反复地占便宜;有些竞赛者不够宽容,别人背叛一次他就不与对方再次合作,从而使合作关系永久性断绝;还有一些竞赛者太'精于算计',总是试图通过取巧来占别人的便宜,这种人在与'好脾气者'的博弈中虽然大占便宜,但与'不宽容者'的博弈中往往搬起石头砸自己的脚,而从最后的总分来看,他的'小聪明'总是得不偿失。
'针锋相对策略'在实际生活中可以被广泛地应用:比如,美芝是一个特别善良的女孩,她在任何情况下都不会伤害别人,即使在受到别人的欺骗甚至伤害时,也只是默默的忍受,不表示反抗。
她认为即便报复了他们也并不能消除已经造成的伤害,而且她的心也非常软,不忍心报复别人。
所以每次遇到不公平的事情,她总是习惯沉默。
对待曾经伤害过她的人,她也总是一视同仁。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
囚徒困境和重复博弈 The Prisoners’ Dilemma and Repeated Games第11章 Chapter 11囚徒困境 Prisoners’ Dilemma囚徒困境是这样一个博弈:每个参与者有一个 优势策略,但是,当所有参与者使用他们这一 优势策略时,所产生的均衡对于每个人的结果, 比他们都使用劣势策略反而还要差。
The prisoners’ dilemma is a game in which each player has a dominant strategy, but the equilibrium that arises when all players use their dominant strategies provides a worse outcome for every player than would arise if they all used their dominated strategies instead.Slide 2囚徒困境 Prisoners’ Dilemma本章考虑囚徒困境中的参与者是否以及如何获得和保 持对他们都有利的合作结果,克服为了自身利益而背 叛的个人激励。
In this chapter, we consider whether and how the players in a prisoners’ dilemma can attain and sustain their mutually beneficial cooperative outcome, overcoming their separate incentives to defect for individual gain. 三种解 Three categories of solutions:重复 Repetition 惩罚和奖励 Penalty and reward 领导 LeadershipSlide 3内容提要 Outline基本博弈(回顾) The Basic Game (Review) 解之一:重复 Solutions I: Repetition 解之二:惩罚和奖励 Solutions II: Penalties and Rewards 解之三:领导 Solutions III: Leadership 实验证据 Experimental Evidence 真实世界中的囚徒困境 Real-world DilemmasSlide 4基本博弈(回顾) The Basic Game (Review)WIFE Confess (Defect) Confess (Defect) HUSBAND 10 yr, 10 yr Deny (Cooperate) 1 yr, 25 yr 3 yr, 3 yrDeny 25 yr, 1 yr (Cooperate)Slide 5基本博弈(回顾) The Basic Game (Review)在任何一个囚徒困境中,总会有一个合作策略 和一个欺骗或背叛策略。
In any prisoners’ dilemma, there is always a cooperative strategy and a cheating or defecting strategy. 参与者总是可以根据其策略选择,被称作背叛 者或合作者。
Players can always be labeled, according to their choice of strategy, as either defector or cooperators.Slide 6基本博弈(回顾) The Basic Game (Review)当参与者之间不进行相互合作,他们就选择背叛,希 望以对手的损失为代价,获得个人的利益。
When the players do not cooperate with each other, they choose to defect in the hope of attaining individual gain at the rival’s expense. 囚徒困境能否以及如何解决,问题的实质在于通过非 合作(个人)的行动去实现合作(共同偏好)的结果。
The essence of the question of whether, when and how a prisoner’ dilemma can be resolved is the difficulty of achieving a cooperative (jointly preferred) outcome through noncooperative (individual) actions.Slide 7解之一:重复 Solutions I: Repetition在一个囚徒困境的重复博弈中,每个参与者担心一次 背叛会导致未来合作的崩溃。
In a repeated play of the prisoners’ dilemma, each player fears that one instance of defecting will lead to a collapse of cooperation for the future. 如果未来合作的价值很大,超过了短期内通过背叛所 获得的,那么参与者的长期个人利益自动地消除了背 叛,并不需要任何额外惩罚或第三方强制。
If the value of future cooperation is large and exceeds what can be gained in the short term by defecting, then the long-run individual interests of the players can automatically and tacitly keep them from defecting, without the need for any additional punishments or Slide 8 enforcement by third parties.定价中的囚徒困境 Prisoners’ dilemma of PricingYVONNE’S BISTRO 20 (Defect) 20 (Defect) XAVIER’S TAPAS 26 (Cooperate) 288, 288 216, 360 26 (Cooperate) 360, 216 324, 324Slide 9定价中的囚徒困境 Prisoners’ dilemma of Pricing假定两个餐馆开始处于合作状态,每个人收取高价格 $26。
Suppose that the two restaurants are initially in the cooperative mode, each charging the higher price of $26. 如果他们正常地竞争至少3个月,按照一次博弈的理论, 我们似乎就应该看到合作行为(高价格)而不是背叛 行为(低价格)。
If they competed on a regular basis for at least 3 months, it seems that we might see cooperative behavior (high prices) rather than the defecting behavior (low prices) predicted by theory for the one-shot game. 但是解实际上没有那么简单。
Slide But the solution is not actually that simple. 10有限次重复 Finite Repetition只要两个参与者之间的关系持续的时间长度固定和已知,在最后 阶段的博弈中,优势策略均衡(背叛)就会出现。
As long as the relationship between the two players lasts a fixed and known length of time, the dominantstrategy equilibrium with defecting should prevail in the last period of play. 参与者到达博弈终点时,继续合作就毫无价值,于是他们选择背 叛。
When the players arrive at the end of the game, there is never any value to continued cooperation, and so they defect. 按照反转的预测,相互背叛就会一直倒回到最开始的博弈。
Then rollback predicts mutual defecting all the way back to the very first play.Slide 11无限次重复 Infinite Repetition无论在怎样的重复博弈中,相互关系的序贯性 质意味着参与者可以采取的策略依赖于前面回 合的博弈中的行为。
In repeated games of any kind, the sequential nature of the relationship means that players can adopt strategies that depend on behavior in preceding plays of the games. 这样的策略被称为或然策略。
Such strategies are known as contingent strategies.Slide 12无限次重复 Infinite Repetition大多数或然策略都是触发策略:只要对手合作,该参 与者也合作;但对方任何背叛就会“触发”规定时间长 度的惩罚期,其间以非合作来回击。
Most contingent strategies are trigger strategies, where a player plays cooperatively as long as her rival(s) do so, but any defection on their part “triggers” a period of punishment, of specific length, in which she plays noncooperative in response. 最有名的两个触发策略是严厉策略和以牙还牙。