第2章 纳什均衡与囚徒困境博弈

合集下载

最新囚徒困境和纳什均衡

最新囚徒困境和纳什均衡

囚徒困境和纳什均衡当对手知道了你的决定之后,就能做出对自己最有利的决定------普林斯顿大学数学家约翰·纳什囚徒困境著名的“囚徒困境”,是纳什均衡理论的经典案例。

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供一下相同的选择:若有一人认罪并作证检控对方(背叛对方)而对方保持沉默,此人将立即获释,沉默者将判监禁十年。

若两人都保持沉默(互相合作)则两人同时被判监禁半年。

若两人都互相检举(互相背叛)则两人同时监禁两年。

如同博弈论的其他论证,囚徒困境假设每个囚徒都是利己的,激斗寻求自己的最大利益。

囚徒到底应该选择哪一项策略,才能将自己的刑期缩至最短?两名囚徒由于相互隔离监禁,并不知道对方的选择。

试想困境中两名理性的囚徒会如何选择:若对方沉默,背叛会让我获释,所以对方会选择背叛。

若对方背叛我,我也要指控对方才能得到较低的刑期,所以也是这样会选择背叛。

二人面对的情况一样,所以二人的理想思考会得到相同的答案----选择背叛。

背叛是两种策略之间的支配性策略。

因此这场博弈中唯一可能达到的纳什均衡就是两人选择同时背叛对方,结果两人同时服刑两年。

这场博弈的纳什均衡,显然不是最优的解决方案。

如果两人都选择沉默,两人都只会被判刑半年。

但根据以上假设,两人均为理性的个人,均衡状况回事两个囚徒都选择背叛。

这就是“困境”所在。

寻找“纳什均衡点”在现实生活中,纳什均衡理论影响着人们的行为。

比如,在有些国家,报亭既无管理人员也不上锁,买报纸的人在自行放下前后拿走报纸。

当然某些人可能取走报纸却不付钱(背叛)但由于大家意识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。

在商业活动中,也会出现各种各样的囚徒困境的例子。

两个公司相互竞争,他们的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告,收入增加很少但成本增加。

囚徒困境与纳什均衡的关系

囚徒困境与纳什均衡的关系

囚徒困境与纳什均衡的关系这两个概念都是博弈论中的概念,那什么是博弈论呢,博弈论是研究竞争现象的一种理论方法。

既然是理论方法就会有许多假设的前提,但在现实情况下,这些前提很可能不会同时存在。

所以所有理论方法,只是有助于你分析并理解现实世界,它只是一种方法,或者是一种思维工具而已,切不可生搬硬套。

博弈论在经济学、生物学、物理学、社会学、政治学中都有应用,所以博弈论是一种十分有用的分析框架。

先介绍一下囚徒困境,然后在囚徒困境中找到纳什均衡的局面,最后进行一下总结。

1.囚徒困境1.1两个犯罪嫌疑人都被抓了起来,并且这两个人都是理性、自利的,并且不能相互交流。

都被告知如下规则。

在这种情况下,两个人会做什么选择?答案是两个人都会选择背叛对方。

分析如下:甲想:如果乙沉默,我背叛的话,就会立即获释。

如果乙背叛,我沉默的话,就会判刑十年。

所以甲会选择背叛。

同理乙也会选择背叛。

最终两人都会服刑5年。

其实有一个最优解就是:甲乙都选择沉默。

这就是“困境”所在:个人的最优解,并不是全局的最优解。

1.2知道次数的囚徒困境。

比如限制十次经过上次的教训,甲知道了沉默是全局的最优解,但是最后一次,甲背叛,乙沉默的话,甲会立马获释。

所以前九次甲都会选择沉默,已获得对方的信任,最后一次会选择背叛。

同理乙也会这么想。

当双方都知道对方在最后一局选择背叛,那么会有人在第九局选择背叛,依次类推。

第一局双方都会选择背叛。

1.3不知道次数的囚徒困境经过多次博弈,背叛会受到惩罚,双方趋向于选择合作。

2.纳什均衡在博弈中会存在一个均衡,任何一方都不愿改变策略,因为这种状况下改变策略会不利于自己。

囚徒困境下的纳什均衡是:双方都背叛。

可以用排除法找到答案,如果两人都沉默的话,只要任何一方背叛,会立马获释。

这种双方都沉默的局面并不稳定。

如果一方沉默,另一方背叛的话。

没有人傻到自己沉默,所以这种情况也是不稳定的。

3.总结3.1局部最优解不是全局最优解。

3.2个人的理性选择,会造成全局的非理性。

纳什均衡

纳什均衡

“纳什均衡”悲喜剧i一、“囚徒困境”与“纳什均衡”一次博弈最终总会形成一个结果,好比讨价还价,这就是博弈均衡。

“纳什均衡”是一种最常见的、也是最重要的博弈均衡。

它是美国天才数学家纳什在1950年正在攻读博士学位时提出来的,论文题为《n人博弈的均衡问题》。

纳什巧妙运用数学技巧,证明了如下定理:对一任何一个n人参与的非合作博弈(零和或非零和),如果每个参与者的策略是有限的,那么一定存在至少一个纳什均衡解集。

该论文只有短短一页纸,但却成了博弈论的经典文献,并使他获得了诺贝尔经济学奖。

“纳什均衡”的经典案例是“囚徒困境”:两个作案嫌疑人分别关在两间牢房,警察告知,如果两人都招供,则各坐牢3年;如果两人都不招供,则放出;如果一人招供而另一人不招供,则招供的坐牢3年,不招供的坐牢10年。

局外人看来,最好两人都不招供。

但从每个人来看,招与不招的代价分别为{3;3}与{0;10},还是招供为好。

但从纳什均衡却得出一个悖论:单个人的最优选择却没有导致全局最佳的结果。

现实中的例子很多,如价格战的结果是两败俱伤。

“纳什均衡”证明了一个道理:非合作博弈的情况下困境无法解脱。

二、自私的“纳什均衡”假定参与者都是自私的,“纳什均衡”的实例是很多的。

比如:一个大笼子里关着许多猴子,主人每天抓一只猴子杀掉。

所有的猴子都不敢反抗,怕单独反抗会被主人先杀掉,结果所有的猴子都被杀了。

如果所有的猴子群起反抗,有可能都逃脱逃掉。

人类在这方面的例子也很多。

在波士顿树立的二战犹太人蒙难纪念碑上,德国神父马丁留下了一段发人深省的铭文:“起初他们追杀共产主义者,我不是共产主义者,我不说话;接着他们追杀犹太人,我不是犹太人,我不说话;后来他们追杀工会成员,我不是工会成员,我不说话;此后他们追杀天主教徒,我是新教教徒,我不说话;最后他们奔我而来,再也没有人站起来为我说话了。

在现实中,公共汽车的小偷偷东西,别人袖手旁观;有人挥霍公家的东西,没人制止;在公地上放羊,每人都想多养,等等。

纳什均衡与囚徒困境

纳什均衡与囚徒困境
• 但如果公平与否进入了人们的效用函数,这 种改进就不见得是帕累托改进。(收入差距 变大)
这就是心理成本。究竟应该给受损者补偿多少 才能使他觉得自己没有受损,很难有客观的 标准。
进一步
• 即使事后补偿实际上不会发生,变革不可能得 到一致的同意。但,如果在作出制度安排前每 个人成为赢家的机会均等,从事前角度看,卡 尔多—希克斯改进也是帕累托改进。
• 是其中一人成为所有者,另一人变成雇员 ,让前者监督后者,并根据后者的表现对 其实行奖惩。
所有权配置与等级结构
• 考虑团队生产:让其中的一个人变成所有

雇员
工作
偷懒
老板
工作 偷懒
6,6 2,6
4,4 2,2
所有权解决囚徒困境
效率标准
• 问题:社会是由人组成的,每个人的行为都会影 响到他人的利益。那么,我们用什么样的标准判 断个人的行为是否正当?
Hale Waihona Puke 例子• 1、囚徒困境 • 2、公共产品的供给 • 大家出钱兴办公用事业,所有人的福利都
会增加,问题是,如果我出钱,你不出钱 ,我得不偿失;反之,你出钱,我不出钱 ,就可以占你的便宜。结果,大家都不出 钱。
公共产品(public goods)
无论对方如何选择,每个 人的最优选择:不提供。
所以,我们可以预测,结 果将是(不提供,不提供)
应用:工人下岗
• 让一部分工人下岗可以使企业提高效率, 更有竞争力,但对于下岗的人来说,利益 受到损害,显然,解雇工人不是帕累托最 优。
• 但如果其带来的企业效益的提高足以弥补 工人的损害,这就是一个卡尔多---希克斯改 进。如果给下岗工人足够的实际补偿,使 得他的收入比工作的时候并不变得更低。

MBA必修课程《博弈论》第二部分:穷途困境与纳什均衡

MBA必修课程《博弈论》第二部分:穷途困境与纳什均衡

Page 32
如果其他牧民约束放牧规模,我单独一家人过度放 牧不会破坏广褒的牧场,但自己却获得了高额的收益。 因此,任何一位牧民的结论都会是:无论其他牧民是否 过度放牧,我选择“约束自己的放牧规模”都是劣战略, 从而被剔除。大家最终都会选择过度放牧,结果导致草 地消失,生态破坏。
内蒙古草原的沙漠化
三、囚徒困境详解和延伸
1、囚徒困境详解
Page 17
囚徒乙
S i 称为占优策略,或占优于其他策略 坦白
抵赖
囚徒甲 坦白 -8,-8 0,-10
抵赖 -10,0 -1,-1
占优策略均衡 囚徒甲
坦白 抵赖
囚徒乙
坦白
抵赖
-8,-8
0,-10
-10,0
-1,-1
Page 18
每个参与人组成的优势策略称为占优策略均衡。 甲和乙都不会选择劣战略“抵赖”,称为“剔除劣战略的占优战 略均衡”。其中“坦白”是占优于(优于)“抵赖”的占优战略。
2、囚徒困境特点
Page 19
•利己、理性
•非合作
•存在严格劣策略
囚徒困境假定每个参与者(即“囚徒”)都是利己的, 即都寻求最大自身利益,而不关心另一参与者的利益。
参与者某一策略所得利益,如果在任何情况下都比其他 策略要低的话,此策略称为“严格劣势”,理性的参与者绝 不会选择。另外,没有任何其他力量干预个人决策,参与者 可完全按照自己意愿选择策略。
解决方案
Page 7
这么一直迭代下去,理论上如果所有学生都是 理性人。平均数应当是1。应该说选择了1的学生都 看出了这个博弈的窍门。但是他们的选择不是最接 近平均数的。因为在现实中不可能所有人都是理性 人。
最终12是最接近平均数2/3的数。

张维迎《博弈论与信息经济学》讲义-第02章-纳什均衡与一致预期

张维迎《博弈论与信息经济学》讲义-第02章-纳什均衡与一致预期

最优选择
这个博弈只要求一阶理性共识就可以预测均衡 结果: 如果R相信C是理性的,R就知道C不会选择C3, 所以R的最优选择是R1; R R1 如果C相信R是理性的,C就知道R不会选择R2, 所以C的最优选择是C2. 但要C预期R不会选择R3,需要二阶理性共识; 要R不预期C会选择C1,需要三阶理性共识.
– – – – 如果R(b)C 选择C2, 如果R(b)C(b)R会选择R2; 如果R(b)C(b)R(b)C会选择C1; 如果R(b)C(b)R(b)C(b)R会选择R1
Consistently aligned beliefs (CAB)
考虑(R3,C3):对方不会犯预期错误:R选 择R3,如果他认为C会选择C3;C会选择C3, 如果他认为R会选择R3. CAB CAB:每个人对别人行为的预期(信念)是正 确的; Harsanyi doctrine: 如果两个理性的人具有相同 的信息,他们一定会得出相同的推断和相同的 结论; Robert Aumann: rational agents cannot agree to disagree.
重复剔除与理性共识
重复剔除不仅要求每个人是理性的,而且要求每个人 知道其他人是理性的,每个人知道每个人知道每个人 是理性的,如此等等,即理性是"共同知识"(共识) C1 R1 R2 R3 10,4 9, 9 1,98 C2 1, 5 0, 3 0,100 C3 98,4 99,8 100,98 这个博弈只要求 一阶理性共识就 可以预测均衡结 果. 如果把(下-左) 的第一个数字改为 11呢?
纳什均衡与一致预期
张维迎 教授 北京大学光华管理学院
博弈的基本概念(1)
参与人(players):博弈中决策主体的集合:什 么人参与博弈?每个人是什么角色? 行动(actions): 每个人有些什么样行动可以选 择?在什么时候行动? 信息(information):在博弈中的知识;每个人 知道些什么(包括特征,行动等)? 战略(strategies):行动计划;每个人有什么战 略可供选择?战略的完备性;

纳什均衡与囚徒困境

纳什均衡与囚徒困境

交通拥堵中的纳什均衡
在交通拥堵中,如果所有驾驶员都选择走某一 条路,那么这条路就会变得非常拥堵。
如果一个驾驶员选择走另一条路,那么他可能 会更快地到达目的地,但其他驾驶员也可能会 效仿,导致另一条路也变得拥堵。
纳什均衡在交通拥堵中的表现为:所有驾驶员 都选择走同一条路,形成一种稳定的交通状态。
公共资源中的纳什均衡
建立信任
通过建立信任机制,让囚犯相 信对方不会出卖自己,从而都
选择抵赖。
引入第三方监管
由第三方监管机构介入,制定 规则并监督执行,确保双方都 遵守规则。
改变奖励机制
改变奖励机制,使得双方都选 择抵赖成为最优解,例如将坦 白惩罚变得更重。
增加沟通机会
让囚犯有更多的沟通机会,了 解对方的想法和处境,从而更
企业竞争中的囚徒困境
价格战
01
企业为了争夺市场份额,可能会采取降价策略,但这种策略可
能导致整个行业的利润下降。
技术研发
02
企业在研发新技术时面临投入不足或过度投入的困境,如何平
衡研发投入与市场收益是一大挑战。
广告策略
03
企业在广告投放上可能存在囚徒困境,过多的广告投入可能增
加品牌知名度,但也可能导致广告费用过高而降低利润。
01
02
03
公共资源是指那些不属于任何个 人或组织的资源,如海洋、森林、 空气等。
在公共资源的使用中,如果每个 人或组织都过度使用资源,那么 资源将会被耗尽或使用 资源,导致资源的过度消耗和破 坏,形成一种稳定的竞争状态。
05 囚徒困境的实例分析
促进学科发展
纳什均衡与囚徒困境的研究推动了博弈论和其他相关学科的发展,促进了学术交流和知识创新。

纳什均衡与囚徒困境

纳什均衡与囚徒困境

纳什均衡纳什均衡,Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名,是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。

首先我们先简单看一下纳什均衡的经济学含义:所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处。

换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。

纳什均衡(Nash equilibrium),无一参与者可以通过独自行动而增加收益的策略组合。

纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。

纳什均衡可以分成两类:"纯战略纳什均衡"和"混合战略纳什均衡"。

纯战略是提供给玩家要如何进行赛局的一个完整的定义。

特别地是,纯战略决定在任何一种情况下要做的移动。

战略集合是由玩家能够施行的纯战略所组成的集合。

混合战略是对每个纯战略分配一个机率而形成的战略。

混合战略允许玩家随机选择一个纯战略。

混合战略博弈均衡中要用概率计算,因为每一种策略都是随机的,达到某一概率时,可以实现支付最优。

因为机率是连续的,所以即使战略集合是有限的,也会有无限多个混合战略。

案例:智猪博弈、囚徒困境、普通范式博弈(公司合作背叛)、饿狮博弈、硬币正反。

这里有一个理想化假设,那就是假设双方都知道博弈次数是无限的话,也就是说双方的商业往来是无止尽的,那么二者的策略都将持续选择合作,最终的博弈收益将定格在(3,3),这就是一个纳什均衡。

既然博弈次数是无限的,那么任何一方都没有理由选择背叛策略去冒险追求5点短暂收益,而招致对方在下一轮博弈中的报复(这种报复在博弈论里称作“以牙还牙”策略)。

还有另一种假设情况是,假使双方都知道博弈次数是有限的,也许下一次博弈就是最后一次,那么为了避免对方在最后一轮博弈中选择背叛策略而使我方遭受-3的收益损失,于是双方都重新采取了背叛的策略选择,最后的博弈结果又回到了(-1,-1),这就形成了第二个纳什均衡。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
按 按 等待 3,1 7,-1 等待 2,4 0,0
这个博弈中,大猪的最优选择依赖 于小猪的选择,但小猪的最优选择 与大猪的选择无关。如果大猪知道 小猪的理性的,大猪将选择“按”。 均衡是“大猪按,小猪等待”。 “劣”战略:无论对方选择什么,如果 自己选择A得到的总是收益小于选择 B得到的收益,A就是相对于B的劣 战略。
QM
ac 2
M
(a c) 2 4
混合战略纳什均衡
• 有些博弈没有“纯战略”纳什均衡,但 有混合战略纳什均衡,如监督博弈。
偷懒 监督 不监督 1,-1 -2,3 不偷懒 -1,2 2,2
给定工人偷懒,老板的最优 选择是监督;给定老板监督, 工人的最优选择是不偷懒; 给定工人不偷懒,老板的最 优选择是不监督;给定老板 不监督,工人的最优选择是 偷懒;如此循环。
可理性化的选择
• Rationalizable strategy: 不能被重复剔除的 战略;或者说,可以被合理的信念(belief) 所支持的行为; • 例如:R理性化选择R1:
– – – – 如果R(b)C 选择C2, 如果R(b)C(b)R会选择R2; 如果R(b)C(b)R(b)C会选择C1; 如果R(b)C(b)R(b)C(b)R会选择R1
4
哲学思考
• 如果参与人事前达成一个协议,在不存在外部 强制的情况下,每个人都有积极性遵守这个协 议,这个协议就是纳什均衡。
寻找纳什均衡
C1 R1 R2 R3 100,100 50,0 0,300 C2 0,0 1,1 0,0 C3 50,101 60,0 200,200
纳什均衡:举例
• 广告博弈
最优选择
• 这个博弈只要求一阶理性共识就可以预测均衡 结果: • 如果R相信C是理性的,R就知道C不会选择C3, 所以R的最优选择是R1; • 如果C相信R是理性的,C就知道R不会选择R2, 所以C的最优选择是C2。 • 但要C预期R不会选择R3,需要二阶理性共识; 要R不预期C会选择C1,需要三阶理性共识。
提供 提供 不提供 4,4 5,-1 不提供 -1,5 0,0
无论对方如何选择,每个人的最优选择:不提供。 所以,我们可以预测,结果将是(不提供,不提供)
公共产品与税收制度
• 比较私人产品与公共产品的不同:使用 上排他性; • 私人产品是志愿购买的,但公共产品可 能需要强制购买; • 税收制度就是保证公共产品的生产,解 决公共产品生产上的“囚徒困境”
• 两个企业同时选择产量,价格由市场决 定; • 假定需求函数为 P (Q) a (q1 q2 ) 其中 为企业1的产量, q2为企业2的产量 • 假定成本函数为: C (qi ) ci qi • 那么,利润函数为:
1 q1 P(Q ) cq1 q1 (a q1 q2 c) 2 q2 P(Q) cq2 q2 (a q1 q2 c)
无论对方如何选择,每个人的最优选择:坦白。 所以,我们可以预测,结果将是(坦白,坦白)
1
个人理性与集体理性的冲突
• “囚徒困境”表明个人理性与集体理性的冲突。 • 这样的例子很多:寡头竞争,军备竞赛,团队 生产中的劳动供给,公共产品的供给,等等; • 许多的制度就是为解决“囚徒困境”而存在的;
公共产品(public goods)
博弈的基本概念(2)
• 支付(payoffs):每个人在不同战略组合下得到 些什么?依赖于所有参与人的选择; • 均衡(equilibrium):所有参与人最优战略的组 合; • 结果(outcomes):我们所感兴趣的东西。
静态博弈
• 最简单的博弈:所有参与人同时选择行 动,并且只选择一次; • “同时”是一个信息概念,而不一定与 同时 是 个信息概念,而不 定与 日历上的时间一致;
博弈的基本概念(1) 第二章 纳什均衡与囚徒困境博弈
张维迎 教授 北京大学光华管理学院
• 参与人(players):博弈中决策主体的集合:什 么人参与博弈?每个人是什么角色? • 行动(actions): 每个人有些什么样行动可以选 择?在什么时候行动? • 信息(information):在博弈中的知识;每个人 知道些什么(包括特征、行动等)? • 战略(strategies):行动计划;每个人有什么战 略可供选择?战略的完备性;
纳什均衡的存在性问题
• 每一个有限博弈至少存在一个纳什均衡 (纯战略或混合战略); • 如果 如果一个博弈存在两个纯战略纳什均衡, 个博弈存在两个纯战略纳什均衡, 那么,一定存在第三个混合战略纳什均 衡。
Consistently aligned beliefs (CAB)
• 考虑(R3,C3):对方不会犯预期错误:R选 择R3,如果他认为C会选择C3;C会选择C3, 如果他认为R会选择R3。 • CAB:每个人对别人行为的预期(信念)是正 确的; • Harsanyi doctrine: 如果两个理性的人具有相同 的信息,他们一定会得出相同的推断和相同的 结论; • Robert Aumann: rational agents cannot agree to disagree.
“囚徒困境”的一般表示
合作 合作 不合作 T,T R,S 不合作 S,R P,P
满足:R>T>P>S; (S+R)&l作 合作 不合作 满足:X>R-T T,T R-X,S 不合作 S,R-X P,P
“智猪博弈”(boxed pigs)
• 有些博弈没有占优均衡,但通过剔除“坏”战 略,我们可以预测博弈的结果。如“智猪博弈”
战略 做广告
利用纳什均衡寻租
• 考虑股票市场融资的例子:设想企业价值是 100,现在发行的流通股为100股,每股价值1 元。现在假定经理想筹集100元,投资价值只 有50元。有人买新股吗? 元 有人买新股吗? • 假定每一股配4股,价格为0.25元。如果股东不 接受配股:原来一股1元的价值就变成0.3元 (=150/500);如果接受配股,他持有的股票 的价值是1.5元;因为配股的成本是1元,所以 他的最优选择是接受配股。
理性共识
(common knowledge of rationality)
• (1)Zero-order CKR: 每个人都是理性的,但不知 道其他人是否是理性的; • (2)first-order CKR: 每个人是理性的,并且知道 其他每个人也都是理性的,但并不知道其他人 是否知道自己是理性的; • (3)second-order CKR: (1)+(2)+每个人知道(2) • nth-order CKR: R(b)C(b)R(b)……C(b)R is rational,
2
重复剔除占优均衡
• “重复剔除严格劣战略”(iterated elimination of strictly dominated strategy)的思路:首先找出博弈参与人的劣 战略(dominated strategy)(假定存在的话),把这个劣 战略剔除后,剩下的是 个不包含已剔除劣战略的新 战略剔除后,剩下的是一个不包含已剔除劣战略的新 的博弈;然后在剔除这个新的博弈中的劣战略;继续 这个过程,直到没有劣战略存在。如果剩下的战略组 合是唯一的,这个唯一的战略组合就是“重复剔除占 优均衡”(iterated dominance equilibrium)。 • 如果这样的解存在,我们说该博弈是“重复剔除占优 可解的”(iterated dominance solvable).
右 2, 1 3, 4 上 下
左 1, 3 0, 2
右 4, 1 3, 4
3
选择越多,对理性共识的要求越高
C1 R1 R2 R3 R4 C2 C3 C4 (1)Zero-order CKR: C not choose C4 for C is rational (2)1st-order CKR: R not choose R4 for R (b) C (3)2 d d CKR (3)2nd-order CKR: C not t choose h C1 for f C(b)R(b)C (4)3rd-order CKR: R not choose R1 for R(b)C(b)R(b)C (5)4th-order CKR: C not choose C3 for C(b) R(b)C(b)R(b)C (6)5th-order CKR: R not choose R3 for R(b) C(b) R(b)C(b)R(b)C so, (R2,C2) is an equilibrium
纳什均衡与一致预期
• 纳什均衡:所有参与人的最优战略的组合:给 定该战略中别人的选择,没有人有积极性改变 自己的选择。 • 一致预期:基于信念的选择是合理的;支持选 择的信念是正确的; • 预期的自我实现:如何所有人认为这个结果会 出现,这个结果就会出现。预期是自我实现的, 预期不会错误。如果你认为我预期你将选择X, 你就真的会选择X。
0,100 100,98
R排除C选择C1
R believes C believes R believes C is rational
好事变坏事?
• 在单人决策中,个人给定选择在所有情况下的收益都 增加,一个人的状况不会变得更坏,但博弈中则不同。
(C1,C2) 上 R1 C2 下
左 -1, 3 0, 2
囚徒困境(prisoners’ dilemma)
• 囚徒困境
坦白 坦白 不坦白 不坦白 -8,-8 0,-10 -10,0 -1,-1
占优均衡
(dominant-strategy equilibrium)
• 一般来说,由于每个参与人的效用依赖于所有人的选 择,因此每个人的最优选择(战略)也依赖于所有其 他人的选择(战略)。但在上述例子中,一个人的最 优选择并不依赖于他人的选择。这样的最优战略,被 称为“占优战略”(dominant strategy)。由所有参与人 的占优战略构成的战略组合被称为“占优均衡”。 • 占优战略均衡的出现只要求所有人都是理性的,但不 要求每个参与人知道其他参与人是否理性。 • 囚徒困境博弈有占优均衡,所以其结果很容易预测。
相关文档
最新文档