第2章 纳什均衡与囚徒困境博弈
最新囚徒困境和纳什均衡
囚徒困境和纳什均衡当对手知道了你的决定之后,就能做出对自己最有利的决定------普林斯顿大学数学家约翰·纳什囚徒困境著名的“囚徒困境”,是纳什均衡理论的经典案例。
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供一下相同的选择:若有一人认罪并作证检控对方(背叛对方)而对方保持沉默,此人将立即获释,沉默者将判监禁十年。
若两人都保持沉默(互相合作)则两人同时被判监禁半年。
若两人都互相检举(互相背叛)则两人同时监禁两年。
如同博弈论的其他论证,囚徒困境假设每个囚徒都是利己的,激斗寻求自己的最大利益。
囚徒到底应该选择哪一项策略,才能将自己的刑期缩至最短?两名囚徒由于相互隔离监禁,并不知道对方的选择。
试想困境中两名理性的囚徒会如何选择:若对方沉默,背叛会让我获释,所以对方会选择背叛。
若对方背叛我,我也要指控对方才能得到较低的刑期,所以也是这样会选择背叛。
二人面对的情况一样,所以二人的理想思考会得到相同的答案----选择背叛。
背叛是两种策略之间的支配性策略。
因此这场博弈中唯一可能达到的纳什均衡就是两人选择同时背叛对方,结果两人同时服刑两年。
这场博弈的纳什均衡,显然不是最优的解决方案。
如果两人都选择沉默,两人都只会被判刑半年。
但根据以上假设,两人均为理性的个人,均衡状况回事两个囚徒都选择背叛。
这就是“困境”所在。
寻找“纳什均衡点”在现实生活中,纳什均衡理论影响着人们的行为。
比如,在有些国家,报亭既无管理人员也不上锁,买报纸的人在自行放下前后拿走报纸。
当然某些人可能取走报纸却不付钱(背叛)但由于大家意识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。
在商业活动中,也会出现各种各样的囚徒困境的例子。
两个公司相互竞争,他们的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。
但若二者同时期发出质量类似的广告,收入增加很少但成本增加。
囚徒困境与纳什均衡的关系
囚徒困境与纳什均衡的关系这两个概念都是博弈论中的概念,那什么是博弈论呢,博弈论是研究竞争现象的一种理论方法。
既然是理论方法就会有许多假设的前提,但在现实情况下,这些前提很可能不会同时存在。
所以所有理论方法,只是有助于你分析并理解现实世界,它只是一种方法,或者是一种思维工具而已,切不可生搬硬套。
博弈论在经济学、生物学、物理学、社会学、政治学中都有应用,所以博弈论是一种十分有用的分析框架。
先介绍一下囚徒困境,然后在囚徒困境中找到纳什均衡的局面,最后进行一下总结。
1.囚徒困境1.1两个犯罪嫌疑人都被抓了起来,并且这两个人都是理性、自利的,并且不能相互交流。
都被告知如下规则。
在这种情况下,两个人会做什么选择?答案是两个人都会选择背叛对方。
分析如下:甲想:如果乙沉默,我背叛的话,就会立即获释。
如果乙背叛,我沉默的话,就会判刑十年。
所以甲会选择背叛。
同理乙也会选择背叛。
最终两人都会服刑5年。
其实有一个最优解就是:甲乙都选择沉默。
这就是“困境”所在:个人的最优解,并不是全局的最优解。
1.2知道次数的囚徒困境。
比如限制十次经过上次的教训,甲知道了沉默是全局的最优解,但是最后一次,甲背叛,乙沉默的话,甲会立马获释。
所以前九次甲都会选择沉默,已获得对方的信任,最后一次会选择背叛。
同理乙也会这么想。
当双方都知道对方在最后一局选择背叛,那么会有人在第九局选择背叛,依次类推。
第一局双方都会选择背叛。
1.3不知道次数的囚徒困境经过多次博弈,背叛会受到惩罚,双方趋向于选择合作。
2.纳什均衡在博弈中会存在一个均衡,任何一方都不愿改变策略,因为这种状况下改变策略会不利于自己。
囚徒困境下的纳什均衡是:双方都背叛。
可以用排除法找到答案,如果两人都沉默的话,只要任何一方背叛,会立马获释。
这种双方都沉默的局面并不稳定。
如果一方沉默,另一方背叛的话。
没有人傻到自己沉默,所以这种情况也是不稳定的。
3.总结3.1局部最优解不是全局最优解。
3.2个人的理性选择,会造成全局的非理性。
纳什均衡
“纳什均衡”悲喜剧i一、“囚徒困境”与“纳什均衡”一次博弈最终总会形成一个结果,好比讨价还价,这就是博弈均衡。
“纳什均衡”是一种最常见的、也是最重要的博弈均衡。
它是美国天才数学家纳什在1950年正在攻读博士学位时提出来的,论文题为《n人博弈的均衡问题》。
纳什巧妙运用数学技巧,证明了如下定理:对一任何一个n人参与的非合作博弈(零和或非零和),如果每个参与者的策略是有限的,那么一定存在至少一个纳什均衡解集。
该论文只有短短一页纸,但却成了博弈论的经典文献,并使他获得了诺贝尔经济学奖。
“纳什均衡”的经典案例是“囚徒困境”:两个作案嫌疑人分别关在两间牢房,警察告知,如果两人都招供,则各坐牢3年;如果两人都不招供,则放出;如果一人招供而另一人不招供,则招供的坐牢3年,不招供的坐牢10年。
局外人看来,最好两人都不招供。
但从每个人来看,招与不招的代价分别为{3;3}与{0;10},还是招供为好。
但从纳什均衡却得出一个悖论:单个人的最优选择却没有导致全局最佳的结果。
现实中的例子很多,如价格战的结果是两败俱伤。
“纳什均衡”证明了一个道理:非合作博弈的情况下困境无法解脱。
二、自私的“纳什均衡”假定参与者都是自私的,“纳什均衡”的实例是很多的。
比如:一个大笼子里关着许多猴子,主人每天抓一只猴子杀掉。
所有的猴子都不敢反抗,怕单独反抗会被主人先杀掉,结果所有的猴子都被杀了。
如果所有的猴子群起反抗,有可能都逃脱逃掉。
人类在这方面的例子也很多。
在波士顿树立的二战犹太人蒙难纪念碑上,德国神父马丁留下了一段发人深省的铭文:“起初他们追杀共产主义者,我不是共产主义者,我不说话;接着他们追杀犹太人,我不是犹太人,我不说话;后来他们追杀工会成员,我不是工会成员,我不说话;此后他们追杀天主教徒,我是新教教徒,我不说话;最后他们奔我而来,再也没有人站起来为我说话了。
在现实中,公共汽车的小偷偷东西,别人袖手旁观;有人挥霍公家的东西,没人制止;在公地上放羊,每人都想多养,等等。
纳什均衡与囚徒困境
这就是心理成本。究竟应该给受损者补偿多少 才能使他觉得自己没有受损,很难有客观的 标准。
进一步
• 即使事后补偿实际上不会发生,变革不可能得 到一致的同意。但,如果在作出制度安排前每 个人成为赢家的机会均等,从事前角度看,卡 尔多—希克斯改进也是帕累托改进。
• 是其中一人成为所有者,另一人变成雇员 ,让前者监督后者,并根据后者的表现对 其实行奖惩。
所有权配置与等级结构
• 考虑团队生产:让其中的一个人变成所有
者
雇员
工作
偷懒
老板
工作 偷懒
6,6 2,6
4,4 2,2
所有权解决囚徒困境
效率标准
• 问题:社会是由人组成的,每个人的行为都会影 响到他人的利益。那么,我们用什么样的标准判 断个人的行为是否正当?
Hale Waihona Puke 例子• 1、囚徒困境 • 2、公共产品的供给 • 大家出钱兴办公用事业,所有人的福利都
会增加,问题是,如果我出钱,你不出钱 ,我得不偿失;反之,你出钱,我不出钱 ,就可以占你的便宜。结果,大家都不出 钱。
公共产品(public goods)
无论对方如何选择,每个 人的最优选择:不提供。
所以,我们可以预测,结 果将是(不提供,不提供)
应用:工人下岗
• 让一部分工人下岗可以使企业提高效率, 更有竞争力,但对于下岗的人来说,利益 受到损害,显然,解雇工人不是帕累托最 优。
• 但如果其带来的企业效益的提高足以弥补 工人的损害,这就是一个卡尔多---希克斯改 进。如果给下岗工人足够的实际补偿,使 得他的收入比工作的时候并不变得更低。
MBA必修课程《博弈论》第二部分:穷途困境与纳什均衡
Page 32
如果其他牧民约束放牧规模,我单独一家人过度放 牧不会破坏广褒的牧场,但自己却获得了高额的收益。 因此,任何一位牧民的结论都会是:无论其他牧民是否 过度放牧,我选择“约束自己的放牧规模”都是劣战略, 从而被剔除。大家最终都会选择过度放牧,结果导致草 地消失,生态破坏。
内蒙古草原的沙漠化
三、囚徒困境详解和延伸
1、囚徒困境详解
Page 17
囚徒乙
S i 称为占优策略,或占优于其他策略 坦白
抵赖
囚徒甲 坦白 -8,-8 0,-10
抵赖 -10,0 -1,-1
占优策略均衡 囚徒甲
坦白 抵赖
囚徒乙
坦白
抵赖
-8,-8
0,-10
-10,0
-1,-1
Page 18
每个参与人组成的优势策略称为占优策略均衡。 甲和乙都不会选择劣战略“抵赖”,称为“剔除劣战略的占优战 略均衡”。其中“坦白”是占优于(优于)“抵赖”的占优战略。
2、囚徒困境特点
Page 19
•利己、理性
•非合作
•存在严格劣策略
囚徒困境假定每个参与者(即“囚徒”)都是利己的, 即都寻求最大自身利益,而不关心另一参与者的利益。
参与者某一策略所得利益,如果在任何情况下都比其他 策略要低的话,此策略称为“严格劣势”,理性的参与者绝 不会选择。另外,没有任何其他力量干预个人决策,参与者 可完全按照自己意愿选择策略。
解决方案
Page 7
这么一直迭代下去,理论上如果所有学生都是 理性人。平均数应当是1。应该说选择了1的学生都 看出了这个博弈的窍门。但是他们的选择不是最接 近平均数的。因为在现实中不可能所有人都是理性 人。
最终12是最接近平均数2/3的数。
张维迎《博弈论与信息经济学》讲义-第02章-纳什均衡与一致预期
最优选择
这个博弈只要求一阶理性共识就可以预测均衡 结果: 如果R相信C是理性的,R就知道C不会选择C3, 所以R的最优选择是R1; R R1 如果C相信R是理性的,C就知道R不会选择R2, 所以C的最优选择是C2. 但要C预期R不会选择R3,需要二阶理性共识; 要R不预期C会选择C1,需要三阶理性共识.
– – – – 如果R(b)C 选择C2, 如果R(b)C(b)R会选择R2; 如果R(b)C(b)R(b)C会选择C1; 如果R(b)C(b)R(b)C(b)R会选择R1
Consistently aligned beliefs (CAB)
考虑(R3,C3):对方不会犯预期错误:R选 择R3,如果他认为C会选择C3;C会选择C3, 如果他认为R会选择R3. CAB CAB:每个人对别人行为的预期(信念)是正 确的; Harsanyi doctrine: 如果两个理性的人具有相同 的信息,他们一定会得出相同的推断和相同的 结论; Robert Aumann: rational agents cannot agree to disagree.
重复剔除与理性共识
重复剔除不仅要求每个人是理性的,而且要求每个人 知道其他人是理性的,每个人知道每个人知道每个人 是理性的,如此等等,即理性是"共同知识"(共识) C1 R1 R2 R3 10,4 9, 9 1,98 C2 1, 5 0, 3 0,100 C3 98,4 99,8 100,98 这个博弈只要求 一阶理性共识就 可以预测均衡结 果. 如果把(下-左) 的第一个数字改为 11呢?
纳什均衡与一致预期
张维迎 教授 北京大学光华管理学院
博弈的基本概念(1)
参与人(players):博弈中决策主体的集合:什 么人参与博弈?每个人是什么角色? 行动(actions): 每个人有些什么样行动可以选 择?在什么时候行动? 信息(information):在博弈中的知识;每个人 知道些什么(包括特征,行动等)? 战略(strategies):行动计划;每个人有什么战 略可供选择?战略的完备性;
纳什均衡与囚徒困境
交通拥堵中的纳什均衡
在交通拥堵中,如果所有驾驶员都选择走某一 条路,那么这条路就会变得非常拥堵。
如果一个驾驶员选择走另一条路,那么他可能 会更快地到达目的地,但其他驾驶员也可能会 效仿,导致另一条路也变得拥堵。
纳什均衡在交通拥堵中的表现为:所有驾驶员 都选择走同一条路,形成一种稳定的交通状态。
公共资源中的纳什均衡
建立信任
通过建立信任机制,让囚犯相 信对方不会出卖自己,从而都
选择抵赖。
引入第三方监管
由第三方监管机构介入,制定 规则并监督执行,确保双方都 遵守规则。
改变奖励机制
改变奖励机制,使得双方都选 择抵赖成为最优解,例如将坦 白惩罚变得更重。
增加沟通机会
让囚犯有更多的沟通机会,了 解对方的想法和处境,从而更
企业竞争中的囚徒困境
价格战
01
企业为了争夺市场份额,可能会采取降价策略,但这种策略可
能导致整个行业的利润下降。
技术研发
02
企业在研发新技术时面临投入不足或过度投入的困境,如何平
衡研发投入与市场收益是一大挑战。
广告策略
03
企业在广告投放上可能存在囚徒困境,过多的广告投入可能增
加品牌知名度,但也可能导致广告费用过高而降低利润。
01
02
03
公共资源是指那些不属于任何个 人或组织的资源,如海洋、森林、 空气等。
在公共资源的使用中,如果每个 人或组织都过度使用资源,那么 资源将会被耗尽或使用 资源,导致资源的过度消耗和破 坏,形成一种稳定的竞争状态。
05 囚徒困境的实例分析
促进学科发展
纳什均衡与囚徒困境的研究推动了博弈论和其他相关学科的发展,促进了学术交流和知识创新。
纳什均衡与囚徒困境
纳什均衡纳什均衡,Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名,是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。
首先我们先简单看一下纳什均衡的经济学含义:所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处。
换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。
纳什均衡(Nash equilibrium),无一参与者可以通过独自行动而增加收益的策略组合。
纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。
纳什均衡可以分成两类:"纯战略纳什均衡"和"混合战略纳什均衡"。
纯战略是提供给玩家要如何进行赛局的一个完整的定义。
特别地是,纯战略决定在任何一种情况下要做的移动。
战略集合是由玩家能够施行的纯战略所组成的集合。
混合战略是对每个纯战略分配一个机率而形成的战略。
混合战略允许玩家随机选择一个纯战略。
混合战略博弈均衡中要用概率计算,因为每一种策略都是随机的,达到某一概率时,可以实现支付最优。
因为机率是连续的,所以即使战略集合是有限的,也会有无限多个混合战略。
案例:智猪博弈、囚徒困境、普通范式博弈(公司合作背叛)、饿狮博弈、硬币正反。
这里有一个理想化假设,那就是假设双方都知道博弈次数是无限的话,也就是说双方的商业往来是无止尽的,那么二者的策略都将持续选择合作,最终的博弈收益将定格在(3,3),这就是一个纳什均衡。
既然博弈次数是无限的,那么任何一方都没有理由选择背叛策略去冒险追求5点短暂收益,而招致对方在下一轮博弈中的报复(这种报复在博弈论里称作“以牙还牙”策略)。
还有另一种假设情况是,假使双方都知道博弈次数是有限的,也许下一次博弈就是最后一次,那么为了避免对方在最后一轮博弈中选择背叛策略而使我方遭受-3的收益损失,于是双方都重新采取了背叛的策略选择,最后的博弈结果又回到了(-1,-1),这就形成了第二个纳什均衡。
《博弈入门》第二章:纳什均衡:理论
努⼒⼯作游⼿好闲努⼒⼯作2,23,0游⼿好闲0,31,1《博弈⼊门》第⼆章:纳什均衡:理论1 策略型博弈策略型博弈是决策者之间相互作⽤的模型。
正是因为相互作⽤,我们称决策者为局中⼈。
每个局中⼈有⼀个可选⾏动的集合。
模型中的每个局中⼈受到所有局中⼈⾏动的影响,⽽不仅是受到她⾃⼰⾏动的影响,从⽽获得局中⼈之间的相互作⽤。
尤其是,每个局中⼈对于⾏动剖⾯⼀-所有局中⼈⾏动的列表(参见17.4节中关于剖⾯的讨论)---都有⾃⼰的偏好。
定义2.1(具有序数偏好的策略型博弈)(具有序数偏好的)策略型博弈由如下要素组成:局中⼈集合对于每个局中⼈,有⼀个⾏动集合对于每⼀个局中⼈,有关于⾏动剖⾯集合的偏好2.2 囚徒困境2.2.1 合作项⽬你和朋友合作-⼀个项⽬。
你们每个⼈可以要么努⼒⼯作要么游⼿好闲。
如果你的朋友努⼒⼯作,⽽你乐意游⼿好闲(如果你也努⼒⼯作的话,项⽬的结局将会好--些,可是其价值的增量对你来讲不值得付出额外的努⼒)。
你喜欢你们俩都努⼒⼯作的结局甚于你们俩都游⼿好闲(在这种情况下,什么都没有完成),对于你,最差的结局是你⼯作很努⼒⽽你的朋友却游⼿好闲(你痛恨被“剥削")。
如果你的朋友有相同的偏好,那么模拟你所⾯对情形的博弈将在图2.2中给出,如你所看到,这个博弈与“囚徒困境”的不同仅在于⾏动的名称。
我们并没有断⾔,两个⼈从事⼀个合作项⽬的情况必定具有“囚徒困境”的结构,只有当局中⼈的偏好与“囚徒困境”中⼀样时才是!例如,如果在其他⼈努⼒⼯作时每个⼈都喜欢努⼒⼯作甚于游⼿好闲,那么“囚徒困境”就不模拟这种情况:局中⼈的偏好与图2.2中给出的偏好不同。
2.2.2 双寡头垄断左图的博弈与“囚徒困境”的不同之处不仅在于局中⼈⾏动的名称,还在于其中两个局中⼈的偏好上有所不同。
右图的博弈与“囚徒困境”的不同之处仅在于局中⼈⾏动的名称。
随机坚持随机1/2(H+L),1/2(H+L)L,H坚持H,L S,SS>L2.4例证:匹配硬币(⽆冲突博弈)我们研究的求解理论有两个部分。
纳什均衡——非合作博弈,囚徒困境
纳什均衡——⾮合作博弈,囚徒困境1、⾮合作博弈是指在策略环境下,⾮合作的框架把所有的⼈的⾏动都当成是个别⾏动。
它主要强调⼀个⼈进⾏⾃主的决策,⽽与这个策略环境中其他⼈⽆关。
博弈并⾮只包含了冲突的元素,往往在很多情况下,既包含了冲突元素,也包含了合作元素。
即冲突和合作是重叠的。
===》求个⼈利益最⼤化2、合作博弈是指⼀些参与者以同盟、合作的⽅式进⾏的博弈,博弈活动就是不同集团之间的对抗。
在合作博弈中,参与者未必会做出合作⾏为,然⽽会有⼀个来⾃外部的机构惩罚⾮合作者。
合作博弈亦称为正和博弈,是指博弈双⽅的利益都有所增加,或者⾄少是⼀⽅的利益增加,⽽另⼀⽅的利益不受损害,因⽽整个社会的利益有所增加的。
===》求集体利益最⼤化囚徒困境终于被破解了!⼩伙1句狠话轻松破解难题,豪取50万英镑==》本质上的解法是在将⾮合作博弈变成合作博弈发布时间: 05-1122:12教育领域创作者囚徒困境,据说是博弈论中最棘⼿的难题,⽆⼈可破!不过,这个世纪难题却被⼀个年轻的英国街头混混⽤1句话给轻松破解了,并且豪取50万英镑。
01、什么是囚徒困境?囚徒困境,是1950年美国兰德公司提出来的,并以故事的形式进⾏阐述:两⼈因合伙盗窃杀⼈被逮捕,警⽅将他们两⼈分开进⾏审讯,并给了他们3个选择:1、如果两个⼈都抵赖,各判刑1年;2、如果两个⼈都坦⽩,各判刑8年;3、如果其中⼀⼈坦⽩,坦⽩者会被释放,抵赖者则会判刑10年。
很明显,两个囚徒都⾯临着两种选择:坦⽩或者抵赖。
由于两⼈处于隔离状态,并不知道同伙会如何选择,那么,他们就只能基于⼈性的⾃私,⽽去断定同伙肯定会去对其来说最有利的⽅式:坦⽩!既然同伙坦⽩了,那么⾃⼰抵赖就会被判10年,太亏了。
于是,他⾃⼰也会选择坦⽩——最坏也是8年,如果运⽓好,还可能直接释放。
这样⼀来,每个⼈都这样猜想对⽅,那么他们最终的结果就是都坦⽩,同时被判刑8年。
02、英国⼩伙破解囚徒困境的神操作!囚徒困境充分利⽤了⼈性的⾃私,基本⽆法破解。
博弈论笔记1:囚徒困境与纳什均衡
博弈论笔记1:囚徒困境与纳什均衡1 个体最优与社会最优1.1 社会基本问题社会:个体之间有互动行为&相互依赖的群体羊群效应:大家做什么,我就跟着做什么,不管对错和原因协调问题:两人迎面走来,谁左谁右?(核心:人们如何预测他人的行为)合作问题:囚徒困境(核心:个体理性和集体理性的折衷)等边际原理:如果每一种资源都存在着边际收益递减,那么最优的资源配置策略应该满足:最后一单位资源无论用在哪一种用途上,都会产生相同的收益。
【资源在每一种用途上的边际贡献相等】1.2 个体理性行为理性人:有一个明确的偏好+在给定约束条件下,这个人总是追求自我偏好最大化。
输赢的不对称:当人们面临风险决策时,他们更在乎的是成功与失败,赢和输,财富的变化,而不是最终的财富状态;(比如说,100元损失导致的效用的减少远远大于100收益导致的效用的增加)——>人们是损失规避型的(loss aversion);1.3 社会最优1.3.1 帕累托效率标准:帕累托效率:一种社会状态,与该状态相比,不存在任何一种可选择的状态,使得至少一个人的状态更好,同时没有任意一个人的状态变差帕累托改进:改变一种状态,使得没有任何一个人的处境变坏,但是至少有一个人的处境变好了**从非帕累托最优点到帕累托最优点不一定是帕累托改进1.3.2 卡尔多-希克斯标准总量最大化2 囚徒困境2.1 占优策略不管对方使用什么样的战略,只要参与人使用这一战略,都可以给自己带来最大的收益。
理性人做决策的时候,不需要假定对方是理性的。
占优战略均衡:由占优战略组成的战略组合。
2.2 囚徒困境尽管合作能让双方更好,但双方仍然不会合作怎么比较好地去记一个方框里面哪个是甲的收益哪个是乙的收益呢?我们画一条线,斜线上方的就是表格“上方”的乙的收益;斜线左边的就是表格“左边”的甲的收益。
两个假设:R>T>P>ST+T>R+S只要满足这两个条件,一定是个人理性选择不满足集体理性选择。
第2章 纳什均衡与囚徒困境
最优选择
• 这个博弈只要求一阶理性共识就可以预测均衡 结果: • 如果R相信C是理性的,R就知道C不会选择C3, 所以R的最优选择是R1; • 如果C相信R是理性的,C就知道R不会选择R2, 所以C的最优选择是C2。 • 但要C预期R不会选择R3,需要二阶理性共识; 要R不预期C会选择C1,需要三阶理性共识。
无论对方如何选择,每个人的最优选择:不提供。 所以,我们可以预测,结果将是(不提供,不提供)
公共产品与税收制度
• 比较私人产品与公共产品的不同:使用 上排他性; • 私人产品是志愿购买的,但公共产品可 能需要强制购买; • 税收制度就是保证公共产品的生产,解 决公共产品生产上的“囚徒困境”
“囚徒困境”的一般表示
战略 做广告
企业2
做广告 不做广告 4, 4 15 , 1 10 , 10
企业1
不 做 广 告 1 , 15
• 纳什均衡:(做广告,做广告)
利用纳什均衡寻租
• 考虑股票市场融资的例子:设想企业价值是 100,现在发行的流通股为100股,每股价值1 元。现在假定经理想筹集100元,投资价值只 有50元。有人买新股吗? • 假定每一股配4股,价格为0.25元。如果股东不 接受配股:原来一股1元的价值就变成0.3元 (=150/500);如果接受配股,他持有的股票 的价值是1.5元;因为配股的成本是1元,所以 他的最优选择是接受配股。
重复剔除占优均衡
• “重复剔除严格劣战略”(iterated elimination of strictly dominated strategy)的思路:首先找出博弈参与人的劣 战略(dominated strategy)(假定存在的话),把这个劣 战略剔除后,剩下的是一个不包含已剔除劣战略的新 的博弈;然后在剔除这个新的博弈中的劣战略;继续 这个过程,直到没有劣战略存在。如果剩下的战略组 合是唯一的,这个唯一的战略组合就是“重复剔除占 优均衡”(iterated dominance equilibrium)。 • 如果这样的解存在,我们说该博弈是“重复剔除占优 可解的”(iterated dominance solvable).
第二章 纳什均衡 《博弈论与经济》 PPT课件
▪ G的纳什均衡可由以下划线法求得。
▪ 1.对局中人1的每个策略i (i 1,2,, m) ,寻找局中人2的最
优反应。若最优反应为
j
,即 bij
max
k 1,2,,n
bik
,则在支付矩
阵元素 bij 下划一短线。
▪ 2.对局中人2的每个策略 j ( j 1,2,, n) ,寻找局中人1的
最优反应,若最优反应为 i
▪ 考虑由商店A, B构成的市场,A与B分别销售不同品牌的商 品,进行价格竞争。假设生产的单位成本为零。消费者 分为两类, n A ( 0)个消费者偏好于产品A,nB ( 0)个消费者 偏好于产品B。A,B两种品牌价格分别为 PA , PB 。设消费 者可从A或B处购买单位商品。
▪ 用 0表示由于购买不喜欢的产品所付出的厌恶成本,假 设消费者具有如下的效用函数
按 等待
等按待
(5,1) (9,1)
4,4
(0, 0)
▪ 严格纳什均衡为大猪“按”,小猪“等待”。
▪ 例2.7 在例1.8中的大堤维护博弈中,支付矩阵为
维护
不维护
不维维护护 ((1
4,4) 0,1 4)
((1140,,1100))
▪ 利用划线法可得纳什均衡(维护,维护),(不维护, 不维护)。
▪ 为了保护生命财产的安全,政府可以立法,如果参与人
第2章 纳什均衡
2.1 纳什均衡的定义
▪ 纳什均衡是博弈论中最重要的概念,各种非合作博弈模型的均衡概念都是建 立在纳什均衡基础之上的。
▪ 纳什均衡是个策略组合 s* (si*, s*i ) ,它满足两个要求。
▪
1.对每个局中人 i N
,能够预期到对手采用策略组合s
02博弈中的纳什均衡与一致预期
R1
R2 R3
0,4 4,0
4,0
0,4
5,3
5,3
3,5
3,5
6,6
纳什均衡
纳什均衡:所有参与人的最优战略的组合:
给定该战略中别人的选择,没有人有积极性 改变自己的选择。 纳什均衡是局中人战略选择上构成的一种 “僵局”,给定其他局中人的选择不变,任 何一个局中人的选择是最好的,他也不会改 变其战略选择。 敌不动,我不动 例如:乒乓球,生气
考虑有N个人参与的游戏:每个人可任意放
最多100元到一部可以生钱的机器(可以选择 不放),机器把所有人放进去的钱的总和增 加到原来的三倍,然后再平均分给这N个人。 请猜出这N人博弈的纳什均衡并给出相应的 分析。
实验:
请三位男同学
大家拿出一张纸 写下任意一个人的名字 获胜者:选中大部分人选择的
“智猪博弈”(boxed pigs)
有些博弈没有占优均衡,但通过剔除“坏”战略, 我们可以预测博弈的结果。如“智猪博弈”
小猪
按
大猪
等待 2,4 0,0
按 等待
3,1 7,-1
这个博弈中,大猪的最优选择依赖 于小猪的选择,但小猪的最优选择 与大猪的选择无关。如果大猪知道 小猪的理性的,大猪将选择“按”。 均衡是“大猪按,小猪等待”。 “劣”战略:无论对方选择什么,如果 自己选择A得到的总是收益小于选择 B得到的收益,A就是相对于B的劣
B
不坦白 -8,-8 0,-10 -10,0 -1,-1
A
不坦白
无论对方如何选择,每个人的最优选择:坦白。 所以,我们可以预测,结果将是(坦白,坦白)
占优均衡
(dominant-strategy equilibrium)
囚徒困境——纳什均衡
囚徒困境——纳什均衡警⽅逮捕甲、⼄两名嫌疑犯,但没有⾜够证据指控⼆⼈⼊罪。
于是警⽅分开囚禁嫌疑犯,分别和⼆⼈见⾯,并向双⽅提供以下相同的选择: 若⼀⼈认罪并作证检控对⽅(相关术语称“背叛”对⽅),⽽对⽅保持沉默,此⼈将即时获释,沉默者将判监10年。
若⼆⼈都保持沉默(相关术语称互相“合作”),则⼆⼈同样判监1年。
若⼆⼈都互相检举(相关术语称互相“背叛”),则⼆⼈同样判监8年。
⽤表格概述如下:甲沉默甲背叛⼄沉默⼆⼈同服刑1年⼄服刑10年,甲即时获释⼄背叛甲服刑10年,⼄即时获释⼆⼈同服刑8年 如同的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利⼰的,即都寻求最⼤⾃⾝利益,⽽不关⼼另⼀参与者的利益。
参与者某⼀策略所得利益,如果在任何情况下都⽐其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。
另外,没有任何其他⼒量⼲预个⼈决策,参与者可完全按照⾃⼰意愿选择策略。
囚徒到底应该选择哪⼀项策略,才能将⾃⼰个⼈的刑期缩⾄最短?两名囚徒由于隔绝监禁,并不知道对⽅选择;⽽即使他们能交谈,还是未必能够尽信对⽅不会反⼝。
就个⼈的理性选择⽽⾔,检举背叛对⽅所得刑期,总⽐沉默要来得低。
试设想困境中两名理性囚徒会如何作出选择: 若对⽅沉默、背叛会让我获释,所以会选择背叛。
若对⽅背叛指控我,我也要指控对⽅才能得到较低的刑期,所以也是会选择背叛。
⼆⼈⾯对的情况⼀样,所以⼆⼈的理性思考都会得出相同的结论——选择背叛。
背叛是两种策略之中的⽀配性策略。
因此,这场博弈中唯⼀可能达到的纳什均衡,就是双⽅参与者都背叛对⽅,结果⼆⼈同样服刑8年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决⽅案。
以全体利益⽽⾔,如果两个参与者都合作保持沉默,两⼈都只会被判刑1年,总体利益更⾼,结果也⽐两⼈背叛对⽅、判刑8年的情况较佳。
但根据以上假设,⼆⼈均为理性的个⼈,且只追求⾃⼰个⼈利益。
均衡状况会是两个囚徒都选择背叛,结果⼆⼈判决均⽐合作为⾼,总体利益较合作为低。
纳什均衡囚徒困境帕雷托最优-最通俗的解答
纳什均衡囚徒困境帕雷托最优-最通俗的解答在知乎的纳什均衡回答里看到这么一个观点:1. 三个火枪手中那句名言:All for one,one for all (人人为我,我为人人),我的理解是,贵族武士之间,通过自利和利他的行为实现共同目的2. 亚当斯密提出invisible hand理论时候的基本前提:当市场中每个人都进行自利行为的时候,在客观上说,市场(或社会)整体的福利会被提升而纳什均衡恰好否定了前面的观点,我认为这也是这一理论如此著名的原因:当市场中每个人都进行自利行为的时候,在客观上说,市场(或社会)整体的福利是无法达到最优的。
纳什均衡(Nash equilibrium),无一参与者可以通过独自行动而增加收益的策略组合。
其经典的例子就是囚徒困境(Prisoner's Dilemma)。
囚徒困境是一个非零和博弈,反映个人最佳选择并非团体最佳选择。
或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。
大意是:一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被立即释放,而对方将被判刑十年;如果两人均招供,将均被判刑两年。
如果两人均不招供,将最有利,只被判刑半年。
于是,两人同时陷入招供还是不招供的两难处境。
但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供,这种情况就称为纳什均衡。
这时,个体的理性利益选择是与整体的理性利益选择不一致的。
囚犯的博弈矩阵囚犯甲招供不招供囚犯乙招供各判刑两年甲判刑十年,乙立即释放不招供甲立即释放,乙判刑十年各判刑半年基于经济学中“理性经济人”的前提假设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被判刑半年就不会出现。
事实上,这样两人都选择坦白的策略以及因此被判两年的结局被称作是“纳什均衡”(也叫非合作均衡),换言之,在此情况下,无一参与者可以“独自行动”(即单方面改变决定)而增加收获。
博弈论第二章——博弈规则
U1f(f,z)=1 盖 U1f(f,f)=-1 硬
▪ U2z(z,z)=-1
币 方
-1
U2z(f,z)=1
U2f(z,f)=1
U2f(f,f)=-1
猜硬币游戏
猜硬币方-2 正面z 反面f
正面z -1,1 1,-1 反面f 1,-1 -1,1
Uz= U1z+ U2z=-1+1-1+1=0
Uf= U1f+ U2f=1-1+1-1=0
2.2.1 博弈中的博弈方
博弈方(player/ players) 博弈中独立决策、独立承担博弈结
果的个人或组织称为博弈方。 1.单人博弈 2.双人博弈 3.多人博弈
1.单人博弈
设有一商人要从A地运输一批货物, 从A地到B地有水、陆两条路线, 走陆路运输成本10 000元,而走水 路运输成本只要7000元。但非常危 险,出现坏天气的概率为0.25,此 时会损失10%的货物。货物总价值 90 000元。
参考书目
1. [美]阿维纳什·K ·迪克西特.策略思维.中国人民大 学出版社,2002
2. 王则柯. 新编博弈论平话. 中信出版社,2003 3. 谢识予.经济博弈论(第二版) .复旦大学
出版社,2002
4. [美]埃里克·拉斯缪森.博弈与信息:博弈论概论. 北京大学出版社,2003
5.张维迎.博弈论与信息经济学.上海三联书店, 2004
第二章 博弈论基本知识
2.1 什么是博弈论 2.2 博弈的结构和分类 2.3 博弈的表达方式 2.4 几类经典的博弈模型
第一节 什么是博弈论
2.1.1 从游戏到博弈 2.1.2 一个非技术性的定义 2.1.3 博弈论模型简介
2.1.1 从游戏到博弈
纳什均衡及应用举例-博弈论
n 信息集:参与人在特定时刻有关变量的值的 信息
n Common Knowledge 即共同知识(所有参与 人知道,所有参与人知道所有参与人知道,)
Complete and Perfect ——完全信息与完美信息
0 n 需求大, A不开发, B开发, B为8000万元,A
为0 n 需求大, A不开发, B不开发,都为0 n 需求小, A开发, B开发,AB各为-3000万元 n 需求小, A开发, B不开发。A为1000万元B为0 n 需求小, A不开发, B开发A为0,B为1000万元 n 需求小, A不开发, B不开发,都为0
用水平 n 自然人或团体,如企业、国家、OPEC、EU n 重要的是每个决策主体必须有可供选择的行动或策略
和一个很好定义的偏好 n 而不做决策的被动主体只当作环境参数 n 虚拟参与人:“自然”(nature)作为“虚拟参与人”
(pseudo-player)来处理。这里的自然指决定外生 随机变量的概率分布的机制
n 它是指在一个特定的策略组合下player得到 的确定的效用水平,或者指参与人得到的期 望效用水平。
n 这是player真正关心的东西,是player博弈 后所得利益。
n 他的目标就是在自己可以选择的战略集合里, 选择某个战略以最大化自己的期望效用函数 (v-N-M预期效用函数)。
支付
n 如果有n人博弈,令ui为Player i 的支付(效用 水平),u=(u1,…ui…un)为支付组合payoff profile,
n 两者主要区别是在对博弈结果与博弈进程知识的掌 握情况有差别:
浅析囚徒困境与纳什均衡
浅析囚徒困境之巴公井开创作囚徒困境是博弈论的非零和博弈中具代表性的例子,指反映个人最佳选择其实不是团体最佳选择.囚徒困境的经典案例这里不再复述,让我们看一下身边的例子.囚徒困境在生活中最罕见的暗示就是挤公共汽车.从集体理性的角度来看,顺次第上车是最有效率的做法,可是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了.学生也同样遭遇囚徒困境:减轻中小学生过重负担喊了20多年,仅1985年至2000年的15年里,中央就下达“减负令”49次.但实际情况却是学生课业负担不单没减下来,反倒呈现出越演越烈之势,致使学生作业做到深夜、节假日仍然上课、业余时间奔走于各种补习班等.可见“减负令”难以见效,中小学生课业负担不减反增.又比如近年来炒得火热的楼市——“我没买房,结果房价还是涨了,因为我们无法保证年夜家都不买房.可是,我错了吗?没有.现在如果我买房了,房价下跌了呢?因为我不能保证年夜家都买房.人们根本不能预知在疾风暴雨式的调控之下,房价竟还能且调且涨.可是,我对了吗?没有.”这是一部眼下流行、布满黑色幽默的网络视频《北漂族的无房生活》中的经典对白.含泪的“调侃”折射出当下楼市的“囚徒困境”:买,难担高房价重负;不买,难受房价节节攀升的煎熬.再看中国的法治之路.虽然法治让所有人都长期受益,甚至执政者自己也不例外,可是一个狭隘理性社会却偏偏无力支撑法治,以至最后每个理性人都不能不忍受法治缺位的非理性之苦.绝年夜大都中国人都是很识时务的理性人,不会故意给自己找茬,大都律师也不例外.不外,任何事物都有两面性,“理性”过了头也就成了非理性.这就是布满着现今中国社会的“囚徒困境”:一种行为模式对个人看起来是很理性的,可是对个人构成的集体来说却是非理性的,最后对每个人来说也是非理性的.我们都不敢站出来说话,对每个人来说都是很“理性”的一种行为方式,但最后的结果只能是让整个社会丧失法治.但囚徒困境一定是坏事吗?就以囚徒困境的经典案例来说,作为一个比如,我们会为囚犯不能合作而遗憾;可是如果它发生在现实中,我们就恨不得他们不能合作.然而如果是屡次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能告竣.连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“年夜众定理”的含义.但合作的可能性不是肯定性.博弈论的研究标明,要想使合作成为屡次博弈的均衡解,博弈的一方(最好是实力更强的一方)必需主动通过可信的许诺,向另一方暗示合作的善意,努力把这个善意表达清楚,并转达出去.比如在楼市的囚徒困境中,政府能适当调控房价,给予购房者房价稳定合理的许诺,那么楼市的囚徒困境是有可能破解的.在重复的囚徒困境中,博弈被反复地进行.因而每个介入者都有机会去“处分”另一个介入者前一回合的分歧作行为.这时,合作可能会作为均衡的结果呈现.欺骗的念头这时可能被受到处分的威胁所克服,从而可能导向一个较好的、合作的结果.作为反复接近无限的数量,纳什均衡趋向于帕累托最优.在博弈到达纳什均衡时,局中的每一个博弈者都不成能因为双方面改变自己的战略而增加获益,于是各方为了自己利益的最年夜化而选择了某中最优战略,并与其他敌手告竣了某种暂时的平衡.这种平衡在外界环境没有变动的情况下,倘若有关各方坚持原有的利益最年夜化原则并理性面对现实,那么这种平衡状况就能够长期坚持稳定.在纳什均衡点上,每一个理性的介入者都不会有独自改变战略的感动.在“囚徒困境”变形的博弈中,双方都不坦白就是一个纳什均衡,这对双方来说都是最优选择.同时在这个博弈中,其均衡对双方来说是全局最优的.固然博弈到达纳什均衡,其实纷歧定是对介入者最有利的结果博弈到达纳什均衡,其实纷歧定是对介入者最有利的结果,更不意味着是对整个社会而言最有利的结果,比如囚徒困境就招致了整体的晦气.囚徒双方没有信息交换下的博弈,就是博弈论中的静态博弈静态博弈概念.在同静态博弈时行动的静态博弈里,没有一个博弈者可以在自己行动之前得知另一个博弈者的整个计划.“纳什均衡”对亚当斯密的“看不见的手”的原理提出挑战.依照斯密的理论,在市场经济中,每一个人都从利己的目的动身,而最终全社会到达利他的效果.《国富论》中有这样一句名言:“ 通过追求个人的自身利益,他经常会比其实际上想做的那样更有效地增进社会利益.”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的动身,结果损人晦气己,既晦气己也晦气他.两个囚徒的命运就是如此.囚徒困境中,每个人采用的都是最优的战略,可是结果却是最劣,原因在于个人理性和集体理性的抵触.在“囚徒困境”中暗示最好的战略直接取决于对方采纳的战略,特别是取决于这个战略为发展双方合作留出多年夜的余地.自力于对方所用战略之外的最好决策规则是不存在的.“囚徒困境”一般是一些非常普遍而有趣的情形的简单笼统.在这些情形中,从个人的角度来说,叛变是最好的选择,但双方叛变就会招致不甚理想的结果呈现.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这个博弈中,大猪的最优选择依赖 于小猪的选择,但小猪的最优选择 与大猪的选择无关。如果大猪知道 小猪的理性的,大猪将选择“按”。 均衡是“大猪按,小猪等待”。 “劣”战略:无论对方选择什么,如果 自己选择A得到的总是收益小于选择 B得到的收益,A就是相对于B的劣 战略。
QM
ac 2
M
(a c) 2 4
混合战略纳什均衡
• 有些博弈没有“纯战略”纳什均衡,但 有混合战略纳什均衡,如监督博弈。
偷懒 监督 不监督 1,-1 -2,3 不偷懒 -1,2 2,2
给定工人偷懒,老板的最优 选择是监督;给定老板监督, 工人的最优选择是不偷懒; 给定工人不偷懒,老板的最 优选择是不监督;给定老板 不监督,工人的最优选择是 偷懒;如此循环。
可理性化的选择
• Rationalizable strategy: 不能被重复剔除的 战略;或者说,可以被合理的信念(belief) 所支持的行为; • 例如:R理性化选择R1:
– – – – 如果R(b)C 选择C2, 如果R(b)C(b)R会选择R2; 如果R(b)C(b)R(b)C会选择C1; 如果R(b)C(b)R(b)C(b)R会选择R1
4
哲学思考
• 如果参与人事前达成一个协议,在不存在外部 强制的情况下,每个人都有积极性遵守这个协 议,这个协议就是纳什均衡。
寻找纳什均衡
C1 R1 R2 R3 100,100 50,0 0,300 C2 0,0 1,1 0,0 C3 50,101 60,0 200,200
纳什均衡:举例
• 广告博弈
最优选择
• 这个博弈只要求一阶理性共识就可以预测均衡 结果: • 如果R相信C是理性的,R就知道C不会选择C3, 所以R的最优选择是R1; • 如果C相信R是理性的,C就知道R不会选择R2, 所以C的最优选择是C2。 • 但要C预期R不会选择R3,需要二阶理性共识; 要R不预期C会选择C1,需要三阶理性共识。
提供 提供 不提供 4,4 5,-1 不提供 -1,5 0,0
无论对方如何选择,每个人的最优选择:不提供。 所以,我们可以预测,结果将是(不提供,不提供)
公共产品与税收制度
• 比较私人产品与公共产品的不同:使用 上排他性; • 私人产品是志愿购买的,但公共产品可 能需要强制购买; • 税收制度就是保证公共产品的生产,解 决公共产品生产上的“囚徒困境”
• 两个企业同时选择产量,价格由市场决 定; • 假定需求函数为 P (Q) a (q1 q2 ) 其中 为企业1的产量, q2为企业2的产量 • 假定成本函数为: C (qi ) ci qi • 那么,利润函数为:
1 q1 P(Q ) cq1 q1 (a q1 q2 c) 2 q2 P(Q) cq2 q2 (a q1 q2 c)
无论对方如何选择,每个人的最优选择:坦白。 所以,我们可以预测,结果将是(坦白,坦白)
1
个人理性与集体理性的冲突
• “囚徒困境”表明个人理性与集体理性的冲突。 • 这样的例子很多:寡头竞争,军备竞赛,团队 生产中的劳动供给,公共产品的供给,等等; • 许多的制度就是为解决“囚徒困境”而存在的;
公共产品(public goods)
博弈的基本概念(2)
• 支付(payoffs):每个人在不同战略组合下得到 些什么?依赖于所有参与人的选择; • 均衡(equilibrium):所有参与人最优战略的组 合; • 结果(outcomes):我们所感兴趣的东西。
静态博弈
• 最简单的博弈:所有参与人同时选择行 动,并且只选择一次; • “同时”是一个信息概念,而不一定与 同时 是 个信息概念,而不 定与 日历上的时间一致;
博弈的基本概念(1) 第二章 纳什均衡与囚徒困境博弈
张维迎 教授 北京大学光华管理学院
• 参与人(players):博弈中决策主体的集合:什 么人参与博弈?每个人是什么角色? • 行动(actions): 每个人有些什么样行动可以选 择?在什么时候行动? • 信息(information):在博弈中的知识;每个人 知道些什么(包括特征、行动等)? • 战略(strategies):行动计划;每个人有什么战 略可供选择?战略的完备性;
纳什均衡的存在性问题
• 每一个有限博弈至少存在一个纳什均衡 (纯战略或混合战略); • 如果 如果一个博弈存在两个纯战略纳什均衡, 个博弈存在两个纯战略纳什均衡, 那么,一定存在第三个混合战略纳什均 衡。
Consistently aligned beliefs (CAB)
• 考虑(R3,C3):对方不会犯预期错误:R选 择R3,如果他认为C会选择C3;C会选择C3, 如果他认为R会选择R3。 • CAB:每个人对别人行为的预期(信念)是正 确的; • Harsanyi doctrine: 如果两个理性的人具有相同 的信息,他们一定会得出相同的推断和相同的 结论; • Robert Aumann: rational agents cannot agree to disagree.
“囚徒困境”的一般表示
合作 合作 不合作 T,T R,S 不合作 S,R P,P
满足:R>T>P>S; (S+R)&l作 合作 不合作 满足:X>R-T T,T R-X,S 不合作 S,R-X P,P
“智猪博弈”(boxed pigs)
• 有些博弈没有占优均衡,但通过剔除“坏”战 略,我们可以预测博弈的结果。如“智猪博弈”
战略 做广告
利用纳什均衡寻租
• 考虑股票市场融资的例子:设想企业价值是 100,现在发行的流通股为100股,每股价值1 元。现在假定经理想筹集100元,投资价值只 有50元。有人买新股吗? 元 有人买新股吗? • 假定每一股配4股,价格为0.25元。如果股东不 接受配股:原来一股1元的价值就变成0.3元 (=150/500);如果接受配股,他持有的股票 的价值是1.5元;因为配股的成本是1元,所以 他的最优选择是接受配股。
理性共识
(common knowledge of rationality)
• (1)Zero-order CKR: 每个人都是理性的,但不知 道其他人是否是理性的; • (2)first-order CKR: 每个人是理性的,并且知道 其他每个人也都是理性的,但并不知道其他人 是否知道自己是理性的; • (3)second-order CKR: (1)+(2)+每个人知道(2) • nth-order CKR: R(b)C(b)R(b)……C(b)R is rational,
2
重复剔除占优均衡
• “重复剔除严格劣战略”(iterated elimination of strictly dominated strategy)的思路:首先找出博弈参与人的劣 战略(dominated strategy)(假定存在的话),把这个劣 战略剔除后,剩下的是 个不包含已剔除劣战略的新 战略剔除后,剩下的是一个不包含已剔除劣战略的新 的博弈;然后在剔除这个新的博弈中的劣战略;继续 这个过程,直到没有劣战略存在。如果剩下的战略组 合是唯一的,这个唯一的战略组合就是“重复剔除占 优均衡”(iterated dominance equilibrium)。 • 如果这样的解存在,我们说该博弈是“重复剔除占优 可解的”(iterated dominance solvable).
右 2, 1 3, 4 上 下
左 1, 3 0, 2
右 4, 1 3, 4
3
选择越多,对理性共识的要求越高
C1 R1 R2 R3 R4 C2 C3 C4 (1)Zero-order CKR: C not choose C4 for C is rational (2)1st-order CKR: R not choose R4 for R (b) C (3)2 d d CKR (3)2nd-order CKR: C not t choose h C1 for f C(b)R(b)C (4)3rd-order CKR: R not choose R1 for R(b)C(b)R(b)C (5)4th-order CKR: C not choose C3 for C(b) R(b)C(b)R(b)C (6)5th-order CKR: R not choose R3 for R(b) C(b) R(b)C(b)R(b)C so, (R2,C2) is an equilibrium
纳什均衡与一致预期
• 纳什均衡:所有参与人的最优战略的组合:给 定该战略中别人的选择,没有人有积极性改变 自己的选择。 • 一致预期:基于信念的选择是合理的;支持选 择的信念是正确的; • 预期的自我实现:如何所有人认为这个结果会 出现,这个结果就会出现。预期是自我实现的, 预期不会错误。如果你认为我预期你将选择X, 你就真的会选择X。
0,100 100,98
R排除C选择C1
R believes C believes R believes C is rational
好事变坏事?
• 在单人决策中,个人给定选择在所有情况下的收益都 增加,一个人的状况不会变得更坏,但博弈中则不同。
(C1,C2) 上 R1 C2 下
左 -1, 3 0, 2
囚徒困境(prisoners’ dilemma)
• 囚徒困境
坦白 坦白 不坦白 不坦白 -8,-8 0,-10 -10,0 -1,-1
占优均衡
(dominant-strategy equilibrium)
• 一般来说,由于每个参与人的效用依赖于所有人的选 择,因此每个人的最优选择(战略)也依赖于所有其 他人的选择(战略)。但在上述例子中,一个人的最 优选择并不依赖于他人的选择。这样的最优战略,被 称为“占优战略”(dominant strategy)。由所有参与人 的占优战略构成的战略组合被称为“占优均衡”。 • 占优战略均衡的出现只要求所有人都是理性的,但不 要求每个参与人知道其他参与人是否理性。 • 囚徒困境博弈有占优均衡,所以其结果很容易预测。