中央财经大学 研究生 博弈论课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(三)纳什均衡与子博弈精炼 纳什均衡
子博弈精炼纳什均衡本身是纳什均衡, 是比纳什均衡更强的均衡概念,是动态 博弈中最核心的概念和基本着眼点。 子博弈精炼纳什均衡的价值在于能够排 除均衡策略中不可置信的威胁或承诺, 把动态博弈中的合理纳什均衡和不合理 纳什均衡分开,从而给出动态博弈结果 的一个合理稳定的预测。而非子博弈精 炼纳什均衡则不能做到这一点。
琼斯夫人准备与其丈夫离婚。按照婚前协议, 如果她能证明她的丈夫有过外遇就能得到10万 元,反之只能得到5万元。她的律师只有雇佣 私人侦探才能证明她的丈夫有外遇。雇佣私人 侦探的费用为1万元,由律师支付。琼斯夫人 有两个选择:不管诉讼结果如何,都付给律师 2万元,或者支付诉讼收入的1/3。律师只有在 有利可图的情况下才会雇佣私人侦探。写出这 个博弈的扩展式表示,并判断哪种支付方法能 使她赢得诉讼。
例子:分级协调博弈I
Jones large
Smith
small
large
small
2,2
-1,-1
-1,-1
1,1
例子:分级协调博弈I
small small S small large J2 large ● (2,2) ● (-1,-1) J1 large ● (-1,-1) ● (1,1)
例子:分级协调博弈II
• (大,大):如果Smith 选择“大”,Jones选择
Jones
(大,大) (大,小)
(小,大)
(小,小)
Smith
大
2,2
2,2
-1,-1
-1,-1
小
-1,-1
1,1
-1,-1
1,1
二、策略的可信性问题
在动态博弈中,纳什均衡可能失效。原 因在于它不能排除策略不可信问题。
例子
不同版本的开金矿博弈——分钱和打官司的可信性
五、应用举例
斯坦克尔伯格模型 讨价还价博弈
思考题:强盗分赃
五个海盗抢到了100颗宝石,他们通过抓阄确 定了提出方案的顺序,五个强盗分别抓到号码 一、二、三、四、五。号码是他们的发言顺序。 规则如下: 首先,一号强盗提出分配方案,全部强盗(包 括一自己)中过半数通过其方案即实施该方案, 博弈结束;否则将一号强盗喂鲨鱼; 其次,二号强盗提出方案,全部强盗(注:此 时全部强盗是二、三、四、五,因为一已死去) 中过半数通过其方案即实施该方案,博弈结束; 否则将二号强盗喂鲨鱼;
逆向归纳法
一般方法:从博弈最后一个决策结开始 分析,寻找参与者的最优选择,然后逆 推至倒数第二个决策结,寻找参与者最 优选择,这样一直逆推到初始结为止。 每一步都得到了对应子博弈的一个纳什 均衡。由定义可知,这一个纳什均衡一 定是该子博弈的所有子博弈的纳什均衡。 它也一定是子博弈精炼纳什均衡。
例子:
1 n
1
n
i
i
1
n
例子:古诺模型
P=8-Q, Q q1 q2 FC=0 MC=2
wenku.baidu.com
2.基本特征
阶段博弈之间没有“物质”上的联系。 所有参与者都观测到博弈过去的历史, 即知道过去阶段博弈的结果和过程。 参与者的总支付是所有阶段博弈支付的 贴现值之和或加权平均值。
3.分类
有限次重复博弈:阶段博弈的有限次重 复。 无限次重复博弈:阶段博弈一直重复下 去。
(二)有限次重复博弈
扩展式表示所扩展的主要是参与者 的策略空间。 有限博弈的扩展式表示一般可用博 弈树来表示。博弈树给出了有限博 弈的几乎所有信息。博弈树包括结、 枝和信息集三部分组成。
信息集
信息集:博弈树上所有的决策结可以分割成不 同的信息集。参与者的一个信息集是指满足以 下条件的决策结的集合: ①其中的每个决策结都是同一参与者的决策结; 这意味着参与者不会将自己行动的结与他人行 动的结相混淆。 ②当博弈进行到信息集中的某个决策结时,应该 行动的参与者并不知道达到了信息集中的哪个 结。这意味着参与者在一个信息集中的每个决 策结都有着相同的可行动集合;否则,该参与 者可通过他面临的不同的可行动集合来推断博 弈进行到某个决策结。
R d 2 r D (2,2) 1 R D 1 R d 2 r D 1 R d 2 (100,100) r
1 D (1,1)
(0,3)
(98,98) (97,100)(99,99) (98,101)
存在问题
逆向归纳法未对某些未预料到的事情出 现时,人们如何形成预期做出解释,使 得在理性人假设下得出的结论是否符合 实际,还需要另外分析。 由于子博弈精炼纳什均衡是逆向归纳法 理论的扩展,上面有关逆向归纳法理论 的批评自然也适用于子博弈精炼纳什均 衡。
三、子博弈精炼纳什均衡
(一)子博弈: 一个扩展式博弈的子博弈由一个决策结及 其所有的后续结组成,且满足: (1)始于单结信息集的决策结n。 (2)包含博弈树中n之后所有决策结和终 点结(后续结)。 (3)没有对任何信息集形成分割。
(二)子博弈精炼纳什均衡
如果一个策略组合在它本身和每个子博 弈上都构成纳什均衡,就是子博弈精炼 纳什均衡。 子博弈精炼纳什均衡要求参与者是序贯 理性的,即不论过去发生了什么,参与 者应该在博弈的每个时点上最优化自己 的决策。
强盗分赃
再次,三号强盗提出方案,全部强盗中 过半数通过其方案即实施该方案,博弈 结束;否则将三号强盗喂鲨鱼; 然后,四号强盗提出方案,全部强盗中 过半数通过其方案即实施该方案,博弈 结束;否则将四号强盗喂鲨鱼; 最后,五号强盗提方案,博弈结束。
六、逆向归纳法与子博弈精炼 纳什均衡存在的问题
例子:两市场博弈
厂商B
大 小
1,4
厂商 A
大 小
3,3
4,1
0,0
(三)无限次重复博弈
民间定理:设G是一个完全信息的静态博 G 弈, (, ) 是以G为阶段博弈的无限次重 复博弈。用 (e ,, e ) 表示G的一个纳什均衡 决定的支付,用 ( x ,, x ) 表示G的任意可实 x 现支付。如果对于任意参与者i, e 都成 立,而δ足够接近1,那么无限次重复博 弈 G(, ) 中一定存在一个子博弈精炼的纳 什均衡,各参与者的平均支付为 ( x ,, x ) 。
借
甲 分 乙 不借 借 甲 (1,0) 不分 分 (0,4) (2,2) 打 (1,0) 乙 不借 乙 借 甲 分 不借
(1,0) 不分 乙 不打 (0,4)
(2,2)
(2,2)
打
(1,0) 不分 乙 不打
(-1,0)
(0,4)
开金矿博弈
有法律保障的开金矿博弈 ——分钱打官司都可信
法律保障不足的开金矿博弈 ——分钱打官司都不可信
共同知识假定是一个非常强的假定,随 着参与者数量增加,这个假定越难满足。 按照定义,逆向归纳法过程不适用于无 限博弈和不完美信息博弈。但这并不意 味着无限博弈没有纳什均衡解。另外, 有些不完美信息博弈也可以运用逆向归 纳法的逻辑求解。
例子:蜈蚣博弈
该博弈是说明逆推归纳法和博弈分析困难的经典博弈
small small S small large J2 large ● (2,2) ● (-1,-1) J1 large ● (-1,-1) ● (1,1)
Smith的策略: “大”或者“小” Jones的策略:
“大”;如果 Smith选择“小”,Jones选择“大”。 • (大,小):如果Smith 选择“大”,Jones选择 “大”;如果 Smith选择“小”,Jones选择“小”。 • (小,大):如果Smith 选择“大”,Jones选择 “小”;如果 Smith选择“小”,Jones选择“大”。 • (小,小):如果Smith 选择“大”,Jones选择 “小”;如果 Smith选择“小”,Jones选择“小”。
纳什均衡与子博弈精炼纳什均 衡
纳什均衡只要求均衡策略在均衡路径的 决策结上是最优的,对一个参与者在非 均衡路径的信息集上的选择没有限制。 而子博弈精炼纳什均衡的策略不仅在均 衡路径的决策结是最优的,是在非均衡 路径决策结上也是最优的(这是两者的 实质区别)。
四、逆向归纳法
对有限完美信息博弈,逆向归纳法是求 解子博弈精炼纳什均衡的最简便方法。 逻辑基础:动态博弈中先行动的参与者 必然会考虑到后行动的参与者的选择行 为,只有在最后一个决策结上,不再有 后续的牵制的参与者,才能直接做出明 确选择,而当最后一个决策结的最优选 择确定以后,前面的选择也就容易确定 了。
七、重复博弈
重复博弈的含义与特征 有限次重复博弈 无限次重复博弈
(一)含义、特征与分类
1.含义 重复博弈:同样结构的博弈重复进行多次的博 弈过程,其中每次博弈称为“阶段博弈”。 重复博弈是动态博弈 。 重复博弈尽管形式上是重复进行,但不是阶段 博弈的简单重复或简单叠加。 重复次数的重要性在于改变博弈的结果,这来 自于参与者长短期利益之间的权衡。
1.存在惟一纯策略纳什均衡博弈的有限次 重复博弈 一般结论:重复博弈的阶段博弈G有惟一 的纯策略纳什均衡,则对任意正整数T, 重复博弈G(T)有惟一的子博弈精炼纳 什均衡,即各个参与者每个阶段都采用G 的纳什均衡策略。G(T)的总支付为G 的支付的T倍,平均支付为G 的支付。
例子:囚徒困境
囚徒B
第二章
完全信息的动态博弈
主要内容
博弈的扩展式表示 策略的可信性 子博弈精练纳什均衡 逆向归纳法 应用举例 逆向归纳法与子博弈精炼纳什均衡存在的问题 重复博弈
一、扩展式表示
扩展式表示的主要要素: 参与者 行动顺序:每个参与者在何时行动 行动空间:每次行动时参与者可供选择 的行动是什么 信息集:每次行动时参与者所知道的情 况 支付函数:参与者可能选择的每一行动 组合相对应的各个参与者的支付。
坦白 抵赖
0,-20 -1,-1
囚徒 A
坦白 抵赖
-10,-10 -20,0
例子:重复两次的囚徒困境
囚徒B
坦白 抵赖
-10,-30 -11,-11
囚徒 A
坦白 抵赖
-20,-20 -30,-10
2.存在多个纯策略纳什均衡博弈的有限次重复 博弈 民间定理:设原博弈的一次性博弈有均衡支付 数组优于各参与者在一次性博弈中的最差支付 构成的数组,则在该博弈的多次重复中,所有 不小于个体理性支付或保留支付的可实现支付, 都至少有一个子博弈精炼纳什均衡的极限的平 均支付来实现它们。 民间定理的意义在于保证有一定次数重复博弈 的子博弈精炼纳什均衡的平均支付可以实现或 逼近这些可实现支付。