完全完美信息动态博弈

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 对上面的通过求极值可得：
• 已知q1< a-c,在前面我们分析同时行动的古诺博弈中，得出的R2(q1)和上式完全一致，两者的不同之处在于这里的R2(q1) 是企业2对企业1已观测到的产量的真实反应，而在古诺的分析中， R2(q1)是企业2对假定的企业1的产量的最优反应，且企业1的产量选择是和企业2同时作出的。
• 策略组合“乙在第一阶段选择‘不借’、如果有第三阶段选择则选择不打;甲如果有第二阶段选择选‘不分”’，则是了博弈完美纳什均衡，因为该策略组合的双方策略不但在整个博弈中构成纳什均衡，而且在两级子博弈中也都构成纳什均衡。 • 值得注意的是，当两个博弈方按照上述子博弈完美纳什均衡策略组合行为时，实际上不会进行到博弈的第二、第三阶段，两个博弈方在第二、二阶段的行为实际上不会发生。我们称此时第二阶段甲的选择点和第三阶段乙的选择点为“不在均衡路径上”的，两博弈方的策略在这两个节点的选择称为 “不在均衡路径上的选择”。我们必须强调，子博弈完关纳什均衡必须对博弈方在所有选择节点处的选择都作出规定，包括最终不在均衡路径土几的节点，不管是在均衡路径上的选择还是不在均衡路径。
4.3 子博弈和子博弈完美纳什均衡
• 由于动态博弈中纳什均衡是不可靠的，不具备稳定性，因此要发展能排除不可信行为的新的均衡概念。赛尔腾（1965）提出了子博弈完美纳什均衡（Subgame Perfect Nash Equilibrium)的概念。 • 要介绍子博弈完美纳什均衡，必须先了解子博弈的概念。
• 但是即使逆向归纳预测博弈将在第一阶段结束，我们论证过程的重要部分却是考虑如果博弈不在第一阶段结束时可能发生的情况。 • 比如在第二阶段，当参与者2预测如果博弈进入第三阶段，则1会选择L’’，这时2假定1是理性的。由于只有在1偏离了博弈的逆向归纳解，才能轮得到2选择行动，而这时2对1的理性假定便看似是矛盾的，即如果1在第一阶段选择了R，那么第二阶段2就不能再假定1是理性的了。但这种理解是不对的。 • 如果1在第一阶段选择了R，则两个参与者都是理性的就不可能是共同知识，但这时1仍有理由在第一阶段选择R，却不与 2对1的理性假定相矛盾。
简单类型的完全且完美信息动态博弈的模式
• • • • • • • 1.参与者1从可行集A1中选择一个行动a1； 2.参与者2观察到a1之后从可行集A2中选择一个行动a2； 3.两人的收益分别为u1（a1,a2)和u2（a1,a2)；完全且完美信息动态博弈的主要特点是： (1)行动是顺序发生的； (2)下一步行动选择之前，所有以前的行动都可被观察到； (3)每一可能的行动组合下参与者的收益都是共同知识。
4.2.3 逆推归纳法
定义：从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法，称为“逆推归纳法”。 • 逆推归纳法是动态博弈分析最重要、基本的方法。
乙借甲分不分不借（1，0）
（2，2）
（0，4）
• 一个两阶段动态博弈逆向归纳法的公式化表达： • 当在博弈的第二阶段参与者2行动时，由于其前参与者1已选择行动a1，他面临的决策间题可用下式表示:
• 一种可能是“参与者1是理性的”是共同知识，但“参与者2 是理性的”却不是共同知识:如果1认为2可能不是理性的，则1就可能在第一阶段选择R，希望2在第二阶段选择R’，从而给1以机会在第三阶段选择L‘‘。另一种可能是“参与者2是理性的”是共同知识，但“参与者1是理性的”却不是共同知识:如果1是理性的，但推测2可能认为1是非理性的。 • 这时1也可能在第一阶段选择R，希望2会认为1是非理性的而在第二阶段选择R’，期望1能在第三阶段选择R’’。逆向归纳中关于1在第一阶段选择R的假定可通过上面的情况得到解释。不过在有些博弈中，对1选择了R的更为合理的假定是1 确实是非理性的。 • 在这样的博弈中，逆向归纳在预测博弈进行方面就会失去其大部分作用，正像在博弈论不能提供惟一解并不能达成协议的博弈中，纳什均衡也对预测博弈的结果所助无几。
3.3.2 子博弈完美纳什均衡
定义：如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。 • 子博弈完美纳什均衡本身也是纳什均衡，不过它是比纳什均衡更强的解。 • 子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。 • 子博弈是倒着看的，从最小的子博弈开始我们就找稳定策略组合，直至最开始的节点，那么当然是稳定的了。大家会发展这正是逆推归纳法。 • 逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。
• 博弈的时间顺序如下:
• (1)企业1选择产量q1 >0; • (2)企业2观测到然后选择产量q2 >0 • (3)企业1的收益由下面的利润函数给出：
• 这里P(Q)=a-Q，是市场上的总产品Q=q1+q2时的市场出清价格，c是生产的边际成本，为一常数(固定成本为0)。 • 为解出这一博弈的逆向归纳解，我们首先计算企业2对企业1任意产量的最优反应，R2(q1)应满足:
开金矿博弈
不同版本的开金矿博弈——分钱和打官司的可信性
乙借甲分（2，2）打乙不借分（2，2）打借甲不借
（1，0）不分乙
（1，0）不分乙不打（0，4）
不打（0，4）
（1，0）
（-1，0）
有法律保障的开金矿博弈 ——分钱打官司都可信
法律保障不足的开金矿博弈 ——分钱打官司都不可信
• 第一个图中，通过法律手段使乙的利益得到保障，这样乙的完整策略：“第一阶段借，如果第二阶段甲不分，第三阶段打官司。”甲的完整策略是：“第二阶段分。”这是这个3阶段动态博弈的解。 • 但是第二个图中，乙的利益在法律的情况下仍然得不到保障，可以看出法律在社会中的重要性。
4.2.2 纳什均衡的问题
者1的第二次行动)开始。这里参与者1面临的选择是L’’。那么在第二阶段，参与者2预测到一旦博弈进入到第三阶段，则参与者1会选择L’’ ，这会使2的收益为0，从而参与者2 在第二阶段的选择为:L‘可得收益1, R“可得收益0，于是 L‘是最优的。 • 这样在第一阶段，参与者1预测到如果博弈进入到第二阶段， 2将选择L’，使参与者1的收益为1，从而参与者1在第一阶段的选择是:L收益为2, R收益为1,于是L是最优的。 • 上述的求解过程求出：参与者1在第一阶段的最优选择是L，从而博弈结束。
第三种开金矿博弈中，（不借-不打，不分）和（借-打，分）都是纳什均衡。但后者不可信，不可能实现或稳定。 • 结论：纳什均衡在动态博弈可能缺乏稳定性，也就是说，在完全信息静态博弈中稳定的纳什均衡，在动态博弈中可能是不稳定的，不能作为预测的基础。 • 根源：纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定，不能解决动态博弈的相机选择引起的可信性问题
3.3.1 子博弈
定义：由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的，有初始信息集和进行博弈所需要的全部信息，能够自成一个博弈的原博弈的一部分，称为原动态博弈的一个“子博弈”。乙不借 • 首先子博弈不能包含原博借（1，0）弈的第一个阶段，这意味甲不分着动态博弈本身不会是他分自己的子博弈。乙（2，2） • 其次子博弈必须有一个明（0，4）确的信息集，不能分割任（-1，0）何信息集，在多节点信息集合的不完美信息集中有可能不存在子博弈。
•
由于企业1也能够像企业2一样解出企业2的最优反应，企业 1就可以预测到他如选择q1，企业2将根据R2(q1)选择产量。那么在博弈的第一阶段，企业1的问题就可表示为：
解得：
• 这就是斯塔克尔贝里双头垄断博弈的逆向归纳解。 • 对斯塔科尔贝里双头垄断博弈的逆向归纳解的评价： • 回顾在古诺博弈的纳什均衡中，每一企业的产量为(a一c)/3, 也就是说，斯塔克尔贝里博弈中逆向归纳解的总产量3(ac)/4，比古诺博弈中纳什均衡的总产量2(a-c)/3要高，从而斯塔克尔贝里博弈相应的市场出清价格就比较低。不过在斯塔克尔贝里博弈中，企业1完全可以选择古诺均衡产量(a一 c)/3 ，这时企业2的最优反应同样是古诺均衡的产量，也就是说在斯塔克尔贝里博弈中，企业1完全可以使利润水平达到古诺均衡的水平，而却选择了其他产量，
4.4 四个经典的动态博弈例子
• 1.斯塔克尔贝里双头垄断模型
• 斯塔克尔贝里(1934)提出一个双头垄断的动态模型，其中一个支配企业(领导者)首先行动，然后从属企业(追随者) 行。比如在美国汽车产业发展史中的某些阶段，通用汽车就扮演过这种领导者的角色(这一例子把模型直接扩展到允许不止一个追随企业，如福特、克莱斯勒等等)。根据斯塔克尔贝里的假定，模型中的企业选择其产量，这一点和古诺模型是一致的(只不过古诺模型中企业是同时行动的，不同于这里的序贯行动)。
B 制止（2，2）不制止（5，5）（10，4）
4.1.2 动态博弈的基本特点
• 策略是在整个博弈中所有选择、行为的计划，不能分割。 • 结果是上述“计划型”策略的策略组合，构成一条路径. • 得益对应每条路径，而不是对应每步选择、行为.
• 动态博弈的非对称性——先后次序决定动态博弈必然是非对称的。先选择、行为的博弈方常常更有利，有“先行优势”。
4.1 动态博弈的表示法和特点
4.1.1 阶段和扩展性表示
• • • • • • • 阶段：动态博弈中一个博弈方的一次选择行为。动态博弈最好的表示方法：扩展型（博弈树）。 A 例子：仿冒和反仿冒博弈不仿冒仿冒并不是所有的动态博弈都 B 可以用扩展形表示，比如不制止（0，10）制止动态博弈的阶段很多：象棋。 A 仿冒不仿冒战略空间是连续函数：产量。（-2，5）
• 我们将定义子博弈完美纳什均衡为：只有不包含不可置信的威胁的纳什均衡才是子博弈完美纳什均衡。一个完全且完美信息动态博弈可能会有多个均衡，但惟一的子博弈完美纳什均衡就是与逆向归纳解相对应的均衡。正如我们在前面所观察到的，有些博弈会有多个纳什均衡，但有一个均衡明显占优，成为博弈的解。 • 比如，上例分钱博弈中，双方的策略组合“乙第一阶段选择 ‘借’，第二阶段选择‘打’;甲第二阶段选择’分”’虽然是整个博弈的一个纳什均衡，但这个策略组合中乙的策略要求乙在第三阶段单人博弈构成的子博弈中选择的“打”不是该子博弃的一个纳了卜均衡，因此根据子博弈完美纳什均衡的定义判断，这个策略组合不是子博弈完美纳什均衡。这也是上述纳什均衡策略组合不稳定的根源。
4.3.3 逆向归纳法背后的理性假设
• 最后，我们探讨逆向归纳法背后的理性假定。看下面的例子： • 我们用博弈树表示一个动态博弈，树上每一枝的末端都有两个收益值，上面代表参与者1的收益，下面代表参与者2的收益。考虑下面的三步博弈，其中参与者1有两次行动:
• 为计算出这一博弈的逆向归纳解，我们从第三阶段(即参与
Hale Waihona Puke Baidu
4.2 可信性和纳什均衡的问题
4.2.1 相机选择和策略中的可信性问题
• 动态博弈中各个博弈方的策略是自己设定的，在各个博弈阶段，针对实际情况可以进行随机的选择，这称为“相机选择”。 • 相机选择的存在使得博弈方的策略的可信性值得怀疑，也就是说博弈方是否会真正始终按照自己策略所设定的方案乙借行为还是临时改变主意？不借 • 比如下面的例子：甲（1，0）不分分 • 在这个例子中，对乙来说， • 甲的分钱许诺是不可信的。（0，4）（2，2） • 关键是对甲的行为有所约束。
假定对A1中的每一个a2，参与者2的最优化问题只有惟一解，用R 2(a1)表示，这就是参与者2对参与者1的行动的反应(或最优反应)。
• 由于参与者1能够和参与者2一样解出2的问题，参与者1可以预测到参与者2对1每一个可能的行动a1所作出的反应，这样 1在第一阶段要解决的问题可以归结为：
• 假定参与者1的这一最优化问题同样有惟一解，表示为a1*，我们称是这一博弈的逆向归纳解。 • 逆向归纳解不含有不可置信的威胁:参与者1预测参与者2 将对1可能选择的任何行动a1做出最优反应，选择行动 R2(a1)。