两阶段博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Player C
A
Player R
B -100,4
A
5,5
B
0,1
0,0
大部分同学相信你……….
• 面对一个不确定的列,在
2007年3月16日的博弈中,有 141人选择A,有44人选择B
A A
B
B -100,4
0,0
5,5
0,1
• 比例
– A: 76.22% B: 23.78%
• 列参与人无论如何都会向 您申明他将选A! • 但他是否选A取决于你是 否相信他,以及他是否希 望、预期能再玩一次
ei 0
=(wH wL ) Pr ob{ yi (ei ) y j (e j* )} wL g (ei )
其中 yi (ei ) ei i
(2.2.4)
工作竞赛: 后向归纳法
(2.2.4)的一阶条件为:
(wH wL ) Pr ob{ yi (ei ) y j (e j* )} ei g ' (ei ) (2.2.5)
工作竞赛: 后向归纳法
wH wL 由于是g (e) 凸函数,优胜获得的奖励越高(即 的值越大),就会激发更大的努力,这和我们的直觉是 一致的。另一方面,在同样的奖励水平下,对产出的随 机扰动因素越大,越不值得努力工作,因为这时工作竞 赛的最终结果在很大程度上是由运气而非努力程度决定 的。例如,当 服从方差为 2 的正态分布时,则有
工作竞赛: 两阶段博弈
现在我们套用2.2.A节博弈类型的讨论思路来分析这一应用。 • 老板为参与人1,他的行动a1是选择工作竞赛中的工资水平 wH 和 wL , 这里不存在参与人2。 两个工人是参与人3和4,他们观测第一阶段选定的工资水平,然后同 时选择行动a3和a4,具体地说就是选定的努力程度 e1 和 e2 。(后面 我们将考虑另一种可能性,就是老板选定的工资水平,工人们不愿意 参与工作竞赛,却寻找另外的工作机会)最后,参与人各自的收益如 前面所给出。 由于产出(并由此而使工资)不只是参与人行动的函数,而且同时还 受随机扰动因素 1 和 2 的影响,我们用参与人的期望收益进行分析。
信息两阶段博弈: 子博弈完美结果
如果参与人1和2预测到参与人3和4在第二阶段的行动为对第 一阶段行动的最优反应,则参与人1和2在第一阶段的问题就可用以 下的同时行动博弈表示: 1. 参与人1和2同时从各自的可行集 A1和 A2 中选择行动a1和 a2 ; 2. 收益情况为ui(a1, a2, a3*(a1,a2), a4 *(a1,a2)) , i =1,2;
工作竞赛: 后向归纳法
假设 U a 足够低,以至于老板愿意激励工人参加竞赛, 则他会在(2.2.7)的约束条件下,选择使自己期望收益 2e* wH wL 最大的工资水平。由于在最优条件下,(2.2.7) 中的等号成立:
工作竞赛: 后向归纳法
) 期望利润成为 2e* 2Ua 2g (e*,于是老板要考虑的问题 就是使 e* g (e* ) 最大化,这时他选择的工资水平应使得与之 相应的 e * 满足这一条件。从而最优选择下的努力程度满足 ' * 一阶条件 g (e ) 1,将其代入(2.2.6)则意味着最优激励满足
也就是说,工人 i 选择努力程度 ei ,从而使得额外努力的 边际负效用g ' (ei ) ,等于增加努力的边际收益,后者等于 对优胜者的奖励工资wH wL ,乘以因努力程度提高而使获 胜概率的增加 。
工作竞赛: 后向归纳法
* Pr ob{ yi (ei ) y j (e* )} Pr ob { e j i j j ei }
2人两阶段重复博弈 (“同时行动” 意味着 “不 完美信息”) 下一次博弈开始前的所有 博弈结果都能被观察到的 重复博弈
动态博弈中心问题: 可信威胁 与承诺会影响现在的行为
Outline of Unit 3 and 4
完全信息动态博弈 表述 Normal-form / Strategicform 标准式/策略式 Nash Equilibrium (NE) Nash均衡 Extensive-form 扩展式 Subgame-perfect Nash equilibrium (SPNE) 子博弈完美Nash均衡
工作竞赛: 描述
考虑为同一老板工作的两个工人,工人 i(其中 i 等于1或2)生产的产 i 是随机扰动项。生产的程序如下:第 出 yi ei i ,其中 ei 是努力程度, 一,两个工人同时选择非负的努力水平 ei 0 ;第二,随机扰动项 1 和 2 相互独立,并服从期望值为0、密度函数为f ( ) 的概率分布;第三,工人的产 出可以观察,但各自选择的努力水平无法观测,从而工人的工资可以决定于 各人的产出,却无法(直接)取决于其努 力水平 e1 。 参考拉齐尔和罗森(1981)首先建立的分析模型。假设老板为激励工人努力 工作,而在他们中间开展工作竞赛,工作竞赛的优胜者(即产出水平较高
分析
第1步. 工人同时选择努力程度 e1和 e2 . 假定老板已选定了工资水平 wH 和 wL ,如果一对努力水平 (e1* , e2*) 是第二阶段两工人博弈的纳什均衡,则对每个i , ei* 必须使 工人的期望工资减去努力带来的负效用后的净收益最大,亦即 ei* 必须满足:
max wH Pr ob{ yi (ei ) y j (e j* )} wL Pr ob{ yi (ei ) y j (e j* )} g (ei )
完全非完美信息两阶段博弈: 时间顺序
• 博弈的过程按一系列的阶段进行,下一阶段开始前参与 人可观察到前面所有阶段的行动。本节我们允许每一阶 段中存在着同时行动,这就包含了非完美信息。
1. 参与人1和2同时从各自的可行集 A1和 A2 中选择行动a1和a2; 2. 参与人3和4观察到第一阶段的结果(a1, a2),然后同时从各自的 可行集 A3和 A4中选择行动a3和a4; 3. 收益为ui(a1, a2, a3, a4) , i = 1,2,3,4。
和(2.2.8)一起,可解得 wH 和 wL 的值。
Common knowledge
• The game was meant to test whether player R is certain that player C will take the action which is "clearly" optimal for player C. • The outcome (A,A) is the best outcome for both players, and player C has no reason to "punish" player R by playing B • Nevertheless, player R may be uncertain as to whether player C will employ the correct reasoning.


工作竞赛: 博弈的时序
阶段1 阶段2
同时选择努力程度
Worker
1
产出和收益 工人i产出 yi=ei+εi , i =1,2 工人的收益 u(w,e) =w-g(e) 老板的收益 yi +yj - WH - WL
e1 e2
Boss
Worker
2
选择工资水平 WH 和 WL
工作竞赛: 后向归纳法
假定(a1*,a2*)为以上同时行动博弈唯一的纳什均衡,我们称 (a1*, a2*, a3*(a1*,a2*), a4 *(a1*,a2*)) 为这一两阶段博弈的子博弈完 美解。此解与完全且完美博弈中的后向归纳解在性质上是一致的, 并且与后者有着类似的优点和不足。
完全非完美信息两阶段博弈: 不可置信的威胁
= j Pr ob{ i e* j j ei | j } f ( j ) d j = j [1 F ( e* j j ei )] f ( j ) d j
于是,一阶条件(2.2.5)可化为:
在对称的纳什均衡(即 e1* e2* e*),我们有: (2.2.6)
j f ( j ) d j
2
1 2
*
它随 的增加而下降,也就是说 e 的确随 的增加而降低。
工作竞赛: 后向归纳法
• 第2步 我们现在从后往前分析博弈的第一阶段.
假定工人们同意参加工作竞赛(而不是另谋高就),他们对给 定 wH 和 wL 的反 应,将会是(2.2.6)描述的对称的纳什均衡战略。 (从而我们忽略掉存在不对称均衡的可能性,以及工人的努力程度 e1 e2 0 而不是由一阶条件(2.2.5)给出的可能性)。 由角点解 同时假定工人可寻求其他就业机会,得到的效用为 U a。因为 在对称的纳什均衡中每个工人在竞赛中获得优胜的概率为1/2 (即 Pr ob{yi (ei ) y j (e* j )}) ,如果老板要使工人有动力参加工作 竞赛,则他必须选择满足下式的工资水平
的工人)获得的工资为 wH ;失败者的工资为 wL。工人获得工资水平 w 并付
出努力 e 程度时的收益为 u ( w, e) w g (e),其中g (e)表示努力工作带来的负效 用,是递增的凸函数(即 g " (e) 0 且 g ' (e) 0)。老板的收益为 y1 y2 wH wL 。
完全非完美信息两阶段博弈
第3章和第4章要点
博弈类型 简单的完全且完美信息动 态博弈 举例 Stackelberg (1934) 双寡头垄 断模型 鲁宾斯坦 (1982) 讨价还价模 型 Lazear&Rosen Tournaments (1981 ) 工作竞赛模型 解的概念 Backwards Induction Outcome (BIO) 后向归纳结果 Subgame Perfect Outcome (SPO) 子博弈完美结果 Subgame-perfect Nash equilibrium 子博弈完美NE

如果参与人3和4威胁在后面的第二阶段博弈中,他们将不选 择纳什均衡下的行动,参与人1和2是不会相信的,因为当博 弈真的进行到第二阶段时,参与人3和4至少有一个人不愿把 威胁变为现实(这是因为它不是第二阶段博弈的纳什均 衡)。
• 另一方面,假设参与人1与参与人3是同一个人,并且参与人1 在第一阶段并不选择a1*,参与人4就会重新考虑参与人3(即参与 人1) 在第二阶段将会选择a3*(a1,a2)的选择。
完全非完美信息两阶段博弈: 后向归纳法
• 我们仍然沿用后向归纳的思路解决此类博弈问题。 • 但这里从博弈的最后阶段后向推导的第一步就包含了求解一个 真正的博弈(给定第一阶段结果时,参与人3和4在第二阶段同 时行动的博 弈),而不再是前一节求解单人最优化的决策问题。 • 为了简化问题,本节中我们假设对第一阶段博弈每一个可能结 果(a1, a2),第二阶段博弈(参与人3和4之间的博弈)有唯一的 纳什均衡,表示为
• 有1个人选择B(一 次)与A(重复)
解的概念 Central Issue 中心问题 Theme 主题思想
credibility threats or promise (self-enforcement)
可信性威胁或承诺 一个完全信息动态博弈可能会有很多个纳什均衡,但是有 些均衡包含了不可置信的威胁和承诺。子博弈完美纳什均 衡就是通过了可信任检测的均衡。
相关文档
最新文档