第四讲 序贯决策博弈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
练习:找出策略和纳什均衡
B U′ (1,0)
U
D′ A
(3,1)
U〞 D
B D〞
(2,2)
(5,1)
策略组合
◆一共八种可能的策略组合:
(U,{U′,U〞}) (U,{D′,U〞}) (D,{U′,U〞}) (D,{D′,U〞}) (U,{U′,D〞}) (U,{D′,D〞}) (D,{U′,D〞}) (D,{D′,D〞})
美国 不犯我 犯人
(2,-4) (3,-5)
(1,1) 终点结
我国
决策结:行动的时点
不犯人
进入博弈
◆设想一个垄断企业因为他的产品一直可以卖高 价赚取每年10亿元的利润。假定别的企业为了 进入这个垄断的行业,需要投资4亿元的投资 。当别的企业准备进入的时候,原有企业必须 决策:或者“容忍”新的企业,他的利润降为 5亿元。对方的利润也将是5亿元,但要减去4 亿元进入投资,实得1亿元。或者,垄断企业 进行“抵抗”,力图将进入者挤出去,这时垄 断企业的利润降到2亿元,即使对方也得2亿元 ,却要投资4亿元,结果进入者亏损2个亿。
不犯人 犯人
我国
不犯我
(3,-5)
不犯人 均衡为(不犯我,{犯人,不犯人})
(1,1)
例2:
U
1 D
(2,0) U′ 1 R 2 (5,0)
D’ (4,2) L
(1,1)
均衡为({U,U′};L)
(0,0)
(-1,-1) (1,2) (足球,{足球,芭蕾}) (2,1) (0,0) (-1,-1) (1,2) (足球,{芭蕾,芭蕾})
纳什均衡的箭头排除确定法
◆
(2,1) (0,0)
(-1,-1) (1,2) (芭蕾,{足球,足球}) (2,1) (0,0) (-1,-1) (1,2) (芭蕾,{芭蕾,足球}) (2,1)
若A先行动,B在知道A的行动后行动, 则A有一个决策节点,两个可选择的行 动,策略空间为:(开发,不开发);
B有两个决策节点,2个可选择的行动, B有四个纯策略:
什么是参与人 的策略? A
开发
开发策略:不论A开发不开发,我开发 ——{开发,开发}
追随策略:A开发我开发,A不开发我不 开发——{开发,不开发} ;
◆例:欺负他人可以获得快乐,你会欺负 他人吗?不会。欺负他人会担心他人的 报复,抵消了从欺负他人的行为中获得 快乐。 ◆先行动者在选择行动时要考虑自己的选 择对后行动者的影响。
序贯博弈的扩展式表述
扩展式表述的要素:
i 参与人集合: 1, , n,此外,虚拟参与人“自然” ; 参与人的行动顺序(the order of moves):谁在什么 时候行动; 参与人的行动空间(action set):在每次行动时,参 与人有些什么选择。 参与人的信息集(information set):每次行动时,参 与人知道些什么; 参与人的支付函数;
(0,0)
(-1,-1) (1,2) (足球,{足球,芭蕾}) (2,1) (0,0) (-1,-1) (1,2) (足球,{芭蕾,芭蕾})
序贯情侣博弈
◆
(2,1) (0,0)
(-1,-1) (1,2) (芭蕾,{足球,足球}) (2,1) (0,0) (-1,-1) (1,2) (芭蕾,{芭蕾,足球}) (2,1)
◆逆向归纳法是从最后一个决策点开始,找出参与人 的最优行动选择和路径;然后再倒回到倒数第二个 决策点,找出决策者的最优决策;如此一直到初始 决策点,所有子博弈上的最优选择就是纳什均衡。 ◆逻辑基础:序贯博弈中先行动的理性的参与人,在 前面阶段选择行为时必然会先考虑后行为参与人在 后面阶段中将会怎样选择行为,只有在博弈的最后 一个阶段选择的,不再有后续阶段牵制的参与人, 才能直接作出明确选择。而当后面阶段参与人的选 择确定以后,前一阶段参与人的行为也就容易确定 了。
不开发
B
开发 (-3,-3)
x
不开发
B
开发
y’
不开发
对抗策略:A开发我不开发,A不开发我 开发——{不开发,开发} ;
不开发策略:不论A开发不开发我不开发 )——{不开发,不开发};
(1,0) (0,1)
(0,0)
策略空间为:{开发,开发}、{开发, 不开发} 、{不开发,开发} (不开发, 不开发}。
进入博弈的纳什均衡
垄断者 容忍 (1,5)
进入
×
抵抗
(-2,2)
进入者
容忍Leabharlann Baidu不进入
垄断者
(0,10)
× 抵抗
(0,4)
序贯情侣博弈的纳什均衡
女 足球 (2,1)
足球
×
芭蕾
(0,0)
男
足球 芭蕾
女
×
芭蕾
(-1,-1)
(1,2)
练习:
逆向归纳法找中美军事博弈的纳什均衡
犯人 犯我
美国 我国 (-2,-2) (2,-4)
序贯博弈的扩展式表述
◆ 如何用扩展式表述来描述动态博弈?
例1,解放初,美国总是寻找各种机会来侵犯我国。对此,毛主 席提出了“人不犯我、我不犯人,人若犯我、我必犯人”的 战略方针。 ◆该序贯博弈的战略式表述:
参与人:美国、中国 行动空间:美国:“犯我”或“不犯我”,中国:“犯人” 或“不犯人” 行动顺序:美国先行动,我国依美国的行动而后行动 支付:这样假设支付情况: 若美国“犯我”,中国“犯人”,则支付向量为(-2,-2);
若美国“犯我”,中国“不犯人”,则支付向量为(2,-4); 若美国“不犯我”,中国“犯人”,则支付向量为(3,-5); 枝 若美国“不犯我”,中国“犯人”,则支付向量为(1,1)。 n人有限战略的扩展式表 述:博弈树 (game tree) 犯我 我国 犯人 (-2,-2)
不犯人 2人有限博弈的博弈 树:
(0,0)
(-1,-1) (1,2) (芭蕾,{足球,芭蕾}) (2,1) (0,0) (-1,-1) (1,2) (芭蕾,{芭蕾,芭蕾})
纳什均衡的箭头排除确定法
◆
(2,1) (0,0)
(-1,-1) (1,2) (足球,{足球,足球}) (2,1) (0,0) (-1,-1) (1,2) (足球,{芭蕾,足球}) (2,1)
序贯情侣博弈
◆一共八种可能的策略组合:
(足球,{足球,芭蕾}) (足球,{芭蕾,足球}) (足球,{芭蕾,芭蕾}) (足球,{足球,足球}) (芭蕾,{足球,芭蕾}) (芭蕾,{芭蕾,足球}) (芭蕾,{芭蕾,芭蕾}) (芭蕾,{足球,足球})
序贯情侣博弈
◆
(2,1) (0,0)
(-1,-1) (1,2) (足球,{足球,足球}) (2,1) (0,0) (-1,-1) (1,2) (足球,{芭蕾,足球}) (2,1)
◆垄断者和进入 者不同的行动组合下,博弈产
生不同的结果: 1、进入者进入,垄断者容忍; 2、进入者进入,垄断者抵抗; 3、进入者不进入,垄断者容忍; 4、进入者不进入,垄断者抵抗。
垄断者
容忍
(1,5)
进入
抵抗 进入者
(-2,2)
容忍 不进入
垄断者 抵抗
(0,10)
(0,4)
策略与行动
◆行动是每一个决策节点上参与人的决策变量
序贯博弈纳什均衡
◆纳什均衡要求每个参与人的策略都是针对其它
参与人的策略或策略组合的最佳策略选择,没 有参与人愿意单独偏离这个策略组合。
序贯情侣博弈
女 足球 (2,1)
足球
芭蕾 男
(0,0)
足球 芭蕾
女 芭蕾
(-1,-1)
(1,2)
序贯情侣博弈
◆男的策略:足球、芭蕾
◆女的策略:一、追随策略:他选择什么,我就 选择什么——{足球,芭蕾};二、对抗策略: 他选择什么,我就偏不选什么——{芭蕾,足 球},三、芭蕾策略:无论他选什么,我都选 我喜欢的芭蕾——{芭蕾,芭蕾};四、足球策 略:无论他选什么,我都选他喜欢的足球—— {足球,足球}
◆
(1,0) (3,1)
(2,2)
(1,0)
(3,1)
(2,2) (5,1) (D,{U′,D〞}) (1,0) (3,1) (2,2) (5,1) (D,{D′,D〞})
(5,1) 纳什均衡:(D,{U′,U〞}) (1,0) (3,1) (2,2) (5,1) (D,{D′,U〞})
逆向归纳法(backward induction)
或行动的具体选择。 ◆纯策略为一个决策规则,它能告诉这个参与人 在每一个可能遇到的决策节点上应当采取的行 动。 ◆在序贯博弈中,一个策略就是一个完整的行动 计划。
策略
◆在进入博弈中,进入者的策略:进入和不进入
。 ◆垄断者的策略:一、不管你怎样,我总是“容 忍”;二、不管你怎样,我总是“对抗”;三 、你进入我“对抗”,你不进入我“容忍”; 四、你进入我“容忍”,你不进入我“对抗” ;即垄断者的四个纯策略:{容忍,容忍}、 { 对抗,对抗}、 {对抗,容忍}、 {容忍,对抗} 。
(0,0)
(-1,-1) (1,2) (芭蕾,{足球,芭蕾}) (2,1) (0,0) (-1,-1) (1,2) (芭蕾,{芭蕾,芭蕾})
均衡与结果的区别
◆用箭头偏离来排除不稳定的策略组合从而得到纳什均衡。
◆上例中的纳什均衡:(足球,{足球,足球})、 (足球,{ 足球,芭蕾})、 (芭蕾,{芭蕾,芭蕾})。 ◆均衡策略的组合,而结果则是行动的组合。例:纳什均衡( 足球,{足球,芭蕾})、是一个策略组合,表明:如果男方 选择足球,女方就选择足球;如果男方选择芭蕾,女方就选 择芭蕾。一个均衡策略组合所导致的博弈结果是(足球,足 球),即按照这个纳什均衡,博弈的结果是男女双方都要去 看足球。而(足球,足球)是行动的组合,而不是策略的组 合。 ◆不同的纳什均衡可以导致相同的博弈结果。例(足球,{足 球,足球})是另外一个纳什均衡,但它的博弈结果也是( 足球,足球)。
第四讲 序贯决策博弈
序贯决策博弈的定义
◆参与人的决策有先有后,后决策的参与人知道
先决策的参与人已经做出的决策,这种决策 有先有后的博弈,称为序贯决策博弈,或简称为 序贯博弈。 ◆先行动者的选择影响后行动者的选择空间,后行 动者可以观察到先行动者做了什么选择,因此, 为了做出最优的行动选择,每个参与人都必须这 样思考问题:如果我如此选择,对方将如何应对 ?给定他的应对,什么是我的最优选择?
纳什均衡
◆
(1,0) (3,1)
(2,2) (5,1) (U,{U′,U〞}) (1,0) (3,1) (2,2) (5,1) 纳什均衡:(U,{D′,U〞}) (1,0)
(3,1)
(2,2) (5,1) (U,{U′,D〞}) (1,0) (3,1) (2,2) (5,1) (U,{D′,D〞})