第四章 完全信息动态博弈的基本理论(新)
第4章 完全信息动态博弈
• 我们也可以这样来理解参与者 的行动,参与者2之所以威胁当 我们也可以这样来理解参与者2的行动,参与者 之所以威胁当 的行动 参与者1出 时 他要选择c1,目的在于通过威胁使参与者1选 参与者 出L时,他要选择 ,目的在于通过威胁使参与者 选 择有利于参与者2的 ,因为在参与者1选择 选择R下 参与者2通过 择有利于参与者 的R,因为在参与者 选择 下,参与者 通过 选择d2,能得到3的报酬 明显好于当参与者1选 ,参与者2 的报酬, 选择 ,能得到 的报酬,明显好于当参与者 选L,参与者 时的收益2。但我们要问的是,如果参与者1不顾参与者 不顾参与者2 选d1时的收益 。但我们要问的是,如果参与者 不顾参与者 时的收益 的威胁而选择了L,参与者2可能会出 可能会出c1吗 在参与者2为理性 的威胁而选择了 ,参与者 可能会出 吗?在参与者 为理性 是公共信息的条件下,参与者2选择 的报酬为1,而选择d1 选择c1的报酬为 是公共信息的条件下,参与者 选择 的报酬为 ,而选择 的报酬为2。由于d1要优于 要优于c1,因而参与者1没有理由相信参 的报酬为 。由于 要优于 ,因而参与者 没有理由相信参 与者2会实施他的威胁 也就是说,参与者2的策略 会实施他的威胁, 的策略c1d2是一 与者 会实施他的威胁,也就是说,参与者 的策略 是一 个不可置信的威胁。如果威胁成真, 个不可置信的威胁。如果威胁成真,c1d2就是一个动态不一致 就是一个动态不一致 的策略,因为参与者2事前是理性的 但在博弈进行到(L)时 事前是理性的, 的策略,因为参与者 事前是理性的,但在博弈进行到 时, 他却成了一个非理性的人(选择了c1,而不是d1)。 )。出现上述 他却成了一个非理性的人(选择了 ,而不是 )。出现上述 问题的原因,在于一个纳什均衡只要求在博弈的总体上, 问题的原因,在于一个纳什均衡只要求在博弈的总体上,参与 者的策略须为均衡, 者的策略须为均衡,而对博弈进行到某个部分时是否仍为均衡 没有要求,这就可能导致总体和局部的冲突, 没有要求,这就可能导致总体和局部的冲突,产生不合理的结 果。
博弈论第四章
(1)起始结是一个单结的信息结;
(2)子博弈保留了原博弈的所有结构。 则称它为原博弈的一个子博弈(子博弈)。
按照博弈树的延伸的时序,或者按照博弈 树生长的时序,我们用一个扁椭圆形的虚 线的圈,把所论局中人在同一个时点的若
干决策节点罩起来,成为他的一个信息集。
(1)起始结是一个单结的信息结
x1
L L 1 2 S L 2 S (1,1) (2,2) 1 (-1,-1) (-1,-1) S 2 L L S (2,2)
镇上能卖6000元;但如果另一家商铺同时在小镇上卖
鞭炮,价格下跌使得这批鞭炮只能卖4000元。纳什均
衡是什么?
• 假设甲先行动,商铺乙看到对方的选择后再决定是否
进货,子博弈精炼纳什均衡是什么?
如果甲先行动,但在博弈开始前商铺主乙有一次行动A 的机会,利用子博弈精炼均衡概念分析下述两种情况下
的博弈结果: 何行动他都不会改变这个决定;
一颗大树表示一个博弈,一颗小树同样可以表示
一个博弈。如果小树是大树的一颗子树,并且
小树表示的博弈不破坏大树表示的博弈的结构,
那么小树表示的博弈,就叫做大树表示的博弈
的子博弈。
一、子博弈(sub-game)
子博弈定义:在一个扩展型博弈中,如果一 个博弈由它的一个决策结及其所有后续结 构成,并满足:
信息集的时候,面临决策的局中人对于博弈迄今的历史是
不清楚的,他不清楚博弈具体走到了他的这个信息集里面 的哪个决策节点。
在市场进入博弈中,包含3个子博弈(包括原博 弈)。而在囚徒博弈中,只有一个子博弈(?)
收益: A
B 容忍
进入 抵抗 A 不进入 B
B
抵赖
B 抵赖
-1 ,-1 -9 ,0 0 ,-9
完全信息动态博弈模型
完全信息动态博弈模型完全信息动态博弈模型是博弈论中一种重要的博弈模型,它描述了一组参与者在了解所有相关信息的情况下,通过一系列决策和行动来实现最优化的结果。
下面将详细介绍完全信息动态博弈模型的相关内容。
一、博弈的参与者:完全信息动态博弈模型中,通常包括两个或多个参与者,每个参与者都可以做出自己的决策和行动。
参与者可以是个人、组织、公司等,他们之间存在着相互竞争和合作的关系。
二、博弈的信息:完全信息动态博弈模型中的参与者拥有完全信息,即每个参与者都能够获得关于其他参与者的决策和行动的完整信息。
通过完全信息,参与者能够准确地评估自己的决策和行动对其他参与者的影响,并作出最优化的决策。
三、博弈的行动和策略:在完全信息动态博弈中,参与者可以选择不同的行动和策略来达到自己的目标。
每个参与者根据自己对其他参与者行动和策略的评估,以及自己的目标和利益,选择最优化的行动和策略。
四、博弈的时间顺序:完全信息动态博弈是一个时间序列上的博弈模型,参与者的决策和行动是有序进行的。
参与者按照一定的时间顺序依次进行决策和行动,每个参与者都会考虑前面参与者的行动和决策对自己的影响,进而作出自己的决策。
五、博弈的结果和收益:完全信息动态博弈模型的结果是参与者的收益和利益。
通过多轮反复的博弈过程,参与者根据自己的决策和行动可以获得不同的结果和收益。
每个参与者的最终目标是通过优化自己的决策和行动,获得最大的收益和利益。
完全信息动态博弈模型是博弈论中一种重要的模型,它能够帮助我们分析和理解多方参与者在了解所有相关信息的情况下,通过一系列决策和行动来实现最优化的结果。
通过对博弈的参与者、信息、行动和策略、时间顺序以及结果和收益的分析,可以更好地理解和应用完全信息动态博弈模型。
完全信息动态博弈(子博弈完美的纳什均衡)
对抗
强硬
甲
丙
不行动(-2,1,-1)
不对抗
(-1,1,0)
.
例:
2 L
1 R
(200,200) M
S (a,b)
N 1
T
(50,300)
(300,0)
➢ 若 a=100,b=150,SPNE是什么? ➢ 若改变a b的数值,能否使L-N-T成为SPNE? ➢ 什么情况下,2会获得300或更高的支付?
Stage1: 哥哥的方案若能使弟弟获得至少一半冰欺凌,则方案通过;
若不能使弟弟获得至少一半冰欺凌,则弟弟不会接受,而哥哥最 终将一无所获。
均衡路径: 哥哥提出方案为1/2:1/2, 弟弟接受
.
例:要挟诉讼
(要求赔偿S) 指控
B
拒绝
起诉
A
放弃
威胁不可 信
(TX-P-C, -TX-D)
( -C , 0 )
A
不指控
接受
( 0 ,0 ) ( S-C, -S )
若 TX<P 则 A将选择放弃
SPNE:A不指控
.
例:要挟诉讼
威胁可信
拒绝
(要求赔偿S) 指控
B
A
不指控
接受
( 0 ,0 )
起诉
A
(TX-P-C, -TX-D)
放弃
( -P- C , 0 )
(S-P-C,-S)
.
例:要挟诉讼
如果原告将P提前支付,TX-C-P>-C-P, 只要胜诉的可能大于0,原告将起诉。 如果S<TX+D, 被告将接受原告的赔偿请求。 如果TX >P+C , 原告会指控。
博弈论——完全信息动态博弈
博弈论——完全信息动态博弈2 完全信息的动态博弈2.1完全和完美信息的动态博弈动态博弈(dynamic game):参与⼈在不同的时间选择⾏动。
完全信息动态博弈指的是各博弈⽅先后⾏动,后⾏动者知道先⾏动者的具体⾏动是什么且各博弈⽅对博弈中各种策略组合下所有参与⼈相应的得益都完全了解的博弈静态博弈习惯⽤战略式(Strategic form representation)表述,动态博弈习惯⽤扩展式(Extensive form representation)表述。
战略式表述的三要素:参与⼈集合、每个参与⼈的战略集合、由战略组合决定的每个参与⼈的⽀付。
扩展式表述的要素包括:参与⼈集合、参与⼈的⾏动顺序、参与⼈的⾏动空间、参与⼈的信息集、参与⼈的⽀付函数、外⽣事件(⾃然的选择)的概率分布。
n⼈有限战略博弈的扩展式表述⽤博弈树来表⽰1(1,2) (0,3)①结:包括决策结和终点结。
决策结是参与⼈采取⾏动的时点,终点结是博弈⾏动路径的终点。
第⼀个⾏动选择对应的决策结为“初始结”,⽤空⼼圆表⽰,其它决策结⽤实⼼圆表⽰。
X表⽰结的集合,x X表⽰某个特定的结。
z表⽰终点结,Z表⽰终点结集合。
表⽰结之间的顺序关系,x x′表⽰x在x′之前。
x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。
以下两种情况不允许:前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。
在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。
②枝:博弈树上,枝是从⼀个决策结到其直接后续结的连线,每⼀个枝代表参与⼈的⼀个⾏动选择。
在每⼀个枝旁标注该具体⾏动的代号。
⼀般地,每个决策结下有多个枝,给出每次⾏动时参与⼈的⾏动空间,即此时有哪些⾏动可供选择。
③信息集(information sets):博弈树中某⼀决策者在某⼀⾏动阶段具有相同信息的所有决策结集合称为⼀个信息集。
博弈树上的所有决策结分割成不同的信息集。
每⼀个信息集是决策结集合的⼀个⼦集(信息集是由决策结构成的集合),该⼦集包括所有满⾜下列条件的决策结:(1)每⼀个决策结都是同⼀个参与⼈的决策结。
完全信息动态博弈最新优质PPT课件
三人罢工博弈的博弈树
2.三人罢工博弈的策略选择与信息
1
H
O
2 H
3
H
O
O
3
H
O
H
3
H
O
2 O
3
H
O
(6, 6, 6) (3, 3, 8) (3, 8, 3) (0, 2, 2) (8, 3, 3) (2, 0, 2) (2, 2, 0) (1, 1, 1)
员工 2 只有一个信息集的博弈树
1
H
O
3 H
第二节 完全且完美信息动态博弈概述
? 在完全且完美信息动态博弈( Dynamic Game with Perfect and Complete Information )中,每个博弈参与 者均知道在自己之前进行决策的参与者选择的策略和博弈结构。
? 博弈树中每个节点都独立构成一个信息集,没有虚线连接两个或 多个博弈树节点。
? 博弈树的方法不仅能表示动态博弈,还能表示静态博弈。
嫌疑人甲
嫌疑人乙
坦白
坦白
不坦白
不坦白 嫌疑人乙
坦白
不坦白
(5, 5)
(1, 10)
(10, 1)
用博弈树表示囚徒困境
(2, 2)
? 所谓的“博弈先后顺序”,它主要是一个信息的概念,而不 是一个纯时间先后的概念。
博弈论与信息经济学--完全信息动态博弈 ppt课件
©&® by H. Q. Feng, CUFE
5/58
一、动态博弈的表述——扩展式
(2)博弈的扩展式表述包括以下要素: 参与人集合:i=1,…,n,此外,N代表虚拟参与人“自然” 参与人的行动顺序:谁在什么时候行动; 参与人的行动空间:在每次行动时,参与人有些什么选择; 参与人的信息集:每次行动时,参与人知道什么; 参与人的支付函数:在行动结束之后,每个参与人得到些什 么(支付是所有行动的函数); 外生条件(即自然的选择)的概率分布。 假定房地产开发博弈的行动顺序如下:开发商A首先行动, 选择开发或不开发;在A决策后,自然选择市场需求的大小; 开发商B在观测到A的决策和市场需求后,决定开发或不开 发。
该博弈的扩展式表述为:
©&® by H. Q. Feng, CUFE
15/58
一、动态博弈的表述——扩展式
进入者
进入
不进入
在位者
斗争 默许
(0,300)
(-10,0)
(40,50)
©&® by H. Q. Feng, CUFE
16/58
二、子博弈精炼纳什均衡
纳什均衡有几个问题:
第一,一个博弈不止一个均衡,事实上,有些 博弈可能有无数个纳什均衡,究竟哪一个更合 理? 纳什均衡假定每一个参与人在选择自己的最优 战略时假定所有其他参与人的战略是给定的, 但是如果参与人的行动有先有后,后行动者的 选择空间依赖于前行动者的选择,先行动者在 选择时不可能不考虑自己的行动对后行动者的 影响。
©&® by H. Q. Feng, CUFE 20/58
二、子博弈精炼纳什均衡
“子博弈”的概念:从每一个行动选择开始至 博弈结束又构成一个博弈,称为“子博弈”。 如在进入者选择进入之后,在位者选择行动 开始就是一个子博弈。 子博弈需满足的条件:
完全信息动态博弈
5、完美回忆
完美回忆是指没有参与人会忘记自己以 前知道的事情,并且所有参与人都知道 自己以前的选择。 通常,我们假定博弈满足“完美回忆” 的要求。
参与人不满足完美回忆要求
1 U D 1
2
L R L R 1
U 2 L
1
D
R
L
R
1
A
参与人不满足完美回忆要求
N 1 U 2 L R 1 B L 1 D U 1 U 2 R L 1 2 R N 1 D U D 2
参与人集合:i=1,2,…,n。此外, 用N代表虚拟参与人——自然。 行动顺序:i(x) 参与人的行动空间:Ai(x) 参与人的信息集:hi(x) 支和路径 参与人的支付函数: 外生事件的概率分布:
二、标准式博弈与扩展式博弈
1、纯策略与混合策略 2、扩展型博弈与标准式博弈的转换 3、一个二阶段博弈的例子 4、博弈树求解--逆向归纳法
一个扩展式博弈的纯策略
L (3,2) (1,1) (0,2) (4,5) R L R
U
○ A D
B
这是一扩展型博弈,参与人A有1个信息集,两 种行动选择;参与人B有两个信息集(参与人A 选择U或D),每个信息集各有两种行动选择L 和R,相应地有四个纯策略LL、LR、RL和RR。
(2)纯策略
令Hi为第i个参与人的信息集的集合,Ai=hiHiA(hi)为 其行动集合,A(hi)为在信息集hi的行动集合。 参与人i的一个纯策略是从信息集Hi 到行动集合Ai 的一 个映射si:HiAi,对所有的hiHi,满足si(hi)A(hi)。 参与人i的纯策略空间Si就是所有纯策略的集合:
si * arg maxui ( si , s i *)
si Si
完全信息动态博弈-PPT
(1) 开发商A先行动, 选择开发或不开发;(2) 开发商B在
观测到A得决策后, 再决定开发或不开发。博弈树如下
图。
A
开
不
B
B
开
不
开
不
(-3,-3)
(1,0) (0,1)
(0,0)
注:所有n个局中人得一个纯策略组合决定了博弈树上得一条 路径。但每条路径可由不同得策略组合决定。
例如, (开发,(不开发,开发))决定了 A -> 开发 -> B -> 不开发 -> (1,0)
进 入 进入 者 不进入
在位者
默许
斗争
5,5 1,10
-2,3 1,10
承诺行动使 不可ቤተ መጻሕፍቲ ባይዱ信威胁可信威胁,否则,当事人将为自 己得“失信”付出成本。
例如,该例中,在位者与某第三者打赌,如果进入者进入后她 不斗争,她就付给后者3,这时,斗争成为可置信得威胁。因为 如果进入后,选择默许,收益更小。注意:有了这个赌,进入者 就不敢进入了,实际上,在位者无需支付赌注。
开 (-3,-3)
A
开
BI
不
不
B
开
(1,0) (0,1)
Ⅱ
不 (0,0)
房地产开发中,子博弈I与Ⅱ属于单人博弈,子博弈I中,B得最优 选择就是不开发,子博弈Ⅱ中,B得最优选择就是开发,因此: (1)(不开发, (开发,开发))在子博弈I上不构成Nash均衡; (2)(开发,(不开发,不开发))在子博弈Ⅱ上不构成Nash均衡; (3)(开发,(不开发,开发))在所有子博弈上都构成Nash均衡, 就是子博弈精炼Nash均衡。
Max π1(q1,s2(q1))=q1(a-q1-s2(q1)-c)
博弈论第四章 完全且完美信息动态博弈
0,0
需求小的情况 开发商A
开发商B 开发 不开发
开发 -3000,-3000 1000,0
不开发 0,1000
0,0
精的扩展式表述包括四个要素:
✓ 参与人集合(Player) ✓ 每个参与人的战略集合(Strategy) ✓ 博弈的顺序(Order) ✓ 由战略组合决定的每个参与人的支付(Payoff)
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
精选PPT
12
动态博弈的 战略
精选PPT
13
动态博弈的战略的表述
✓ 战略:参与人在给定信息集的情况下选择行动的规则,它规定参 与人在什么情况下选择什么行动,是参与人的“相机行动方案”。
si表示第i个参与人的特定战略
Si si代表第i个参与人所有可选战 择略 的集合
如果n个参与人每人选择战 一略 个, n维向量s (s1,s2, ,si, ,sn)称为一个战略组合 si表示第i个人选择的战略
精选PPT
6
扩展式表示的一个例子
精选PPT
7
博弈树始于 局中人1 的一个决策结点,这时1
要从L和R中作出选择,如果局中人1选择L,其后就
到达 局中人2 的一个决策结点,这时,局中人2要
从L′和R′中作出选择。类似地,如果局中人1选择R, 则将到达局中人2的另一个决策结点。
这时局中人2从L′和R′中选择行动。无论局中人2 选择了哪一个,都将到达终结点 (即博弈结束)且两 局中人分别得到相应终点节下面的收益。
(完整版)完全信息静态博弈及其纳什均衡解
1第四章 完全信息动态博弈及其均衡解1.完全且完美信息动态博弈完全信息博弈指的是参与者的收益是共同知识。
完全且完美信息动态博弈指的是:博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。
因此,我完全且完美信息动态博弈的特点:(1)行动是顺序发生的;(2)下一步行动选择之前所有以前的行动都可以被观察到;(3)每一可能的行动组合下的参与人的收益都是公共知识。
而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。
例4.1.我们来考虑这样一个动态博弈: 假定甲在开采一个价值4万元的金矿时需要1万元资金,乙有1万元资金。
甲向乙借钱来开金矿。
在这个博弈的第一阶段,甲向乙承诺: 如果乙借钱给他的话,那么他就会将采到的金子与乙对半分成,即(2,3)——乙得到2万元的金子,同时收回自己的1万元投资。
对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此为止,双方收益为(0,1)。
如果乙借钱给甲的话,那么博弈进入第二个阶段。
在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2,3),其中1万元为投资成本。
〖JP3〗然而,若甲违背自己的承诺,博弈就会进入到第三个阶段: 如果乙同甲打官司,那么由于打官司费时费力, 两个人的收益为(0,1);若乙不打官司,那么两个人的收益就为(5,0)。
参见图1。
乙借 不借甲分 不分 (0,1)乙 乙 (2,3) 打官司 不打官司(1,2) (5,0)图1. 借钱博弈的博弈树2.逆向归纳法与子博弈纳什均衡解逆向归纳法(Backward induction )又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始,计算最后一步的参与人的最优行动,逐步逆推到博弈开始时进行第一步的参与人的最优行动,从而确定每个参与人的最优行动。
在动态博弈中逆向归纳法能够进行的前提:参与人是理性的——任何一步参与人都选择甲乙2最优策略;理性是公共知识——参与人选择最优策略是其他人所能够预测的。
完全信息动态博弈模型
完全信息动态博弈模型完全信息动态博弈模型是博弈论中的一种重要模型,它描述了参与者具有完全信息(即对所有相关信息都有准确了解)的情况下进行的博弈过程。
在该模型中,参与者能够观察其他人的行为和选择,并根据这些观察作出自己的决策。
在完全信息动态博弈模型中,博弈过程分为多个阶段。
每个参与者在每个阶段都必须做出自己的决策,而后续的决策将依赖于先前的决策。
参与者可以根据观察到的其他人的行为和选择来调整自己的策略。
这种博弈模型特别适用于描述多个参与者之间具有时间序列关系的情况,如竞价拍卖、价格战等。
完全信息动态博弈模型可以用博弈树来表示。
博弈树由一系列节点和边组成,每个节点表示参与者的决策点,边表示参与者的决策选择。
根节点表示博弈的初始状态,而叶节点表示博弈的终止状态。
在每个节点上,参与者根据其他人的选择和观察到的信息来做出决策。
通过沿着博弈树的边一步一步向下移动,参与者可以在每个阶段根据观察到的信息进行反应和调整。
完全信息动态博弈模型需要考虑的核心概念是策略和均衡。
策略是参与者通过决策选择在每个节点上的行为规则,决定了参与者在每个阶段应该如何行动。
而均衡是一种状态,其中所有的参与者都无法通过单方行动来改善自己的收益。
在完全信息动态博弈模型中,通常存在多个均衡解,其中每个参与者都选择出使自己获得最大收益的策略。
通过建立完全信息动态博弈模型,我们可以分析不同参与者的决策行为和相应结果的演化过程。
通过求解均衡解,我们可以预测在不同情况下各参与者的最佳策略选择,从而为参与者提供决策依据。
此外,完全信息动态博弈模型也可以用于研究不同决策因素对博弈结果的影响,并为参与者提供制定最优策略的指导。
总之,完全信息动态博弈模型是博弈论中重要的一个模型,它描述了参与者具有完全信息的情况下进行的博弈过程。
通过建立博弈树、分析策略和求解均衡解,我们可以预测参与者的决策行为和相应结果的演化,并提供决策指导。
这种模型对于研究多个参与者之间具有时间序列关系的博弈情况非常有用,为决策者提供了重要的参考和指导。
完全信息动态博弈
一般来说,由于后行动的博弈方有更多的信息帮助自己选择 行动,可减少决策的盲目性,因此处于较有利的地位。不过, 后行动和具有较多信息并不总是有利的。
乙
左
中
右
上 4,12 3,10 2,12 甲 下 3,12 2,10 1,11
注意:当博弈方按上述子博弈精炼纳什均衡策略组合行动时, 实际上不会进行到博弈的第二、三阶段,两博弈方在第二、 三阶段的行为实际上不会发生。但作为完整策略的表达,在 描述子博弈精炼纳什均衡的策略选择时,必须将其给出。
例 市场进入博弈
进入者
进
● 不进
默许
x ● 在位者
x ' ● 在位者
打击 默许
打击
●
●
●
(0,0) (-1,-1) (1,2)
男方策略是两个:足球,芭蕾。女方是在知道男方决策后才 行动的,其策略可以归纳为四个:追随策略(他选什么我就 选什么)、对抗策略(他选什么我偏不选什么)、芭蕾策略 (无论他选什么我都选芭蕾)、足球策略(无论他选什么我 都选他喜欢的足球)。
动态博弈的非对称性
静态博弈下,各参与人同时选择,既无法知道别人的选择, 也无暇对此作出反应。但动态博弈中,后行动者会根据先行 动者的选择来调整自己的选择,而先行动者也会预期到这一 点,所以会考虑自己的选择对其他参与人有什么影响,从而 调整自己的策略。
纳什均衡不能排除不可信的威胁(或承诺),因此在分析动 态博弈时不能往往不能做出可靠的判断。
不打
(1,0)
(0,4)
当博弈进行到第三阶段即甲选择“不分”时,乙的合理选择 是“打”官司,这一威胁是可信的;则甲在第二阶段的合理 选择是“分”,这一许诺是可信的;乙在第一阶段选择“借” 是合理的。因此,乙的完整策略是“第一阶段选择‘借’ ,
lec4_完全信息动态博弈——博弈论课件
B
B
开发 不开发 开发
不开发
态
发我开发;
博 弈
❖ 不论A开发与否,我不开 (-3,-3) (1,0) (0,1) (0,0)
发。
图2-8 房地产开发博弈
动态博弈的策略式表述
博
弈
论
❖若把B的信息集从左
讲
到右排列,上述四个
义
纯战略可以简单记为
——
A
➢ {开发,开发}
完
开发
不开发
法,即可处理动态博弈问题。
息 动
近来研究表明,存在策略式表述相同,但却
态
有本质差别的,不同扩展式表述的动态博弈。
博
说明上述观点具有一定的局限性。因此,策
弈
略式表述并不能取代扩展式表述。
行为战略
博
弈
论 混合战略纳什均衡:在扩展式表述博弈中,
讲 义
一个重要概念是“行为战略” (behavior
strategies),用以区别战略式表述博弈的混
博
弈
论
讲 ❖(不开发,{开发,
义
开发})决定了博弈
的路径为A不开发
A
开发
不开发
B
B
开发
不开发 开发 不开发
——
完
B开发(0, 1)
(-3,-3) (1,0) (0,1) (0,0)
全 信
❖(开发,{不开发,
图2-8 房地产开发博弈
息
开发})决定了博弈
表2-1 房地产开发博弈:战略式表述
动 态 博 弈
全
弈树上的一个路径。
信
图2-8 房地产开发博弈
息 ❖比如(开发,{不开发, 表2-1 房地产开发博弈:策略式表述
04 序贯决策博弈
问题和讨论
1. 序贯决策博弈中参与人各个策略是什么? 序贯决策博弈中参与人各个策略是什么? 2. 序贯决策博弈的纳什均衡是什么? 序贯决策博弈的纳什均衡是什么? 3. 这种纳什均衡预测该序贯决策博弈的实际情况是否合理? 这种纳什均衡预测该序贯决策博弈的实际情况是否合理?
4.2 策略与行动的区别
策略——一个完整的行动计划 一个完整的行动计划 策略 例1 2 L 可以表示为: 可以表示为 (2,2)
原博弈
开
开 B X 不
A
不 B 开 X′ 不
子博弈1
B 开 不
子博弈2
B X′ 开 不
1 U 2 L R L D 2 R L 2
1 U D 2 R L 3 D C D C R
3 C D C
3
3 D
无(真)子博弈 参与人2 的信息集不能作为子博 弈的初始结, 否则将导致3的信 息集被分割。
子博弈精炼纳什均衡
(-3,-3) (1,0) B (0,1) (0,0)
B A
子博弈精炼纳什均衡:(开发,(不开发,开发))
练习2: 练习 :强盗分金问题
问题描述:五个强盗抢到了100块金币,他们通过抓阄确定了 提出方案的顺序,五个强盗分别抓到号码一、二、三、四、 五。号码是他们的发言顺序。先提出方案的强盗,如果按规 则通过,博弈结束,如果没有获得通过,就要被喂鲨鱼 规则如下:首先,一号强盗提出分配方案,全部强盗(包括 一自己)中达半数通过其方案即实施该方案,博弈结束;否 则将一号强盗喂鲨鱼;然后二号强盗提出方案,全部强盗 (注:此时全部强盗是二、三、四、五,因为一已死去)中 过半数通过其方案即实施该方案,博弈结束;否则将二号强 盗喂鲨鱼;以此类推(假设,若金币数无差异,则同意) 两个假设 (1)强盗首先希望保命 (2)保命前提下希望自己金币更多
完全信息动态博弈
乙 借 不借 甲 借
乙
不借
甲 (1,0)
(1,0)
分
不分
分
不分
(2,2) (2,2) (0,4) 打
乙 不打 (0,4)
不可信的许诺 (1,0)
可信的威胁
先来后到博弈
在市场经济活动中常常有这样一种现象,当某个厂商先行开 拓或占领了某个市场以后,其他厂商为丰厚的利润所吸引也 会随后跟进。这时,先占领市场者大多都不会无动于衷,而 是利用自己先行一步的优势对后来者进行打击。但这种打击 往往需要付出一定代价,当然如果能够达到挤走后来者的目 的,它就会长期地独占或垄断市场,所以长期地看先到者还 是合算的。那么,当一个先到者面临一个后来者争夺市场的 威胁时,空间应该如何抉择呢?
* A t A n n * Bi t Bi i 1 i 1
(a v c) 2 (2n 1)(a v c) 2 , ] 解得: t [ 2 4n(n 1)b 4n(n 1) b
(a bQ v c)Q n(a w v)[a v nw (n 1)c] b(n 1) 2
Bi qi a bQ w v bqi 0 awv qi ( n 1)b Q qi
i 1 n
n( a w v ) ( n 1)b
子博弈精炼纳什均衡的应用举例
斯坦克尔伯格(Stackelberg)寡头竞争模型 如同在库诺特模型中一样,在斯坦克尔伯格模型中,企业的行动也 是选择产量。不同的是,在斯坦克尔伯格模型中,企业1(称为领头 企业,leader)首先选择产量q1,企业2(称为尾随企业,follower) 观测到q1,然后选择自己的产量q2,此时他们选择的产量以及所得 利润分别是多少?
2.1_完全信息动态博弈
例如房地产开发博弈: a、假设B在决策时并不确切的 知道自然的选择。见图2.3 b、B知道自然的选择,但不知 道A的选择,见图2.4 完美信息博弈:指博弈树的所 有信息集都是单结的。它意味 着没有任何两个参与人同时行 动,并且所有后行动者能确切 的知道前行动者的行动,及大 家见到的自然行动。
图 2.3
“共同知识”( common knowledge)
指的是“所有参与人知道所有参与人知道,所有参与人知道所有参与人知道 所有参与人知道……”的知识。
在现实有许多博弈中,即使所有参与人“共同”享 有某种知识,每个参与人也许并不知道其他参与人 知道这些知识,或者并不知道其他人知道自己拥有 这些知识。这种情况被称为“一致信 念”(concordant beliefs)。
2、扩展式除包括以上三要素外,更重要的是其
“扩展”,主要指参与人的战略空间。战略对 应于参与人的相机行动规则。
具体来讲,博弈的扩展式表述包括以下因素: (1)参与人集合:i=1,…,n;此外,用N代表虚拟参 与人“自然”; (2)参与人的行动顺序:谁在什么时候行动; (3)参与人的行动空间:在每次行动时,参与人有些什 么选择; (4)参与人的信息集:每次行动时,参与人知道些什么; (5)参与人的支付函数:在行动结束之后,每个参与人 得到些什么(支付是所有行动的函数); (6)外生事件(即自然的选择)的概率分布。
琼 斯 (大,大) (大,小) (小,大) (小,小) -1 , -1 1,1 (E3)
史 密 斯
大 小
2 , 2(E1)
-1 , -1
2 , 2(E2)
1,1
-1 ,-1
-1 , -1
总的表述:
均衡 E1 E2 E3 策略
({L },{L , L})
第四章 完全信息动态博弈的基本理论
第四章完全信息动态博弈的基本理论一.回顾如何用标准型表述、刻画博弈?回顾如何用扩展型表述、刻画博弈?二.信息集1.观察下列两个扩展型博弈在结构上有什么区别?2.参与人i的信息集是指由这样一些决策节点组成的集合,第一,i的信息集中每个节点都是i的决策节点,即如果博弈进行到这一步,轮到i行动;第二,当博弈到达i的某个信息集,参与人i并不知道自己究竟已经到了信息集中的哪个节点。
3.对信息集的进一步理解A信息集用于表示博弈参与人在轮到他行动时所掌握的信息。
B信息集定义的第二点意味着在同一个信息集的节点有着相同的可行的行动集(思考:为什么?)。
C同一个信息集的节点不能相互构成前续节点与后续节点的关系。
4.思考:画出下列博弈的博弈树或扩展型表示。
第一步,参与人甲从行动集(L,R)中进行选择;第二步,参与人乙观察到参与人甲的行动选择后从自己的行动集(M,N)中进行选择;最后一步,参与人甲只能观察到过去的选择是否是(R,N),并从行动集(V,W)中进行选择。
博弈的支付略。
5.完全完美信息(complete and perfect)博弈与完全不完美信息(complete and imperfect)博弈(1)完全信息与不完全信息:区分完全信息与否的标准就看每个博弈参与人的支付函数是否是博弈的公共知识。
(2)完美信息与不完美信息:区分完美信息与否的标准就看该博弈的每个信息集是否都是单点的(singleton)。
完美信息意味着该博弈的每个信息集都是单点集。
思考:完美信息博弈意味着博弈参与人对所参与的博弈究竟知道些什么?意味着在博弈的每个行动时刻轮到行动的参与人知道博弈迄今为止的全部历史。
(3)不完全信息也意味着不完美信息;完美信息必定也是完全信息的。
三.行动(action)与策略1.在博弈的扩展型表示中,每个决策节点的一根“树枝”就代表着该参与人在此时的一个可供选择的行动。
2.参与人i的策略是指参与人i的一个完整的行动计划,即它规定了参与人i在每一个要求他行动的contingency之下所采取的可行的行动,即参与人i在每一个要求他行动的信息集之下所采取的可行的行动。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 完全信息动态博弈的基本理论一.回顾如何用标准型表述、刻画博弈?回顾如何用扩展型表述、刻画博弈?二.信息集1.观察下列两个扩展型博弈在结构上有什么区别?2.参与人i 的信息集是指由这样一些决策节点组成的集合,第一,i 的信息集中每个节点都是i 的决策节点,即如果博弈进行到这一步,轮到i 行动;第二,当博弈到达i 的某个信息集,参与人i 并不知道自己究竟已经到了信息集中的哪个节点。
3.对信息集的进一步理解A 信息集用于表示博弈参与人在轮到他行动时所掌握的信息。
B 信息集定义的第二点意味着在同一个信息集的节点有着相同的可行的行动集(思考:为什么?)。
C 同一个信息集的节点不能相互构成前续节点与后续节点的关系。
4.思考:画出下列博弈的博弈树或扩展型表示。
第一步,参与人甲从行动集(L ,R )中进行选择;第二步,参与人乙观察到参与人甲的行动选择后从自己的行动集(M ,N )中进行选择;最后一步,参与人甲只能观察到过去的选择是否是(R ,N ),并从行动集(V ,W )中进行选择。
5.完全完美信息(complete and perfect )博弈与完全不完美信息(complete and imperfect)博弈(1)完全信息与不完全信息:区分完全信息与否的标准就看每个博弈参与人的支付函数是否是博弈的公共知识。
(2)完美信息与不完美信息:区分完美信息与否的标准就看该博弈的每个信息集是否都是单点的(singleton )。
完美信息意味着该博弈的每个信息集都是单点集。
思考:完美信息博弈意味着博弈参与人对所参与的博弈究竟知道些什么?意味着在博弈的每个行动时刻轮到行动的参与人知道博弈迄今为止的全部历史。
夫夫(3)不完全信息也意味着不完美信息;完美信息必定也是完全信息的。
三.行动(action )与策略1.在博弈的扩展型表示中,每个决策节点的一根“树枝”就代表着该参与人在此时的一个可供选择的行动。
2.参与人i 的策略是指参与人i 的一个完整的行动计划,即它规定了参与人i 在每一个要求他行动的contingency 之下所采取的可行的行动,即参与人i 在每一个要求他行动的信息集之下所采取的可行的行动。
3.思考:写出动态夫妻博弈中夫妻双方的所有策略。
4.思考:为什么参与人的策略必须对似乎好不可能出现的博弈情形也规定如何选择行动?因为不这么做,就无法找出参与人针对对手策略的最优反应以及运用纳什均衡。
四.完全信息静态博弈与完全信息动态博弈的标准型表示与扩展型表示1.思考:如何用扩展型表示囚徒困境与静态夫妻博弈?如何用标准型表示动态夫妻博弈?FF FB BB BF2.结论与启示:(1)任何博弈既可以用标准型表示,也可以用扩展型表示;不过,标准型更适合表示静态博弈,扩展型更适合表示动态博弈。
(2)识别静态博弈的真正标准不是物理时间上的同时,而是关于行动的信息,即每个参与人是否知道对手过去的行动选择。
(3)标准型表示与扩展型表示的优点标准型能够清晰地展示出每个参与人的策略集;扩展型能够清晰地展示出参与人在每个博弈阶段的信息状况。
3.求解动态夫妻博弈的纳什均衡并思考:这些纳什均衡之间有哪些不同?您认为哪些纳什均衡是合理的?哪些是不合理的?一个结论与启示:动态夫妻博弈存在多重纳什均衡,其中有些纳什均衡包含着不可信的承诺(commitment ,包括威胁——threat 和允诺——promise 两种形式)。
承诺的可信性是动态博弈的核心问题,由于博弈存在动态结构,于是就可以研究参与人关于未来行为的威胁与允诺对其他参与人当前行为选择的影响。
五.子博弈(subgame )1.子博弈是指始于某个单点信息集上决策节点的所有后续节点,而且不能分割或破坏原博弈的信息结构。
原博弈也是自身的一个子博弈,但本课以后所说的子博弈均是小于原博弈夫 FB的子博弈。
2.找出下列博弈的子博弈(略)。
3.思考:为什么子博弈不能分割或破坏原博弈的信息结构?理由有两条,一是因为一旦破坏了原博弈的信息结构,就无法利用子博弈分析原博弈;二是因为只有这样才能保证该子博弈之前的博弈历史成为所有子博弈参与人的公共知识。
六.子博弈完美(subgame perfect)纳什均衡——完全信息动态博弈的解1.子博弈完美纳什均衡是指这样的一些纳什均衡,该策略组合在每一个子博弈均构成纳什均衡。
2.子博弈完美纳什均衡有助于在完全信息动态博弈中剔除包含不可置信承诺的纳什均衡;它是博弈论对完全信息博弈提出的解概念,是对纳什均衡概念的进一步提炼,这是理性原则在动态博弈中彻底运用的结果。
3.逆向归纳法——寻找子博弈完美纳什均衡的有效方法(1)逆向归纳法(backward induction)的基本做法是从求解最后一个子博弈的纳什均衡开始,不断向后推,直至到初始决策节点,以求解整个博弈的纳什均衡。
以这种方法找出的纳什均衡必定是子博弈完美纳什均衡。
(2)思考完全信息动态博弈的基本思路是:向前展望——以寻找出原博弈的子博弈;向后推理——以求解原博弈。
七.前向归纳法1.如果某博弈是一个更大博弈的一部分,则小博弈的均衡策略就可能依赖于大博弈。
2.前向归纳法(forward induction)(1)例子:博士学习计划(故事略)(2)前向归纳法:参与人通过其他参与人早期的、过去的决策推断出一些信息,以帮助求解动态博弈。
前向归纳法与逆向归纳法之间并没有冲突,而是相互补充。
八.完全信息无限期讨价还价理论1.什么是讨价还价讨价还价是指各方具有共同的合作利益,但对合作利益如何分配却存在分歧。
可以描述为:有一块大小一定的蛋糕要在若干人中间分配,各方就如何分割蛋糕进行讨价还价,每一方都试图最大化自己的蛋糕份额,如果无法达成分配协议,则谁也不能分享这块蛋糕;如果达成了协议,则各方按照协议的规定进行分配。
2.完全信息无限期讨价还价的非合作博弈研究核心成果是Rubinstein的两人无穷期讨价还价博弈,该博弈唯一的子博弈完美均衡结局是:假设蛋糕的大小为 ,参与人风险中性,以及无协议时双方的报酬为0,则双方获得的蛋糕份额为:第一个开价的的人(A )获得:B A B r r r π+,第二个开价的人(B )获得:A A Brr r π+。
这个结论告诉我们:谁相对更加有耐心,谁的讨价还价力量就相对更大;这个结果与纳什讨价还价解等价。
总结与回顾:(1)前面所分析的所有博弈,不论是静态的还是动态的,具有一个共同的特点:所有的博弈都是一次性的。
(2)第二章思考的社会困境解决办法总是求助于外在的强制与约束力量,能否存在其他的解决机制?(3)如果相同的博弈多次重复,是否会因为存在未来惩罚不合作行为与奖励对手合作行为的机会,而有助于博弈各方的合作?九.重复博弈1.重复博弈的一些例子2.重复博弈是指相同的参与人重复地进行相同的博弈,而且在进行某阶段的博弈时,前面所有阶段的博弈结局是所有参与人的公共知识。
这个被重复进行的博弈就被称之为阶段博弈(stage game )。
3.有限重复博弈(0)有限重复博弈:给定阶段博弈G ,G (T )表示阶段博弈G 重复T 次的有限重复博弈,其中第t 次阶段博弈开始时,对全体博弈参与人来说,所有t -1次阶段博弈的结局都是可观测的,是博弈的公共知识。
假设不存在贴现因素,重复博弈G (T )的支付就是所有T 次阶段博弈的支付的简单加总。
(1)情形1:阶段博弈具有唯一的纳什均衡 A 例子甲乙就双方的合作达成了协议,协议订立后双方均面临两个选择:违约或守约。
我们称这个博弈为守约博弈。
博弈问题1:该博弈的纳什均衡是什么?问题2:如果甲乙双方的博弈关系持续两期,也就是说,甲乙两人的守约博弈重复进行两次,请问,该重复博弈的最终结局是什么?乙甲 违约守约B 结论:如果阶段博弈G 有唯一的纳什均衡,那么,对任意的有限次数T ,重复博弈G (T )有唯一的子博弈完美结局(outcome ):在每个博弈阶段,参与人均重复阶段博弈的纳什均衡。
C 进一步的理解:通过上面的例子可以看出,完全信息重复博弈其实也是完全信息动态博弈,故同样使用子博弈完美纳什均衡作为重复博弈的解(值得注意的是,动态博弈本身也是可以重复的)D 思考:为什么说“在每个博弈阶段,参与人均重复阶段博弈的纳什均衡”只是重复博弈的子博弈完美结局,而不说它是子博弈完美均衡?(2)情形2:阶段博弈具有多重(multiple )纳什均衡 A 例子1有阶段博弈如下乙 2L 2M 2R1L甲1M1R问题1:请问阶段博弈的纳什均衡是什么?问题2:如果该阶段博弈重复两次,请问您能否想出一个办法,使得(4,4)这个结局成为第一阶段博弈的子博弈完美结局?结论:如果完全信息阶段博弈G 具有多重纳什均衡,则重复博弈G (T )存在子博弈完美结局:对任意的t<T ,阶段t 的结局不是阶段博弈G 的纳什均衡。
之所以如此,在于阶段博弈的多重纳什均衡为参与人在未来奖励、惩罚对手提供了可信的允诺与威胁,这说明对未来行为的可信的允诺或威胁会对当前的行为产生影响。
B 例子2有阶段博弈如下乙2L 2M 2R 2P 2Q 1L1M 甲 1R1P1Q问题1:上述阶段博弈的纳什均衡是什么?问题2:如果上述阶段博弈重复两次,博弈参与人预期第二阶段的结局如下,如果第一阶段的结局是(1M ,2M ),则第二阶段的结局是(1R ,2R );如果第一阶段的结局是(1M ,w ),其中w 为2M 以外的任何行动选择,则第二阶段的结局是(1P ,2P );如果第一阶段的结局是(x ,2M ),其中x 为1M 以外的任何行动选择,则第二阶段的结局是(1Q ,2Q );如果第一阶段的结局是除上述情形以外的其他情形,则第二阶段的结局为(1R ,2R )。
请问,在上述预期下,重复博弈的子博弈完美结局是什么?问题3:请将例子2的子博弈完美结局与例子1的子博弈完美结局进行比较,看看二者惩罚第一阶段不合作行为的机制有什么不同?或者说,谁的惩罚威胁是更加可信的?结论:可信的承诺应该要求在该承诺之下参与人不存在再协商(renegotiation )的可能或积极性,否则,承诺的可信程度就会大打折扣。
4.无限重复博弈(infinitely repeated game ) (1)无限重复博弈:给定阶段博弈G ,G (∞)表示阶段博弈G 重复无限次的无限重复博弈,其中当前的阶段博弈开始时,所有以前的阶段博弈的结局都是可观测的,是博弈的公共知识。
(2)无限重复博弈中参与人支付的计算A 给定贴现因子δ,无穷支付序列1π,2π,3π……的贴现值为:1π+δ2π+2δ3π+……=11t t t δπ∞-=∑。
所谓贴现因子就是指下一期的一块钱在今天(即现期)的价值,11rδ=+,其中r 为每一期的利率。