博弈论 第 三 章 完全信息动态博弈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
黑
N
[0.5]
红 [0.5]
<1> 1
<1> 1
加注r <1/3>
y2 2 <1/4>
摊牌f
摊牌F
<2/3> <0>
(-1,1) (1,-1)
加注R <1>
x2 2 <3/4>
放弃P
对抗M
放弃P
对抗M
(1,-1)
(-2,2)
(1,-1)
(2,-2)
摊 牌 博 弈 的 策 略 空 间 分 别 为:
S1={(R,F)×(r,f)}={Rr,Rf,Fr,Ff},S2={M,P}
集包含不止一个结, 假设x与x′∈h(x),则恰 好拥有信息h(x)并正在选择自己行动的参与 人其实对自己究竟是处于x还界x′是不确定的。
要 求: 如 果x′∈h(x), 则x与x′ 应 该由同 一 个参与人采取行动,且可以选择的策略空 间 相同:A(x)=A(x′), 由此可以将信息集h上 的 行动集记 为A(h)。
Ff 0,0
0,0
该博弈有唯一的Nash均衡(σ1,σ2)=(1/3(Rr)+2/2(Rf), 2/3(M)+1/3(P)),它与信念体系一起构成序贯均衡。
习题
1.写出下列博弈的策略型表示:
(1)
(2)
1
U
D
U
1 D
2
L
R
2
L
R
(2,1) (0,0) (-1,1) (3,2)
2
2
L
RL
R
(2,1) (0,0) (-1,1) (3,2)
混合策略的子博弈完美Nash均衡可类似定 义。 简单地说: 子博弈完美Nash均衡要 求均衡策略 的行为规则在每一个信息集 上都是最优的(包括均衡路径和非均衡路 径)。
定 义 展开型博弈的一个策略组合称为子 博弈 完美Nash均衡,如果对于该博弈 的每一个子 博弈,该策略组合都是 Nash均衡。
一个Nash均衡,如果对每一个i,si*最大化ui(si,s-i*):
即
si*∈arg max ui(si*,s-i*),对任一i
策略型博弈的混合策略实际上是纯策略空间上 的
概率分布,因此展开型博弈中参与人i的混 合策略也 可以看作是其纯策略空间Si上的任一 概率分布。
“ 参与人的每一个特定的纯策略si相当于一 本指导说明书,书中每一页表示到了一 个特定的信息集hi,在 该页上告诉i 如何 行动。许多的si 相当于许多的说 明书, Si表示这些说明书的全体。混合策略相当 于i 以一定的概率分布随机地抽取一本说 明书”
1
C
D
现在重新考虑上述房地产开发博弈,以解释信 息集的概念,其中开发商B是在知道A的选择 和自然的选择之后决策的。
如果B在决策时并不知道自然的选择,则有博
弈树:
开发
A
hA
不开发
N
N
大(1/2)
hB B
小(1/2)
B
大(1/2)
B
小(1/2)
B h′B
开发
不开发 开发 不开发 开发 不开发 开发 不开发
①( 不 开 发,( 开 发, 开 发))
②( 开 发,( 不 开 发, 不 开 发))
③( 开 发,( 不 开 发, 开 发))
但①中B的策略是不合理的,这个威胁是不可置 信的;②中B的策略(不开发,不开发)也不合理, 因为若A不开发,B显然应该开发; 只有③是一 个合理的均衡。
2.3.1 子 博 弈
参 与 人1
B 1,0
3,1
(3,1)
展 开 型 博 弈:
T
2
L
R
1 B 2
l
(2,2) 可以表示成:
(4,0) (1,0)
参 与 人2
Ll
lr
Rl
T 2,2 2,2 4,0
参 与 人1
B 1,0 3,1 1,0
r (3,1)
Rr 4,0 3,1
同样地,展开型博弈也可以用策略式来表示:
例 摊牌博弈
注意:行为策略是在A(hi)上随机化,而混合策 略则是在Si( 即A(hi) 的乘积 空 间)上的随机化
定 理 (Kuhn,1953) 在完美回忆博弈中,混合 策略与行为策略是等价的。
完美回忆指没有参与人会忘记以前知道的信息。
例 下列展开型博弈不具备完美回忆:
A 2
L
R
1
B
2
L
R
1
C
D
1
CD
1
C
D
可表示为策略型
参 与 人2
M
P
Rr 0,0
1,-1
注:u1(Rf,M)= 2×1/2+(-1)×1/2=0,5
u2((Rf,M)= -2×1/2+1×1/2=-0.5
Rf 0.5,-0.5
参 与 人1
Fr –0.5,0.5
0,6 1,-1
其中R(r)表示加注;F(f)表 示摊牌;M表示对抗;P表示 放弃。
例房地产博弈 开A
BX
开
不
不 B X′
开
不
有子博弈Ⅰ:
Bx
开
不
和子博弈Ⅱ:
B X′
开
不
1
U
D
2
2
L
R
L
R
无(真)子博弈
1
U
D
2
2
L
R
L
R
3
3
3
3
C
DC DC
DC D
参与人2 的信息集不能作为子博 弈的初始结, 否则将导致3的信 息被分割。
3.3.2 子 博 弈 完 美 (精练)动 态 博 弈
定义 展开式博弈的略 组s*=(s1*,…si*,…sn*) 是一个 子博弈完美(精练)Nash均衡, 如果满 足:(1)它 是原博弈的Nash均衡;(2)它在每一 个子博弈上 给出Nash均衡。
={(左,左),(左,右),(右,左),(右,右)},其中纯策略 (左,左)表明:当1取“上”时,2取“左”;当1取
“下”时,2取“左”,…… 参与人1有三个信息集H1={hi(i),i=1,2,3},1的纯
策略空间为:S1=A(h1(1))×A(h1(2))×A(h1(3)) ={(上,下)×(A,B)×(C,D)},共8种纯策略。 一般地,参与人I的纯策略空间的纯策略数目为:
不坦白
坦白
不坦白
(-5,-5)
(0,-8) (-8,0)
(-1,-1)
注 意: 得 益 向 量 的 次 序 与 参 与 人 决 策 的 顺 序 一 致。
同样地,展开型博弈也可以用策略式来表示, 如
展开型博弈:
1
T
B
2
L
R
2
L
R
(2,2)
(4,0) ((1,0)
可以表示为:
参 与 人2
L
R
T 2,2 4,0
另一种情况就则B知道自然的选择,但不知道A的
选择,这时博弈树如下:
A
开发
不开发
N
N
大
小
大
小
B
B
B
B
开发
不开发 开发
不开发 开发
不开发 开发
不开发
(-5,-5)
(0,-8) (-3,-3)
(1,0) (0,8) (0,0) (0,1)
(0,0)
上述房地产开发博弈还有另一种表示:
N
大(1/2)
小(1/2)
的全体记汉A(hi),如果令Hi表示参与人i的信息 集
的集合,则Ai= ∪ A(hi)就是参与人i的所有行
动
hi∈Hi
的集合。参与人i的一个纯策略是从Hi到Ai的一 个映射si:对每一个hi∈Ai,si(hi)∈Ai,所有这些 si的全体记为Si,即的的纯策略空间Si,由此:
Si= × A(hi)
房地产开发博弈
开发
A hA(1) 不开发
h表示信息集
N hN(1)
需求大
需求小
N hN(2)
需求大
需求小
B hB(1)
开发
不开发
B hB(2)
B hB(3)
开发
不开发 开发 不开发 开发
B hB(4)
不开发
(4,4)
(8,0) (-3,-3)
(1,0) (0,8) (0,0) (0,1) 单 位:百万元
#Si= Π #(A(hi)) hi∈Hi
展开型博弈中纯策略是由信息集与行动集 定义 的( 与静态博弈不同,静态博弈中采取纯 策略与 采取某行动是一个意思)。
纯策略组合(剖面profile)是由参与人各自 的纯策 略空间中的任一纯策略构成的组
合,在任一纯 策略组合s下,总可以从
初始结开始,沿着博弈树的某条路径
(Luce & Raiff)。
参与人i的行为策略bi 定义为:
bi∈×hi∈Hi△(A(hi))
其中△ 表示某集合是的概率分布。
行 为 策 略 的Nash 集 合 是 这 样 一 个 策 略 组 合, 它 使 得 没 有 一 个 参 与 人 可 以 通 过 不 同 的 使 用策 略 而 增 加 自 己 的 得 益。
(3)
N
1/3
2/3
1
Y1
z1
1
x1
w1
(2,6) (5,6)
2
2
a2 (9,0)
b2 (0,3)
a2 (9,5)
b2 (0,3)
3.3 子 博 弈 与 子 博 弈 完 美
Nash 均衡在原则上适用所有的博弈,但对于预 测 参与人的行为来说,Nash均衡可能并不是 一个 合理的预测, 如房地产博弈:
A
开发
不开 发
A
开发
不开发
B
B
B
B
开发 不开发 开发 不开发 开发 不开发 开发
不开发
有了信息集的概念, 展开式表示也可以用来表 示静态博弈, 如“囚徒的困境 ”博弈可以表 示为:
1
坦白
2
不坦白
2
坦白
不坦白 坦白
不坦白
(-5,-5)
(0,-8) (-8,0)
(-1,-1)
或者:
2
坦白
不坦白
1
1
坦白
如果博弈树的所有信息集都是单结的, 则称该 博弈为完美(perfect)息 博弈。(无虚线连接), 而完全(complete)信息博弈是指得益函数和纯 策略空间均为博弈各方的共同知识。完全信息 可以是完美的也可以是不完美的。
3.2 展开型博弈的策略与均衡
一、 行 为 策 略
在策略型博弈中, 参与人的策略是进行博 弈的计划( 或打算)的详细集合, 而在展 开型博弈中 参与人的策略必须确定在该 参与人的每一个决 策集上 所 采 取 的 行 动,又 结 与 信 息 集 紧 密 相 连, 对 于 参 与 人i,基于信息hi的行动的
A
开
不
B
开
不
B
开
不
(-3,-3)
(1,0)
的 策 略 式 表 示 为:
(0,1)
(0,0)
参 与 人B
( 开, 开) ( 开, 不) ( 不, 开) ( 不, 不)
开 -3,-3
-3,-3
1,0
1,0
参 与 人A
不 0,1
0,0
0,1
0,0
由 画 线 法 可 得 三 个 纯 策 略Nash 均 衡:
第 三 章 完全信息动态博弈
3.1 动态博弈的表示法和特点
1. 定 义 与 博 弈树
博弈的展开式所包含的信息和内容: ⑴ 参与人的集合,记为i=1,2,…n,用N代表虚拟
的参与人“自然”; ⑵ 行动的次序, 即谁在什么时候行动; ⑶ 参与人的行动空间,即轮到某参与人行动时,
他从该时刻的纯策略空间中选取什么策略;
定 义 一 个 展 开 式 博 弈 的 子 博 弈G 由 一 个 决 策 结x 和 所 有 该 决 策 结 的 后继结T(x)( 包 括终点结0 组 成, 它 满 足 下 列 条 件:⑴x 是 一 个 单 点 信 息 结即h(x)={x};⑵对于所有的 x′∈T(x),如果x″∈h(x′),则x″∈T(x)。
(path), 达到s相应的终点结。 有一个事 实非常重要:s中有些信息集在博弈 树 的这条路径上,我们称这些信息集是s的 路 径(path), 当然也可能存在s中某些信 息集不在 此路径上。
定义了纯策略的得益函数后,我们就可以定义 展
开型博弈的Nash 均衡;
定义 策略组合s*=(s1*,…si*,…sn*)是展开型 博弈的
hi∈Hi
例
上 2 h2(1)
左
右
h1(2)
1
Hale Waihona Puke Baidu
1
1 h1(1) 下
2 h2(2)
左
右
h1(3)
1
1
A
B
A
B
C
D
C
D
参与人2有两个策略集,相应地也有两个信息集 A(h2(1))=A(h2(2))={左,右}
其中H2={h2(1),h2(2)};参与人2的纯策略空间为: S2=(A(h2(1)),Ah2(2))={(左,右)×(左,右)}
⑷ 当参与人作出他们的行动决策时,他所 观测到 或他所了解到的信息,即他在此时 获得的信息 集合;
⑸ 参与人的得益(支付或效用), 它们是已 知行动的函数;
⑹ 在任何外生事件的概率分布。
例 房地产开发博弈
有两个房地产开发商(分别为参与人1,记为 A和参与人2,记为B) 在某地开发房地产, 但该 地的房地产需求状况是不确定的, 假定该博弈 的行动顺序如下:(1) 开发商1先行动, 选择开 发或不开发;(2)在1决策后,“ 自然”选择需求 的大小;(3)开发商2在 观测到1的决策和市场 的需求后, 再决定开发 或不开发。( 如 下 图)
(0,0)
上述博弈树给出了有限博弈的几乎所有信息。
博 弈 树 必 须 满 足 下 列 规 则:
(1) 每一个结(node)至多有一个其他结直接位 于 它的前面;
(2) 在博弈中没有一条路径可以使决策集与自身 相连;
(3) 每一个结是唯一初始结的后续结, 即博弈树 必须有初始结;
(4) 每个博弈树“正好”只有一个初始结(多于 一个 可以用“ 自 然”连接。
不允许出现的情况:
由以上规则,对于博弈树中的每一个终点结, 我们,完全可以确定从初始结到终点 结的路 径,同时也展示了博弈的动态过程。
信息集:博弈树上的所有决策集分割成不同的信 息集, 我们用h∈H来表示这个信息。如果 一个信息集包含 结x,我们就可以将该信息集 记为h(x), 如果一个信息 集只包含一个结,这 是最简的情况。我们主要关心的 是一个信息