第六章:重复博弈与合作行为

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
有限次重复博弈不一定考虑贴现因素
无限次重复博弈必须考虑贴现问题 (1 ) t1t t 1
8
“囚徒困境”的一般表示
合作 A
不合作
合作 3,3
B 不合作
-1 ,4
合作
合作 T, T
不合作 S, R
4 , -1
➢ 可实现得益(Feasible Payoff) :博弈中所有纯 策略组合得益的加权平均数组
(3,3) ➢
(4,1)
定理:设原博弈的一次性博弈有均衡得益 数组优于w,那么在该博弈的多次重复中 所有不小于个体理性得益的可实现得益, 都至少有一个子博弈完美纳什均衡的极限 的平均得益来实现它们。
厂商1得益
max8 1.5 q q 2q max4.5 q q
q2
2
2
2
q2
2
2
q2 2.25,此时他的利润为 5.0625
➢ 高于触发策略第一阶段得益4.5。但从第二阶段开始,厂 商1将报复性地永远采用古诺产量2,这样厂商2也被迫 永远采用古诺产量,从此得利润4。因此,无限次重复 博弈第一阶段偏离的情况下总得益的现值为:
* 8 2q* q* 2q* 6 2q* q*
max q2
8
q2* q* 1
62
q22q*
1
q*qd2
6 q*
2 24
29
低水平的合作
d
1
c
6 q* 2
4 4 1
6 2q* q* 1 6 q* 2 4 4 1
q* 29 5
9
30
效率工资(efficiency wage)
➢ 信息的完备性(completeness)
✓ 当一个参与人的支付函数(特征)不为其他参与人 所知时,该参与人可能有积极性建立一个“好”声 誉以换取长远利益。这一点可以解释为什么那些本 质上并不好的人在相当长的时期内干好事。
5
基本概念
➢ 有限次重复博弈:给定一个基本博弈G(可以是静态博 弈,也可以是动态博弈),重复进行T次G,并且在每 次重复G之前各博弈方都能观察到以前博弈的结果,这 样的博弈过程称为“G的T次重复博弈”,记为G(T)。 而G则称为G(T)的“原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。
25
无限次重复古诺模型
➢ 设厂商1已采用该触发策略,若厂商2也采用该触发策 略,则每期得益4.5,无限次重复博弈总得益的现值为:
4.51 2 4.5
1
➢ 如果厂商2偏离上述触发策略,则他在第一阶段所选产 量应为给定厂商1产量为1.5时,自己的最大利润产量, 即满足:
26
无限次重复古诺模型
27
无限次重复古诺模型
5.0625 4 2 5.0625 4
1
4.5 5.0625 4 即 9 17
1
1
➢ 上述策略是厂商2对厂商1的同样触发策略的最佳反应, 否则偏离是最佳反应。
28
低水平的合作
在第一阶段生产q*,在第t阶段, 如果前t 1阶段的结果都
是 q*,q * , 则继续生产q*, 否则生产古诺产量qc 2。
触发策略:第一阶段采用H,如果前t-1阶段的结果都是 (H,H),则继续采用H,否则采用L。
如果博弈方2采用L,总得益现值为
5 1 1 2 5பைடு நூலகம் 1
如果博弈方2采用H,总得益现值为
V 4 V 因此当 1/ 4 时,此触发策略纳什均衡策略
23
两寡头削价竞争无限次重复博弈的民间定理
厂商2 得益
(5,0) (1,4)
无限次重复博弈民间定理:设G是一个完全信息 的静态博弈。用(e1,, en )记G的纳什均衡的得益, 用(xi ,, xn )表示G的任意可实现得益。如果xi ei
对任意博弈方i都成立,而足够接近1,那么无限 次重复博弈G(, )中一定存在一个子博弈完美纳
什均衡,各博弈方的平均得益为(x1,, xn )
(-5,-5)
囚徒2
坦 白 不坦白
囚 坦白 -10,-10 -5,-13
徒 1
不坦白
-13,-5
-6,-6
(-10,-10)
12
有限次重复博弈:连锁店悖论(chain_store paradox)
进 进入 入 者 不进入
在位者
默许
斗争
40,50
-10,0
0,300
0,300
市场进入博弈
有唯一纯策略纳什均衡 (40,50) 有限次重复的结果仍然是 (进入,默许)
第六章
重复博弈与合作行为
1
序惯博弈(sequential game)
➢ 序惯博弈:参与人在前一个决策点的选择决定随后的
子博弈的结构,因此,从后一个决策点开始的子博弈
不同于从前一个决策点开始的子博弈,或者说,同样
结构的子博弈只出现一次;




不分
不借 (1,0)
(2,2)

(-1,0) (0,4)

V (w* e) V
e
e
V (w* e) (1 ) e
34
考虑如下的触发策略
用 V 记工人选偷懒时无限重复博弈得益的现值,则:
s
V
w* ( pV
(1 p)
➢ 零和博弈是严格竞争的,重复博弈并不改变这一点。
➢ 以零和博弈为原博弈的有限次重复博弈与猜硬币博弈 的有限次重复博弈一样,博弈方的正确策略是重复一 次性博弈中的纳什均衡策略。
盖 正面

币 反面

猜硬币方
正面 -1, 1
反面 1, -1
1, -1
-1, 1
11
唯一纯策略纳什均衡博弈的有限次重复博弈
➢ 定理:设原博弈G有唯一的纯 策略纳什均衡,则对任意正整数 T,重复博弈 G(T)有唯一的子 博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均 衡策略。各博弈方在G(T)中的 总得益为在G中得益的T倍,平 均得益的等于原博弈G中的得 益。
囚徒2
坦 白 不坦白
囚 徒
坦白
-5,-5
0,-8
1 不坦白 -8,0 -1,-1
➢ 厂商2:第一阶段选A,第二阶段无条件选B,如果第 一阶段结果是(A,A),则第三阶段选A;如果第一 阶段结果是(B,A),则第三阶段选B。
➢ 均衡路径:(A,A)—(A,B)—(B,A)
19
有限次重复博弈的民间定理(Folk Theorem)
厂商2 得益
(1,4)
w=(1(1,.11) )
➢ 个体理性得益(Individual Rationality Payoff) : 不管其它博弈方的行为如何,一博弈方在 某个博弈中只要自己采取某种特定的策略, 最低限度保证能获得的得益
方L
1P
Q
H
5,5 6,0 2,0 0,0 0,0
博弈方2
M
0,6 3,3 2,0 0,0 0,0
L
0,2 0,2 1,1 0,0 0,0
P
0,0 0,0 0,0 4,1/2 0,0
Q
0,0 0,0 0,0 0,0 1/2,4
博弈方1:在第一阶段采用H,如果第一阶段结果是(H,H),那么第 二阶段采用M,否则采用P;
20
两人零和博弈的无限次重复博弈
➢ 两人零和博弈无限次重复的所有阶段都不 可能发生合作,博弈方会一直重复原博弈 的混合策略纳什均衡.
21
唯一纯策略纳什均衡博弈的无限次重复博弈
两寡头削价竞争博弈
H
L
H
4,4
0,5
L
5,0
1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
22
无限次重复两寡头削价博弈
➢ 无限次重复博弈:一个基本博弈G一直重复博弈下去的 博弈,记为G(∞)
6
基本概念
➢ 策略:博弈方在每个阶段针对每种情况如何行 为的计划。
➢ 子博弈:从某个阶段(不包括第一阶段)开始, 包括此后所有的重复博弈部分。
➢ 均衡路径:由每个阶段博弈方的行为组合串联 而成。
7
重复博弈的得益
平均得益:如果一常数作为重复博弈(有限次重复博弈或
否则从此永远是 w 0 。 工人的策略是如果 w w 则接受,否则宁
0
愿作个体户得到 w ,并在以前各期结果都是(w* , y) 0
和当前工资率为 w* 时努力工作,否则偷懒。
33
考虑如下的触发策略
设厂商已采用上述触发策略。由于 w* w0 ,
工人接受工作是最佳反应。用 V 记工人努 e
力工作时无限次重复博弈得益的现值,则
2
重复博弈(repeated game)
➢ 重复博弈:同样结构的博弈重复多次,其中的每次 博弈被称为“阶段博弈” (stage game).
➢ 以囚徒困境为例,如果每次判刑不是很重(至少不 是无期徒刑),那么,两个囚徒在刑满释放之后再 作案,作案之后再判刑,释放之后再作案,如此等 等,他们之间进行的就是重复博弈,其中每次作案 是一个阶段博弈。
0,0
两个罪犯的得益矩阵
不合作 R,S
P,P
满足:R>T>P>S; (S+R)<T+T
9
支付函数
➢ 双方都不合作:
V (all - d,all - d) P P 2P 3P ... P 1 1
➢ 对 的解释:
✓ 贴现率; ✓ 博弈继续的概率; ✓ 一般化:未来收益的重要程度
10
两人零和博弈的有限次重复博弈
模型设定:
首先厂商选择工资率为 w,然后工人选择接
受或拒绝。如果拒绝,则他作个体户得到收入w
小于w
,如果接受w
0
,则工人选择努力工作
(负效e用 )还是偷懒(无负效用)。
厂商只能看到产量高低,高产量为y 0 ,低
产量0。
31
效率工资(efficiency wage)
模型设定:
工人努力工作时一定是高产量 y ,不努力时
13
多个纯策略纳什均衡博弈的有限次重复博弈
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
三价博弈
L
0,2 0,2 1,1
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
两次重复三价博弈的等价博弈
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 博弈方1:第一次选h;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博弈方1
博弈方2:在第一阶段采用H;如果第一阶段结果是(H,H),那么 第二阶段采用M,否则采用Q。
16
两市场博弈的重复博弈(重复两次)
厂 商
A
1B
厂商2
A
B
3,3
1,4
4,1
0,0
两市场博弈
➢ (A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) ➢ 连续两次采用混合策略——(2,2) ➢ (A,B)+(B,A) OR (B,A)+(A,B)——(2.5,2.5)轮换策略 ➢ 一次纯策略+一次混合策略——(1.5,3)(3,1.5)
却并不一定是0,而是高产量 y 的概率为 p ,
低产量0的概率为1 p 。 工人努力工作时,厂商得益为 y w ,工人
得益为w e ;工人偷懒时,厂商期望得益py w
工人得益为 w 。 0
32
考虑如下的触发策略
厂商在第一阶段给工资率 w*,在第t阶段,
如果前面t-1阶段结果都是(w* , y) 则继续给 w*,
17
两市场博弈及重复博弈各均衡的平均得益
➢ 不同策略组合、均衡得益图示
厂商2 得益
(1,4) (1.5,3) (3,3)
(2.5,2.5)
(2,2) (3,1.5)
(4,1)
厂商1得益
18
触发策略
➢ 厂商1:第一阶段选A;如果第一阶段结果是(A, A),则第二阶段选A,如果第一阶段结果是(A, B),则第二阶段选B;第三阶段无条件选B。
3
重复博弈的三个特征
➢ 阶段博弈之间没有“物质上”的联系(no physical links),也就是说,前一阶段的博弈 不改变后一阶段的结构;
➢ 所有参与人都观察到博弈过去的历史; ➢ 参与人的总支付是所有阶段博弈支付的贴现值
之和。
4
影响重复博弈均衡结果的因素
➢ 博弈重复的次数 ✓ 重复次数的重要性来自于参与人在短期利益和长远 利益之间的权衡。这是重复博弈分析给出的一个强 有力的结果,为现实中观测到许多合作行为和社会 规范提供解释。
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
24
无限次重复古诺模型
➢ 假定:
P 8Q 其中Q q1 q2 , 边际成本都为2
➢ 在无限次重复古诺模型中,当贴现率 满足一定条件
时,两厂商采用下列触发策略构成一个子博弈完美纳 什均衡:
➢ 在第一阶段生产垄断产量的一半1.5;在第 t 阶段,如 果前 t-1 阶段结果都是(1.5,1.5),则继续生产1.5,否则 生产古诺产量2。
14
触发策略的进一步讨论
厂H 商M 1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
三价博弈
L
0,2 0,2 1,1
厂H 商M 1L
H
8,8 9,3 5,3
厂商2 M
3,9 6,6 5,3
L
3,5 1,3 4,4
重复三价博弈的等价博弈:不可信报复
15
触发策略可信性较强的博弈
H
博 弈
M
相关文档
最新文档