有限重复博弈
第六讲 重复博弈
at a1 a2 aT
t 1 T 1 t 1
T
• 无限次重复博弈的总得益的现值就是
t 1
t 1
at a1 a2
T 1
aT
• 平均得益:如果一个常数A作为重复博弈的各个阶段 的得益,能产生与得益序列a1,a2, …,aT相同的现在 值,就称A为a1,a2, …,aT的平均得益。 • 如果不考虑贴现因素,可让贴现率为1,就可以同样 适用上述定义。 • 在无限次重复博弈中,当每一阶段的得益都是A时, A 现在值就是
• 重复博弈的各阶段有时间次序,各阶段的得益也有时 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 • 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1
1 r
• 则重复T次,各阶段的得益分别为a1,a2, …,aT时的总 得益的现值就是
• 2.基本概念 • (1)设G是一个基本博弈(动静都可以,但一 般研究静态),重复进行T次,并且每次重复之 前各博弈方都能看到此前的博弈结果,这样的博 弈过程称为“G的T次重复博弈”,记为G(T), G称为G(T)的原博弈,每一次重复称为G(T) 的一个阶段。 • 重复博弈的每一个阶段都是独立的博弈,各方都 有得益。这是与一般动态博弈的重要不同。另一 方面,重复博弈中各阶段的博弈方和博弈内容都 必须相同,与一般的动态博弈也不同。
1 p (1 p) A a1 a2 a3 2 1 r (1 r )
2 (1 p) 1 p t 1 at at , 其中 t 1 (1 r ) 1 r t 1 t 1 t 1
第四章 重复博弈
通用面粉
策略 无广告 12,12 20,1 中等强度 1,20 6,6 高强度 -1,15 0,9 无广告 中等强度
凯洛格
高强度
15,-1
9,0
2,2
纳什均衡
无限重复博弈
如果企业每年都进行这种一次博弈,并且永远进行下去,这时参与人可以对对 手的“欺骗”行为进行惩罚或报复。在这种情况下,共谋起作用吗?
4.2.2 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2 有限次重复的囚徒困境博弈
凯洛格
中等强度 高强度
Kellogg从欺骗行为中获得的好处:
欺骗 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i – 假设i = .05 欺骗 - 合作 = 8 - 10/.05 = 8 - 200 = -192 欺骗没有好处. – 在无限次重复博弈中共谋是纳什均衡!
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高
无广告 中等强度 高强度
欺骗行为的收益和成本
如果 当前收益 > 未来成本的现值
–
欺骗行为是有利的 欺骗行为没有好处
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高强度 -1,15 0,9 2,2 无广告 中等强度 高强度
一次广告博弈
重复博弈的详细介绍
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
重复博弈囚徒困境【精选】
如果采取合作,设V为j在无限博弈中的最优反
映的收益现值,则有:
a、V 4 4 ... 4 (4 4 ...) 4 V (2)
故:V 4
1
商人1
诚信
欺骗
b、
4 5 1 1
1 4
商 诚信
人 2
欺骗
4,4
0,5
5,0
1,1
图6 信用困境(1)
5、影响重复博弈均衡结果的主要因素是博 弈的重复次数。重复次数的重要性来源 于参与人在短期利益和长远利益之间的 权衡。
2.5—1 有限次重复博弈:连锁店悖论
例1:见下图市场进入博弈,假定同样的市场有20 个,其均衡会与单个市场不同吗? 均衡1:进入者总是选择进入,在位者选择默许; 均衡2:在位者选择斗争,进入者总是选择不进入。
进 进入
入 者
不进入
在位者
默许
斗争
40,50
-10,0
0,300
0,300
图1 市场进入博弈
定理1、如果阶段博弈G有惟一的纳什均衡,则对 任意有限的T,重复博弈G(T)有惟一的子博弈完 美纳什均衡,即G的纳什均衡结果在每一个阶段 重复进行。
注意:此定律的一个重要条件是:单阶段博弈存 在“唯一”的纳什均衡。
1,6
此题解释了现实中
人 2
欺骗
பைடு நூலகம்
6,1
2,2
存在的一类现象——
图3 信用困境(2)
普遍的欺诈行为;没有解释另一类现象——广泛 的合作。
为了在理论上容纳合作解,博弈论主要从三 个方面来加以发展:
一是引入多重均衡;
二是引入无限重复博弈;
三是引入信息不完全。
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
有限次重复博弈名词解释(一)
有限次重复博弈名词解释(一)有限次重复博弈在博弈论中,有限次重复博弈(Finite Repeated Games)指的是一种博弈过程,参与者在有限的回合内重复进行相同或相关的博弈行为。
这种博弈过程允许参与者根据对对手策略的观察进行调整,并在每一回合中做出决策。
1. Tit-for-Tat(以牙还牙)Tit-for-Tat是一种著名的策略,其中参与者在每一回合采取与对手上一回合行为相同的决策。
这种策略的核心思想是以相同的方式对待对手,如果对手合作,自己也合作;如果对手背叛,自己也背叛。
Tit-for-Tat策略在一些情况下可以有效地维持合作,促进稳定的协作关系。
2. Grim Trigger(严厉触发)Grim Trigger是另一种重要的策略,其基本原理是一旦对手背叛,参与者将永远背叛,不再参与合作。
这种策略要求参与者严格执行,因为只要一次背叛就会触发永久背叛状态,无论对手后续如何合作。
3. Folk Theorem(民间定理)民间定理是博弈论中关于有限次重复博弈的一个重要定理。
该定理指出,在重复博弈中,多种平衡策略组合可用于维持协作。
这意味着,参与者可以通过选择一种合适的策略组合来达到共同利益,并在一段时间内维持合作关系。
4. 巨人的耐心(Fictitious Play)巨人的耐心是一种基于对历史决策的观察和预测的策略。
在每一回合,参与者会根据对对手过去行为的观察进行预测,并假设对手会继续坚持相同的策略。
这种策略允许参与者根据对手的行为进行调整,并选择最优的决策。
5. 有限回合合作博弈(Finite Round Cooperation Game)有限回合合作博弈是一种特殊类型的有限次重复博弈。
在该博弈中,参与者在预定的有限回合内采取决策,其目标是在这些有限回合内最大化利益。
这种博弈通常涉及团队合作,参与者需要权衡个体利益与整体目标之间的平衡。
6. 随机策略(Mixed Strategy)随机策略是指参与者在决策中随机选择不同的行动概率分布。
第四章 重复博弈
三、有限次重复寡头削价竞争博弈
寡头2 高 价 寡 高价 头 1 低价 100,100 150,20 低 价 20,150 70,70
有唯一纯策略纳什均衡 (70,70) 有限次重复的结果仍然是 (低价,低价)
削价竞争博弈
四、重复囚徒困境悖论和连锁店悖论
有惟一纯策略Nash均衡的有限次重复博弈的分 析和定理是强烈的,但这与人们的直觉经验有矛 盾,大量的实验研究表明,其结果与理论结果也 不一样。 1978年,塞尔顿提出的“连锁店悖论” 在n个市场(例如n个城市)都开设有连锁店的企业, 对各个市场的竞争者是否应该打击的策略选择?
t =1 ∞
注意上式的来历
4.2 有限次重复博弈
4.2.1 两人零和博弈的有限次重复博 弈 4.2.2唯一纯策略纳什均衡博弈 的有限次重复博弈 4.2.3多个纯策略纳什均衡博弈 的有限次重复博弈 4.2.4 有限次重复博弈的民间定理
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈中,所 有博弈方的唯一选择策略是重复一次性博弈中 的纳什均衡策略 (混合策略纳什均衡)。
引言
有限次重复博弈和无限次重复博弈的区别: 一是:有限次重复博弈存在最后一次重复,而 无限次重复博弈无最后一次重复。注意到正是由 于有最后一次重复使得有限次重复博已无法实现 高效率。 二是:无限次重复博弈不能忽略资金的时间价 值。但相同之处:都是试图“合作”和惩罚“不 合 作”——关键
4.3.1 两人零和博弈的无限次重复博弈
原因:重复不会改变博弈效率是利益是 对立的不可调和的。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
唯一的Nash均衡有两种: 一是:本身是帕雷托最优的。它都符合双方的利益, 重复不会改变 二是:本身不是帕雷托最优的。重复能否改变得益? 一、有限次重复囚徒的困境博弈
重复博弈的详细介绍
收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现 率 ,无限的收1益,序2,列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益 相等时的总收益
2 t1t t 1
重复博 弈总收益
所以 故
也称触发战略;
以囚徒困境为例:开始 选择抵赖,而且一直选 择抵赖直到有一方选择 了坦白,然后永远选择 坦白;
这意味着:一旦哪个参 与人选择了坦白,就触 发了惩罚的扳机。
根据上述原则,可构造如下战略:
01 S1:第一阶段选择M1;如果第一阶段结果为(M1, M2),则下一阶段选R1;否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂 的战略。但使爱克斯罗德和其他人深为吃惊的是,竞赛 的桂冠属于其中最简单的战略:一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上 来的战略。
2
一报还一报战略:它总是以合作开局,但从此以后就采 取以其人之道还治其人之身的战略。也就是说,一报还 一报的战略实行了胡萝卜加大棒的原则。
i
集合。 若存在
G(, )
(x , x , , x ) 则 存 在 贴 现 率 , 使 无 限 重 复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡,其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中,如果参与人具有足够的耐心(只要满足一定的 条件),那么任何满足个人理性的可行收益向量都可以通过一个特定的
@第4章 重复博弈
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
第四章(重复博弈)
在G(T)中的总得益为在G中得益的T倍,平均得益等于
原博弈G中的得益。
(三)有限次重复削价竞争博弈
根据右图得益矩阵不难看 寡头2 出,一次性博弈的结果必然是 高价 低价 双方都采用“低价”策略,各 100,100 20,150 寡 高价 得到70个单位的利益。假设两 头 150, 20 70, 70 1 低价 寡头都意识到相互竞争的市场 格局大约可以持续 5年,也就 图4-3 削价竞争博弈 是面临一个 5次重复博弈,它 们是不是还会采用低价不断打 价格战呢? 根据前面得到的一般结论,以它为原博弈的有限次重复博弈的惟一的 子博弈完美纳什均衡,就是两博弈方重复 5次原博弈的纳什均衡策略,也 就是削价,两寡头还是会不断打价格战。
2、无限次重复 某个重复博弈没有可以预见的结束时间,各博弈
方主观上认为博弈会不断进行下去,那么就可以看作
是无限次重复博弈。 3、随机结束博弈 重复博弈的次数虽然是有限的,但重复的次数或 博弈结束的时间却是不确定的。这种重复博弈可以称
为“随机结束的重复博弈”。
二、重复博弈的策略、子博弈和均衡路径
2 t 1
无限次重复博弈也写成 G(, ) 。
四、随机停止和贴现率
可理解为通过抽签来决定是否停止重复,设抽 到停止的概率是 p ,重复下去的概率为 1 p 。 设某博弈方的阶段得益为
1 p
t
,利率为
,因
为在第一次博弈以后能继续下一次重复的可能性是
ห้องสมุดไป่ตู้
,第二阶段的期望得益为
3 (1 p) 2 (1 ) 2
而成的。
如果原博弈有m种策略组合,那么重复两次就有 m 2
条博弈路径,重复T次就有 mT 条博弈路径;当T或 m较大时,重复博弈的路径数是很大的。
博弈论第五章 重复搏弈(Repeated Games)
4 5
1
1
1,局中人会H采 ,用 否则会采 L。用
4
精选ppt
无限次重复古诺模型:垄断合作
假定:P 8 Q ,其 Q 中 q q , 边际成本都为2。
1
2
在无限次重复古诺模型中,当贴现率 满足一定条件
时,两厂商采用下列触发策略构成一个子博弈完美纳什均
衡:
在第一阶段生产垄断产量的一半1.5;在第 t 阶段,如 果前 t-1 阶段结果都是(1.5,1.5),则继续生产1.5,否则生产 古诺产量2。
远选择不合作。
精选ppt
无限次重复博弈
无限次重复博弈与有限重复博弈的区别:
➢ 无限次重复博弈没有结束重复的确定时间。在
有限次重复博弈中,存在最后一次重复正是破坏重 复博弈中局中人利益和行为的相互制约关系,使重 复博弈无法实现更高效率均衡的关键问题。
➢ 无限次重复博弈不能忽视不同时间得益的价值 差异和贴现问题,必须考虑后一期得益的贴现系数,
t1
t ((1 1 rp))tt 1 1t 1
t(1 1 rp)t1t 1
t1 t
精选ppt
有限重复博弈
❖ 定义:令G={A1, A2,…,An; u1, u2,…,un)表 示n个局中人的完全信息博弈,对G重复 若干次,称G为阶段博弈。
给定阶段博弈G,令G(T)表示G 实施T (T为大于1的整数)次的重复博弈。在 某次阶段博弈开始之前,所有已采取过 的前面阶段的行动都可以观察到。局中 人在G(T)的盈利函数或效用简单的为来 自T个阶段博弈盈利现时值之和。
精选ppt
举例
有限次重复博弈:寡头市场的削价竞争 连锁店悖论:
精选ppt
寡头市场的削价竞争
博弈论4 重复博弈
重复三价博弈的等价模型 不可信报复
第一阶段不管选什么策略,二阶段都选 (M,M),于是将(3,3)加到其余策略上,得到 右边等价的得益矩阵。结果第一阶段最 佳策略不是(H,H),而是(M,M)
囚徒2 坦 白 不坦白 囚 坦白 -5,-5 徒 1 不坦白 -8,0 0,-8
-1,-1
(-5,-5)
囚徒2 坦 白 不坦白 囚 坦白 -10,-10 -5,-13 徒 -13,-5 -6,-6 1 不坦白 (-10,-10)
二、一般结论 定理:设原博弈G有唯一的纯策略纳什 均衡,则对任意整数T,重复博弈 G(T)有 唯 一的子博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均衡策略。
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈中,所 有博弈方的唯一选择策略是重复一次性博弈中 的纳什均衡策略 (混合策略纳什均衡)。
原因:重复不会改变博弈效率是利益是 对立的不可调和的。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
唯一的Nash均衡有两种: 一是:本身是帕雷托最优的。它都符合双方的利益, 重复不会改变 二是:本身不是帕雷托最优的。重复能否改变得益? 一、有限次重复囚徒的困境博弈
两人零和博弈有限次重复的所有阶段都不可能发生合 作,因为他们的利益关系是完全对立的。博弈方会一 直重复原博弈的混合策略纳什均衡。 两人零和博弈无限次重复的所有阶段都不可能发生合 作,博弈方会一直重复原博弈的混合策略纳什均衡 由于无限次重复博弈没有最后一个阶段,所以无法用 逆向归纳法证明。 类似的方法是从无限次重复博弈的第t阶段,进行逆向 归纳。注意t是任意的。
第四章 重复博弈
值是有差别的,忽略这一点就不可能得出符合实际
的分析结论。
解决这个问题的方法是引进将后一阶段得益折 算成当前阶段得益(现在值)的贴现系数 。有了 贴现系数 ,如果一个T次重复博弈的某博弈方某一 均衡下各阶段得益分别为 1 , 2 ,, T ,则考虑时间价 值的重复博弈总得益现在值为:
此就把已知概率的随机停止重复博弈与无限次重复博
1 弈统一起来了。 令: p 1
4.2 有限次重复博弈
重复次数较少的有限次重复博弈可以不考虑不同阶段得 益的贴现问题。 一、两人零和博弈的有限次重复博弈 重复零和博弈不会创造出新的利益。如重复进行猜硬币 博弈,不管两个博弈方如何选择,每次重复的结果都是一方 赢一方输,得益相加为0。因此在零和博弈或者它们的重复博 弈中,双方合作的可能性根本不存在。 二、惟一纯策略纳什均衡博弈的有限次重复博弈 如果原博弈惟一的纳什均衡没有达到帕累托效率,在有 限次重复博弈中能不能实现合作和提高效率呢?
段的期望得益为
3 (1 p ) 2 (1 ) 2
2 (1 p) 1
,进一步第三阶
,„„,所以该博弈方在
该重复博弈中期望得益的现在值为:
2 (1 p) 3 (1 p) 2 (1 p) t 1 t 1 1 t t 2 t 1 1 (1 ) 其中最后一个等式是通过令1 (1 )得到的。 由 t t 1
1 2 2 3 T 1 T t 1 t
t 1 T
在无限次重复博弈路径下,某博弈方各阶段得 益为 1 , 2 ,, ,则该博弈方总得益的现在值就是:
1 2 3 t 1 t
重复博弈
1 P 1 e w e e 时,努力工作是工人 0 (1 P) (1 P) 的最佳选择,也就是说,要使工人努力工作,y w*不仅要包括工人个体收入 w0
* 当 Ve Vs ,即 w w0
1 e。 和努力工作的负效用e,还要有一点升水 (1 P)
6 随即停止的重复博弈的期望得益现值:
E[ 1 ]
E[ 2 ]
E[ t ]
上述结果说明无限次重复博弈和随机停止博弈具有统一的表示形式。
7 重复博弈的几个重要理论成果
无纯策略 混合策论 有唯一纯策略
有纯策略 有多个纯策略 T h:存在合作的可能 (Folk Theorem, Friedman,1971) 三价博弈 两市场博弈
1 * e ,则只要各阶段得益 y w 0 ,厂商选择前述触 (1 P) * 发策略就是对工人触发策略的最佳反应。故在满足 y w 0 和工资率 w* w0 e 1 * e 时,双方触发策略构成一个纳什均衡。而 y w 0 (1 P) 1 * e 意味着工人努力工作产出减去努力工作的负效用 和 w w0 e (1 P) w* w0 e
e越大,工资补偿越多;
越小,说明未来利益越不重要,工人更看重当前利益,当前工资也必须高;
P越高,工人丢饭碗的风险越小,除非工资更高,否则工人宁愿偷懒。 计划经济体制下劳动者偷懒总是难以被发觉或无人认真发觉,工资又是固 定在平均水平,无任何刺激,故工人必然倾向于偷懒。
* 而若工人已采用触发策略,则对工人的选择,厂商给的工资率 w 若满足
第8章重复博弈
上述博弈存在唯一的Nash均衡。
将上述博弈重复两次,其中第二次博 弈开始时,第一次博弈的结果已知。
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
两次重复博弈的博弈树
1 2 1
Control Science and Engineering, HUST
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
1) 战略: 每个局中人都有
个战略;
3(1+9)=59049
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
All Rights Reserved, 2007, Luo Yunfeng
2
X2
Y2
Z2
P2
Q2
X1 1,1
5,0
0,0
0,0
0,0
Y1 0,5
4,4
0,0
0,0
0,0
1 Z1 0,00,03,30,00,0
P1 0,0
0,0
0,0
4,1/2
0,0
Q1 0,0
0,0
0,0
0,0
1/2,4
Control Science and Engineering, HUST
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
命题 考虑有限重复博弈(G,T),其 中G = {Si, i; i = 1, 2, …, N}。假如 阶段博弈 G 恰好只有一个纳什均衡, 设为(s1*, s2*, …, sN*)。那么重复 博弈有唯一的子博弈完美均衡。在 这个均衡中,不管局中人i或其他任 何局中人,在任何一个以前的阶段 中采取了什么样的行动,局中人i在 T个阶段的每一个中都取si*。
这个博弈叫做无限重复囚徒困境;此术语归因于博弈没 有固定终点这一事实。无限重复囚徒困境的盈利计算 如下。假设在第t阶段,局中人i得到盈利it。在实际中 实施到第t阶段的可能性是 t。从而第t阶段的期望盈利 是 tit。总期望盈利是这些阶段博弈期望盈利之和; 即,等于 i 0 i1 2 i 2 t it
75, l
50h, 50l 75h, 25l 40l, 60l 50 l, 50l
考察缩小了的单价拍卖:
购买者2 75, h 50h , 50h 购 75, h 买 25l , 75l 者 75, l 75, l 75l , 25l 50l , 50l
购买者2 75, h 75, h 50h , 50h 25l , 75h 购 75, l
情况II:共谋串通情况
•在多重价格拍卖中,l是优策略(从而,购买者由于 报低价而“亏待”财政部)。 •在单价拍卖中,阶段博弈存在唯一的混合策略纳什 均衡. •唯一的阶段博弈均衡策略也是唯一的子博弈完美均 衡策略。因此,在多重价格拍卖中,( l, l )被重复 地实施,而在单价拍卖中,l和h的对等混合(纳什均 衡)重复地实施。因为在后者均衡中,财政部发现 至少在某些时候为高价格,显然财政部觉得这样更 可取。 •总的来说,单价拍卖总是受到财政部的青睐。在竞 争场合,它一直确保高价格,而在共谋串通情况, 有些时候保证高价格。
有限重复博弈
• T次重复囚徒困境的唯一子博弈完美均衡是,在每 一突发事件中局中人认罪。 • 假如修改版囚徒困境进行T次。考虑如下策略对: 从(n, n)开始,除了最后一次以外,在所有阶段 继续取(n, n) [在最后阶段,采取(p,p)]。沿着 所提供的这个程序,没有一个局中人会偏离它(并 在首T个阶段中的任何一个阶段中采取非n的其他策 略)。倘若发生了偏离,从随后的阶段起并一直下 去都采取(c, c)。所述的策略是子博弈完美均衡。
如果每个购买者都想以高价购买,那么在这个价格上 的总需求至少是100并且所有国库券都以这个价格出 售。同样,如果两个购买者都希望以低价购入,那么 市场价格就低。但是,如果购买者之一想以h购买而 另一个想以l购买,那么价格结局依赖于拍卖形式。 在单价拍卖中,市场价格将为低,而在多重价格拍卖 中,一个购买者将支付h而另一个支付l。在任何一种 情况,高投标者得到他要求的所有数量,剩下的数量 则分配给低投标者。最终,如果价格投标相同,那么 数量以需求比例进行分配。例如,如果一个购买者想 要75单元而另一个想得到50单元,那么前者得到现成 的100单元中的60单元。
有限重复博弈
的在 组每 件一 博个 弈重 复 博 有弈 时中 候, 称有 作一 阶个 段实 博施 弈许 。多 遍
——
博弈中的盈利是每个阶段的盈利之和
修改版囚徒困境
• 我们对标准的囚徒困境添入一个策略;除了 c 与 n 之外,每个局中人有第三个策略,设为 p ,表示 “部分认罪”。考虑如下阶段博弈:
案例分析:短期无息国库券拍卖
• 对某些有价证券,存在单价拍卖。 其间所有购买者支付同样价钱。对 某些其它的有价证券,存在多重价 格拍卖,其间不同的购买者支付不 同的价格。现在我们要研究的问题 如下:如果财政部希望极大化它的 筹资数量,它应该采用两种拍卖形 式中的哪一种?
简化假设。
第一,我们将假设在这次拍卖中有两家金融机构,或 者局中人。 第二,财政部在一次又一次的拍卖中所出售的量保持 不变;令这个量等于100。 第三,我们将假设每个购买者可以报两种价格和两个 购买量;称为高(h)及低(l)和数量50及75。 第四,购买者只关心利润;每种有价证券的利润,如 果价格为h,则表示为h,同样地如果价格是l 则利 润表示为l。假定两种利润水平都是正的(当然, l >h)。
单价拍卖的策略型如下:
购买者1 50, h 75, h 50, l 75, l 购买者2 50, h 50h , 50h 40h, 60h 50l, 50l 50l, 50l 75, h 60h , 40h 50h, 50h 75l, 25l 75l, 25l 50, l 50l, 50l 25l, 75l 50l, 50l 40l, 60l 75, l 50l, 50l 25l, 75l 60l, 40l 50l, 50l
定义 重复博弈由阶段博弈G和它的重复次数(设为T) 确定。阶段博弈G是策略型博弈: G S i , i ; i 1, N 其中Si是局中人i的策略集,i是他的盈利函数[它依赖 于(s1, s2, …, sN)]。
经济应用
1. 2. 3. 4. 短期国库券拍卖。 专利药品市场的竞争。 NASDAQ市场制作。 国际石油市场——或OPEC。
多重价格拍卖的策略型
购买者2 50, h 购买者1 50, h 50h, 50h 75, h 60h, 40h 50, l 50l, 50h 75, l 50l, 50h 75, h
40h, 60h 50h, 50h 25l, 75h 25l, 75h
50, l
50h, 50l 75h, 25l 50l, 50l 60l, 40l
买 者 1
1
ቤተ መጻሕፍቲ ባይዱ
缩小了的多重价格拍卖:
75, l 75h , 25l 50l , 50l
情况I:竞争的情况
假设,即使以低价格购买一半数量是无利可图的;即,假 如50h > 25l。那么在缩小了的单价拍卖中h是优策略。 因此阶段博弈中唯一的纳什均衡是(h, h)。财政部特 别喜欢,因为在每一个阶段中的(h, h)也就成为唯一 的子博弈完美。(为什么?)如财政部所作的那样,重 复拍卖,使得在市场上竞争的剧烈程度不起作用并且不 允许参与者为保持低价格而作确实有效的交易。 现在考虑缩小的多重价格拍卖。如果对于低价格的最优反 应也是出低价,即,如果50l> 75h,那么这次就可能 有第二个纳什均衡了。在那种场合,(l, l)也是纳什均 衡;即,购买者企图无保留地进行串通,使价格保持低 位。因而一个子博弈完美均衡是双方购买者一直都出价l。
1
2 c n p
c 0, 0 -2, 7 -1, 3
n 7, -2 5, 5 6, 0
p 3, -1 0, 6 3, 3
无限重复囚徒困境
假设在每一个阶段两个局中人参与 囚徒困境。但是,没有固定的重复 次数。他们每一次参与阶段博弈, 存在概率 使相同的局中人再次参 与阶段博弈。反过来,存在着概率 1 使当前的相互作用成为最后 一次相互作用。