重复博弈简介
第六讲 重复博弈
at a1 a2 aT
t 1 T 1 t 1
T
• 无限次重复博弈的总得益的现值就是
t 1
t 1
at a1 a2
T 1
aT
• 平均得益:如果一个常数A作为重复博弈的各个阶段 的得益,能产生与得益序列a1,a2, …,aT相同的现在 值,就称A为a1,a2, …,aT的平均得益。 • 如果不考虑贴现因素,可让贴现率为1,就可以同样 适用上述定义。 • 在无限次重复博弈中,当每一阶段的得益都是A时, A 现在值就是
• 重复博弈的各阶段有时间次序,各阶段的得益也有时 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 • 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1
1 r
• 则重复T次,各阶段的得益分别为a1,a2, …,aT时的总 得益的现值就是
• 2.基本概念 • (1)设G是一个基本博弈(动静都可以,但一 般研究静态),重复进行T次,并且每次重复之 前各博弈方都能看到此前的博弈结果,这样的博 弈过程称为“G的T次重复博弈”,记为G(T), G称为G(T)的原博弈,每一次重复称为G(T) 的一个阶段。 • 重复博弈的每一个阶段都是独立的博弈,各方都 有得益。这是与一般动态博弈的重要不同。另一 方面,重复博弈中各阶段的博弈方和博弈内容都 必须相同,与一般的动态博弈也不同。
1 p (1 p) A a1 a2 a3 2 1 r (1 r )
2 (1 p) 1 p t 1 at at , 其中 t 1 (1 r ) 1 r t 1 t 1 t 1
经济博弈论之重复博弈
9
三、重复博弈的得益
重复博弈的得益,必须兼顾其他阶段的得益,或者考虑整个重复博弈过程得益 的总体情况。
1.计算重复博弈的“总得益”,即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”,即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数,不同时间获得的利益对人们的价值是 有差别的,考虑到这个因素,引进将后一段的得益折算成当前阶段得益(现在值) 的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业,对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈,竞争者选择进入,先占领市场的连锁店不打击, A 打进 B 不进 (1,10) 是原博弈的唯一的子博弈完美纳什均衡,是两个理性的博弈方之间 博弈的唯一结果。 根据上诉的定理和一般结论,以这个博弈为原博弈的有限次重复博弈, 唯一的子博弈完美纳什均衡就是原博弈的纳什均衡,也就是每个竞争者 可以进入,连锁店不打击。 (-2,3) (5,5) 现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡(M,M),(L,L);符合博弈方总利益最大(H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈 厂商2 A 3,3 4,1 B 1,4 0,0 三次重复博弈的均衡路径是(A,A),(A,B),(B,A), 得益是(3+1+4)/3=2.67.
重复博弈的详细介绍
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
以德报德,以直报怨——重复博弈战略
重复博弈战略是博弈论中的一个重要概念,它指的是在一个博弈过程中,双方参与者不仅仅有一次的决策,而是需要多次反复进行决策。
在这种情况下,双方的策略选择不仅受到对方当前行为的影响,还受到对方未来可能的回应的影响。
在这种情况下,参与者的决策可能会考虑自己的长期利益,而不仅仅是眼前的利益。
而以德报德、以直报怨则是在重复博弈中的一种普遍策略。
以德报德这一策略强调的是合作、信任和责任。
在重复的博弈中,如果双方能够建立起互相信任的关系,相互协作,相互帮助,就能够达成双赢的局面。
在这种情况下,双方都有动力去遵守之前达成的协议,因为他们知道良好的合作关系对双方都是有利的。
这种策略在实际生活中也得到了广泛的应用,比如商业合作中的长期合作伙伴关系、国际关系中的互惠互利原则等等。
以直报怨这一策略则是强调对于对方行为的实时回应。
在重复博弈中,如果一方采取了不公平或者对自己不利的行为,另一方可以通过采取类似的回应来进行反制。
这种策略可以有效地制衡对方的不良行为,保护自己的利益。
另外,以直报怨也可以通过对方的正当行为进行回报来增进双方的合作和信任。
这种策略在博弈论中被广泛研究,并得到了丰富的实例证明。
在现实生活中,以德报德、以直报怨这两种策略都具有重要的指导意义。
比如在企业管理中,建立合作、信任和责任的企业文化能够提高员工之间的协作效率,激励员工为企业的长期利益而努力工作。
在国际关系中,秉持互惠互利原则,遵守国际法规和公平贸易原则,能够更好地维护世界和平与稳定。
以德报德、以直报怨是在重复博弈中能够取得最优结果的普遍策略。
在实际生活中,我们也可以借鉴这些策略,促进合作、信任和责任,维护自身利益的同时也考虑对他人的尊重和回报。
只有在这样的基础上,我们才能够真正实现和谐共赢,推动社会和国际关系朝着更加美好的方向发展。
在现实生活中,我们可以看到许多成功的案例,这些案例都充分体现了以德报德和以直报怨这两种重复博弈策略的重要性。
有些企业在面对市场竞争时,选择与供应商建立长期稳定的合作关系,这样不仅能够获得更好的供应和服务,还能够建立供应商信任,形成良好的合作生态。
重复博弈囚徒困境【精选】
如果采取合作,设V为j在无限博弈中的最优反
映的收益现值,则有:
a、V 4 4 ... 4 (4 4 ...) 4 V (2)
故:V 4
1
商人1
诚信
欺骗
b、
4 5 1 1
1 4
商 诚信
人 2
欺骗
4,4
0,5
5,0
1,1
图6 信用困境(1)
5、影响重复博弈均衡结果的主要因素是博 弈的重复次数。重复次数的重要性来源 于参与人在短期利益和长远利益之间的 权衡。
2.5—1 有限次重复博弈:连锁店悖论
例1:见下图市场进入博弈,假定同样的市场有20 个,其均衡会与单个市场不同吗? 均衡1:进入者总是选择进入,在位者选择默许; 均衡2:在位者选择斗争,进入者总是选择不进入。
进 进入
入 者
不进入
在位者
默许
斗争
40,50
-10,0
0,300
0,300
图1 市场进入博弈
定理1、如果阶段博弈G有惟一的纳什均衡,则对 任意有限的T,重复博弈G(T)有惟一的子博弈完 美纳什均衡,即G的纳什均衡结果在每一个阶段 重复进行。
注意:此定律的一个重要条件是:单阶段博弈存 在“唯一”的纳什均衡。
1,6
此题解释了现实中
人 2
欺骗
பைடு நூலகம்
6,1
2,2
存在的一类现象——
图3 信用困境(2)
普遍的欺诈行为;没有解释另一类现象——广泛 的合作。
为了在理论上容纳合作解,博弈论主要从三 个方面来加以发展:
一是引入多重均衡;
二是引入无限重复博弈;
三是引入信息不完全。
第8章 重复博弈
上述博弈存在唯一的Nash均衡。 将上述博弈重复两次,其中第二次博 弈开始时,第一次博弈的结果已知。
问题:在一次博弈中,上述博弈的结果为 (U,L)。如果重复两次,有没有可能, 出现其它结果?
Department of Mathematics
Northwest University
两次重复博弈的博弈树
1 2 1
Department of Mathematics
Northwest University
上述重复博弈只存在唯一的Nash均衡: 在每次博弈中,参与人1都选择U,参与 人2都选择L,即 ( (U, U, U, U, U), (L, L, L, L, L) )
证明:该均衡为子博弈精炼Nash均衡。
2 Z2
0,0 0,0 3,3 0,0 0,0
P2
0,0 0,0 0,0 4,1/2 0,0
Q2
0,0 0,0 0,0 0,0 1/2,4
Y1
1 Z1
P 1 Q1
Department of Mathematics
Northwest University
触发战略:
如果第一阶段出现(Y1,Y2),则第二阶 段(Z1,Z2 ); 如果第一阶段出现(Y1,w),其中(wY2), 则第二阶段为(P1,P2);
第二部分: 完全信息动态博弈
第八章 重复博弈
主要内容: 一、有限重复博弈 二、无限重复博弈 三、讨价还价博弈
第八章 重复博弈
主要内容: 一、有限重复博弈 二、无限重复博弈 三、讨价还价博弈
Department of Mathematics
Northwest University
一、有限重复博弈
触发战略:
重复博弈的名词解释
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
第四章 重复博弈
三、有限次重复寡头削价竞争博弈
寡头2 高 价 寡 高价 头 1 低价 100,100 150,20 低 价 20,150 70,70
有唯一纯策略纳什均衡 (70,70) 有限次重复的结果仍然是 (低价,低价)
削价竞争博弈
四、重复囚徒困境悖论和连锁店悖论
有惟一纯策略Nash均衡的有限次重复博弈的分 析和定理是强烈的,但这与人们的直觉经验有矛 盾,大量的实验研究表明,其结果与理论结果也 不一样。 1978年,塞尔顿提出的“连锁店悖论” 在n个市场(例如n个城市)都开设有连锁店的企业, 对各个市场的竞争者是否应该打击的策略选择?
t =1 ∞
注意上式的来历
4.2 有限次重复博弈
4.2.1 两人零和博弈的有限次重复博 弈 4.2.2唯一纯策略纳什均衡博弈 的有限次重复博弈 4.2.3多个纯策略纳什均衡博弈 的有限次重复博弈 4.2.4 有限次重复博弈的民间定理
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈中,所 有博弈方的唯一选择策略是重复一次性博弈中 的纳什均衡策略 (混合策略纳什均衡)。
引言
有限次重复博弈和无限次重复博弈的区别: 一是:有限次重复博弈存在最后一次重复,而 无限次重复博弈无最后一次重复。注意到正是由 于有最后一次重复使得有限次重复博已无法实现 高效率。 二是:无限次重复博弈不能忽略资金的时间价 值。但相同之处:都是试图“合作”和惩罚“不 合 作”——关键
4.3.1 两人零和博弈的无限次重复博弈
原因:重复不会改变博弈效率是利益是 对立的不可调和的。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
唯一的Nash均衡有两种: 一是:本身是帕雷托最优的。它都符合双方的利益, 重复不会改变 二是:本身不是帕雷托最优的。重复能否改变得益? 一、有限次重复囚徒的困境博弈
第四讲重复博弈详解
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
重复性博弈
以上这些对人类行为的观 察能够帮助我们更好地认 识人类的行为方式。
© 2011-13 王秋石
6/100
重复性博弈
以牙还牙策略能否成功实施取决于博弈的次数。 我们将重复性博弈按次数分类为有限次重复性博 弈和无限次重复性博弈。
有限次重复性博弈就是未来博弈的次数已经确定 的博弈,也被称为固定次数的重复性博弈。
同理,第八轮、第七轮……都会出现只玩一次博 弈的纳什均衡。
只要这一博弈重复的次数已知,每一轮的结果都 是原纳什均衡的结果。
© 2011-13 王秋石
8/100
无限次重复性博弈
以牙还牙策略只有在无限 次重复性博弈中才能有效 。
欧佩克(OPEC)是一个合 作比较成功的卡特尔组织 ,其原因之一就是无限次 重复性博弈所隐含的各种 惩罚机制。
而我们很可能为朋友买车票,我们与朋友的交往 是重复性博弈。如果他是个吝啬鬼,你可以选择 不与他同车等。
在重复性博弈中,每个人都比较关心自己的声誉 ,正是这种声誉机制使得人们大量采取合作性策 略。
© 2011-13 王秋石
4/100
重复性博弈:军事合作
牙还牙策略在军事上也有所表现。 《有核国家首先不使用核武器的协议》到目前为
再看看选手B,他有些可 怜,他本可享受9,最后 只好收益为1。他要看人 家的脸色行事。
© 2011-13 王秋石
15/100
“先动优势”
当然,他可以向A发出威胁:如果A选下,他报复 性地选左,两人都同归于尽,各自收益为零。
如果A相信B会实施威胁,A只好选择上,这样,A 的收益至少为1,而不是零。
无限次重复性博弈就是可以无限次数地、重复性 地玩的一种博弈。
重复博弈
1 P 1 e w e e 时,努力工作是工人 0 (1 P) (1 P) 的最佳选择,也就是说,要使工人努力工作,y w*不仅要包括工人个体收入 w0
* 当 Ve Vs ,即 w w0
1 e。 和努力工作的负效用e,还要有一点升水 (1 P)
6 随即停止的重复博弈的期望得益现值:
E[ 1 ]
E[ 2 ]
E[ t ]
上述结果说明无限次重复博弈和随机停止博弈具有统一的表示形式。
7 重复博弈的几个重要理论成果
无纯策略 混合策论 有唯一纯策略
有纯策略 有多个纯策略 T h:存在合作的可能 (Folk Theorem, Friedman,1971) 三价博弈 两市场博弈
1 * e ,则只要各阶段得益 y w 0 ,厂商选择前述触 (1 P) * 发策略就是对工人触发策略的最佳反应。故在满足 y w 0 和工资率 w* w0 e 1 * e 时,双方触发策略构成一个纳什均衡。而 y w 0 (1 P) 1 * e 意味着工人努力工作产出减去努力工作的负效用 和 w w0 e (1 P) w* w0 e
e越大,工资补偿越多;
越小,说明未来利益越不重要,工人更看重当前利益,当前工资也必须高;
P越高,工人丢饭碗的风险越小,除非工资更高,否则工人宁愿偷懒。 计划经济体制下劳动者偷懒总是难以被发觉或无人认真发觉,工资又是固 定在平均水平,无任何刺激,故工人必然倾向于偷懒。
* 而若工人已采用触发策略,则对工人的选择,厂商给的工资率 w 若满足
重复博弈和默契合谋
了不合作,那么它便会一直选择不合作
2.4:无限期反复博弈(完全信息)和默契合谋
2、什么条件之下,冷酷战略构成纳什均衡?
给定厂商一坚持冷酷战略,厂商二旳战略分析
厂商一旳行为
厂商二旳行为
厂商二旳收益
坚持冷酷战略
不会先选择不合作 先选择不合作
厂商二一直合作(冷酷战略) 厂商二先选择不合作 厂商二一直合作
厂商二不合作(冷酷战略)
V=1/2π(m)+1/2δπ(m)+1/2δ^2π(m)+1/2δ^3π(m)+…. V'=π(m)+0*δ+0*δ^2+0*δ^3+… 0 0
分析:
(1)因为两个厂商是对称旳,所以对于厂商二而言,上面旳分析成果相同; (2)假如V>=V’(δ>=1/2),那么给定厂商一选择冷酷战略,厂商二旳最优选择 也是冷酷战略,一样旳分析对于厂商一也成立,所以冷酷战略构成纳什均衡。
1.前提假设 (1)两家厂商之间旳产品完全相同 (2)两家厂商无固定成本,且成本函数相同,边际成
本都为C (3)同步决策,决策变量是价格
2.结论
Bertrand均衡是唯一旳,即两家企业旳价格相同且等
于边际成本C,经济利润为零。
2.3:有限期反复博弈(完全信息)和默契合谋
1.反复博弈旳概念和基本特征
2.3:有限期反复博弈(完全信息)和默契合谋
(2)基本特征: 1、阶段博弈之间没有“物质上”旳联络,前一种阶段
旳博弈不变化后阶段旳博弈; 2、全部旳参加人都观察到过去旳博弈旳历史,懂得对
方过去旳选择; 3、参加人旳总支付是全部现阶段博弈支付旳贴现值之
重复博弈
重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。
重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。
5 重复博弈和无名氏定理
其他的战略
恕道战略 恶棍战略 流氓战略 傻客战略
无限次重复博弈和无名氏定理
当博弈重复无穷次而不是有限次时,存 在着完全不同于一次博弈的子博弈精炼 均衡。
考虑囚徒困境博弈,假定博弈重复无穷 次。
囚徒2的战略 囚徒1的战略 沉默 招认 沉默 招认
-1,-1 0,-9
-9,0 -6,-6
考虑下列所谓的“冷酷战略”: (1) 开始选择沉默;(2)选择沉默直到有一 方选择坦白,然后永远选择坦白。 根据这个战略,一旦一个囚徒在某个阶 段博弈中选择了坦白,之后他将永远选 择坦白。
由此我们证明,如果δ>=1/6,冷酷战略 是无限次重复博弈的一个子博弈精炼纳 什均衡,帕雷托最优(沉默,沉默)是 每一个阶段的均衡结果,囚徒走出了一 次性博弈的困境。
实际上,也存在一些其它的战略使得当 事人之间实现合作。 大众定理:存在无穷多对战略,可以成 为无限次重复博弈的平衡点,并同时实 现双方的合作。
0 + δ ( −6) + δ 2 ( −6) + ⋯ ≤ −1 + δ ( −1) + δ 2 ( −1) + ⋯
或
6δ 1 − ≤− 1−δ 1−δ
δ ≥ 1/ 6
解上述条件得:
δ ≥ 1/ 6
≥ 1 / 6 ,给定j坚持冷酷战略并且j没有
也就是说,如果 δ
首先坦白,i不会选择首先坦白。
现在假定j首先选择了坦白,那么i是否有积极 性坚持冷酷战略惩罚j的不合作行为呢? 假定j坚持冷酷战略,j一旦坦白将永远坦白; 如果i坚持冷酷战略,他随后每阶段的支付是- 6,但如果他选择任何其它战略,他在任何阶 段的支付不会大于-6,因此不论δ为多少,i有 积极性坚持冷酷战略。类似的,假定j坚持冷酷 战略,即使i自己首先选择了坦白,坚持冷酷战 略也是最优的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2016/1/6
3
•有限期重复博弈和无限期重复博弈的区分
•如果参与人明显地察觉到有一个确定的 最后时期,则称为有限期重复博弈更为恰 当; •如果人们进行博弈非常频繁推移非常缓慢,那 么,将该博弈描述为无限期重复博弈更为合理。 •关键准则:最后的时期是否明确地进入了参与 人的策略考虑。如果进入了参与人的考虑范围, 那么,就是有限期重复博弈,否则是无限期重 复博弈。
(1 ) t i ( pit , p jt ) i
t 0
2016/1/6 21
含义:在无限期重复博弈中,如果参与人有足够的耐 心(即 足够大),那么,任何满足个人理性的可行 支付向量都可以通过一个特定的子博弈完美均衡得到。
两个暗示:
•它们表明了如果参与人是短视的,则不能维持团体 想要的结果,参与人有长期目标的情况下可以维持; •它们表明重复博弈的均衡结果集合是巨大的, 所以,均衡概念缺乏预测的能力。
2016/1/6
11
有限期重复博弈的解
•先给定博弈在时期T的历史,每家企业在最 后时期如何选择价格? 因为过去的价格不影响T时期的利润,各企业在其对手价 格给定的情况下,应当使它的“静态利润” i ( piT , p jT ) 最大化。因此,对任何历史情况来说,均衡是伯川德均 衡,即
p1T p2T c
•零售商的最优投资为
I [ab( p w)(1 s) ]
1 1 (1b )
2016/1/6
31
协调机制
•协调机制 (w , s ) 满足
s 1 ( p w )( p c)1
证明:
•制造商利润
M (I , w, s) (w c)(D aI b ) sI
•在每个时期,两家企业同时选择他们的价格( p1t , p2t ) 。
•在各个时期之间没有“物质”联系;当一家企业选 定其价格时,其对手以前选定的价格已经过时了。 •完美均衡要求:对于任何给定的t时期的历史, 从t时期开始,企业i的策略,在企业j从那时开始 的策略给定的情况下p)( 2
) ( p)
2
2(1 )
因此,如果 (1 ) ,即 1 2 ,背离价格p 并非最佳做法。
2016/1/6
18
•平均支付(average payoff):为得到相等的现 值之和在每一阶段都应得到的等额支付值 令贴现因子为 ,那么,无限支付序列 1 , 2 , 的现值之和V 为 V t 1 t
•将表2.4.1表示的博弈重复(固定)有限期, 我们采用逆向归纳法,发现纳什均衡(D, D) 是唯一的子博弈完美均衡。 Step 1 求解第T期,两个参与人必定都在第T期选 择D,即背叛,因为选择背叛将提高他们在第T期的 收益而且也没有未来受到惩罚的可能
2016/1/6
6
Step 2 在第T-1期对任何以正的概率出现的历史, 两参与人都必定背叛.已经证明沿着均衡路径的两 个参与人将在最后一期都选择背叛,所以,特别的, 如果参与人i在时期T-1遵循均衡策略,那么,他的 对手必然在最后一期背叛。因此,参与人i没有激励 不在时期T-1背叛。 •团体规范的重要性:维持共同想要的结果所需的团体 规范涉及到每个参与人“惩罚”背叛者;在团体规范 要求惩罚者去实行威胁的情形中,团体规范也必须确 保惩罚者有动机这样去做。
2016/1/6
14
•重复的伯川德均衡不再是唯一的均衡 •假设价格 p m 使( p c) D( p) 最大化。 •触发策略:每家企业在0时期索取 p m。若是在 t以前各时期两家企业都曾索取 p m,它在t时期 m 继续索取 p ;否则,它将永远把价格定在边际 成本c上 . •如果贴现因子足够高,它们就构成一个均衡。
8
对于有限期重复博弈,有下面的定理
定理2.4.1 令G是阶段博弈,G(T)是G重复T次的重 复博弈(T有限)。那么,如果G有唯一的纳什均衡, 重复博弈G(T)的唯一子博弈完美纳什均衡结果是阶 段博弈G的纳什均衡重复T次,即每个阶段博弈出现 的是一次性博弈的均衡结果。
2016/1/6
9
双头重复价格竞争
2016/1/6
16
•其他均衡
•让p属于区间[c, p ] ,并且让每家企业, 在还没有企业背离那个价格的期间,索取价 格 p。如果其中有一家企业过去曾经背离这 个价格,双方就都永远索取竞争性价格。 在一致遵守价格p的情况下,每家企业得到
1 ( p)(1 2
m
)
2
如果一家企业背离,在背离期间,它最多 得到 ( p ) (因为它的对手可取p)。因此, 它在那一时期最多多赚到 ( p) 2 ,而它 在以后永远失去p时利润的一半,即
•两企业以同样的边际成本c生产可以完全相互 替代的产品 •低价企业得到了整个市场,而各家企业在收 取同样价格的情况下,则分享这个市场。 •基本的伯川德博弈重复了T+1次,T 可能 是有限数,也可能是无限数。 •企业i的贴现利润为
t t 0
2016/1/6
T
i
( pit , p jt )
10
t 1
无名氏定理
2016/1/6
20
•对于目前考察的重复价格博弈来说,无名 氏定理说的是,任何一对满足
1 0, 2 0 以及 1 2 m
的利润 ( 1, 2 ) 都是 的阶段均衡支付。
充分接近于1时
•就是说,存在完美均衡策略 ( p1t , p2t ) 。使 得对所有的企业i来说,企业的阶段支付为
2016/1/6
24
• 有限博弈的唯一子博弈均衡:在最后一个阶段, 不失一般性,设出价者为参与人1,他要得到整 个蛋糕,而另一方接受;在这之前的一个阶段中, 参与人1拒绝所有使他的份额小于 的提议。然 1 后,按照这种方式逆推。
• 有限期模型的缺点
•解依赖于期限的长短与最后是哪一方出价;
•如果最后一阶段没有达成协议,有限期模型不 允许参与人进一步努力以达成一个合理的协议。
T+1期价格博弈的结果仅是伯川德均衡重复T+1次
2016/1/6
13
无限期重复博弈的解
•可以验证伯川德均衡无限期的重复仍 然是这一博弈的均衡。
考虑下述的博弈:每家企业在每个时期t选择等 于边际成本的价格,而不管直到t以前的博弈历 史。给定对手企业在此方式下索取等于c的价格, 则每家企业所能做的不会比本身收取c更好些。
无限支付序列 , , 的现值之和为
如果 /(1 )
t 1
t 1
/(1 )。
那么, 是无限支付序列 1, 2 ,的平均支 付,它是各阶段支付现值之和的 (1 ) 倍。
2016/1/6 19
t 1
即 (1 ) t 1 t, t,
1
2016/1/6
33
•两零售商的情形
D(I1, I2 ) D a(I1 I 2 )b
•零售商1的利润函数为
1 ( I1 , I 2 , w, s) ( p w)
I1 [ D a( I1 I 2 )b ] (1 s) I1 I1 I 2
•分散决策时渠道利润为 (I , w, s) M (I , w, s) (I , w, s) ( p c)(D aI b ) I c ( I )
2016/1/6 32
•协调的条件
即最优补贴 为
I Ic
s 1 ( p w )( p c)
1 m (1 2
2 ) m
1 2
2016/1/6 15
•这个均衡是默契合谋的结果。
如果一家企业削减其垄断价格,它将在整 个背离时期得利,但它破坏了以后时期的 合谋——所有企业回复到“触发策略”上 去(即他们永远执行纯竞争对策,这是一 个均衡)。注意,合谋是通过一个纯粹不 合作的机制实现的。
I
市 场
D( I ) D aI b
•集中决策者的渠道利润
( I ) ( p c)( D aI ) I
c b
•最优解
2016/1/6
I [ab( p c)]
c
1 (1b )
30
分散系统
•契约安排
(w, s)
b
•零售商的利润函数
(I , w, s) ( p w)(D aI ) (1 s)I
2.4 重复博弈
•逆向归纳法回顾
2016/1/6
1
求解步骤:
•在给定参与人I的行动的情况下,求参与人II的最优行动
•在预测到参与人II的策略的情况下,求参与人I的最优行动
2016/1/6
2
重复博弈
•序贯博弈(sequential game): 同样结构的子 博弈只出现一次的动态博弈 •重复博弈(repeated game):具有同样结构的 博弈重复多次的博弈,其中的每次博弈称为 “阶段博弈”(stage game)。 •有限期界 •无限期界
2016/1/6
25
• 无限期的鲁宾斯坦模型中存 在唯一一个子博弈完美均衡:
1 2 x 1 1 2
2016/1/6
26
2016/1/6
27
2016/1/6
28
2016/1/6
29
供应链的协调
•经济系统 一个制造商和一个零售商组成的供应链 •需求函数为
制造商
(w, s)
零售商
2016/1/6
4
•囚徒困境重复博弈
阶段博弈为
•对每个参与人来说,行动D严格优于 行动C,所以导致了结果 (D,D)
2016/1/6 5