第四章(重复博弈)
[经济学]4 重复博弈--博弈论
策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。
博弈论(重复博弈)
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集
例
B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0
博弈论课件4-重复博弈
4.1.1 为什么研究重复博弈 4.1.2 基本概念
生活中的重复博弈
——你到菜场去买菜,当你担心上当受骗而犹豫不决时,
卖菜的摊主便会对你说:“你放心好了,我天天在这里卖菜, 不会骗你的,如果菜不好你回来找我!‛他强调自己‚天天‛ 在这里卖菜,你通常便会放下心来,与之成交。因为他的这 句话翻译成经济学的语言就是‚我跟你是‘重复博弈’‛! ———而一次性的买卖往往发生在双方以后不再有买卖机会 的时候,特点是尽量谋取暴利并且带欺骗性,比如车站、码 头、旅游景点的东西往往质次价高,其原因就在于买卖双方 很少有‚重复博弈‛的机会。
两人零和博弈的有限次重复博弈 惟一纯策略纳什均衡的有限次重复博弈 多个纯策略纳什均衡的有限次重复博弈 有限次重复博弈的无名氏定理
4.2.1 两人零和博弈的有限次重复博弈
猜硬币博弈
正 面 盖 硬 币 方 正 面 反 面 -1, 1 1, -1
猜硬币方 反 面 1, -1 -1, 1
零和博弈是严格竞争的,重复博弈并不改变这一点。 重复零和博弈不会创造出新的利益。
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈与猜硬币博 弈的有限次重复博弈一样,博弈方的正确策略是重 复一次性博弈中的纳什均衡策略。 可用逆推归纳法来证明 可以推广到非零和或多个博弈方,但博弈方的利益 严格对立,没有纯策略纳什均衡的其他严格竞争博 弈中 产生原因:利益关系严格对立,矛盾不可调和
有限次重复博弈民间定理
设原博弈的一次性博弈有均衡得益数组优于w, 那么在该博弈的多次重复中,所有不小于个体理性 得益的可实现得益,都至少有一个子博弈完美纳什 均衡的极限的平均得益来实现它们。
第四讲 重复博弈
二、正式合同与非正式合约
ห้องสมุดไป่ตู้
市场的本质是交易。交易出现的必要条件:(一) 交 易能带来总收益(社会效率) 的增加,从而使得交易双 方受益,(二),当事人都有充分的信心预期对方能履行 承诺。否则,即使交易能带来社会剩余,交易也不会发 生。发达经济的一个标志是复杂商品的非现货交易. 设想A 与B 事前签署一个合同,规定A 为B 生产这件 物品,B 在收到该物品之后再给A 支付价格P。 那么,A 是基于什么因素作出对B 履行承诺的判断呢? 一个因素是B 的个人品德。但是,在商业社会,交易一 方对另一方的了解是非常有限的,许多交易活动都是 在不认识的人之间进行的。
14
信誉机制发生作用的条件
第三, 当事人的不诚实行为能被及时观察到。这一点 说明,一个高效率的信息传递系统对信誉机制的建立 具有至关重要的意义。一个信息流动缓慢的社会,一 定是一个信誉贫乏的社会。 第四, 当事人必须有足够的积极性和可能性对交易对 手的欺骗行为进行惩罚。“以牙还牙,以眼还眼”不 仅不是不道德的行为,而且是维持社会信用制度的必 不可少的手段。进一步,我们可以说,过分原谅欺骗行 为本身就是不道德的行为。为了使信誉机制发挥作 用,该惩罚而没有采取惩罚措施的人必须受到惩罚 (Abreu , 1988) 。 15
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
一、引言:案例 据《北京晚报》2001年6月20日报道,2001年2月 14日,魏女士到北京建设银行甘家口分理处支取了5 万元现金,随即到相距不到30米的工商银行甘家口储 蓄所存入。工商银行工作人员从中验出两张100元的 假钞。魏女士称,两张假钞是刚在建行取出的一整捆 1万元的现金中发现的,当时封条都没有拆。魏女士 立即返回建设银行要求赔偿,但银行称,钱出了大门, 难以确认假钞是从哪一个环节出现的,银行不能承担 责任。魏女士因此向法院提出诉讼,法院判决魏女士 败诉。
第四讲重复博弈详解
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
第四章 重复博弈
假设某参与人在无限次重复博弈的一个均衡 路径上各阶段博弈的收益为πt,则该参与人 无限次重复博弈的总收益(即各阶段收益 的贴现值)为
PV 1 2 2 3 t 1 t
t 1
定义: 给定一个博弈G,无限次重复进行G博弈的 过程称为G的“无限次重复博弈”,记为 G(∞,δ),其中δ是参与人收益的贴现系数 (是所有参与人共同的贴现系数)。并且 在进行第t阶段(第t次重复)博弈之前,参 与人都能看到(t-1)阶段博弈的结果。 各参与人在G(∞,δ)中的收益等于各阶段收 益的贴现值。
4、子博弈完美纳什均衡 参与人2的收益:
(1)参与人2不合作
U 5 1 1 1 5
2 3
1
(2)参与人2合作
V 4 V 4 V 1
(3)参与人合作的条件:V≥U
4 5 1 1 1 4
1 当 4
– 平均期望收益为(1.5,3)。
• 第一次是混合战略均衡,第二次是纯战略均衡(B, A);
– 平均期望收益为(3,1.5)。
4、三次重复
–三次重复博弈中,除了有与上述类似的均衡战略组合 外,还有以下战略可以构成子博弈完美纳什均衡
• 厂商1的战略:
第一阶段博弈选A; 第二阶段的行动选择取决于第一阶段的结果 第三阶段无条件选B。
参与人正确的战略就是在每次重复博弈中都采
用一次性博弈的纳什均衡策略。
三、有限次重复博弈—囚徒的困境
假设:
有两个惯犯,每次判刑都不是很重。在刑 满释放之后再作案,作案之后再判刑; 刑满释放之后又作案,如此反复。 他们反复作案之后接受隔离审查过程就是 一个重复博弈的过程。
重复两次:
逆向归纳法求解
第四章 重复博弈
双方策略为: 博弈方1:第一次选h; 如第一次结果为(H,H), 则第二次选M,否则选L 博弈方2:同博弈方1
厂商2 厂 商 1 H M L H 5,5 6,0 2,0 M 0,6 3,3 2,0 L 0,2 0,2 1,1
三价博弈
触发策略(Trigger Strategy):两博弈方先试探合 作,一旦发现对方不合作则也用不合作报复。 触发策略是重复博弈实现合作和高效的关键机制。
2
Cont…
但从第二阶段开始,厂商1将报复性地永远采用 古诺产量2,这样厂商2也被迫永远采用古诺产 量,从此得利润4。因此,无限次重复博弈第一 阶段偏离的情况下总得益的现值为: 4 5.0625 4 5.0625 1
2
当 上述策略是厂商2对厂商1的同样触发策略的最 佳反应,否则偏离是最佳反应。
1、个体理性得益:博弈方 i 的最大最小值
vi min max U i ( i , i )
i A i i Ai
2、可实现得益:博弈中所有纯策略组合得益 的加权平均数组
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈 的无限次重复博弈 4.3.3 无限次重复古诺模型 4.3.4 有效工资率 4.3.5信用问题 4.3.6 若干建议与启示
二、重复博弈的分类
1、有限次重复博弈:给定一个基本博弈G (可以是静态博弈,也可以是动态博 弈),重复进行T次G,记为G(T)。
而G则称为G(T)的“原博弈”。G(T)中的 每次重复称为G(T)的一个“阶段”。
2、无限次重复博弈:一个基本博弈G一直 重复博 弈下去的博弈,记为G( ). 注:1、无法验证某个重复博弈会一直重复 下去。 2、如果主观上认为博弈会不断进行下 去,那么博弈就可无限次重复下去。
@第4章 重复博弈
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
活学活用博弈成功智慧_第四章 重复博弈:所有诚信都有利可图
“善有善报”不是因果迷信在囚徒困境中,选择招供,也就是背叛是理性的,这一论断与我们的传统观念并不相符。
如果人人都这样想问题,那么诚信又从何而来呢?出现这一问题的原因是:现实中的情况和囚徒困境并不一样,困境中的两个囚徒互不相识,被判出狱后可能老死不相往来。
现实中并非如此,人们都在进行着重复的博弈,就是同样结构的博弈要重复多次,人们可能在次数不定的博弈中与其他人重复交手。
正因为如此,人们才要有诚信,诚信只是为让自己在以后的博弈中继续获得利益,这是一种长远的打算。
诚信的人一般都是聪明人,他们懂得细水长流的道理,对于“善有善报”这样的言语充满敬畏。
其实,“善有善报”的观念并不是一种迷信思想,从另一个角度看,它是有科学依据的。
如果有一个人总是出卖朋友,那么他可能会从第一次、第二次、第三次出卖中获得利益,但是长此以往,人们就会认清他的真面目,并互相传播他的劣迹。
这样,到了最后,他就会变得没有朋友可以出卖,因为他一直靠出卖朋友生存,当他没有朋友的时候,就是他穷途末路的时候,最终他只能落得众叛亲离的下场。
现在,我们明白了,诚信并不是什么了不起的美德,它也是实现利益最大化的一种手段,如果最终真的无利可图,人们便不会有诚信之举。
也许你会举出英雄人物的例子来反驳,但是英雄人物最终得到了人们的敬仰和爱戴,他们流芳百世、永垂不朽,如果他们合己为人的结果是被人指责、唾骂,遗臭万年,那么他们绝不会选择当英雄。
“一报还一报”的伟大胜利如果囚徒困境是简单的一次性博弈,使坏对于双方来说,当然都是最理性的选择。
但是,在重复性的博弈中,参与者应该怎样面对合作与背叛的问题?应该选择什么样的策略呢?著名学者爱克斯罗德所做的一个实验回答了这一问题。
实验的过程是这样的:所有参加这个实验的人都扮演“重复型”囚徒困境案例中一个区犯的角色,把自己的策略编成计算机程序,与其他程序进行一对一的博弈,在合作与背叛之间做出选择。
他们要将这个游戏以单循环赛的方式玩上200次。
四章重复博弈
四章重复博弈第四章节重复博弈何为“重复博弈”?重复博弈是指基本博弈重复进⾏构成的博弈过程。
–重复博弈中每个阶段中的博弈⽅、可选策略、规则和得益都是相同的----是特殊的动态博弈;–形式上是基本博弈的重复进⾏,但博弈⽅的⾏为和博弈结果不⼀定是基本博弈的简单重复,因为博弈⽅对于博弈会重复进⾏的意识,会使他们对利益的判断发送变化,从⽽使他们在重复博弈过程不同阶段的⾏为选择受到影响。
–可信度:⼦博弈完美性仍是判断均衡是否稳定可靠的重要判断依据4.1 引论4.1.1 为什么研究重复博弈4.1.2 基本概念分类:有限次重复博弈,⽆限次重复博弈给定⼀个基本博弈G(可以静态,也可以动态),重复进⾏了T次G,并且在每次重复G之前,各博弈⽅都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为()G T的“原G T。
⽽G称为()博弈”。
()G T的⼀个“阶段”。
G T中的每次重复称为()理论上,重复博弈可以⽆限制进⾏下去,不⼀定经过⼀定次数重复以后就必须结束。
如果⼀个基本博弈G⼀直重复下去,这样的重复博弈就是“⽆限次重复博弈”,记为()G 。
⽆限次重复博弈的基本博弈也称为“原博弈”。
⽆限次重复博弈是有⽆限个阶段的动态博弈。
重复博弈的次数虽然有限,但重复的次数或博弈结束的时间不确定,这种重复博弈中博弈⽅的⾏为选择与确定结束时间的有限次重复博弈很不同,与⽆限次重复博弈很相似,甚⾄可以通过某种⽅式与⽆限次重复博弈统⼀起来。
这种重复博弈可以称为“随机结束的重复博弈”。
策略、⼦博弈和均衡路径●策略:–博弈⽅的⼀个策略就是在每个阶段(即每次重复),针对每种情况(以前阶段的结果)如何⾏动的计划。
●⼦博弈:–重复博弈的⼦博弈就是从某个阶段(不包括第⼀阶段)开始,包括此后所有阶段的重复博弈部分。
●路径:-–⼦博弈完美纳什均衡,以逆推归纳法(逆向归纳法)为核⼼的⼦博弈完美纳什均衡分析及相关结论,可以推⼴到重复博弈中。
-–重复博弈的路径是由每个阶段博弈⽅的⾏动组合串联⽽成的。
4第四章:重复博弈
前面提及,重复博弈注重研究的是长期的合作或竞争 关系,时间是一个非常重要的考量因素!
如果重复博弈的次数较少,时间间隔较短,其结果对 博弈方的得益可能并没多大影响,但是若重复次数较多, 时间就不得不考虑。
因心理作用和资金有时间价值,不同时间获得的单位 利益对人们的价值是有差别的,忽略这一点就不能得出符 合实际的分析结论。
其解决方法:引进将后一阶段得益折算成当前得益的 贴现系数。
1 1
阶段 1 原博弈
1
阶段 2 原博弈
2
阶段 T 原博弈
T
all 1 2 23
T
T 1T t1 t t 1
总得益
如何求得“平均得益”?源自基本概念:若一常数 作为重复博弈各个阶段的得益,能
产生与得益序列 1, 2 , 相同的现在值,则称 为 1, 2 , 的“平均得益”。
all 2
T
第四章 重复博弈
基本博弈重复进行构成的博弈过程
例如:石头剪刀布博弈
虽然重复博弈形式上是基本博弈的重复进行, 但博弈方的行为和博弈结果却不一定是基本博弈的 简单重复。
博弈方对于博弈会重复进行的意识使得他们对 利益的判断发生变化,进而在重复博弈的不同阶段 的行为选择发生变化。
不能把重复博弈当作基本博弈的简单叠加,必 须把整个重复博弈过程作为整体进行研究。
三、重复博弈的分类
1. 有限次重复博弈 基本博弈进行有限次重复
2. 无限次重复博弈 如果某个重复博弈没有可以预见的结束时间,各博弈方主
观上认为博弈会不断进行下去,即可视为无限次重复博弈。 3. 随机结束的重复博弈
重复博弈的次数是有限的,但重复的次数或博弈结束的时 间是不确定的。
四、策略、子博弈和均衡路径
第四章__重复博弈
4.2.1 两人零和博弈的有限次重复博弈
田忌赛马
田 忌 上 中 下 3,-3 1,-1 1,-1 -1,1 1,-1 1,-1 上 下 中 1,-1 3,-3 -1,1 1,-1, 1,-1 1,-1
中 上 下
1,-1 1,-1 3,-3 1,-1 1,-1 -1,1
中 下 上 1,-1 1,-1 1,-1 3,-3 -1,1 1,-1
之前各博弈方都能观察到以前博弈的结果,这样的博弈过
程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶 段”。 无限次重复博弈:一个基本博弈G一直重复博弈下去的博
弈,记为G(∞)。
4.1.2 基本概念
注意重复博弈与动态博弈的联系与区别: 重复博弈是一个动态的过程,具有多个阶段,属于动态博弈的
1 1 r
2
现值之和就为
V R1 R2 R3
2
T 1
RT
t 1 t 1 t 1
T
t 1
Rt
V R1 R2 R3
Rt
4.2 有限次重复博弈
4.2.1 两人零和博弈的有限次重复博弈 4.2.2 唯一纯策略纳什均衡博弈的有限次重复博弈 4.2.3 多个纯策略纳什均衡博弈的有限次重复博弈 4.2.4 有限次重复博弈的民间定理
8,6 4,8
4,10 6,4
1
4.2.2 唯一纯策略纳什均衡博弈的 有限次重复博弈
如果纳什均衡本身就是帕累托意义上的最佳策略组合,符合所有博
弈方的利益,那么,有限次重复博弈的惟一均衡即是:各博弈方不会 改变自己的行为,在每阶段都采用原博弈的纳什均衡策略。
重复博弈(研)
(Game Theory and Information Economics)
第4章:重复博弈
Chapter 4: Repeated Game
1 基本博弈(回顾)
囚徒困境博弈
囚徒困境是这样一个博弈:每个参与人有一个占 优策略,但是,当所有参与人使用他们这一占优 策略时,所产生的均衡对于每个人的结果,比他 们都使用劣策略反而还要差。
2 博弈的有限次重复
餐馆定价博弈 假定两个餐馆开始处 于合作状态,每个人 收取高价格26。
餐馆 B
20(背叛) 餐 20(背叛) 馆 A 26(合作) 26(合作)
288,288 216,360
360,216 324,324
如果他们正常地竞争至少3个月,按照重复博弈的理论,我们似 乎就应该看到合作行为(高价格)而不是背叛行为(低价格)
两国独立决策是否出钱赞助该项目。但一旦一国赞助,另 一国则可不费成本得到科研成果使用疫苗
解法Ⅲ:领导
现在假设:两国人口不等, 多米尼加为1.5亿,索婆利 亚为0.5亿。
索婆利亚
研发 不研发
-2,-2 尼加 不研发 0,-2 如两国都不研发,多米尼
3 博弈的无限次重复
思考:当某家餐馆使用TFT策略时,重复博弈如何进行?
餐馆A背叛合作一个月,会额外获得36的支付(360而不 是324)。但如果餐馆B采取TFT策略会如何?
餐馆B会在下一个月惩罚餐馆A。
此时餐馆A有两个选择:
• 它可以继续以20元背叛合作,而餐馆B会根据TFT策略来 惩罚它,这样餐馆A会在接下来的每个月失去36的支付 (288而不是324)——代价很大。 • 可以选择回到合作策略上:因此只受到餐馆B一个月的惩 罚,并且在惩罚中损失108(得到216而不是324)。在A背 叛后的第二个月,双方回到合作并得到每月324支付。
4 重复博弈
结果是具non-exploitability 的 TFT表现最好,tit-for-two-tats 只得到第24名,随机策略仍最差。
DEV1L: TFT 直至第 L回合. 采取 D 一次. 重新选择 C ,然后再回到TFT 局中人2有没有动机采取 DEV1L?
(TFT, TFT)
0
1
2 …
L
L+1
L+2
L+3 …
1: C 2: C
C C
C… C…
C C
C C
C C
C … C …
(TFT, DEV1L)
1: C 2: C
C C
C… C…
4. 重复博弈的三个特征
阶段博弈之间没有物质上的联系,也就 是说,前一阶段的博弈不改变后一阶段 的结构; 所有参与人能观察到博弈过去的历史; 参与人的总支付(报酬)是所有阶段博 弈支付的贴现值之和;
5. 重复博弈的策略、子博弈和均衡路径
(1) 重复博弈的策略 重复博弈中每个博弈方在每个阶段都必须进行 策略选择,因此博弈方的一个策略就是在每次 重复时, 针对其前面阶段所有可能的情况如何 进行行动的计划。 (2) 重复博弈的子博弈 重复博弈的子博弈就是从某个阶段(除第一 阶段以外)开始,包括此后所有阶段的重复博 弈部分。重复博弈的子博弈要么仍然是重复博 弈,只是重复的次数较少,要么就是原博弈。
第四章 重复博弈
1. 基本概念
重复博弈:给定一个基本博弈G(可以 是静态博弈,也可以是动态博弈), 重复进行T次G,并且在每次重复G之前 各博弈方都能观察到以前博弈的结果, 这样的博弈过程称为“G的T次重复博 弈”,记为G(T)。而G则称为G(T)的 “原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。
4 重复博弈
• 重复博弈可以看做是存在同时行动的扩 展式博弈。
4. 策略
• 每阶段行动的组合
策略的表示
• 假设局中人存在两种状态,C或者D。
• 冷酷策略(grim/trigger strategy): • 最初状态为 C。一旦对方在某一阶段选 择了D,那么,在下一个阶段也选择D, 并永远保持下去。
• 可以用下图表示.
• k ≥ 2, δ 足够大,有限惩罚足以促成合 作.
无限次重复博弈的子博弈 完美纳什均衡
• 子博弈完美纳什均衡(SPE): 对于任何 子博弈而言, 局中人不能通过改变子博弈 中最初的行动以增加收益。
• (1) 冷酷策略 • 假定最初的结果为 (C, D).
• 给定对方选择冷酷策略,那么局中人坚 持冷酷策略是最优的吗?
• 如果局中人1在子博弈第1阶段选择 D , 然后坚持TFT,那么结果为 (D, D) ,平 均收益为 1.
• 共四种状况 (C, C), (C, D), (D, C), (D, D).
• 对于而言 (C, C)分析与整个博弈的纳什 均衡分析完全相同: • 如果δ ≥ 1/2, TFT为最优反应.
• 接下来考虑 (C, D)之后的子博弈。
• 假定局中人2坚持TFT. 如果局中人1坚持 TFT,那么结果是在 (D, C) 和 (C, D)之 间进行交替。局中人1的平均收益为:
• 接下来,局中人2面临着与博弈初始处完 全相同的状况。
• 坚持不偏离的收益贴现均值是:
• 偏离后贴现收益均值是:
• 不偏离的条件如下:
• 如果k = 1 , 那么任何小于1的δ 都无法 满足上述不等式: 一阶段的惩罚不足以阻 止偏离, 无论局中人的耐心有多大。
• 如果 k = 2 ,要求 δ ≥ 0.62才会不偏离; • 如果 k = 3 ,要求 δ ≥ 0.55. • K增加后, δ 下限为 ½ , 下限表示的是冷 酷策略.
博弈论:4重复博弈
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 (1 p) 1
,进一步第三
阶段的期望得益的现在值为: 2 (1 p) 3 (1 p) 2 (1 p) t 1 t 1 1 t t 2 t 1 1 (1 ) (1 ) t 1 t 1
1 2 2 3 T 1 T t 1 t
t 1
T
在无限次重复博弈路径下,某博弈方各阶段得 益为 1 , 2 ,, ,则该博弈方总得益的现在值就是:
1 2 3 t 1 t
第四章
重复博弈
重复博弈引论; 有限次重复博弈; 无限次重复博弈。
第一节
重复博弈引论
一、重复博弈分类 重复博弈(Repeated Games)是指基本博弈重复进 行构成的博弈过程。重复博弈是静态或动态博弈的重复 进行,或者说重复进行的过程。 1、有限次重复 定义:给定一个基本博弈G(可以是静态博弈,也 可以是动态博弈),重复进行T次G,并且在每次重复G 之前,各博弈方都能观察到以前博弈的结果,这样的博 弈过程称为 “G的T次重复博弈”,记为G(T)。而G 则称为G(T)的 “原博弈”。G(T)中的每次重复称 为 G(T)的一个“阶段”。
2、无限次重复 某个重复博弈没有可以预见的结束时间,各博弈
方主观上认为博弈会不断进行下去,那么就可以看作
是无限次重复博弈。 3、随机结束博弈 重复博弈的次数虽然是有限的,但重复的次数或 博弈结束的时间却是不确定的。这种重复博弈可以称
为“随机结束的重复博弈”。
二、重复博弈的策略、子博弈和均衡路径
而成的。
如果原博弈有m种策略组合,那么重复两次就有 m 2
条博弈路径,重复T次就有 mT 条博弈路径;当 T或 m较大时,重复博弈的路径数是很大的。
三、重复博弈的得益与博弈方的行为选择
1、要从整体上把握博弈的得益 重复博弈的得益与一次性博弈有所不同,因为它 们的每个阶段本身就是一个博弈,各个博弈方都有得 益,而不是整个博弈结束后有一个总的得益,如果博 弈方是根据当前阶段得益选择,那么等于把重复博弈 割裂成了一个个基本博弈,重复博弈就失去了意义。 因此重复博弈中,博弈方的行为、策略选择不能只考 虑本阶段的得益,必须兼顾其他阶段的得益,或者说 要考虑整个重复博弈过程得益的总体情况。
2、各阶段的时间间隔对博弈方行为的影响 重复博弈每个阶段的得益有时间上的先后之分, 这在只有少数几次重复且每次重复间隔时间并不很长
的情况下可能并不重要。但对于重复次数很多且每次
重复间隔时间又较长的有限次重复博弈,或者是无限 次重复博弈时,得益的时间先后就不能不考虑。因为 由于心理作用和资金有时间价值的原因,不同时间获 得的单位利益对人们的价值是有差别的,忽略这一点
2 t 1
无限次重复博弈也写成 G(, ) 。
四、随机停止和贴现率
可理解为通过抽签来决定是否停止重复,设抽 到停止的概率是 p ,重复下去的概率为 1 p 。 设某博弈方的阶段得益为
1 p
t
,利率为
,因
为在第一次博弈以后能继续下一次重复的可能性是
,第二阶段的期望得益为
3 (1 p) 2 (1 ) 2
1 p 其中最后一个等式是通过令 1
得到的。由此就把 已知概率的随机停止重复博弈与无限次重复博弈统一 起来了。
第二节 有限次重复博弈
重复次数较少的有限次重复博弈可以不考虑不同阶段得 益的贴现问题。 一、两人零和博弈的有限次重复博弈 重复零和博弈不会创造出新的利益。如重复进行猜硬币 博弈,不管两个博弈方如何选择,每次重复的结果都是一方 赢一方输,得益相加为0。因此在零和博弈或者它们的重复博 弈中,双方合作的可能性根本不存在。 二、惟一纯策略纳什均衡博弈的有限次重复博弈 如果原博弈惟一的纳什均衡没有达到帕累托效率,在有 限次重复博弈中能不能实现合作和提高效率呢?
重复博弈中博弈方的一个策略就是在每个阶段 (即每次重复),针对每种情况(以前阶段的结果) 如何行为的完整计划。
重复博弈的子博弈就是从某个阶段(不包括第一 阶段)开始,包括此后所有阶段的重复博弈部分。
重复博弈也是动态博弈,也有路径概念。但重复博
弈的所有博弈方在每个阶段都必须行为,因此重复
博弈的路径是由每个阶段各博弈方的行为组合串联
就不可能得出符合实际的分析结论。
那么如何处理未来得益对当前决策的影响呢? 解决这个问题的方法是引进将后一阶段得益折算 成当前阶段得益的贴现系数 。有了贴现系数 ,如 果一个T 次重复博弈的某博弈方某一均衡下各阶段得 益分别为 1 , 2 ,, T ,则考虑时间价值的重复博弈总 得益现在值为:
(二)一般结论
原博弈有惟一的纯策略纳什均衡的博弈,则有限次重复
博弈的惟一均衡即各博弈方在每阶段(即每次重复)中
都采用原博弈的纳什均衡策略。
定理 设原博弈 G有惟一的纯策略纳什均衡,则对任意正 整数T,重复博弈G(T)有惟一的子博弈完美纳什均衡, 即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方
(一)有限次重复囚徒的困境博弈
囚徒2
坦白
囚 坦白 徒 1 抵赖
抵赖
囚 坦白 徒 1 抵赖
囚徒2
坦白
-10,-10 -13,-5
抵赖
-5,-13 -6, -6
-5,-5 0,-8 -8, 0
-1,-1
图4-1 囚徒困境博弈
图4-2逆推归纳法和等价博弈
上图所示囚徒的困境博弈,考虑两次重复该博弈。 用逆推归纳法来分析该重复博弈,先分析第二阶段,由于该阶段仍然 是一个囚徒困境博弈,结果还是原博弈惟一的纳什均衡(坦白,坦白), 双方得益(-5,-5)。回到第一阶段,理性的博弈方会知道第二阶段的结 果必然是(坦白,坦白),因此可以把第二阶段的得益直接加到第一阶段 对应得益上(如图4-2),结果与一次性博弈一样,最终两次重复囚徒的困 境仍然相当于一次性囚徒的困境博弈的简单重复。