第八讲 重复博弈
重复博弈

重复博弈
本章介绍基本博弈重复进行构成的重复博 虽然形式上是基本博弈的重复进行, 弈。虽然形式上是基本博弈的重复进行,但重复博 弈中博弈方的行为和博弈结果却不一定是基本博弈 的简单重复, 的简单重复,因为博弈方对于博弈会重复进行的意 会使他们对利益的判断发生变化, 识,会使他们对利益的判断发生变化,从而使他们 在重复博弈过程中的行为选择受到影响。 在重复博弈过程中的行为选择受到影响。这意味着 不能把重复博弈当作基本博弈的简单叠加, 不能把重复博弈当作基本博弈的简单叠加,必须把 整个重复博弈过程作为整体进行研究。 整个重复博弈过程作为整体进行研究。
5轮重复囚徒困境博弈的战略与战略组合 轮次 1 2 3 4 5 各参与人的战略数 2 = 21 8 = 23 = 22 * 2 128 = 27 = 26 * 2 战略组合数 4 = 22 = 21 * 21 64 = 26 = 23 * 23 16384 = 214
32768 = 215 = 214 * 2 1073741824 = 230 2,147,483,648 = 231 ??? = 262
4.1.1 为何研究重复博弈
经济中的长期关系 人们的预见性 未来利益对当前行为的制约 长期合同、回头客、 长期合同、回头客、常客和一次性买卖的区别 有无确定的结束时间 长期关系与短期关系 前面讨论的都是社会经济活动中短期一次性合作或竞争关系, 前面讨论的都是社会经济活动中短期一次性合作或竞争关系, 但社会经济活动中除了短期一次性关系以外, 但社会经济活动中除了短期一次性关系以外,还存在许多长 期反复的合作和竞争关系。如商业活动中的回头客。 期反复的合作和竞争关系。如商业活动中的回头客。 长期关系与短期关系之间的差别不只是时间跨度长短的数量 问题,而是有重要性质的差别。在长期关系中, 问题,而是有重要性质的差别。在长期关系中,人们在考虑 当前利益的同时,需要兼顾未来利益。 当前利益的同时,需要兼顾未来利益。
[小学教育]重复博弈
![[小学教育]重复博弈](https://img.taocdn.com/s3/m/a00a243d2f60ddccda38a07c.png)
博弈论与信息经济学
2018年9月10日10时10分
经济管理学院 曹正勇
博弈论与信息经济学
2018年9月10日10时10分
经济管理学院 曹正勇
博弈论与信息经济学
2018年9月10日10时10分
经济管理学院 曹正勇
博弈论与信息经济学
重复博弈的得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
L 0,2 0,2 1,1
厂 H 商 M 1 L
H 8,8 7,1 3,1
L 1,3 1,3 2,2
三种可选战略博弈
两次重复三种可选战略博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 博弈方1:第一次选h;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博伊方1
博弈论与信息经济学
1、重复博弈的定义及特征 (1) 定义: 重复博弈指同样结构的博弈重复多次, 其中每次博弈称为阶段博弈。 (2) 特征: A、阶段博弈之间没有“物质”上的联系,即 前一阶段的博弈不改变后一阶段博弈的结构; B、所有参与人都观测到博弈过去的历史; C、参与人的总支付是所有阶段博弈支付的 贴现值之和或加权平均值。
例:有限次重复囚徒困境博弈
2018年9月10日10时10分
经济管理学院 曹正勇
博弈论与信息经济学
如果我们以该博弈作为原博弈G进行重复博弈,
结果是否会与一次性博弈有所不同,还是仍然是一次
性博弈的简单重复呢? 如果重复的次数是两次,则该重复博弃的现实意 义可以理解为官方给这两个囚徒两次机会,他们最后 的得益(被关年数的负值表示的负效用)是两个阶段博
弈中各自得益之和(当然在第二阶段开始之前是让每
重复博弈的详细介绍

• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
博弈论08 进化博弈4

博弈论上次课小结重复博弈就是同样结构的博弈重复进行。
重复博弈属于动态博弈。
可以按重复次数分为有限次重复博弈和无限次重复博弈。
有限次复常常不会改变局中人的选择。
无限次重复博弈没有最后一次,局中人有可能通过选择合作策略获得高收益,但能否实现高收益还取决于局中人对未来的重视程度。
采用以牙还牙策略有可能获得高收益。
蜈蚣博弈逆推归纳法是动态博弈分析中的基本方法,但用该方法推导出来的均衡结果是否合理一直是动态博弈研究中的一个疑问,因为许多博弈实验结果与理论推导结果相去甚远。
例如蜈蚣博弈:蜈蚣博弈上面的蜈蚣博弈中,博弈进行得越久,双方的收益差异越大。
如果双方的收益相差无几,是否也会出现类似的结果呢?乘客困境两个人从一个盛产瓷花瓶的地方旅行归来,他们都买了同样的花瓶。
提取行李的时候,发现花瓶被摔坏了,他们一起向航空公司索赔。
于是,航空公司请两位旅客在2元至100元之间各自写下花瓶的价格。
如果两个人写的一样,航空公司将认为他们讲的是真话,于是按照写的价格如数赔偿;如果两个人写得不一样,航空公司就论定写得低的旅客讲的是真话,并且原则上按照这个价格赔偿,但是对讲真话的旅客奖励2元钱,对讲假话的旅客罚款2元。
乘客困境从为了获取最大赔偿而言,甲乙两个乘客的最佳策略是都写100元。
但是,比如甲很聪明,他想如果我少写1元变成99元,而乙会写100元,这样我将得到101元,何乐而不为呢?所以他准备写99元。
可是乙更加聪明,他算计到甲会算计他而写99元,因而他就准备写98元。
想不到甲还要更聪明一层,他计算出乙要写98元来坑他,他就准备写97元。
如此下去,精明比赛的结果就是两个人都写2元,这也是这个博弈的唯一纳什均衡。
进化博弈我们是普通人,不是神仙,也不是圣人,不是天生的赢家,我们总是缺乏分析判断能力,记性也不是很好,还常常失去理性,甚至做出错误决策。
但我们又是聪明的,我们善于模仿,我们能够总结经验,我们可以从错误和失败中学习正确的、成功的做法,逐步成为赢家。
重复博弈.ppt

中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2
重复博弈

©2008仅供课程参考。
未经许可,请勿传播1博弈论与信息经济学重复博弈姚洪心重复博弈的现象•1.王朝更替(分久必合,合久必分)•2.情侣相处•3.政治集团的制衡与风险期(吴三桂为什么要在晚年叛变,死前封帝?)©2008仅供课程参考。
未经许可,请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。
•重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。
如囚徒困境。
•重复博弈的特征:✓1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的结构;✓2、所有参与人都观测到博弈过去的历史;✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。
贴现因子:下一期的一单位支付在这一期的价值。
注意:在每个阶段,参与人可同时行动,也可不同时行动。
©2008仅供课程参考。
未经许可,请勿传播3重复博弈©2008仅供课程参考。
未经许可,请勿传播4重复博弈©2008仅供课程参考。
未经许可,请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的,因此,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间,这意味着,重复博弈可能带来一些“额外”的均衡结果。
影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。
博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。
信息的完备性:当一个参与人的支付函数不为其他参与人知道时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。
©2008仅供课程参考。
未经许可,请勿传播6重复博弈和无名氏定理•有限次重复博弈—连锁店悖论重复博弈冷酷策略©2008仅供课程参考。
未经许可,请勿传播9冷酷型重复博弈囚徒A争锋相对的重复博弈•12345•行抵赖坦白抵赖坦白抵赖•列抵赖抵赖坦白抵赖坦白背离争锋相对•12345•行抵赖坦白坦白坦白坦白•列抵赖抵赖坦白坦白坦白©2008仅供课程参考。
重复博弈博弈论课件.ppt

重复博弈
动态博弈的类型
序贯博弈sequential game
每一个阶段的博弈结构是不同的,即从后一个决策结开 始的子博弈不同于从前一个决策结开始的子博弈。或者 说,同样结构的博弈只出现一次。 是指同样结构的博弈重复多次,其中的每次博弈称为 “阶段博弈”。如“囚徒困境”中小偷每次作案后判刑 释放后又作案。 分为有限次重复博弈与无限次重复博弈
H H 厂商1 M L 5, 5 6, 0 2,0
厂商2 M
L 0,2 0,2 1,1
0,6 3,3 2,0
触发策略可信的情况
博弈方1:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用P 博弈方2:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用Q
博弈方1 H M L P Q
5,5 6,0 2,0
重复两阶段三价博弈的等价博弈:如果 认为触发策略不可信,即不可信报复, 最佳选择为(M,M)
触发策略可信性问题
实际上,触发策略中的报复机制的可信性是一个很复 杂的问题,会受到相互预期等很多复杂因素的影响。 例如,未偏离的一方并不想报复偏离的一方,而偏离 的一方却因为害怕报复而采用L,结果心慈手软的未偏 离一方再次遭受损失,这种可能性的存在会使得报复 机制实施的可能性增加。 此外,考虑策略的制定者和执行者分离的情况,执行 者会严格执行决策者指令的情况等等。
在有限次重复博弈中,如果原博弈存在唯一的纯策略NE, 则有限次重复博弈的唯一的均衡解就是各博弈方在每阶段 中都采用原博弈的NE。 因为每个阶段NE都是SPNE,即不存在不可信的威胁和许 诺,因此重复博弈的解也是SPNE。
重复博弈

猴子的故事与道德约束与当代某些无耻之尤的中国经济学家不同,亚当·斯密在写完《国富论》与市场这只“看不见的手”之后,转而又写了本《道德情操论》,专门论述个人道德与社会道德是维持市场经济的基本要素之一。
亚当·斯密告诉我们:最商业化的社会,也是最讲究道德的社会,比如16世纪时荷兰人就比英国人值得信赖,当时荷兰的商业比英国发达,反之亦然。
人类道德的产生一般有两种解释:一种是纯文化因素起作用,有些国家道德程度高,有些国家则低。
如北欧人之间的道德感高于意大利人的道德感。
或者是宗教信仰的原因,怕上帝惩罚你,所以有宗教信仰的人道德感就要强于一般人。
如在美国,教会的人道德感比较强,因为他们认为若不道德,将来会进地狱。
这种解释中,道德是外界强加于人们的,使人们不违约。
而笔者主要想给出的是第二种解释,即博弈论是如何解释道德的。
道德可以打破囚徒困境的难题,化解个人理性与社会群体理性的矛盾,维系整个社会经济体系的稳定与发展。
关于这一点,我们来看一个猴群博弈的故事。
这个故事这两年一直流传于中文网络各大论坛与社区。
有一群猴子被关在笼子里,在笼子里的上方有一条绳子,绳子拴着一个香蕉,绳子连着一个机关,机关又与一个水源相连。
猴子们发现了香蕉,有猴子跳上去够这个香蕉,当猴子够到时,与香蕉相连的绳子带动了机关,于是一盆水倒了下来,尽管够到香蕉的猴子吃到了香蕉,但其他猴子被淋湿了,这个过程重复着,猴子们发现,尽管有猴子吃到香蕉,但吃到香蕉的猴子是少数,而其余的大多数猴子都被淋湿。
经过一段时间,有一伙猴子自觉地行动起来,当有猴子去抓香蕉时,它们便揍那个猴子。
每当有猴子去取香蕉,就有其他的猴子因愤怒而自动地去撕咬那个猴子,久而久之,猴子们产生了合作,再也没有猴子敢去取香蕉了。
在这个故事里,猴子间产生了“道德”。
如果这群猴子构成一个社会,它们也繁衍下一代,它们会将它们的经历告诉下一代,渐渐地猴子们便认为取香蕉的后果对其他猴子不利,从而认为去取这个香蕉是“不道德的”,它们也会自动地惩罚“不道德的”猴子。
重复博弈

重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约
重复博弈的详细介绍

考察下列博弈
L2
2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
R1 0,0 0,0 3,3
• 单阶段Nash均衡: (L1 , L2)和(R1, R2);
• 合作均衡:(M1,M2);
• 问题:合作均衡能否出现?
2
L2
M2
R2
L1 1,1 5,0 0,0
1 M1 0,5 4,4 0,0
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
重复博弈

重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。
重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。
博弈论重复博弈

(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况, 最佳结果(A,A)无法实现是因为两次 博弈中博弈方没有运用触发策略的条件 或机会
两市场博弈的重复博弈(重复三次)
厂 商
A
1B
触发策略:
A 3,3 4,1
厂商2 B
1,4 0,0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
,此时利润为5.0625,高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
两市场博弈的重复博弈(重复101次)结果?
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都 不可能发生合作,博弈方会一直重复原 博弈的混合策略纳什均衡
重复博弈囚徒困境

逆推到第一阶段,将第二阶段的纳什均衡收 益代入,则如图3所示。 商人1 诚信 欺骗 有限重复博弈纳什 5,5 1,6 均衡是(欺骗,欺骗) 商 诚信 人 欺骗 6,1 2,2 2 此题解释了现实中 图3 信用困境(2) 存在的一类现象—— 普遍的欺诈行为;没有解释另一类现象——广泛 的合作。 为了在理论上容纳合作解,博弈论主要从三 个方面来加以发展: 一是引入多重均衡; 二是引入无限重复博弈; 三是引入信息不完全。
如果下列条件满足,企业 i 会选择合作均衡:
2 2 2 2 (a c) 2 (a c) 2 ( a c ) 9( a c ) ( a c ) ( a c ) 2 ... 2 ... 8 8 8 64 9 9
(五)对无名氏定理的三点说明:
1、惩罚点(纳什威胁点):在上述定理中,阶段博弈的 纳什均衡 a* 可能是混合战略均衡也可能是纯战略均衡; 由 a* 决定的支付向量 e (e1 , e2 ,..., en ) 是达到任何精练均 衡的结果v的惩罚点。 2、可行支付:v (v1 , v2 ,..., vn ) 称为一个可行支付向量,如 果它是阶段博弈G的纯战略支付的凸组合;所有可行支 付向量构成可行支付集合V。 凸组合:假设 r (r1 ,..., rn ) 为参与者选择纯策略组 合下所有可能收益组合的集合(r为向量),向量 n a (a1 ,..., an ) 中的任意一个元素 ai 0,且 ai 1 1 a r a r ... a r 那么, 11 n n 就称之为凸组合。
4、参与人在某一阶段的博弈选择依赖于其 他参与人过去的行动历史,所以,参与 人在重复博弈中的战略空间远远大于和 复杂于在每一个阶段博弈中的战略空间。 这一点意味着,重复博弈可能带来一些 “额外的”均衡结果,这些均衡结果在 一次性博弈中是从来不会出现的。 5、影响重复博弈均衡结果的主要因素是博 弈的重复次数。重复次数的重要性来源 于参与人在短期利益和长远利益之间的 权衡。
浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设

重复博弈(repeated games) 如何处理噪音?
宽容
悔悟
宽容比悔悟表现好(0.1-1) 悔悟比宽容表现好(1-10) 宽严相济
噪音导致原谅,但是太多的原谅会被利用。
第十九章 制度建设
《党和国家领导制度的改革》,邓小平
特别提示:
制度好可以使坏人无法横行,制度不好可以 使好人无法充分做好事,甚至会走向反面。
结 人生是永不停息的博弈过程,博弈 的精髓不是通过暴力或阴谋诡计去
束 战胜对方,而是如何共同努力去建 语 立起更好的游戏规则,实现民富国
强与社会和谐的共同目标。
博弈的最高境界:双赢
谢谢
THANK YOU
斗私批修一闪念
特别提示:
不要试图改变人性,而是努力改变制度。 不要让人不想贪,而是让人不能贪、不敢贪
群众路线教育
人终有一死,我们会被他人取而代之 。因此我们不能传承个人的经历,因 为它将随我们而去,我们能够留下的 只是制度。
----让•莫奈,《欧洲联盟》
人生是永不停息的博弈过程,博弈意味着通过选 择合适策略达到合意结果。作为博弈者,最佳策 略是最大限度地利用游戏规则;作为社会的最佳 策略,是通过规则引导社会整体福利的增加。 ——计算机之父、博弈论创始人之一冯•诺伊曼
重复博弈(repeated games) “一报还一报”的4大特点
1. 它是善良的(前15名中只有一个非善良(第8 ),善良与得分的相关性是0.58)(不树敌) 2. 它是可激怒的(防背叛) 3. 它是宽容的(给机会) 4. 它是清晰的(易辨识)
重复博弈(repeated games) “针锋相对”的善良性防止他陷入非合作的麻 烦中,对对方背叛的报复则保证了对方背叛行 为的谨慎性,宽容性则有助于在对方背叛后重 新开始合作,而简单清晰的规则则易于被人理 解,从而导出长期的合作。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Suppose that the players anticipate that (R1,R2) will be the second-stage outcome if the first-stage outcome is (M1,M2), but that (L1,L2) will be the second-stage outcome if any of the eight other first-stage outcomes occurs. There are three subgame-perfect equilibria: ((L1,L2),(L1,L2)), ((R1,R2),(L1,L2)), ((M1,M2),(R1,R2)).
∞ ∞
三(1)、Definition: T-period repeated games 、
Let G be a strategic game. Denote the set of players by N and the set of actions and payoff function of each player i by Ai and ui respectively. The T -period repeated game of G for the discount factor δ is the extensive game with perfect information and simultaneous moves in which: the set of players is N ; the set of terminal histories is the set of sequences (a1 , a 2 ,⋯ , aT ) of action profiles in G; the player function assigns the set of all players to every history (a1 ,⋯ , a t ) (for every value of t ); the set of actions available to any player i after any history is Ai ; each player i evaluates each terminal history (a1 , a 2 ,⋯ , aT ) according to its discounted average (1 − δ )∑ t =1 δ t −1ui (a t ).
第八讲 Repeated Game
Some examples
重复囚徒困境:纳什均衡与合作解; 市场买卖:一次性买卖和重复买卖; 奥尔森的独裁、民主和发展观:“流窜的匪徒”和 “常驻的匪徒”(Olson:“Dictatorship, Democracy, and
Development”, American Political Science Review,Vol.87, No.3 September 1993.
T
Discounted average: supppose that a player's preferences over streams (w1 , w2 ,
⋯ ) of payoffs are represented by the discounted sum ∑ t =1 δ t −1wt of these payoffs, where 0 < δ < 1. There is a value of c such that the player is indifferent between the stream (w1 , w2 ,⋯ ) and the constant stream (c, c,⋯ ). c /(1 − δ ) = ∑ t =1 δ t −1wt = V ⇒ c = (1 − δ )V .
二、Preferences
Discounting: each player i has a payoff function ui for the strategic game and a discount factor δ i between 0 and 1 such that she evaluates the sequence
(a1 , a 2 ,⋯ , aT ) of outcomes of the strategic game by the sum: ui (a1 ) + δ i ui (a 2 ) + δ i2ui (a 3 ) + ⋯ + δ iT −1ui (aT ) = ∑ t =1 δ it −1u i (a t ).
)
一、The main idea
The main idea of the theory is that a player may be deterred from exploiting her short-term advantage by the “threat” of “punishment” that reduces her long-term payoff. So we analyze whether threats and promises about future behavior can influence current behavior in repeated relationships.
Grim trigger strategy
Choose C as long as the other player chooses C; If in any period the other player chooses D, then choose D in every subsequent period.
Conclusion
If a player is sufficiently patient, the strategy that chooses C after every history is a best response to the grim trigger strategy. Thus when the players are sufficiently patient, the strategy pair in which both players use the grim trigger strategy is a Nash equilibrium of the repeated prisoner’s dilemma: neither player can do better by adopting another strategy in the repeated game. The outcome of this equilibrium is (C,C) in every period.
Questions
– – – –
–
How patient do the players have to be? What other outcomes are generated by Nash equilibrium? Is the strategy pair in which each player uses the grim trigger strategy a subgame perfect euqilibrium? Are there Nash equilibria or subgame perfect equilibria in which the players’ strategies punish deviations less severely? How do the arguments apply to games other than the prisoner’s dilemma?
If a player chooses C in every period, then the outcome is (C,C) and her payoff is 2 in every period. If she switches to D in some period, then she obtains a payoff of 3 in that period (a short-term gain) and a payoff of 1 in every subsequent period (a long-term loss).
T
三(2)、Definition: 、
Infinitely repeated game
The infinitely repeated game of G for the discount factor δ differs only in that the set of terminal histories is the set of infinite sequences (a1 , a 2 ,⋯ ) is the payoff of each player i to the terminal history (a1 , a 2 ,⋯ ) is the discounted average (1 − δ )∑ t =1 δ t −1ui (a t ).
Discussion
L2 M2 R2 L2 M2 R2 3,3 3,3 6*,6*
L1 1*,1* 5,0 0,0 M1 0,5 4,4 0,0 R1 0,0 0,0 3*,3*
L1 4*,4* 8,3 M1 3,8 7,7 R1 3,3 3,3
Because the payoff of (R1,R2) is higher than (L1,L2), there may be a renegotiation problem. If (R1,R2) is to be the second-stage outcome after every first-stage outcome, then the incentive to play (M1,M2) in the first-stage is destroy. There are two subgame-perfect equilibria: ((L1,L2),(R1,R2)), ((R1,R2),(R1,R2)).