第六章:重复博弈与合作行为

合集下载

第六讲 重复博弈

第六讲 重复博弈

at a1 a2 aT
t 1 T 1 t 1
T
• 无限次重复博弈的总得益的现值就是

t 1

t 1
at a1 a2
T 1
aT
• 平均得益:如果一个常数A作为重复博弈的各个阶段 的得益,能产生与得益序列a1,a2, …,aT相同的现在 值,就称A为a1,a2, …,aT的平均得益。 • 如果不考虑贴现因素,可让贴现率为1,就可以同样 适用上述定义。 • 在无限次重复博弈中,当每一阶段的得益都是A时, A 现在值就是
• 重复博弈的各阶段有时间次序,各阶段的得益也有时 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 • 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1

1 r
• 则重复T次,各阶段的得益分别为a1,a2, …,aT时的总 得益的现值就是
• 2.基本概念 • (1)设G是一个基本博弈(动静都可以,但一 般研究静态),重复进行T次,并且每次重复之 前各博弈方都能看到此前的博弈结果,这样的博 弈过程称为“G的T次重复博弈”,记为G(T), G称为G(T)的原博弈,每一次重复称为G(T) 的一个阶段。 • 重复博弈的每一个阶段都是独立的博弈,各方都 有得益。这是与一般动态博弈的重要不同。另一 方面,重复博弈中各阶段的博弈方和博弈内容都 必须相同,与一般的动态博弈也不同。
1 p (1 p) A a1 a2 a3 2 1 r (1 r )
2 (1 p) 1 p t 1 at at , 其中 t 1 (1 r ) 1 r t 1 t 1 t 1

第六章 重复博弈和策略行动(博弈论教程-石家庄经济学院,于振英)汇编

第六章  重复博弈和策略行动(博弈论教程-石家庄经济学院,于振英)汇编

三、重复次数不确定:随时终止 (二)案例研究 D:defection C:collabrate 1.符号设定与矩阵 H:high L:low 乙 背叛 合作 背叛 D,D H,L 甲 H C D C,C 合作 L,H
2018年12月16日
L
29
博弈论第六章 重复博弈的类型
5 1 1
2 博弈论第六章 重复博弈的类型
5

1
18
第一节
重复博弈的类型
二、无限次重复 (一)案例:寡头削价竞争 3.证明:触发策略即为纳什均衡 (2)情形二:寡头2合作 寡头2:选择“高价”,第一阶段得益 =4 寡头1:合作,永远选择“高价” 寡头2:其余阶段选择“高价”,得益 V 4 V =δ·V,总得益

t 1
2018年12月16日
博弈论第六章 重复博弈的类型
12
第一节 重复博弈的类型
一、有限次重复 (四)重复博弈的要素 1.策略 博弈方在每个阶段针对每种情况如 何行为的计划 2.子博弈 从某个阶段(不包括第一阶段)开 始,包括此后所有的重复博弈部分
2018年12月16日
博弈论第六章 重复博弈的类型
2018年12月16日
博弈论:重复博弈 策略行动与可信性
36
第二节 策略行动与可信性
一、策略行动 (二)研究前提:先行一步 1.先行动者的行动具有可观察性 狗能够观察到人蹲下
你不蹲下, 我怎么知道 你要打我?
2018年12月16日
博弈论:重复博弈 策略行动与可信性
37
第二节 策略行动与可信性
27
第一节
重复博弈的类型
三、重复次数不确定:随时终止 (一)引入下阶段博弈结束的概率:p 3.p、δ与博弈策略 p大→R(背叛的即时收益)小→合作 策略 δ 大→R (背叛的即时收益)小→合作 策略 1

第六章重复博弈与合作行为

第六章重复博弈与合作行为

第6章重复博弈与合作行为张维迎教授北京大学光华管理学院序惯博弈与重复博弈•序惯博弈(sequential game):参与人在前一个决策点的选择决定随后的子博弈的结构,因此,从后一个决策点开始的子博弈不同于从前一个决策点开始的子博弈,或者说,同样结构的子博弈只出现一次;•重复博弈(repeated game):同样结构的博弈重复多次,其中的每次博弈被称为“阶段博弈”(stage game).重复博弈的三个特征•阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构;•所有参与人观察到博弈过去的历史;•参与人的总支付(报酬)是所有阶段博弈支付的贴现值之和;重复博弈和信誉问题•如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的战略可以选择,均衡结果可能与一次博弈大不相同。

•重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释;在囚徒困境中,一次博弈的唯一均衡是不合作(即坦白)。

但如果博弈无限重复,合作就可能出现。

囚徒困境博弈合作不合作合作不合作3,3-1,4 4,-10,0A B重复博弈与战略空间的扩展•假定上属博弈重复多次或无限次;那么,每个参与人有多个可以选择的战略:仅举几例:•All-D: 不论过去什么发生,总是选择不合作;•All-C: 不论过去什么发生,总是选择合作;•合作-不合作交替进行;•tit-for-tat: 从合作开始,之后每次选择对方前一阶段的行动;•trigger strategies: 从合作开始,一直到有一方不合作,然后永远选择不合作。

“囚徒困境”的一般表示合作不合作合作不合作T ,T S ,RR ,SP ,P满足:R>T>P>S; (S+R)<T+T支付函数•双方都不合作:•对的解释:–贴现率;–博弈继续的概率;–二者的结合;–一般化:未来收益的重要程度δδδδ−=++++=11...d)-all d,-all (32PP P P P V δ无名氏定理(Folk Theorem)•在无限次重复博弈中,如果参与人对未来足够重视(足够大),那么,任何程度的合作都可以通过一个特定的子博弈精炼纳什均衡得到。

博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理

博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理

博弈论与信息经济学第6章完全且完美信息动态博弈——重复超级博弈-连锁店悖论-无名氏定理博弈论与信息经济学第6章完全且完美信息动态博弈——重复/超级博弈-连锁店悖论-无名氏定理经济学院丁言强内容提要重复博弈与战略空间有限次重复博弈:连锁店悖论无限次重复博弈冷酷战略与针锋相对战略无名氏定理阿伯罗定理: 两期战略序贯博弈与重复博弈序贯博弈的特征是,参与人在前一个阶段的行动选择决定随后的子博弈的结构,因此,从后一个决策结开始的子博弈不同于从前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一次。

动态博弈的另一种特殊但是非常重要的类型是所谓的“重复博弈”,就是同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。

在每个阶段博弈,参与人可能同时行动,也可能不同时行动,在后一种情况下,每个阶段博弈本身就是一个动态博弈。

重复博弈的3个基本特征重复博弈可能是不完美信息博弈,也可能是完美信息博弈,但在博弈论中一般指的是前一种情况。

(1)阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段博弈的结构;(2)所有参与人都观测到博弈过去的历史;(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。

重复博弈的战略空间战略是一套完备的相机行动规则,它必须说明在每一种可能的状态下参与人的行动选择,即使参与人并不预期这种状态真的会出现。

因为可以观察到其他参与人过去行动的历史,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史。

所以,参与人在重复博弈中的战略是定义在博弈历史上的每个阶段博弈中的行动选择规则,即从博弈历史到行动空间的映射。

重复博弈的战略空间参与人在重复博弈中的战略空间远远大于且复杂于在每一个阶段博弈中的战略空间。

比如说,即使囚徒困境博弈只重复5次,每个囚徒的纯战略数量大于20亿个,战略组合的数量更多。

所以,重复博弈可能带来一些“额外的”均衡结果,这些均衡结果在一次博弈中是从来不会出现的。

[小学教育]重复博弈

[小学教育]重复博弈

博弈论与信息经济学
2018年9月10日10时10分
经济管理学院 曹正勇
博弈论与信息经济学
2018年9月10日10时10分
经济管理学院 曹正勇
博弈论与信息经济学
2018年9月10日10时10分
经济管理学院 曹正勇
博弈论与信息经济学
重复博弈的得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
L 0,2 0,2 1,1
厂 H 商 M 1 L
H 8,8 7,1 3,1
L 1,3 1,3 2,2
三种可选战略博弈
两次重复三种可选战略博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 博弈方1:第一次选h;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博伊方1
博弈论与信息经济学
1、重复博弈的定义及特征 (1) 定义: 重复博弈指同样结构的博弈重复多次, 其中每次博弈称为阶段博弈。 (2) 特征: A、阶段博弈之间没有“物质”上的联系,即 前一阶段的博弈不改变后一阶段博弈的结构; B、所有参与人都观测到博弈过去的历史; C、参与人的总支付是所有阶段博弈支付的 贴现值之和或加权平均值。
例:有限次重复囚徒困境博弈
2018年9月10日10时10分
经济管理学院 曹正勇
博弈论与信息经济学
如果我们以该博弈作为原博弈G进行重复博弈,
结果是否会与一次性博弈有所不同,还是仍然是一次
性博弈的简单重复呢? 如果重复的次数是两次,则该重复博弃的现实意 义可以理解为官方给这两个囚徒两次机会,他们最后 的得益(被关年数的负值表示的负效用)是两个阶段博
弈中各自得益之和(当然在第二阶段开始之前是让每

以德报德,以直报怨——重复博弈战略

以德报德,以直报怨——重复博弈战略

重复博弈战略是博弈论中的一个重要概念,它指的是在一个博弈过程中,双方参与者不仅仅有一次的决策,而是需要多次反复进行决策。

在这种情况下,双方的策略选择不仅受到对方当前行为的影响,还受到对方未来可能的回应的影响。

在这种情况下,参与者的决策可能会考虑自己的长期利益,而不仅仅是眼前的利益。

而以德报德、以直报怨则是在重复博弈中的一种普遍策略。

以德报德这一策略强调的是合作、信任和责任。

在重复的博弈中,如果双方能够建立起互相信任的关系,相互协作,相互帮助,就能够达成双赢的局面。

在这种情况下,双方都有动力去遵守之前达成的协议,因为他们知道良好的合作关系对双方都是有利的。

这种策略在实际生活中也得到了广泛的应用,比如商业合作中的长期合作伙伴关系、国际关系中的互惠互利原则等等。

以直报怨这一策略则是强调对于对方行为的实时回应。

在重复博弈中,如果一方采取了不公平或者对自己不利的行为,另一方可以通过采取类似的回应来进行反制。

这种策略可以有效地制衡对方的不良行为,保护自己的利益。

另外,以直报怨也可以通过对方的正当行为进行回报来增进双方的合作和信任。

这种策略在博弈论中被广泛研究,并得到了丰富的实例证明。

在现实生活中,以德报德、以直报怨这两种策略都具有重要的指导意义。

比如在企业管理中,建立合作、信任和责任的企业文化能够提高员工之间的协作效率,激励员工为企业的长期利益而努力工作。

在国际关系中,秉持互惠互利原则,遵守国际法规和公平贸易原则,能够更好地维护世界和平与稳定。

以德报德、以直报怨是在重复博弈中能够取得最优结果的普遍策略。

在实际生活中,我们也可以借鉴这些策略,促进合作、信任和责任,维护自身利益的同时也考虑对他人的尊重和回报。

只有在这样的基础上,我们才能够真正实现和谐共赢,推动社会和国际关系朝着更加美好的方向发展。

在现实生活中,我们可以看到许多成功的案例,这些案例都充分体现了以德报德和以直报怨这两种重复博弈策略的重要性。

有些企业在面对市场竞争时,选择与供应商建立长期稳定的合作关系,这样不仅能够获得更好的供应和服务,还能够建立供应商信任,形成良好的合作生态。

重复博弈.ppt

重复博弈.ppt

中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2

博弈论课件4重复博弈

博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理

第六章:重复博弈与合作行为

第六章:重复博弈与合作行为

触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 博弈方1:第一次选h;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博弈方1
14
触发策略的进一步讨论
+3 厂商2 厂 商 1 H M L H 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1 厂 H 商 M 1 L H 8,8 9,3 5,3 厂商2 M 3,9 6,6 5,3 L 3,5 3,5 4,4
4.5 4.51 1
2
如果厂商2偏离上述触发策略,则他在第一阶段所选产
量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
25
无限次重复古诺模型
max 8 1.5 q q 2q max 4.5 q q
q2
2
2
2
q2
2
4.5 4 5.0625 即 9 17 1 1
上述策略是厂商2对厂商1的同样触发策略的最佳反应, 否则偏离是最佳反应。
27
低水平的合作
在第一阶段生产q * , 在第t阶段, 如果前t 1阶段的结果都 是 q *,q * , 则继续生产q *, 否则生产古诺产量qc 2。

博弈方1:在第一阶段采用H,如果第一阶段结果是(H,H),那么第 二阶段采用M,否则采用P; 博弈方2:在第一阶段采用H;如果第一阶段结果是(H,H),那么 第二阶段采用M,否则采用Q。
16
两市场博弈的重复博弈(重复两次) 两个纯策略NE
一个混合策略NE
厂 商 1
A B
A 3,3 4,1
厂商2
w

31

重复博弈博弈论课件.ppt

重复博弈博弈论课件.ppt
重 复 博 弈
重复博弈

动态博弈的类型

序贯博弈sequential game

每一个阶段的博弈结构是不同的,即从后一个决策结开 始的子博弈不同于从前一个决策结开始的子博弈。或者 说,同样结构的博弈只出现一次。 是指同样结构的博弈重复多次,其中的每次博弈称为 “阶段博弈”。如“囚徒困境”中小偷每次作案后判刑 释放后又作案。 分为有限次重复博弈与无限次重复博弈
H H 厂商1 M L 5, 5 6, 0 2,0
厂商2 M
L 0,2 0,2 1,1
0,6 3,3 2,0
触发策略可信的情况
博弈方1:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用P 博弈方2:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用Q
博弈方1 H M L P Q
5,5 6,0 2,0
重复两阶段三价博弈的等价博弈:如果 认为触发策略不可信,即不可信报复, 最佳选择为(M,M)
触发策略可信性问题



实际上,触发策略中的报复机制的可信性是一个很复 杂的问题,会受到相互预期等很多复杂因素的影响。 例如,未偏离的一方并不想报复偏离的一方,而偏离 的一方却因为害怕报复而采用L,结果心慈手软的未偏 离一方再次遭受损失,这种可能性的存在会使得报复 机制实施的可能性增加。 此外,考虑策略的制定者和执行者分离的情况,执行 者会严格执行决策者指令的情况等等。


在有限次重复博弈中,如果原博弈存在唯一的纯策略NE, 则有限次重复博弈的唯一的均衡解就是各博弈方在每阶段 中都采用原博弈的NE。 因为每个阶段NE都是SPNE,即不存在不可信的威胁和许 诺,因此重复博弈的解也是SPNE。

重复博弈

重复博弈

重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约

第六章 重复博弈

第六章  重复博弈



细分礼尚往来策略


惩罚一次的礼尚往来策略,叫做严格礼尚 往来策略:即你这次对我不好,我下次马 上对你不好;你这次改过来对我好,我下 次马上也对你好。 还存在惩罚K次的礼尚往来策略,这就是如 果你的对手在某一阶段博弈中采取背叛策 略,则你在下面连续K个阶段博弈中采取背 叛策略来惩罚他。实际上冷酷策略也可以 被叫做惩罚无穷次的礼尚往来策略。

囚徒困境博弈重复无穷多次而不是有限次 时,结果是否与一次博弈的结果一样呢?





一、在分析之前,先介绍博弈重复多次时 常见的策略。 依存策略 触发策略 冷酷策略 礼尚往来策略

在重复博弈中,互动关系的序贯意味着先 前双方的博弈行为,决定自己下一阶段的 策略选择。这种策略被称为依存策略或相 机策略。
2 1 r 2 (1 r )
2

2 (1 r )
3

2 (1 r )
4


r 表示投资收益率,1/(1+r)称为折现因子,通常用 δ 表示。折现因子衡量了“未来相比于现在的重要 性”。折现因子越大,表示未来越重要。

当1>2/r时,即周收益率r>200%时,乙选择 永远背叛下去才是值得的。而这种情况几乎 是不太可能的。

一个局中人在决定是否采取背叛行动时,他需 要考虑的是权衡背叛行为所产生的即时收益以 及未来需要承担的损失。而未来承担的损失又 受折现因子δ和博弈持续下去的概率P两个因 素的影响。

如果重复博弈有足够高的概率在某一阶段结束, 也就是P足够小,则通过礼尚往来策略支持的 合作会由于局中人的背叛而结束。

低价
企业甲 高价

重复博弈

重复博弈

重复博弈刘峰 1105060144 司法1101班重复博弈是一种特殊的博弈,在博弈中,相同结构的博弈重复多次,甚至无限次。

本文通过运用博弈论对企业合作行为的形成机理和实施条件进行了简要的剖析,最终认为重复博弈激励企业合作,同时企业合作是合作企业集体理性的结果。

“囚徒困境”在经济生活中具有很大的普遍性,在资源利用和环境保护,以及政治、军事和法律等各种领域的问题中,都存在类似的“囚徒困境”的现象。

“囚徒困境”中的参与人基于个体理性所作的选择,均衡解都是非合作的。

那么,经济理性的前提下,是否存在合作的博弈均衡呢?考虑博弈对局反复进行多次的情况,结局可能会有所不同。

因为博弈如果只进行一次,参与人就只关心一次博弈的支付;但如果博弈将重复多次,短期机会主义行为的所得可能是微不足道的,参与人可能会为长期利益暂时牺牲眼前利益从而选择不同的策略。

在“囚徒困境”例子中,如果两人是一对经常合谋犯罪的惯犯,他们有一个长期的攻守同盟,被抓捕受审时就会考虑,这次我被判了,他下次他一定会报复我,共同抵赖的合作均衡就可能出现。

美国密执安大学的艾克赛罗教授曾邀请博弈论专家就“囚徒困境”提交计算机程序,以竞赛的方式决出最优程序,结果是一种被称作“针锋相对”的最简单的程序胜出。

这一程序以合作的策略开始,以后每一次选择都模仿对方上一次的选择,即如果对方合作,自己也选择合作,如果对方不合作,自己也立即选择不合作进行报复,如果对方“改过自新”重新采取合作的态度,自己也不计前嫌,继续与对方合作。

值得注意的是,从理论上说,“针锋相对”策略的胜出有一个十分重要的条件,即博弈是无限次重复的,也就是说,对局双方都预期这一博弈将永远持续下去,如果对局是有限次的话,上述结论将不再有效。

本文认为战略联盟是企业间在重复博弈的理性选择。

自从战略联盟的概念被提出以来,就受到了管理学界和企业界的广泛关注。

战略联盟一般是由具有共同利益关系的单位之间组成的合作共同体,他们可能是供应商、生产商、分销商之间形成的合作联盟,甚至是竞争者之间形成的合作联盟,战略联盟是企业间相互博弈,形成集体理性,进行合作的结果。

第讲博弈论重复博弈课件

第讲博弈论重复博弈课件
反悔去用其他策略?
• 如果你知道对方会一直坦白,那么你的最佳应对是一直坦白 • T,T,T,T,… • T,T,T,T,…
第讲博弈论重复博弈
24
重复博弈和无名氏定理
• 考虑下列所谓的“冷酷策 略”(grim strategies):
• 开始时选择抵赖;
• 选择抵赖直到有一方选择
囚 徒
1
了坦白,然后永远选择坦
19
• 当博弈有多个纳什均衡时,参与人可以使用不同的纳什均衡惩罚 前面阶段的不合作行为或奖励第一阶段的合作行为。
• 从而迫使大家合作
第讲博弈论重复博弈
20
今天欺骗的收获 合作后的收获(承诺) – 欺骗后的收获 (威胁)
教训:在发展关系的时候,承诺合作后的收益以及威胁欺骗的惩罚, 有时能够激励今天良好行为的发生。 而这种行为,有助于创建一个好的未来!
• 但这个机会主义行为将触发他的伙伴选择“永远坦白” 的惩罚,因此i随后每个阶段的支付都是-8。
• 因此,如果下列条件满足,给定对手没有选择坦白,i 将不会选择坦白
0 a ( 8 ) a 2 ( 8 ) . . 1 . a ( 1 ) a 2 ( 1 ) ...

8a 1 1a 1a
第讲博弈论重复博弈
• 今天投资100万元的项目,将来如能收回200万,也不能证明此项投资一定有效。因为如果这回收的 200万要等50年之后,今天衡量的价值就远低于100万。这是由于如果利率是3%,100万元存银行,50
年内得到的利息也将达338万元(利率为2%的话,50年的利息为169万元)。所以50年后回收200万的
白。
坦白 抵赖
囚徒2 坦白 抵赖 -8,-8 0,-10
-10, 0 -1,-1

[经济学]博弈论第六章 重复博弈

[经济学]博弈论第六章  重复博弈
2 2 2 2 2 3 4 1 r (1 r ) (1 r ) (1 r )

r表示投资收益率,1/(1+r)称为折现因子。 当1>2/r时,即周收益率r>200%时,乙选择永远背叛下去 才是值得的。而这种情况几乎是不太可能的.因此,当双方 都实行礼尚往来策略时,双方是不会背叛对方的.这样礼尚 往来策略就解决了囚徒困境的难题了!
举例

假如投资收益率为10%(即r=0.1,从而 δ=1/1.1=0.91),并且博弈在持续一期的概率为 35%(即P=0.35),那么投资的有效收益率为:
R 1 1 2.14 0.35 0.91
在前面礼尚往来例子中,假如甲坚持采用礼尚往来策略, 只有当投资收益率大于200%时,乙采用永久性背叛策略就是值 得的。但是如果乙面临10%的投资收益率以及博弈再多维持一 期的概率是0.35时,有效收益率为214%,超过了200%的临界值。 因此,如果重复博弈有足够高的概率在一阶段结束,也就是P 足够小,则通过礼尚往来策略支持的合作会由于局中人的背叛 而结束。
假如在前面那个案例中企业乙背叛了一假如在前面那个案例中企业乙背叛了一个星期后突然又个星期后突然又改邪归正改邪归正选择继选择继续合作则选择合作的这个星期利润只续合作则选择合作的这个星期利润只有有11万因为此时甲企业为了惩罚他的上万因为此时甲企业为了惩罚他的上次背叛使用了低价策略因此这次背叛次背叛使用了低价策略因此这次背叛的收益是的收益是11万在背叛的那个星期获得的万在背叛的那个星期获得的背叛的成本是损失了背叛的成本是损失了44万在背叛后接下来万在背叛后接下来的一个星期发生的那么他这次背叛是的一个星期发生的那么他这次背叛是否值得呢

在囚徒困境中,重复博弈是一种促使局中 人采用合作策略的机制。因为,局中人担 心一次不合作会招致未来合作机会的丧失。 如果未来合作的价值很大,超过采取背叛 策略所能获得的短期收益,则双方会出于 长远利益的考虑,形成非契约的默契,使 彼此都从默契的非契约合约中得到好处。

微观经济学 第17讲-重复博弈

微观经济学 第17讲-重复博弈

两阶段重复博弈
• 不过也说明子博弈完美对于可信性的要求 并不严格。 • 人们可以在第二阶段经过重新谈判都选择 帕累托占优的(R1 , R2),此时(M1 , M2)就不 是最优的 • 为了解决重新谈判这个问题,可以考虑下 面的博弈
两阶段重复博弈
L1 M1 R1 P1 Q1
L2 1,1 0,5 0,0 0,0 0,0 M2 5,0 4,4 0,0 0,0 0,0 R2 P2 Q2 0,0 0,0 0,0 0,0 0,0 0,0 3,3 0,0 0,0 0,0 4,1/2 0,0 0,0 0,0 ½,4
两阶段重复博弈
L1
L2 2,2 M2 6,1 7,7 1,1 R2 1,1 1,1 4,4
M1 1,6 R1 1,1
两阶段重复博弈
• 这里有三个均衡(L1 , L2), (M1 , M2), (R1 , R 2) • 如果G={A1 ,…,An ;u1,…,un }是一个有多个 纳什均衡的完全信息静态博弈,那么重复 博弈G(T)可以存在子博弈精炼解,其中对 每一t<T,t阶段的结果都不是G的纳什均衡 • 这个结论说明,对将来行动所做的可信威 胁可以影响到当前行动。
两阶段重复博弈
• 纯策略均衡(L1 , L2),(R1 , R2),(P1 , P2)和 (Q1 , Q2) • 后面三个纳什均衡处于一个帕累托边界上 • 如果博弈进行两个阶段 • 策略:如果第一阶段(M1 , M2),那么(R1 , R2);如果(M1 ,Z),那么(P1 , P2);如果(x , M2), 那么(Q1 , Q2);如果(y , h),那么(R1 , R2)
两阶段重复博弈
• 此博弈第二阶段均衡为(L1 , L2) • 假如第一阶段,那么博弈变为 参与人2 L2 R2 L1 2,2 6,1 参与人1 R1 1,6 5,5

第五章 重复博弈与合作行为

第五章 重复博弈与合作行为

第五章重复博弈与合作行为第五章重复博弈与合作行为目录5.1 重复博弈的特征5.2 有限博弈5.3 无穷博弈与合作重复博弈的特征重复博弈同样结构的博弈重复多次,其中的每次博弈被称为“阶段博弈”。

三个特征:阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构;所有参与人观察到博弈过去的历史;参与人的总得益是所有阶段博弈得益的贴现值之和。

重复博弈和信誉问题如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。

重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释;在囚徒困境中一次博弈的唯一均衡是不合作(即坦白)。

但如果博弈重复进行会怎样呢?-14不合作4-133合作不合作合作AB囚徒困境的一般形式(R&gt;T&gt;P&gt;S;(S+R)&lt;T+T) PPSRRSTT合作不合作合作AB有限次博弈连锁店悖论无穷博弈与合作假定上述博弈重复多次或者无穷次,那么每个参与人有多个可以选择的策略:ALL-D:不论过去发生什么,总是选择不合作;ALL-C:不论过去发生什么,总是选择合作;合作与不合作交替进行;TIT-FOR-TAT:从合作开始,之后每次选择对方前一阶段的行动;TRIGGER STRATEGIES:从合作开始,一直到有一方不合作,然后永远不合作。

V( ALL-D; ALL-D)=P+??P+??2P+ ??3P+……=P/(1- ??)对?? 的解释:贴现率(DISCOUNT RATE):用来比较未来收到的一元和今天收到的一元之间的价值的一个利率。

博弈继续进行的概率二者的结合一般化:未来收益的重要程度无名氏定理FOLK THEOREM在无限次重复博弈中,如果参与人对未来足够重视( ??2 足够大),那么,任何程度的合作都可以通过一个特定的子博弈完美纳什均衡得到。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

方L
1P
Q
H
5,5 6,0 2,0 0,0 0,0
博弈方2
M
0,6 3,3 2,0 0,0 0,0
L
0,2 0,2 1,1 0,0 0,0
P
0,0 0,0 0,0 4,1/2 0,0
Q
0,0 0,0 0,0 0,0 1/2,4
博弈方1:在第一阶段采用H,如果第一阶段结果是(H,H),那么第 二阶段采用M,否则采用P;
➢ 无限次重复博弈:一个基本博弈G一直重复博弈下去的 博弈,记为G(∞)
6
基本概念
➢ 策略:博弈方在每个阶段针对每种情况如何行 为的计划。
➢ 子博弈:从某个阶段(不包括第一阶段)开始, 包括此后所有的重复博弈部分。
➢ 均衡路径:由每个阶段博弈方的行为组合串联 而成。
7
重复博弈的得益
平均得益:如果一常数作为重复博弈(有限次重复博弈或
➢ 零和博弈是严格竞争的,重复博弈并不改变这一点。
➢ 以零和博弈为原博弈的有限次重复博弈与猜硬币博弈 的有限次重复博弈一样,博弈方的正确策略是重复一 次性博弈中的纳什均衡策略。
盖 正面

币 反面

猜硬币方
正面 -1, 1
反面 1, -1
1, -1
-1, 1
11
唯一纯策略纳什均衡博弈的有限次重复博弈
0,0
两个罪犯的得益矩阵
不合作 R,S
P,P
满足:R>T>P>S; (S+R)<T+T
9
支付函数
➢ 双方都不合作:
V (all - d,all - d) P P 2P 3P ... P 1 1
➢ 对 的解释:
✓ 贴现率; ✓ 博弈继续的概率; ✓ 一般化:未来收益的重要程度
10
两人零和博弈的有限次重复博弈
17
两市场博弈及重复博弈各均衡的平均得益
➢ 不同策略组合、均衡得益图示
厂商2 得益
(1,4) (1.5,3) (3,3)
(2.5,2.5)
(2,2) (3,1.5)
(4,1)
厂商1得益
18
触发策略
➢ 厂商1:第一阶段选A;如果第一阶段结果是(A, A),则第二阶段选A,如果第一阶段结果是(A, B),则第二阶段选B;第三阶段无条件选B。
max8 1.5 q q 2q max4.5 q q
q2
2
2
2
q2
2
2
q2 2.25,此时他的利润为 5.0625
➢ 高于触发策略第一阶段得益4.5。但从第二阶段开始,厂 商1将报复性地永远采用古诺产量2,这样厂商2也被迫 永远采用古诺产量,从此得利润4。因此,无限次重复 博弈第一阶段偏离的情况下总得益的现值为:
博弈方2:在第一阶段采用H;如果第一阶段结果是(H,H),那么 第二阶段采用M,否则采用Q。
16
两市场博弈的重复博弈(重复两次)
厂 商
A
1B
厂商2
A
B
3,3
1,4
4,1
0,0
两市场博弈
➢ (A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) ➢ 连续两次采用混合策略——(2,2) ➢ (A,B)+(B,A) OR (B,A)+(A,B)——(2.5,2.5)轮换策略 ➢ 一次纯策略+一次混合策略——(1.5,3)(3,1.5)
➢ 定理:设原博弈G有唯一的纯 策略纳什均衡,则对任意正整数 T,重复博弈 G(T)有唯一的子 博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均 衡策略。各博弈方在G(T)中的 总得益为在G中得益的T倍,平 均得益的等于原博弈G中的得 益。
囚徒2
坦 白 不坦白
囚 徒
坦白
-5,-5
0,-8
1 不坦白 -8,0 -1,-1
触发策略:第一阶段采用H,如果前t-1阶段的结果都是 (H,H),则继续采用H,否则采用L。
如果博弈方2采用L,总得益现值为
5 1 1 2 5 1
如果博弈方2采用H,总得益现值为
V 4 V 因此当 1/ 4 时,此触发策略纳什均衡策略
23
两寡头削价竞争无限次重复博弈的民间定理
厂商2 得益
3
重复博弈的三个特征
➢ 阶段博弈之间没有“物质上”的联系(no physical links),也就是说,前一阶段的博弈 不改变后一阶段的结构;
➢ 所有参与人都观察到博弈过去的历史; ➢ 参与人的总支付是所有阶段博弈支付的贴现值
之和。
4
影响重复博弈均衡结果的因素
➢ 博弈重复的次数 ✓ 重复次数的重要性来自于参与人在短期利益和长远 利益之间的权衡。这是重复博弈分析给出的一个强 有力的结果,为现实中观测到许多合作行为和社会 规范提供解释。
否则从此永远是 w 0 。 工人的策略是如果 w w 则接受,否则宁
0
愿作个体户得到 w ,并在以前各期结果都是(w* , y) 0
和当前工资率为 w* 时努力工作,否则偷懒。
33
考虑如下的触发策略
设厂商已采用上述触发策略。由于 w* w0 ,
工人接受工作是最佳反应。用 V 记工人努 e
力工作时无限次重复博弈得益的现值,则
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
有限次重复博弈不一定考虑贴现因素
无限次重复博弈必须考虑贴现问题 (1 ) t1t t 1
8
“囚徒困境”的一般表示
合作 A
不合作
合作 3,3
B 不合作
-1 ,4
合作
合作 T, T
不合作 S, R
4 , -1
第六章
重复博弈与合作行为
1
序惯博弈(sequential game)
➢ 序惯博弈:参与人在前一个决策点的选择决定随后的
子博弈的结构,因此,从后一个决策点开始的子博弈
不同于从前一个决策点开始的子博弈,或者说,同样
结构的子博弈只出现一次;




不分
不借 (1,0)
(2,2)

(-1,0) (0,4)
* 8 2q* q* 2q* 6 2q* q*
max q2
8
q2* q* 1
62
q22q*
1
q*qd2
6 q*
2 24
29
低水平的合作
d
1
c
6 q* 2
4 4 1
6 2q* q* 1 6 q* 2 4 4 1
q* 29 5
9
30
效率工资(efficiency wage)
2
重复博弈(repeated game)
➢ 重复博弈:同样结构的博弈重复多次,其中的每次 博弈被称为“阶段博弈” (stage game).
➢ 以囚徒困境为例,如果每次判刑不是很重(至少不 是无期徒刑),那么,两个囚徒在刑满释放之后再 作案,作案之后再判刑,释放之后再作案,如此等 等,他们之间进行的就是重复博弈,其中每次作案 是一个阶段博弈。
➢ 信息的完备性(completeness)
✓ 当一个参与人的支付函数(特征)不为其他参与人 所知时,该参与人可能有积极性建立一个“好”声 誉以换取长远利益。这一点可以解释为什么那些本 质上并不好的人在相当长的时期内干好事。
5
基本概念
➢ 有限次重复博弈:给定一个基本博弈G(可以是静态博 弈,也可以是动态博弈),重复进行T次G,并且在每 次重复G之前各博弈方都能观察到以前博弈的结果,这 样的博弈过程称为“G的T次重复博弈”,记为G(T)。 而G则称为G(T)的“原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。

V (w* e) V
e
e
V (w* e) (1 ) e
34
考虑如下的触发策略
用 V 记工人选偷懒时无限重复博弈得益的现值,则:
s
V
w* ( pV
(1 p)
14
触发策略的进一步讨论
厂H 商M 1L
H
5,3,3 2,0
三价博弈
L
0,2 0,2 1,1
厂H 商M 1L
H
8,8 9,3 5,3
厂商2 M
3,9 6,6 5,3
L
3,5 1,3 4,4
重复三价博弈的等价博弈:不可信报复
15
触发策略可信性较强的博弈
H
博 弈
M
➢ 厂商2:第一阶段选A,第二阶段无条件选B,如果第 一阶段结果是(A,A),则第三阶段选A;如果第一 阶段结果是(B,A),则第三阶段选B。
➢ 均衡路径:(A,A)—(A,B)—(B,A)
19
有限次重复博弈的民间定理(Folk Theorem)
厂商2 得益
(1,4)
w=(1(1,.11) )
➢ 个体理性得益(Individual Rationality Payoff) : 不管其它博弈方的行为如何,一博弈方在 某个博弈中只要自己采取某种特定的策略, 最低限度保证能获得的得益
(-5,-5)
囚徒2
坦 白 不坦白
囚 坦白 -10,-10 -5,-13
徒 1
不坦白
-13,-5
-6,-6
(-10,-10)
12
有限次重复博弈:连锁店悖论(chain_store paradox)
进 进入 入 者 不进入
在位者
默许
斗争
40,50
-10,0
0,300
0,300
市场进入博弈
有唯一纯策略纳什均衡 (40,50) 有限次重复的结果仍然是 (进入,默许)
相关文档
最新文档