重复博弈
第六讲 重复博弈
at a1 a2 aT
t 1 T 1 t 1
T
• 无限次重复博弈的总得益的现值就是
t 1
t 1
at a1 a2
T 1
aT
• 平均得益:如果一个常数A作为重复博弈的各个阶段 的得益,能产生与得益序列a1,a2, …,aT相同的现在 值,就称A为a1,a2, …,aT的平均得益。 • 如果不考虑贴现因素,可让贴现率为1,就可以同样 适用上述定义。 • 在无限次重复博弈中,当每一阶段的得益都是A时, A 现在值就是
• 重复博弈的各阶段有时间次序,各阶段的得益也有时 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 • 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1
1 r
• 则重复T次,各阶段的得益分别为a1,a2, …,aT时的总 得益的现值就是
• 2.基本概念 • (1)设G是一个基本博弈(动静都可以,但一 般研究静态),重复进行T次,并且每次重复之 前各博弈方都能看到此前的博弈结果,这样的博 弈过程称为“G的T次重复博弈”,记为G(T), G称为G(T)的原博弈,每一次重复称为G(T) 的一个阶段。 • 重复博弈的每一个阶段都是独立的博弈,各方都 有得益。这是与一般动态博弈的重要不同。另一 方面,重复博弈中各阶段的博弈方和博弈内容都 必须相同,与一般的动态博弈也不同。
1 p (1 p) A a1 a2 a3 2 1 r (1 r )
2 (1 p) 1 p t 1 at at , 其中 t 1 (1 r ) 1 r t 1 t 1 t 1
博弈论(重复博弈)
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集
例
B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0
第四章 重复博弈
通用面粉
策略 无广告 12,12 20,1 中等强度 1,20 6,6 高强度 -1,15 0,9 无广告 中等强度
凯洛格
高强度
15,-1
9,0
2,2
纳什均衡
无限重复博弈
如果企业每年都进行这种一次博弈,并且永远进行下去,这时参与人可以对对 手的“欺骗”行为进行惩罚或报复。在这种情况下,共谋起作用吗?
4.2.2 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2 有限次重复的囚徒困境博弈
凯洛格
中等强度 高强度
Kellogg从欺骗行为中获得的好处:
欺骗 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i – 假设i = .05 欺骗 - 合作 = 8 - 10/.05 = 8 - 200 = -192 欺骗没有好处. – 在无限次重复博弈中共谋是纳什均衡!
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高
无广告 中等强度 高强度
欺骗行为的收益和成本
如果 当前收益 > 未来成本的现值
–
欺骗行为是有利的 欺骗行为没有好处
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高强度 -1,15 0,9 2,2 无广告 中等强度 高强度
一次广告博弈
重复博弈
在有限次重复博弈中,如果原博弈存在唯 一纯策略纳什均衡组合,则重复博弈的唯 一子博弈完美纳什均衡解为各博弈方在每 阶段都采取的原博弈纳什均衡策略 由于完全理性的博弈方具有对“共同知识” 的分析推理能力,因此在从最后阶段开始 的逆推过程中,仍然无法摆脱囚徒困境 由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺, 因此这种均衡是子博弈完美纳什均衡
重复博弈
定义:给定一个博弈G(静态或动态),若 重复进行T次G,并且在每次重复之前各博弈 方都能观察到以前博弈的结果,则称G有一 个“T次重复博弈”,记为G(T) 其中,G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段 重复博弈是一种特殊的动态博弈 与静态和动态都有关系
本章主要结论 由于参与者在重复博弈中具有了长期利益 可通过在后阶段中的报复策略使威胁变得 可信 从而可能摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作
但是在后续阶段中只能得到古诺产 量下的利润4,总收益: 5.0625+4(δ + δ*δ +…)= 5.0625+4 δ /(1- δ) (2) 如果得益满足(1)大于(2),触 发策略下保持合作的垄断产量将构 成子博弈完美纳什均衡 这要求:δ≥9/17
一般结论:在触发策略1中,如果满足条件 δ≥9/17,博弈方可以通过古诺产量作为 威胁,迫使对方合作达成帕累托最优的垄 断产量 如果允许其它利润较低的可实现得益,相 应的贴现系数要求是否可以降低(即博弈 方是否可以不那么看重未来长期利益)? 触发策略2:第一阶段生产q*,如果前(t- 1)阶段结局都是(q*,q*),那么继续生产q* , 否则采取纳什均衡的斗争能 起到一种威慑作用,使进入者不敢再进入 下一个市场 但在有限次重复博弈中,斗争并不是一个 可信的威胁 设前 19 个市场已被进入,进入者现在要进 入第20个市场 因为在最后阶段斗争已没有任何威慑意义, 在位者的最优选择是默许,进入者将选择 进入
第十二讲重复博弈
如果不论对方选择什么,非理性囚徒 总是选择D(合作),那么,合作均衡 就不会出现,因为给定非理性囚徒总 是选择D的情况下,C是理性囚徒的占 优战略。
54
3 g = (a − c ) 8
2 i
i的最优利润为
2 i
9 2 π = (a − c ) 64
20
j 的冷酷策略:
(1)首先选择 合作即生产量为 (2)如果i选择 2 背叛即生产量为, i 则j将永远选择 不合作。
1 g = (a − c ) 4
1 j
3 g = (a − c ) 8
21
企业i没有积极性偏离合作均 企业 没有积极性偏离合作均 衡的条件为
ui = 50 + δ 50 + • • • + δ 1− δ = 50 1− δ
T T −1
50
7
定理1.设G是价格博弈,G(T)是 G重复博弈T,
• 如果G有唯一的纳什均衡, • 则G(T)的唯一子博弈精 • 炼纳什均衡是G的纳什均衡 • 重复T次。
8
例2,掷硬币游戏
正 正 反 -1,1 1,-1
34
特别地,
• 在有限次重复囚徒博弈中,每次都选择 “坦白”是每个囚徒的最优战略。 • 这一结果与人们的直观感觉不一致。 • 阿克斯罗德( 1981)的实验结果表明,即 • 使在有限次重复博弈中,合作行为也频繁 • 出现。
35
二、悖论的破解:声誉模型
• 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(1982) • 将不完全信息引入重复博弈 • 参与人对其他参与人支付函数或策略的不完全信 息对均衡结果有重要影响, • 合作行为在有限次博弈中会出现,只要博弈重复 的次数足够长(没有必要是无限的)。 • 特别地,“坏人”可能在相当长一段时期表现得 像“好人”一样。
重复博弈
©2008仅供课程参考。
未经许可,请勿传播1博弈论与信息经济学重复博弈姚洪心重复博弈的现象•1.王朝更替(分久必合,合久必分)•2.情侣相处•3.政治集团的制衡与风险期(吴三桂为什么要在晚年叛变,死前封帝?)©2008仅供课程参考。
未经许可,请勿传播2重复博弈•一次动态博弈也称为“序贯博弈”。
•重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。
如囚徒困境。
•重复博弈的特征:✓1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的结构;✓2、所有参与人都观测到博弈过去的历史;✓3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。
贴现因子:下一期的一单位支付在这一期的价值。
注意:在每个阶段,参与人可同时行动,也可不同时行动。
©2008仅供课程参考。
未经许可,请勿传播3重复博弈©2008仅供课程参考。
未经许可,请勿传播4重复博弈©2008仅供课程参考。
未经许可,请勿传播5重复博弈因为其他参与人过去的历史总是可以观测到的,因此,一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史,因此,参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间,这意味着,重复博弈可能带来一些“额外”的均衡结果。
影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。
博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。
信息的完备性:当一个参与人的支付函数不为其他参与人知道时,该参与人可能有积极性建立一个“好”的声誉以换取长远利益。
©2008仅供课程参考。
未经许可,请勿传播6重复博弈和无名氏定理•有限次重复博弈—连锁店悖论重复博弈冷酷策略©2008仅供课程参考。
未经许可,请勿传播9冷酷型重复博弈囚徒A争锋相对的重复博弈•12345•行抵赖坦白抵赖坦白抵赖•列抵赖抵赖坦白抵赖坦白背离争锋相对•12345•行抵赖坦白坦白坦白坦白•列抵赖抵赖坦白坦白坦白©2008仅供课程参考。
重复博弈的名词解释
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
第四章 重复博弈
假设某参与人在无限次重复博弈的一个均衡 路径上各阶段博弈的收益为πt,则该参与人 无限次重复博弈的总收益(即各阶段收益 的贴现值)为
PV 1 2 2 3 t 1 t
t 1
定义: 给定一个博弈G,无限次重复进行G博弈的 过程称为G的“无限次重复博弈”,记为 G(∞,δ),其中δ是参与人收益的贴现系数 (是所有参与人共同的贴现系数)。并且 在进行第t阶段(第t次重复)博弈之前,参 与人都能看到(t-1)阶段博弈的结果。 各参与人在G(∞,δ)中的收益等于各阶段收 益的贴现值。
4、子博弈完美纳什均衡 参与人2的收益:
(1)参与人2不合作
U 5 1 1 1 5
2 3
1
(2)参与人2合作
V 4 V 4 V 1
(3)参与人合作的条件:V≥U
4 5 1 1 1 4
1 当 4
– 平均期望收益为(1.5,3)。
• 第一次是混合战略均衡,第二次是纯战略均衡(B, A);
– 平均期望收益为(3,1.5)。
4、三次重复
–三次重复博弈中,除了有与上述类似的均衡战略组合 外,还有以下战略可以构成子博弈完美纳什均衡
• 厂商1的战略:
第一阶段博弈选A; 第二阶段的行动选择取决于第一阶段的结果 第三阶段无条件选B。
参与人正确的战略就是在每次重复博弈中都采
用一次性博弈的纳什均衡策略。
三、有限次重复博弈—囚徒的困境
假设:
有两个惯犯,每次判刑都不是很重。在刑 满释放之后再作案,作案之后再判刑; 刑满释放之后又作案,如此反复。 他们反复作案之后接受隔离审查过程就是 一个重复博弈的过程。
重复两次:
逆向归纳法求解
重复博弈
重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约
@第4章 重复博弈
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)
重复博弈
1 P 1 e w e e 时,努力工作是工人 0 (1 P) (1 P) 的最佳选择,也就是说,要使工人努力工作,y w*不仅要包括工人个体收入 w0
* 当 Ve Vs ,即 w w0
1 e。 和努力工作的负效用e,还要有一点升水 (1 P)
6 随即停止的重复博弈的期望得益现值:
E[ 1 ]
E[ 2 ]
E[ t ]
上述结果说明无限次重复博弈和随机停止博弈具有统一的表示形式。
7 重复博弈的几个重要理论成果
无纯策略 混合策论 有唯一纯策略
有纯策略 有多个纯策略 T h:存在合作的可能 (Folk Theorem, Friedman,1971) 三价博弈 两市场博弈
1 * e ,则只要各阶段得益 y w 0 ,厂商选择前述触 (1 P) * 发策略就是对工人触发策略的最佳反应。故在满足 y w 0 和工资率 w* w0 e 1 * e 时,双方触发策略构成一个纳什均衡。而 y w 0 (1 P) 1 * e 意味着工人努力工作产出减去努力工作的负效用 和 w w0 e (1 P) w* w0 e
e越大,工资补偿越多;
越小,说明未来利益越不重要,工人更看重当前利益,当前工资也必须高;
P越高,工人丢饭碗的风险越小,除非工资更高,否则工人宁愿偷懒。 计划经济体制下劳动者偷懒总是难以被发觉或无人认真发觉,工资又是固 定在平均水平,无任何刺激,故工人必然倾向于偷懒。
* 而若工人已采用触发策略,则对工人的选择,厂商给的工资率 w 若满足
重复博弈
重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。
重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。
重复博弈
4.重复博弈问题:在旅游地很容易出现假货,而在居民小区的便利店则很少出现假货,为什么?重复博弈是指由同样结构的基本博弈重复多次进行构成的博弈过程,其中的每次博弈称为阶段博弈。
给定一个基本博弈G(可是静态或动态博弈),重复进行T次G,并且在每次重复G之前各参与人都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。
而G 则称为G(T)基本博弈,G(T)中的每次重复称为G(T)的一个“阶段”重复博弈具有三个特征:1、阶段博弈之间没有“物质上”的联系(no physical links),即前一阶段的博弈不改变后一阶段博弈的结构。
(每阶段博弈的结构相同,都是独立的)2、所有参与人都能观察到博弈过去的历史(完全信息)。
3、参与人的总支付是所有阶段博弈支付的贴现值或加权平均值。
参与人是从总支付最大化的角度进行决策的。
在长期内,参与人之间的行为可能相互影响,合作或者报复不合作者(便利店老板就比较害怕报复),这样,在博弈的一个阶段支付大并不意味着在长期内的支付也大,所以,在重复博弈中参与人必须考虑到长期利益。
现实中的例子:寡头门在市场上的长期竞争,如价格战,市场份额战等;两个企业履行长期协议;商业中的回头客等4.1有限次重复博弈重复次数较少的有限次重复博弈可以不考虑贴现问题。
4.1.1零和博弈有限次重复博弈在零和博弈中,一方所得及为另一方所失,因而即使重复多,也不可能进行合作或报复,所以零和博弈的重复进行对博弈没有影响。
以猜硬币博弈为例,用逆向归纳法证明如下:在博弈的最后阶段T,纳什均衡是双方各以0.5的概率选择正面或反面;在博弈的T-1阶段,纳什均衡纳什均衡是双方各以0.5的概率选择正面或反面;.......上述结论也可以推广到非零和或多个博伊方,但博弈方的利益严格对立,没有纯策略纳什均衡的严格竞争博弈中。
4.1.2存在唯一纯策略纳什均衡博弈的有限次重复博弈参与人的行为不会因为博弈的有限次重复而发生改变,例一:连锁店在位者默许斗争不进入在此博弈中,如果进入者先行动,唯一的子博弈精炼纳什均衡结果是进入者进入,在位者默许(注意,这是一个两阶段动态博弈)。
博弈论重复博弈
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况, 最佳结果(A,A)无法实现是因为两次 博弈中博弈方没有运用触发策略的条件 或机会
两市场博弈的重复博弈(重复三次)
厂 商
A
1B
触发策略:
A 3,3 4,1
厂商2 B
1,4 0,0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
,此时利润为5.0625,高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
两市场博弈的重复博弈(重复101次)结果?
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都 不可能发生合作,博弈方会一直重复原 博弈的混合策略纳什均衡
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。
再重复博弈中,参与人存在着短期利益和长远利益的均衡,有可能为了长远利益牺牲短期利益而选择不同的均衡策略。
有限次重复博弈和无限次重复博弈。
什么是有限次重复博弈
有限次重复博弈是指相同结构的博弈有限次重复进行
无限次重复博弈与有限次重复博弈的共同点:试图“合作”和惩罚“不合作”是实现理想均衡的关键
所谓重复博弈,是指将一个博弈重复进行下去。
我们知道,在单个的囚徒困境博弈中,双方采取对抗的策略可使个人收益最大化
如果就一次性博弈来看,(对抗,对抗)是必然的结果
恋人们之间的博弈。
重复博弈同样可以用来解释商业行为。
■诚信来自重复博弈
:“诚信奇迹无人卖报摊三年口袋里从没少过钱”。
,吴师傅的关于“不敢拿”的判断,似乎更为符合博弈学原理。
我们可以把这个“诚信报摊”看作摊主与买报人之间的博弈,而从博弈过程来看,“诚信报摊”成立第一天那种“每个博弈者都只关心一次性支付的简单博弈”已经转变成了“重复的、连续进行的博弈”
“有仇就报,马上就报”如果用博弈论的观点来解释,则可以简单地描述为“针锋相对策略”。
这个如此简单的策略之所以反复赢得竞赛,是因为它奉行了针锋相对的法则,说白了就是一报还一报,即“人不犯我,我不犯人;人若犯我,我必犯人”,但它坚持“有理、有利、有节”的尺度,并且用以下有规律可供遵循的行为将对手纳入长期合作的轨道上来:
第一,善良的,即从不首先背叛;
第二,可激怒的,对于对方的背叛行为一定要报复,不能总是合作;
第三,宽容的,不能人家一次背叛,你就没完没了地报复,以后人家只要改为合作,你也要合作;
第四,易于察觉的,即逻辑清晰,使对手能够很轻易地发现你采取策略的规律,并且领会你的意图。
“针锋相对策略”在实际生活中可以被广泛地应用:
重复博弈:冲突与合作方能共存
一、军队的群体目标下的多人重复博弈
高度统一的一致行动的能力,这就是我们通常所说的战斗力,这是军队能遂行各种任务的前提。
为了实现这一群体目标,军队对于其成员关系、交往方式、群体意识都作了严格的要求,对于分工和群体内规范也都作了细致的安排。
除了这些以外,军队还必须把搞好内部团结,维护整体利益的原则作为管理的一般标准。
二、权威型的管理方式下的管理策略要求
如前所述,军官实行的是权威型的管理方式。
按照这种管理方式,军官必须在大多数情况下独自决定群体决策及分配任务,其策略选择对军队整体有着绝对的影响。
因此,军官通过自己的行为策略对军队施加影响具有了可能性。
(一)对于不合作的违纪情况管理不力(二)对于不同的士兵施用不同的尺度(三)对于有过不合作行为的士兵进行反复的惩罚。
(四)群体目标不明确
三、“一报还一报”策略与管理策略选择
对于这样的条件下的社会群体合作问题,美国学者罗伯特·艾克斯罗德(Robert Axelrod)在多人合作的囚徒困境重复博弈中的研究成果很值得我们参考。
艾克斯罗德假设群体成员能够在无限多次囚徒困境当中不断调整自己的选择,根据以往选择的结果来选择下一次不合作或是合作,并能够把多次的有规律性的选择作为自己的策略。
艾克斯罗德做了一个有趣的实验,
艾克斯罗德发现,这个程序有五个特点:
第一,从不首先采取不合作,即“善良的”;
第二,对于对方的不合作行为一定要报复,不能总是合作,即“ 可激怒的”;
第三,不能对方一次不合作,就没完没了的报复,以后对方只要改为合作,自己也要合作,即“宽容性”。
第四,自己的策略简单而有效
第五,即“不妒忌他人”。
以上的结论意味着,军官在管理的过程中,应该在强调军队纪律与思想教育等手段的基础上,参照以上的行为特点来制定自己的博弈策略。
首先,对于所有的士兵,在第一次博弈中,都应采取善意的合作方式,对士兵的自觉性与能动性给予充分的信任。
其次,对于采取不合作行动,违犯纪律的士兵,一定要说到做到地进行惩罚,军官对士兵的惩罚实际上就是对士兵的不合作,但是注意的是,军官在对不合作者进行惩罚的时候,不能因此使集体的利益受到损害。
再次,对于在下一次博弈中选择了合作的违纪士兵,军官也应该采取合作,采取信任的态度。
第四,军官应该在较短的时间之内,通过口头表达和实际行动,明确自己的策略,使士兵能够迅速地掌握军官的行为方式,从而理解规则,在博弈中调整自己的选择。
最后,军官要坚持自己的策略,不要因为某些士兵在博弈中暂时凭小聪明取得了一时的个人利益而改变自己的策略,这样就能维持规则的稳定性,并且更能在群体中坚持既有的群体目标。
四、军官倡导的“一报还一报”策略会使群体走向合作
“一报还一报”的策略在静态群体的博弈中得到了很好的分数,那么,在一个动态的进化的群体中,持“一报还一报”策略的合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾克斯罗德用生态学的原理来分析合作的进化过程。
为什么我们可以期望群体发生进化呢,因为人们在多人反复博弈中会有一种改变自己策略的能力。
第一,试错。
例如士兵在一个陌生的环境中,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。
第二,影响。
例如一个士兵的合作性好,那么他的周围的士兵受他的影响,合作的可能性就大。
第三,学习。
反复博弈的过程就是群体成员相互学习的过程,如果“一报还一报”的策略好,那么有的人就愿意学。
按这样的思路,艾克斯罗德设计了另一个实验,在63个程序中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。
这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
实验结果很有趣。
“一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。
另外,有一些程序在进化过程中消失了。
因此,可以得出结论,群体是越来越合作的。
以上的结论意味着,假如军官在军队内部管理的博弈中,坚持“一报还一报”策略,可以有效地维持军队内部的合作状态,更能改变士兵的个体策略,使他们也逐步采取“一报还一报”策略,逐步地都在博弈中选择合作。
随着持“一报还一报”策略的群体成员不断增多,不仅仅军队内部的合作性会得到加强,凝聚力和战斗力能够得到保障,更能够创造出一种“官管兵,兵管兵,兵管官”的民主带兵氛围,增加士兵对于部队的主人翁意识,发挥出士兵最大的能动性。
进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。
"
一报还一报"在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。
它赖以生存的基础是很牢固的,因为它让对方得到了高分
只要群体的5%或更多成员是"一报还一报"的,这些合作者就能生存,而且,
2. 只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个
群体。
3. 反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自
下而上的。
在研究中发现,合作的必要条件是:
第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;
第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。
那么,如何提高合作性呢?
首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以维持双方的合作。
(火车站的小贩为什么要骗人?为什么工作中要形成小组制度?换防的时候一方总是要小小地进攻一
下的,在中越前线就是这样)
第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。
第三、要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合
作。
第四、能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步
进行,以促使对方采取合作态度。
第五、不要嫉妒人家的成功,"一报还一报"正是这样的典范。
第六、不要首先背叛,以免担上罪魁祸首的道德压力。
第七、不仅对背叛要回报,对合作也要作出回报。
第八、不要耍小聪明,占人家便宜。
(打桥牌和打麻将的区别)
第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,
也有可能合作。
第二、预见性也不是合作的前提,悔过的一报还一报"效果越好,"宽大的一报还一报"效果
越差。