第四章 重复博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两人零和博弈有限次重复的所有阶段都不可能发生合 作,因为他们的利益关系是完全对立的。博弈方会一 直重复原博弈的混合策略纳什均衡。 两人零和博弈无限次重复的所有阶段都不可能发生合 作,博弈方会一直重复原博弈的混合策略纳什均衡 由于无限次重复博弈没有最后一个阶段,所以无法用 逆向归纳法证明。 类似的方法是从无限次重复博弈的第t阶段,进行逆向 归纳。注意t是任意的。
Cont..
实际上,触发策略的可信性是一个复杂的 问题,会受到各方面因素的影响。例如: 心情,性格等 但并不是每个触发策略都不可信。所以 利用触发策略分析重复博弈是有价值的。
三、两市场博弈的重复博弈
厂商2 A 厂 商 1 A B 3,3 4,1 B 1,4 0,0
两市场博弈
4.2.4 有限次重复博弈的民间定理
三、策略、子博弈和均衡路径
策略:博弈方在每个阶段针对每种情况如何行 为的计划。 子博弈:从某个阶段(不包括第一阶段)开始, 包括此后所有的重复博弈部分。 因此:动态博弈的分析方法都可用于重复博弈。 均衡路径:由每个阶段博弈方的行为组合串联 而成。
四、重复博弈的得益
有限次重复博弈的总体得益方法之一: 计算重复博弈的“总得益”——博弈方各次重复 得益的总和。 有限次重复博弈的总体得益方法之二: 计算各阶段的平均得益
厂 H 商 M 1 L H 8,8 9,3 5,3
厂商2 M 3,9 6,6 5,3
L 3,5 1,3 4,4
重复三价博弈的等价模型 不可信报复
第一阶段不管选什么策略,二阶段都选 (M,M),于是将(3,3)加到其余策略上,得到 右边等价的得益矩阵。结果第一阶段最 佳策略不是(H,H),而是(M,M)
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈 一、三价博弈的重复博弈
厂商2 H M L 显然(M,M)(L,L)是纯策略厂 5,5 0,6 0,2 H Nash均衡,但双方最 商 M 6,0 3,3 0,2 1 L 2,0 2,0 1,1 理想的策略(H,H)却不 三价博弈 能实现。 如果对这个博弈重复两次。他的均衡路径很多, 的确可以实现策略(H,H)。
上述策略是厂商2对厂商1的同样触发策略的最 佳反应,否则偏离是最佳反应。
补充:
例题:
假定两家企业A与B之间就做广告与不做 广告展开博弈,它们的报酬矩阵如下:
企业B 做 企 做 业 A 不做 100,100 0,300 不做 300,0 200,200
两企业广告博弈博弈
如果博弈是重复的,但我们不考虑无限 次的情形,假设只进行10次对局。 再假定企业A采取的是“以牙还牙”的策 略,并在第一次对局中不做广告,企业B 也将采取“以牙还牙”的策略。对企业B, 考虑两种不同的情况:在第一次做广告 或第一次不做广告,分别计算这两种情 况下企业B的累计利润,试问企业 B将如 何行动?
无名氏定理(folk theorem)
如果博弈重复无限次,或者每次结束 的概率足够小,如果δ充分接近1,任何 个人理性可行支付向量都可以作为子博 弈精炼纳什均衡结果出现
4.3.3 无限次重复古诺模型
一、古诺模型的无限次重复博弈和支持垄断产量的条件 假定:P = 8 − Q, 其中Q = q + q ,边际成本都为2。 在一次性博弈中唯一的Nash均衡(2,2),古诺产量用qc表 示。如果只有一个垄断厂商,垄断产量qm=3, Nash均 衡的总产量4大于垄断产量3,各厂商生产垄断产量的一半 1.5;双方得益都会增加,但一次性博弈不能实现。 那么,在无限次重复古诺模型中,能实现吗? 可以证明:在无限次重复古诺模型中,当贴现率 δ 满足一 定条件时,两厂商采用下列触发策略构成一个子博弈完美 纳什均衡:
三、有限次重复寡头削价竞争博弈
Fra Baidu bibliotek
寡头2 高 价 寡 高价 头 1 低价 100,100 150,20 低 价 20,150 70,70
有唯一纯策略纳什均衡 (70,70) 有限次重复的结果仍然是 (低价,低价)
削价竞争博弈
四、重复囚徒困境悖论和连锁店悖论
有惟一纯策略Nash均衡的有限次重复博弈的分 析和定理是强烈的,但这与人们的直觉经验有矛 盾,大量的实验研究表明,其结果与理论结果也 不一样。 1978年,塞尔顿提出的“连锁店悖论” 在n个市场(例如n个城市)都开设有连锁店的企业, 对各个市场的竞争者是否应该打击的策略选择?
2
Cont…
但从第二阶段开始,厂商1将报复性地永远采用 古诺产量2,这样厂商2也被迫永远采用古诺产 量,从此得利润4。因此,无限次重复博弈第一 阶段偏离的情况下总得益的现值为: 4δ 5.0625 + 4(δ + δ + ) = 5.0625 + 1− δ
2
4.5 4δ 当 1 − δ ≥ 5.0625 + 1 − δ 即δ ≥ 9 17
第四章 重复博弈
重复博弈: 基本博弈(完全信息静态博弈,完全信 息动态博弈)重复进行构成的博弈过程。
一、为何研究重复博弈 经济中的长期关系,例如 (1)两家企业在一个市场上的长期竞争, (2)市场营销中的回头客问题, (3) 买卖问题。 (4)信任、信誉、声誉问题
4.1 重复博弈引论
人们的预见性。 由于人的思维的限制,在短期行为中缺 乏默契或合作的关系,但在长期中这样 的机会就大得多。即是未来利益对当前 行为的制约
–选择抵赖一直到有一方选择了背叛(坦白),然后永远选择坦 白; –“冷酷”体现在不给对方改正错误的机会。 无限次重复博弈使其走出了囚徒困境,背后的原因是: –如果博弈重复无穷次而且每个人有足够的耐心,任何短期机会主义 行为的所得都是微不足道的,参与人有积极性为自己建立一个乐 于合作的声誉,同时也有积极性惩罚对方的机会主义行为。
二、重复博弈的分类 1、有限次重复博弈:给定一个基本博弈G (可以是静态博弈,也可以是动态博 弈),重复进行T次G,记为G(T)。 而G则称为G(T)的“原博弈”。G(T)中的 每次重复称为G(T)的一个“阶段”。
2、无限次重复博弈:一个基本博弈G一直 重复博 弈下去的博弈,记为G( ∞ ). 注:1、无法验证某个重复博弈会一直重复 下去。 2、如果主观上认为博弈会不断进行下 去,那么博弈就可无限次重复下去。
2
Cont…
如果厂商2偏离上述触发策略,则他在第一阶段 所选产量应为给定厂商1产量为1.5时,自己的最 大利润产量,即满足:
max[(8 − 1.5 − q )q − 2q ] = max(4.5 − q )q
q2
2
2
2
q2
2
2
解得 q = 2.25 ,此时利润为5.0625,高于 触发策略第一阶段得益4.5。
t =1 ∞
注意上式的来历
4.2 有限次重复博弈
4.2.1 两人零和博弈的有限次重复博 弈 4.2.2唯一纯策略纳什均衡博弈 的有限次重复博弈 4.2.3多个纯策略纳什均衡博弈 的有限次重复博弈 4.2.4 有限次重复博弈的民间定理
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈中,所 有博弈方的唯一选择策略是重复一次性博弈中 的纳什均衡策略 (混合策略纳什均衡)。
双方策略为: 博弈方1:第一次选h; 如第一次结果为(H,H), 则第二次选M,否则选L 博弈方2:同博弈方1
厂商2 厂 商 1 H M L H 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1
触发策略(Trigger Strategy):两博弈方先试探合 作,一旦发现对方不合作则也用不合作报复。 触发策略是重复博弈实现合作和高效的关键机制。
假如B在第一次做广告,则B获利300,A 获利为0,企业A采取“以牙还牙”的策 略在第二次对局中也做广告,则两者的 获利各为100,因为企业A已经做广告此 时企业B不能以降低利润为代价不做广告, 所以企业B累计利润 300+100*9=1200; 即(不做,做)(做,做)….(做,做)
企业B第一次不做广告,在理性人的假设 下两者在今后会出现追求私利的现象, 有限次数的重复博弈不能改变囚徒困境 原来的均衡结果,企业B的累计利润可能 为200+100*9=1100。 即(不做,不做)(做,做)….(做, 做)
t =1

四、重复博弈的得益(Cont…)
平均得益:如果一常数π 作为重复博弈(有限次重复博弈或 无限次重复博弈)各个阶段的得益,能产生与得益序列
π 1, π 2 , 相同的现在值,则称π 为π 1, π 2 ,的平均得益
有限次重复博弈不一定考虑贴现因素 无限次重复博弈必须考虑贴现问题π= (1 − δ )∑ δ t −1π t
四、重复博弈的得益(Cont…)
如果重复的时间很长,就应考虑资金的时间价 1 δ = 值,此时考虑贴现系数 1+ r 重复T期的重复博弈总得益为:
π = π 1 + δπ 2 + δ 2π 3 + + δ T −1π T =
t −1 δ ∑ πt t =1
T
重复无限期的重复博弈总得益为:
π = π 1 + δπ 2 + δ 2π 3 + = ∑ δ t −1π t
4.3.2唯一纯策略纳什均衡博弈 的无限次重复博弈 一种情况是:唯一纯策略纳什均衡本身是 帕累托最优的。 另一种情况是:纯策略纳什均衡不是最优 的,可以改善吗?
对无限重复囚徒困境博弈的分析:
对 ∀t ,在第t 阶段开始前的t-1 次阶段的结果都可 知; •须考虑贴现因子 δ (度量收益之和); •参与人i的策略组合有无穷多种,求解子博弈均衡非 常难。 –解决方法:先入为主地给出一些自认为“合理”的 策略,然后再证明其为子博弈精炼均衡解。
1 2
触发策略
在第一阶段生产垄断产量的一半1.5;在第 t 阶 段,如果前 t-1 阶段结果都是(1.5,1.5),则继 续生产1.5,否则生产古诺产量2。 如果采用上述触发策略,每阶段生产产量 (1.5,1.5),每阶段双方得益为π * = 4.5 设厂商1已采用该触发策略,若厂商2也采用该 触发策略,则每期得益4.5,无限次重复博弈 总得益的现值为: 4 .5 4.5(1 + δ + δ + ) = 1− δ
(Cont…)
等价的静态博弈。
厂 H 商 M 1 L H 8,8 7,1 3,1 厂商2 M 1,7 4,4 3,1 L 1,3 1,3 2,2
两次重复三价博弈的等价模型
如对上述博弈重复n次,结果一样。采用触 发策略,得子博弈均衡:第一阶段选 (H,H) ,以后各阶段都选(M,M)
二、触发策略的进一步讨论
-1,-1
(-5,-5)
囚徒2 坦 白 不坦白 囚 坦白 -10,-10 -5,-13 徒 -13,-5 -6,-6 1 不坦白 (-10,-10)
二、一般结论 定理:设原博弈G有唯一的纯策略纳什 均衡,则对任意整数T,重复博弈 G(T)有 唯 一的子博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均衡策略。 各博弈方在G(T)中的总得益为在G中得 益的T倍,平均得益的与原博弈G中的得 益。
1、个体理性得益:博弈方 i 的最小最大值
vi = min max U i (α i , α − i )
α − i ∈A− i α i ∈Ai
2、可实现得益:博弈中所有纯策略组合得益 的加权平均数组
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈 的无限次重复博弈 4.3.3 无限次重复古诺模型 4.3.4 有效工资率 4.3.5信用问题 4.3.6 若干建议与启示
引言
有限次重复博弈和无限次重复博弈的区别: 一是:有限次重复博弈存在最后一次重复,而 无限次重复博弈无最后一次重复。注意到正是由 于有最后一次重复使得有限次重复博已无法实现 高效率。 二是:无限次重复博弈不能忽略资金的时间价 值。但相同之处:都是试图“合作”和惩罚“不 合 作”——关键
4.3.1 两人零和博弈的无限次重复博弈
原因:重复不会改变博弈效率是利益是 对立的不可调和的。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
唯一的Nash均衡有两种: 一是:本身是帕雷托最优的。它都符合双方的利益, 重复不会改变 二是:本身不是帕雷托最优的。重复能否改变得益? 一、有限次重复囚徒的困境博弈
囚徒2 坦 白 不坦白 囚 坦白 -5,-5 徒 1 不坦白 -8,0 0,-8
相关文档
最新文档