第四讲 重复博弈

合集下载

4第四章:重复博弈

4第四章:重复博弈

颤抖手均衡
U
博弈方2 L
10,0
R
6,2
博弈方1
D
10,1
2,0
• 顺推归纳法
1. 顺推归纳法——分析方法,其结果到底是策略还是均衡?
以退为进,迂回争取最大利益。以策略选择为依据,整体形成一 条均衡路径。
2.顺推归纳法与颤抖手均衡不要混为一谈
顺推归纳法的基本前提是博弈方有意识的犯错误以争取更大得益,
1. 重复博弈的策略 在每个阶段(即每次重复),针对每种情况(前期阶段的 结果)如何行为的计划。
2. 重复博弈的子博弈
重复博弈是动态博弈,故其同动态博弈一样既有阶段也有 子博弈。
重复博弈的子博弈是从某个阶段(不包括第一阶段)开始,
包括以后所有阶段的重复博弈部分。 重复博弈的子博弈要么仍然是重复博弈,要么就是原博弈。
蜈蚣博弈
逆推归纳法:博弈的效率越来越低 理论依据
多个纯策略纳什均衡的有限次重复博弈
关注点:原博弈的纳什均衡没有达到帕累托效率,是 否存在通过合作进一步提高效率的潜在可能性及其在有限 次重复博弈中能不能实现合作和提高效率的问题。
1. 三价博弈的重复博弈
博弈模型:
设一市场有两个生产同质产品的厂商,他们对产品
均衡策略(组合)不管是静态博弈还是动态博弈均衡没有强 调策略的次序问题。
如囚徒困境博弈的均衡策略是博弈双方均选择坦白;或如甲
乙开矿法律保障不足的博弈。
3.颤抖手均衡中偶然性犯错及其概率到底如何理解?
颤抖手均衡是在多个纳什均衡中寻找,其偶然性犯错误的概
率恰为多个纳什均衡的混合策略纳什均衡中不同博弈方选择不同策 略的概率。
三、重复博弈的分类
1. 有限次重复博弈 基本博弈进行有限次重复 2. 无限次重复博弈

第四讲重复博弈(下)详解

第四讲重复博弈(下)详解
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
表3 囚徒困境博弈


不招 -5,-13 -6,-6

甲 不招
-10,-10 -13,0
Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgameperfect outcome:the Nash equilibrium of G is played in every stage.
一、无限次重复的囚徒困境
• 以寡头削价竞争为例 • 基本博弈的结果是(L,L)。 寡头1 H L 寡 H 4, 4 0, 5 头 5, 0 1, 1 L 2
引入贴现因子δ, 若某个参与人在某一路 径的各个阶段的支付分别为: π1 、 π2 、……, 则该参与人在该路径的“总支付” π为 无限序列 π1 、 π2 、……的现值之和,即: 0≤δ≤1 δ? π = π1+ δ π2 + δ2 π3 + …… ∞ 当δ 0,行动短视化,时间 = ∑ δt-1 πt t =1 视野往往局限于本期、近期; 当δ 1,参与人有远见,他充分意识到他 现期的行动决策将通过其他参与人的反应影响到 他未来的收益,因而试图跨期协调其行动决策。

4经济博弈论-重复博弈

4经济博弈论-重复博弈

8、第一阶段混合策略,第二阶段(A,B) (3,6)
9、第一阶段混合策略,第二阶段(B,A) (6,3)
5
结论:
轮换策略是该重复博弈的最佳子博弈 完美纳什均衡
三次重复博弈的情形?
厂商1和厂商2可以分别采用如下触发策略:
厂商1:第一阶段选A;如果第一阶段结果是(A,A),则第 二阶段选A,如果第一阶段结果是(A,B),则第二阶段选B; 第三阶段无条件选B。 厂商2:第一阶段选A;第二阶段无条件选B;如果第一阶段 结果是(A,A),则第三阶段选A,如果第一阶段结果是(B, A),则第三阶段选B。
寡 高价 头 1 低价
寡头2 高价 低价
100,100
20,150
150, 20
70, 70
削价竞争博弈
根据前面得到的一般结论,以它为原博弈的有限次重复 博弈的唯一的子博弈完美纳什均衡,就是两博弈方重复5次 原博弈的纳什均衡策略,也就是削价,两寡头还是会不断打 价格战。
4.2 有限次重复博弈
结果为(A,A)、(A,B)、(B,A),得益为(8,8)
证明:
1、第三阶段(B,A)是原博弈的纳什均衡,不会有哪一 方愿单独偏离。
厂A 商
1B
厂商2 A B
3,3
1,4
4, 1
0,0
两市场博弈
证明:
2、第二阶段(A,B)是原博弈的纳什均衡,不会有哪一 方愿单独偏离。
厂A 商
1B
厂商2 A B
总得益
如果一个无限次重复博弈的某博弈方某一均衡下各 阶段得益分别为 p1,p 2 ,L L ,则考虑时间价值的重 复博弈总得益现在值为
¥
å p = p 1 + dp 2 + d 2p 3 + L = d t-1p t

博弈论讲义004

博弈论讲义004

重复博弈的策略、子博弈和均衡路径
(1) 重复博弈的策略。 在动态博弈中,博弈方的一个策略是指每一次轮 到其选择时针对每种可能情况如何选择的计划。由于 重复博弈中每个博弈方在每个阶段都必须进行策略选 择,因此博弈方的一个策略就是在每次重复时, 针对 其前面阶段所有可能的情况如何进行行动的计划。
(2) 重复博弈的子博弈 重复博弈是动态博弈,因此也有阶段子博弈的概念。我 们已经知道子博弈是全部博弈的一部分,当全部博弈进行到 任何一个阶段,到此为止的进行过程已成为各博弈方的共同 知识,其后尚未开始的博弈部分就是一个子博弈。重复博弈 的子博弈就是从某个阶段(除第一阶段以外)开始,包括此 后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是 重复博弈,只是重复的次数较少,要么就是原博弈。 定义:在有限次重复博弈G(T)中,由第t+1阶段开始 的一个子博弈为G进行T-t次的重复博弈。在无限重复博弈G (∞,δ)中,由第t+1阶段开始每个子博弈都等同于初始博 弈G(∞,δ)。
2
终于有一天,有一位女士问他:难道你不知道 10块钱比1块钱更多一些钱吗? 他如此回答道:如果我有一次选择了10块钱, 就不会有人来找我让我在1块钱与10块钱之间选择了, 我也讨不到钱了。
3
第一节 重复博弈基本概念
一次动态博弈也称为“序贯博弈”。 重复博弈:指同样结构的博弈重复多次,其中的每次博弈称为“阶段 博弈”。如囚徒困境。 重复博弈的特征: 1、阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变 后一阶段的结构 ; 2、所有参与人都观测到博弈过去的历史; 3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均 值。贴现因子: 下一期的一单位支付在这一期的价值。 注意:在每个阶段,参与人可同时行动,也可不同时行动。

博弈论课件4-重复博弈

博弈论课件4-重复博弈

4.1.1 为什么研究重复博弈 4.1.2 基本概念


生活中的重复博弈
——你到菜场去买菜,当你担心上当受骗而犹豫不决时,
卖菜的摊主便会对你说:“你放心好了,我天天在这里卖菜, 不会骗你的,如果菜不好你回来找我!‛他强调自己‚天天‛ 在这里卖菜,你通常便会放下心来,与之成交。因为他的这 句话翻译成经济学的语言就是‚我跟你是‘重复博弈’‛! ———而一次性的买卖往往发生在双方以后不再有买卖机会 的时候,特点是尽量谋取暴利并且带欺骗性,比如车站、码 头、旅游景点的东西往往质次价高,其原因就在于买卖双方 很少有‚重复博弈‛的机会。

两人零和博弈的有限次重复博弈 惟一纯策略纳什均衡的有限次重复博弈 多个纯策略纳什均衡的有限次重复博弈 有限次重复博弈的无名氏定理
4.2.1 两人零和博弈的有限次重复博弈

猜硬币博弈
正 面 盖 硬 币 方 正 面 反 面 -1, 1 1, -1
猜硬币方 反 面 1, -1 -1, 1


零和博弈是严格竞争的,重复博弈并不改变这一点。 重复零和博弈不会创造出新的利益。
4.2.1 两人零和博弈的有限次重复博弈



以零和博弈为原博弈的有限次重复博弈与猜硬币博 弈的有限次重复博弈一样,博弈方的正确策略是重 复一次性博弈中的纳什均衡策略。 可用逆推归纳法来证明 可以推广到非零和或多个博弈方,但博弈方的利益 严格对立,没有纯策略纳什均衡的其他严格竞争博 弈中 产生原因:利益关系严格对立,矛盾不可调和

有限次重复博弈民间定理
设原博弈的一次性博弈有均衡得益数组优于w, 那么在该博弈的多次重复中,所有不小于个体理性 得益的可实现得益,都至少有一个子博弈完美纳什 均衡的极限的平均得益来实现它们。

第四讲 重复博弈

第四讲 重复博弈
6
二、正式合同与非正式合约


ห้องสมุดไป่ตู้

市场的本质是交易。交易出现的必要条件:(一) 交 易能带来总收益(社会效率) 的增加,从而使得交易双 方受益,(二),当事人都有充分的信心预期对方能履行 承诺。否则,即使交易能带来社会剩余,交易也不会发 生。发达经济的一个标志是复杂商品的非现货交易. 设想A 与B 事前签署一个合同,规定A 为B 生产这件 物品,B 在收到该物品之后再给A 支付价格P。 那么,A 是基于什么因素作出对B 履行承诺的判断呢? 一个因素是B 的个人品德。但是,在商业社会,交易一 方对另一方的了解是非常有限的,许多交易活动都是 在不认识的人之间进行的。
14
信誉机制发生作用的条件


第三, 当事人的不诚实行为能被及时观察到。这一点 说明,一个高效率的信息传递系统对信誉机制的建立 具有至关重要的意义。一个信息流动缓慢的社会,一 定是一个信誉贫乏的社会。 第四, 当事人必须有足够的积极性和可能性对交易对 手的欺骗行为进行惩罚。“以牙还牙,以眼还眼”不 仅不是不道德的行为,而且是维持社会信用制度的必 不可少的手段。进一步,我们可以说,过分原谅欺骗行 为本身就是不道德的行为。为了使信誉机制发挥作 用,该惩罚而没有采取惩罚措施的人必须受到惩罚 (Abreu , 1988) 。 15
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
一、引言:案例 据《北京晚报》2001年6月20日报道,2001年2月 14日,魏女士到北京建设银行甘家口分理处支取了5 万元现金,随即到相距不到30米的工商银行甘家口储 蓄所存入。工商银行工作人员从中验出两张100元的 假钞。魏女士称,两张假钞是刚在建行取出的一整捆 1万元的现金中发现的,当时封条都没有拆。魏女士 立即返回建设银行要求赔偿,但银行称,钱出了大门, 难以确认假钞是从哪一个环节出现的,银行不能承担 责任。魏女士因此向法院提出诉讼,法院判决魏女士 败诉。

第四讲重复博弈详解

第四讲重复博弈详解
1
重复博弈和信誉问题


如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础

经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础

但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:

第四章 重复博弈

第四章  重复博弈

假设某参与人在无限次重复博弈的一个均衡 路径上各阶段博弈的收益为πt,则该参与人 无限次重复博弈的总收益(即各阶段收益 的贴现值)为
PV 1 2 2 3 t 1 t
t 1
定义: 给定一个博弈G,无限次重复进行G博弈的 过程称为G的“无限次重复博弈”,记为 G(∞,δ),其中δ是参与人收益的贴现系数 (是所有参与人共同的贴现系数)。并且 在进行第t阶段(第t次重复)博弈之前,参 与人都能看到(t-1)阶段博弈的结果。 各参与人在G(∞,δ)中的收益等于各阶段收 益的贴现值。
4、子博弈完美纳什均衡 参与人2的收益:
(1)参与人2不合作
U 5 1 1 1 5
2 3

1
(2)参与人2合作
V 4 V 4 V 1
(3)参与人合作的条件:V≥U
4 5 1 1 1 4
1 当 4
– 平均期望收益为(1.5,3)。
• 第一次是混合战略均衡,第二次是纯战略均衡(B, A);
– 平均期望收益为(3,1.5)。
4、三次重复
–三次重复博弈中,除了有与上述类似的均衡战略组合 外,还有以下战略可以构成子博弈完美纳什均衡
• 厂商1的战略:
第一阶段博弈选A; 第二阶段的行动选择取决于第一阶段的结果 第三阶段无条件选B。
参与人正确的战略就是在每次重复博弈中都采
用一次性博弈的纳什均衡策略。
三、有限次重复博弈—囚徒的困境
假设:
有两个惯犯,每次判刑都不是很重。在刑 满释放之后再作案,作案之后再判刑; 刑满释放之后又作案,如此反复。 他们反复作案之后接受隔离审查过程就是 一个重复博弈的过程。
重复两次:
逆向归纳法求解

第四章 重复博弈

第四章 重复博弈

双方策略为: 博弈方1:第一次选h; 如第一次结果为(H,H), 则第二次选M,否则选L 博弈方2:同博弈方1
厂商2 厂 商 1 H M L H 5,5 6,0 2,0 M 0,6 3,3 2,0 L 0,2 0,2 1,1
三价博弈
触发策略(Trigger Strategy):两博弈方先试探合 作,一旦发现对方不合作则也用不合作报复。 触发策略是重复博弈实现合作和高效的关键机制。
2
Cont…
但从第二阶段开始,厂商1将报复性地永远采用 古诺产量2,这样厂商2也被迫永远采用古诺产 量,从此得利润4。因此,无限次重复博弈第一 阶段偏离的情况下总得益的现值为: 4 5.0625 4 5.0625 1
2
当 上述策略是厂商2对厂商1的同样触发策略的最 佳反应,否则偏离是最佳反应。
1、个体理性得益:博弈方 i 的最大最小值
vi min max U i ( i , i )
i A i i Ai
2、可实现得益:博弈中所有纯策略组合得益 的加权平均数组
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈 的无限次重复博弈 4.3.3 无限次重复古诺模型 4.3.4 有效工资率 4.3.5信用问题 4.3.6 若干建议与启示
二、重复博弈的分类
1、有限次重复博弈:给定一个基本博弈G (可以是静态博弈,也可以是动态博 弈),重复进行T次G,记为G(T)。
而G则称为G(T)的“原博弈”。G(T)中的 每次重复称为G(T)的一个“阶段”。
2、无限次重复博弈:一个基本博弈G一直 重复博 弈下去的博弈,记为G( ). 注:1、无法验证某个重复博弈会一直重复 下去。 2、如果主观上认为博弈会不断进行下 去,那么博弈就可无限次重复下去。

第四章重复博弈.

第四章重复博弈.

4.1.1 为何研究重复博弈

普遍存在性:经济中的长期关系


与一次性博弈的差异:未来利益对当前行为的制约
与动态博弈的差异:各阶段有独立的选择和利益
短期关系中缺乏 形成某种默契或 合作关系,或通 过报复、制裁的 威胁,约束相互 行为,追求共同 利益的机会
4.1.2 基本概念

有限次重复博弈:给定一个基本博弈G(可以是静态博弈, 也可以是动态博弈),重复进行T次G,并且在每次重复G 之前各博弈方都能观察到以前博弈的结果,这样的博弈过 程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶 段”。 无限次重复博弈:一个基本博弈G一直重复进行下去的博 弈,记为G( )—没有可以预见的结束时间,主观上认为会不断进行 策略:博弈方在每个阶段针对每种情况如何行为的计划 子博弈:从某个阶段(不包括第一阶段)开始,包括此后 所有的重复博弈部分 均衡路径:由每个阶段博弈方的行为组合串联而成
可以运用触发策略实 现较好的结果 厂商2 厂 商 1 H M L H 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1 厂 H 商 M 1 L H 8,8 7,1 3,1 厂商2 M 1,7 4,4 3,1
L 1,3 1,3 2,2
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 博弈方1:第一次选H;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博弈方1 子博弈完美纳什均衡路径:第一阶 段(H,H),第二阶段(M,M)


采用触发策略:π*/(1-δ) 第一阶段偏离:此时厂商2最优产量q2=(6-q*)/2,得益 πd=(6-q*)2/4,无限次博弈得益现值为

博弈论课件 第四章

博弈论课件 第四章
第四讲 重复博弈
1
精选PPT
何为“重复博弈”?
重复博弈是指基本博弈重复进行构成的博弈过程。 – 重复博弈中每个阶段中的博弈方、可选策略、规则 和得益都是相同的----是特殊的动态博弈;
– 形式上是基本博弈的重复进行,但博弈方的行为和 博弈结果不一定是基本博弈的简单重复,因为博弈 方对于博弈会重复进行的意识,会使他们对利益的 判断发送变化,从而使他们在重复博弈过程不同阶 段的行为选择受到影响。
– 重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。因为对应前一阶段的
每种结果,下一阶段都有原博弈全部策略组合数那么多种可能的结果。原博弈有m
7
种策略组合,那么重复两次就有m2条博弈路径,重复次就有mt条博弈路径。
精选PPT
重复博弈的得益
任何博弈博弈方策略选择依据都是得益的大小。 计算重复博弈的“总得益”。 计算各阶段的“平均得益”。 时间有先后,引入贴现系数
推广:非零和或多个博弈方,博弈方的利益严格对立,
没有纯策略纳什均衡的其他严格竞争博弈中。在以这
些博弈作为原博弈构成的有限次重复博弈中,惟一的
子博弈完美纳什均衡就是所有博弈方都始终采用原博
12
弈的混合策略纳什均衡策略。
精选PPT
有限次重复猜硬币博弈
各博弈方的正确策略就是在每次重复中都采用 一次性博弈中的纳什均衡策略。
精选PPT
4.2.1 两人零和博弈的有限次重复博弈
重复零和博弈不会创造出新的利益。
合作的可能性根本不存在。即使双方都知道还要重复 进行许多次基本博弈,也不会改变它们在当前阶段博 弈中的行动方式,不可能变得(哪怕是暂时的)合作 和顾及对方的利益。
所有以零和博弈为原博弈的有限次重复博弈,博弈方 的正确策略都是重复一次性博弈中的纳什均衡策略。

@第4章 重复博弈

@第4章 重复博弈
*
*
*
最后这个不等式正是存在有效工资率,工作激励有效的基 131 本条件。
三 、 无 限 次 重 复 博 弈
(四)效率工资博弈
综上所述,在满足 y w 0和w w e 1 e (1 p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1 y e w e (1 p)
131
(一)两人零和博弈的无限次重复博弈
两人零和博弈无限次重复与有 限次重复博弈的结果并不会有什 么不同,所有阶段都不可能发生 合作,博弈方会一直重复原博 弈的混合策略纳什均衡。
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈 两种情况
三 、 无 限 次 重 复 博 弈
*
e
s
0
0
努力是工人的最佳选择。
反过来,设工人已采用上述触发策略。若厂商给的工资率满 足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段 的得益为 y w,无限次重复博弈得益现值为 ( y w ) (1 ) 。 * 若不愿给 w ,则解雇工人,以后得益为0。因此只要y w 0 厂商选择前述触发策略就是最佳反应。
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
H2
H1
L2
L1
4,4 5,0
0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈
三 、 无 限 次 重 复 博 弈
131
(二)唯一纯策略纳什均衡无限次重复博弈
【例】两寡头竞价博弈(P132)
【了解】无限次重复博弈的“民间定理”(P134)

第四章__重复博弈

第四章__重复博弈

4.2.1 两人零和博弈的有限次重复博弈
田忌赛马
田 忌 上 中 下 3,-3 1,-1 1,-1 -1,1 1,-1 1,-1 上 下 中 1,-1 3,-3 -1,1 1,-1, 1,-1 1,-1
中 上 下
1,-1 1,-1 3,-3 1,-1 1,-1 -1,1
中 下 上 1,-1 1,-1 1,-1 3,-3 -1,1 1,-1
之前各博弈方都能观察到以前博弈的结果,这样的博弈过
程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶 段”。 无限次重复博弈:一个基本博弈G一直重复博弈下去的博
弈,记为G(∞)。
4.1.2 基本概念
注意重复博弈与动态博弈的联系与区别: 重复博弈是一个动态的过程,具有多个阶段,属于动态博弈的
1 1 r
2
现值之和就为
V R1 R2 R3
2

T 1
RT
t 1 t 1 t 1
T
t 1
Rt
V R1 R2 R3

Rt
4.2 有限次重复博弈
4.2.1 两人零和博弈的有限次重复博弈 4.2.2 唯一纯策略纳什均衡博弈的有限次重复博弈 4.2.3 多个纯策略纳什均衡博弈的有限次重复博弈 4.2.4 有限次重复博弈的民间定理
8,6 4,8
4,10 6,4
1
4.2.2 唯一纯策略纳什均衡博弈的 有限次重复博弈
如果纳什均衡本身就是帕累托意义上的最佳策略组合,符合所有博
弈方的利益,那么,有限次重复博弈的惟一均衡即是:各博弈方不会 改变自己的行为,在每阶段都采用原博弈的纳什均衡策略。

4 重复博弈

4 重复博弈

结果是具non-exploitability 的 TFT表现最好,tit-for-two-tats 只得到第24名,随机策略仍最差。

DEV1L: TFT 直至第 L回合. 采取 D 一次. 重新选择 C ,然后再回到TFT 局中人2有没有动机采取 DEV1L?
(TFT, TFT)
0
1
2 …
L
L+1
L+2
L+3 …
1: C 2: C
C C
C… C…
C C
C C
C C
C … C …
(TFT, DEV1L)
1: C 2: C
C C
C… C…
4. 重复博弈的三个特征



阶段博弈之间没有物质上的联系,也就 是说,前一阶段的博弈不改变后一阶段 的结构; 所有参与人能观察到博弈过去的历史; 参与人的总支付(报酬)是所有阶段博 弈支付的贴现值之和;
5. 重复博弈的策略、子博弈和均衡路径


(1) 重复博弈的策略 重复博弈中每个博弈方在每个阶段都必须进行 策略选择,因此博弈方的一个策略就是在每次 重复时, 针对其前面阶段所有可能的情况如何 进行行动的计划。 (2) 重复博弈的子博弈 重复博弈的子博弈就是从某个阶段(除第一 阶段以外)开始,包括此后所有阶段的重复博 弈部分。重复博弈的子博弈要么仍然是重复博 弈,只是重复的次数较少,要么就是原博弈。
第四章 重复博弈
1. 基本概念

重复博弈:给定一个基本博弈G(可以 是静态博弈,也可以是动态博弈), 重复进行T次G,并且在每次重复G之前 各博弈方都能观察到以前博弈的结果, 这样的博弈过程称为“G的T次重复博 弈”,记为G(T)。而G则称为G(T)的 “原博弈”。G(T)中的每次重复称为 G(T)的一个“阶段”。

博弈论:4重复博弈

博弈论:4重复博弈
对任意博弈方i都成立,而足够接近1,那么无限
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?

第四讲 重复博弈(下)

第四讲 重复博弈(下)

• 前面已经证明,有限次重复不会改变结果。如 果是无限次,则在贴现因子较大的情况下(比 较重视长期利益)可能实现合作。 • 触发策略:第一阶段采取H,在t阶段,如果前 t-1 阶段的结果都是( H,H ),则继续采用 H ; 一旦发现对方不合作( L ),则以后永远选择 L报复。 • 假设参与人1已经采用了触发策略。 • 如果寡头2 也选择触发策略,则总支付的现值 是: 4 * 4 2 * 4 ...... 4
0,0
0,0 0,0 0,0
3,3 0,0 0,0
0 , 0 0 , 0 4,1/2 0 , 0
0,0
0,0
0 , 0 0 , 0 1/2, 4
上面的例子因为阶段博弈的NE很丰富,且存在 可供奖励和惩罚的NE,所以双方不仅可构造触 发策略,而且触发策略是子博弈完美的(或者 说触发策略所包含的奖励和惩罚是可信的)。 双方的策略均为:第一阶段选择M;如果第一阶 段的行动组合是(M,X)(或(X,M),X 为除M之外的其它可选行动),则第二阶段选P (Q),如果是除此之外的其它任何组合,则选R。
5,5 6,0 2,0
L
0,2 0,2 1,1
存在两个纯策略纳什均衡( M,M ) 和 (L,L) ( 还 有 混 合 策 略 ) 。 但 显 然 ( H,H ) 帕 雷 托 效 率 最 高 。 是 否 重 复 (两次)进行能够实现使效率改善?
触发策略(trigger strategy)
一方的机会主义行为将触发其他参与人策略 中的惩罚机制发生。我们把这种包含着奖励和惩 罚机制的策略称为触发策略。正是由于害怕“触 发”其他参与人的惩罚机制,所以不敢利用机会 使自己在该阶段利益最大化,从而使该阶段的 “合作”出现。从这个意义上看,触发策略是 “温柔的”。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


民间定理
25
4.2.4 民间定理
在一次性博弈中,纯策略纳什均衡的得益为(1,4) 和(4,1) ,最差的均衡得益数组(个体理性得益)为 w=(1,1)
厂 商 得 益 2 (1,1)
民间定理
(1,4)
(3,3)
(4,1)
阴影部分的点对应的双方 得益,可用子博弈完美纳 什均衡或这种均衡的极限 来实现它

结论:在有限次重复博弈 G(T) 中,如果原博弈G 存在 唯一的纯策略纳什均衡组合,则重复博弈的唯一的子博 弈完美纳什均衡解为各博弈方在每阶段都采取的原博弈 纳什均衡策略
有限次重复的囚徒困境博弈
13
4.2.2 有限次重复的囚徒困境博弈
有限次重复的囚徒困境博弈的含义:

在原博弈具有唯一均衡的有限次重复博弈中,由于完全理 性的博弈方具有“共同知识”的分析推理能力,因此在从 最后阶段开始的逆推过程中,仍然无法摆脱囚徒困境
有限次重复博弈的概念
4
4.1.1 有限次重复博弈的概念

子博弈:从某一阶段(不包括第一阶段)开始,包含以 后所有阶段的重复博弈的一部分 策略:博弈方在每个阶段针对每种情况如何行动的计划 (在每一阶段之前,博弈方可以观察到以前博弈的结果)

有限次重复博弈的概念
5
4.1.1 有限次重复博弈的概念

路径: 由每个阶段博弈结果(原博弈的一个策略组合) 连接而成。对于具有n个策略组合的原博弈,重复T次的 路径数为nT,重复博弈的求解即找出具有稳定性的均衡 路径 得益:不同于一般的动态博弈,重复博弈的得益为各个 阶段得益的加总。考虑到时间的价值,需要引进“贴现 系数”将未来的得益折算成当期得益的价值

有限次重复博弈的概念
6
4.2 有限次重复博弈


有限次重复的猜硬币博弈——原博弈为零和博弈
有限次重复的囚徒困境博弈——原博弈有唯一纯策 略的纳什均衡 有多个纳什均衡的重复博弈的策略设计——触发策略 有多个纳什均衡的重复博弈的得益范围——民间定理

有限次重复博弈
7
4.2.1 有限次重复的猜硬币博弈
-5,-5
不坦白
0, -8
不坦白

-8, 0
-1, -1
将该博弈重复进行2次,每次双方会采取什么策略呢?各 自采取的策略和仅进行1次该博弈时采取的策略一样吗? 求解思路:对于有限次重复囚徒困境博弈,根据动态博弈 的逆推归纳法求解。

有限次重复的囚徒困境博弈
11
4.2.2 有限次重复的囚徒困境博弈


两个人玩猜硬币的游戏。每次的收益情况如下: 猜硬币方 正面 盖 硬 币 方 正面 反面 反面
-1,1
1,-1
1,-1
-1,1

重复进行10次该游戏,每次双方会采取什么策略呢?各自采 取的策略和仅进行1次该游戏时采取的策略一样吗?
有限次重复的猜硬币博弈
8
4.2.1 有限次重复的猜硬币博弈

该博弈为零和博弈,双方不可能合作。 博弈双方采取的策 略与博弈进行的次数无关 重复博弈中的子博弈完美纳什均衡由原博弈各个阶段的纳 什均衡构成
厂商2 A B
1, 4
0,0
A
厂商1
3,3
4,1
B
有两个纳什均衡的重复博弈
19
4.2.3 有两个纳什均衡的重复博弈

触发策略分析:

第一阶段博弈方1和2都采取合作(A),并针对对 方的不合作(B),都设计了在后续2个阶段采取不 合作(B)的相应惩罚措施;

如果对方在第一阶段中采取了合作行为,在后续阶 段的策略设计中要保证博弈结局具有稳健性。后续 阶段的策略设计是为了实现双方的行动协调,以保 证实现纳什均衡(B,A)或(A,B)
民间定理
30
4.2.4 民间定理

L M R
双方各五种可选策略重复博弈
L
1,1 0,5 0,0
M
5,0 4,4 0,0
R
0,0 0,0 3,3
P
0,0 0,0 0,0
Q
0,0 0,0 0,0
P
Q
0,0
0,0
0,0
0,0
0,0
0,0
4,1/2
0,0
0,0
1/2,4

民间定理
双方各五种可选策略重复博弈
有两个纳什均衡的重复博弈
20
4.2.3 有两个纳什均衡的重复博弈

触发策略结果分析:

子博弈路径(A,A),(A,B),(B,A)为子博弈纳 什均衡
因为后续两阶段的结局(A,B)和(B,A)为纳什 均衡,而第一阶段的合作结局(A,A) 是由于触发策略 针对对方偏离合作的行为设计了后续两阶段都不合作的 惩罚措施,其单方面偏离的路径(B,A)(B,A) (B,B)收益并不增加,因此不存在偏离的动机
第四讲 重复博弈
苏兵
西安工业大学经济管理学院 2009年8-12月
主要内容


重复博弈的概念 有限次和无限次重复博弈的子博弈完美纳什均衡的求解 方法 无限次重复博弈古诺模型和效率工资模型
主要内容
2
4.1 重复博弈的概念

重复博弈



由简单的静态博弈(或动态博弈)的有限次(或无限次) 重复进行构成的 每一阶段博弈方、策略集合、规则和得益多个纳什均衡的重复博弈可以设计多种策 略,在双方缺乏沟通的情况下,结局具有不确定性 具有多个纳什均衡的重复博弈哪些收益是可以实现 的呢?
民间定理
23
4.2.4 民间定理

个体理性得益:
不管对方采取何种行动,只要自己的行为合理就可以 保证实现的收益

可实现得益: 各纯策略组合得益的加权平均数组。注意:并非一定 是均衡策略的组合得益
32
民间定理
4.2.4 民间定理
有两个纳什均衡的重复博弈
21
4.2.3 有两个纳什均衡的重复博弈
有限次重复的市场机会博弈的启示

增大对未来的预期:对未来的预期,是影响我们行为的重 要因素。一种是预期收益:我们这样做,将来有什么好处; 一种是预期风险:这样做可能面临的问题
有两个纳什均衡的重复博弈
22
4.2.4 民间定理

问题提出
民间定理
27
4.2.4 民间定理

多种策略博弈的重复博弈:两人各三种可选策略
L L
1,1 0,5
M
5,0 4,4
R
0,0 0,0
M
R
0,0
0,0
3,3

该博弈具有两个纯策略纳什均衡和一个混合策略纳什均衡, 但是双方存在一个更好的得益(4,4)。对于二次重复博弈, 根据民间定理可以设计一个触发策略来实现这个得益
B
在有限次重复以上博弈的情况下,两个厂商应该如何选 择,以使得其各自的长期利益最大呢?
17
有两个纳什均衡的重复博弈
4.2.3 有两个纳什均衡的重复博弈

此博弈具有2个纯策略纳什均衡(1,4)(4,1)和混合 策略纳什均衡概率(0.5,0.5) 考虑两次重复博弈


轮换策略:由原博弈的纳什均衡组合而成的路径,路 径为(A,B),(B,A),(A,B)…每阶段的平均得益为 (4+1)/2=2.5,高于混合策略的得益2 触发策略:博弈方首先采取合作行为,如果发现对方 没有进行合作,那么在后续阶段的博弈中采取不合作 策略进行惩罚,得益为(8,8),每阶段平均得益为 (2.67,2.67)

例子


多场决胜负的体育比赛(有限次) 两寡头市场上两个厂商之间的竞争(无限次)
重复博弈的概念
3
4.1.1 有限次重复博弈的概念

有限次重复博弈:给定一个博弈 G ,重复进行 T 次 G ,并且在每次重复之前各博弈方都能观察到以前博 弈的结果,称为 G 的一个“T次重复博弈”,记为 G(T)。其中,G 成为 G(T) 的原博弈。每次重复称为 G(T) 的一个阶段
有限次重复的囚徒困境博弈
15
4.2.2 有限次重复的囚徒困境博弈
连锁店悖论

一个在n个市场都开设有连锁店的企业,对于各个市场的 竞争者是否应该加以打击排斥?
可看成一个n次重复的重复博弈 由“先来后到”博弈分析可知,原博弈的唯一子博弈完美 纳什均衡是(竞争者进入,连锁企业不打击) 现实中:连锁企业对开头几个进入者进行打击,吓退其余 潜在进入者,总体上合算

有限次重复的猜硬币博弈
9
4.2.1 有限次重复的猜硬币博弈
有限次重复猜硬币博弈的启示 所有以零和博弈为原博弈所构成的重复博弈与猜硬币博 弈构成的重复博弈一样,各博弈方的正确策略就是在每 次重复中都采用一次性博弈中的纳什均衡策略

有限次重复的猜硬币博弈
10
4.2.2 有限次重复的囚徒困境博弈
坦白 坦白




第一阶段双方采取(M,M)策略,如果博弈方 1偏离,第 二阶段采取(Q,Q)策略对博弈方1进行惩罚,对博弈方 2 进行奖励 同理,如果博弈方 2偏离了此策略,那么采取(P,P)策略 对博弈方 2进行惩罚,对博弈方 1进行奖励 如果双方都没有偏离,那么第二阶段采取具有较高收益 的纳什均衡(R,R)策略 如果双方都偏离了此策略,第二阶段同样采取纳什均衡 的(R,R)策略


有限次重复的囚徒困境博弈
16
4.2.3 有两个纳什均衡的重复博弈

有限次重复的市场机会博弈:两个厂商1和2,同时面临 两个市场机会A和B。假设每个厂商都只能选择其中一个 市场发展,即他们的可选择策略都是A或B,其得益矩阵 如图所示 厂商2 A A 厂商1
相关文档
最新文档