博弈论 重复博弈
重复博弈的经典例子
重复博弈的经典例子重复博弈的经典例子在经济学和游戏理论中,博弈论是一种非常重要的分析工具。
它通过对智力游戏、竞争和合作等情境的描述,来研究参与者的行为和决策方式,以及他们的利益。
其中,重复博弈是一种经典的博弈类型,透露了很多有趣的现象和策略。
本文就将介绍其中的两个典型例子。
例子一:囚徒困境囚徒困境是博弈论史上最著名的例子之一。
它描述了两名罪犯在审讯时的选择。
如果他们都保持沉默,那么他们各被判三年徒刑;如果其中一个人背叛了另一个人并供出了他的罪行,那么背叛者将被判无期徒刑而另一个人将被无罪释放;如果两个人都背叛了对方,那么都将被判十年徒刑。
显然,各自为政并不能得到最好的结果,但是如果双方都不信任彼此,那么无法避免地会被卷入恶性循环,陷入坏的局面。
所以,如何打破僵局,达到合作互惠的结果呢?答案是,在重复博弈的前提下,让双方建立起稳定的信任关系,并通过稳健的策略来激励对方合作。
比如,如果一方合作另一方背叛,那么背叛者的惩罚应该比另一方少,这样可以让背叛者看到合作的好处;如果另一方也背叛了,那么惩罚应该更大,从而降低背叛的动机。
这种实验表明,人们在重复博弈中往往会采取长远最大化利益的策略,而不是只考虑眼前的利益。
例子二:公共产品的提供公共产品是指对所有人都有益处,但是没有私人市场提供或者通过个人机会成本无法享受的产品,比如环保、文化教育等。
由于公共产品的自由乘坐,导致许多人往往倾向于“裹着麻袋过河”,即只享受公共产品的好处而不出任何力气来投资。
这样,公共产品会出现供给不足的情况,逐渐凋零。
那么,如何解决公共产品的提供问题呢?重复博弈可以给出一些帮助。
假设每个人都可以选择投资或不投资,而且每个人都可以看到其他人的决策;如果有足够多的人投资了,那么所有人都可以获得好处;如果投资的人太少了,那么所有人都得不到好处。
那么,如何让更多的人参与投资呢?答案是,通过适当设定利益偏好,比如对投资者给予优惠,以鼓励更多的人来投资。
博弈论(第四章)
2.有限次重复博弈
有唯一纯策略纳什均衡博弈的有限次重复博弈
有限次重复博弈的囚徒困境博弈,可以理解成警察 给两人两次交代的机会。
囚 徒2 坦白 不坦白
囚 徒 1
坦白
不坦白
-5, -5
-8, 0
0, -8
-1, -1
谢富纪 2009年3月
12
2.有限次重复博弈
因为重复博弈全过程是一种动态博弈过程,从第二 阶段开始。 此前的博弈已是既成的事实,而在此后又没有任何 的后继阶段,因此实现本阶段最大利益是两博弈 方在该阶段的唯一原则。结果是(坦白,坦白),
谢富纪 2009年3月
29
2.有限次重复博弈
本博弈中之所以不能或不能部分实现最佳结果
(A,A),是因为在两次重复博弈中博弈方没
有运用触发策略的条件或者说机会。后面的选择 并不取决于第一次博弈的结果。
谢富纪 2009年3月
30
2.有限次重复博弈
厂商2 得益
(1,4) (1.5,3) (3,3)
谢富纪 2009年3月
17
2.有限次重复博弈
削价竞争博弈
高价 寡 高价 头 1 低价
寡头2
低价
100,100 20,150 150,20 70,70
由于两个寡头在同一市场的竞争可以看作维持很 长时间,因此可以看作是重复博弈。然而结果是 令人遗憾的。
谢富纪 2009年3月 18
2.有限次重复博弈
两个悖论
谢富纪 2009年3月
27
2.有限次重复博弈
两市场博弈的重复博弈
厂商 2 A 厂A 商 1 B B
3,3
1,4
4,1
0,0
经济博弈论之重复博弈
9
三、重复博弈的得益
重复博弈的得益,必须兼顾其他阶段的得益,或者考虑整个重复博弈过程得益 的总体情况。
1.计算重复博弈的“总得益”,即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”,即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数,不同时间获得的利益对人们的价值是 有差别的,考虑到这个因素,引进将后一段的得益折算成当前阶段得益(现在值) 的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业,对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈,竞争者选择进入,先占领市场的连锁店不打击, A 打进 B 不进 (1,10) 是原博弈的唯一的子博弈完美纳什均衡,是两个理性的博弈方之间 博弈的唯一结果。 根据上诉的定理和一般结论,以这个博弈为原博弈的有限次重复博弈, 唯一的子博弈完美纳什均衡就是原博弈的纳什均衡,也就是每个竞争者 可以进入,连锁店不打击。 (-2,3) (5,5) 现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡(M,M),(L,L);符合博弈方总利益最大(H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈 厂商2 A 3,3 4,1 B 1,4 0,0 三次重复博弈的均衡路径是(A,A),(A,B),(B,A), 得益是(3+1+4)/3=2.67.
以德报德,以直报怨——重复博弈战略
重复博弈战略是博弈论中的一个重要概念,它指的是在一个博弈过程中,双方参与者不仅仅有一次的决策,而是需要多次反复进行决策。
在这种情况下,双方的策略选择不仅受到对方当前行为的影响,还受到对方未来可能的回应的影响。
在这种情况下,参与者的决策可能会考虑自己的长期利益,而不仅仅是眼前的利益。
而以德报德、以直报怨则是在重复博弈中的一种普遍策略。
以德报德这一策略强调的是合作、信任和责任。
在重复的博弈中,如果双方能够建立起互相信任的关系,相互协作,相互帮助,就能够达成双赢的局面。
在这种情况下,双方都有动力去遵守之前达成的协议,因为他们知道良好的合作关系对双方都是有利的。
这种策略在实际生活中也得到了广泛的应用,比如商业合作中的长期合作伙伴关系、国际关系中的互惠互利原则等等。
以直报怨这一策略则是强调对于对方行为的实时回应。
在重复博弈中,如果一方采取了不公平或者对自己不利的行为,另一方可以通过采取类似的回应来进行反制。
这种策略可以有效地制衡对方的不良行为,保护自己的利益。
另外,以直报怨也可以通过对方的正当行为进行回报来增进双方的合作和信任。
这种策略在博弈论中被广泛研究,并得到了丰富的实例证明。
在现实生活中,以德报德、以直报怨这两种策略都具有重要的指导意义。
比如在企业管理中,建立合作、信任和责任的企业文化能够提高员工之间的协作效率,激励员工为企业的长期利益而努力工作。
在国际关系中,秉持互惠互利原则,遵守国际法规和公平贸易原则,能够更好地维护世界和平与稳定。
以德报德、以直报怨是在重复博弈中能够取得最优结果的普遍策略。
在实际生活中,我们也可以借鉴这些策略,促进合作、信任和责任,维护自身利益的同时也考虑对他人的尊重和回报。
只有在这样的基础上,我们才能够真正实现和谐共赢,推动社会和国际关系朝着更加美好的方向发展。
在现实生活中,我们可以看到许多成功的案例,这些案例都充分体现了以德报德和以直报怨这两种重复博弈策略的重要性。
有些企业在面对市场竞争时,选择与供应商建立长期稳定的合作关系,这样不仅能够获得更好的供应和服务,还能够建立供应商信任,形成良好的合作生态。
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
有限次重复博弈名词解释(一)
有限次重复博弈名词解释(一)有限次重复博弈在博弈论中,有限次重复博弈(Finite Repeated Games)指的是一种博弈过程,参与者在有限的回合内重复进行相同或相关的博弈行为。
这种博弈过程允许参与者根据对对手策略的观察进行调整,并在每一回合中做出决策。
1. Tit-for-Tat(以牙还牙)Tit-for-Tat是一种著名的策略,其中参与者在每一回合采取与对手上一回合行为相同的决策。
这种策略的核心思想是以相同的方式对待对手,如果对手合作,自己也合作;如果对手背叛,自己也背叛。
Tit-for-Tat策略在一些情况下可以有效地维持合作,促进稳定的协作关系。
2. Grim Trigger(严厉触发)Grim Trigger是另一种重要的策略,其基本原理是一旦对手背叛,参与者将永远背叛,不再参与合作。
这种策略要求参与者严格执行,因为只要一次背叛就会触发永久背叛状态,无论对手后续如何合作。
3. Folk Theorem(民间定理)民间定理是博弈论中关于有限次重复博弈的一个重要定理。
该定理指出,在重复博弈中,多种平衡策略组合可用于维持协作。
这意味着,参与者可以通过选择一种合适的策略组合来达到共同利益,并在一段时间内维持合作关系。
4. 巨人的耐心(Fictitious Play)巨人的耐心是一种基于对历史决策的观察和预测的策略。
在每一回合,参与者会根据对对手过去行为的观察进行预测,并假设对手会继续坚持相同的策略。
这种策略允许参与者根据对手的行为进行调整,并选择最优的决策。
5. 有限回合合作博弈(Finite Round Cooperation Game)有限回合合作博弈是一种特殊类型的有限次重复博弈。
在该博弈中,参与者在预定的有限回合内采取决策,其目标是在这些有限回合内最大化利益。
这种博弈通常涉及团队合作,参与者需要权衡个体利益与整体目标之间的平衡。
6. 随机策略(Mixed Strategy)随机策略是指参与者在决策中随机选择不同的行动概率分布。
博弈论(第十一讲 重复博弈与声誉)PPT课件
11.1 基本概念
为了对不同的支付流进行比较,需要确定一个标准。 一个标准就是对支付流进行加总,求得各阶段支付之和 。这样做不仅因为简单,而且当单一阶段的支付增加时 ,总和也随之增加。 对于上述三个支付流有:
11
11.1 基本概念
很多时候,使用单一阶段支付总计并不能达到满意效果 ,因为没有体现出来不同阶段支付对参与人重要性的差 别。 一般而言,人们更看重及早到手的收益。因此,提出以 带权重的支付之和作为衡量标准,越往后一阶段的支付 的权重越小。用ut表示阶段t所得支付,总支付为:
第十一讲 重复博弈 与声誉
Yang Ling 13898801325
1
标题添加
点击此处输入相 关文本内容
标题添加
点击此处输入相 关文本内容
总体概述
点击此处输入 相关文本内容
点击此处输入 相关文本内容
2
11 重复博弈与声誉
11.1 基本概念
重复博弈:所有参与者周而复始地面对相同的阶段博弈的一 种动态博弈。 阶段博弈是构成重复博弈的组件。 在重复博弈中,参与者不仅考虑当前处境所产生的支付,还 要考虑所有未来可能的处境所产生的支付。 下面博弈就是德国士兵与协约国士兵重复博弈中的阶段博 弈:
16
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡 假设重复博弈要经历T个阶段而此时是T-1阶段,总支付为各 个独立阶段的支付之和。在阶段T都会选择击中。用AT-2和GT-2 分别表示盟军与德军从阶段1到阶段T-2的各阶段支付之和,T 阶段的子博弈如下所示:
可以看出,AT-2和GT-2对求解 过程不产生任何影响。
17
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡
重复博弈的名词解释
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
博弈论分析报告:重复博弈现象分析
博弈论分析报告重复博弈现象分析现代经济学里,博弈论(GameTheory,又名对策论)已经成为十分标准的分析工具。
而完全信息静态博弈是一种最简单的博弈,重复博弈则是完全信息静态博弈论的一种进化。
重复博弈有下列三项基本特征:阶段博弈之间没有“物质上”的联系,即前阶段的博弈不改变后一阶段的结构;所有参与人都观测到博弈过去的历史;参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。
在博弈论课堂所做的两人重复博弈作业,属于多轮次的典型囚徒困境博弈。
根据囚徒困境的说法,个人最佳选择为不合作(招供)时可以达到纳什均衡,然而却达不到都合作(不招供)时的个人利益最大化。
因此,如何获得全部的信息在重复博弈的环境中显得至关重要。
这一点,从课堂同学们的决策中可以明显的看出来。
正是由于每一轮博弈后可以根据其结果来修正下一轮的选择,在经过几轮的信息交换后,大家基本可以明确博弈双方的态度,在一方释放合作意愿的情况下,采取合作态度(不招供)的人数会大幅度上升,带来双方收益的上升。
相反,在发现博弈对手采取不合作的情况下,自己往往会采取“以牙还牙,以眼还眼”的跟随策略,双方最终陷入多轮的囚徒困境,收益也会大为减少。
从同学们提交的数据中可以明显看出这一情况。
另一方面,在10轮的博弈过程中,随着轮次的增加,双方的信息越来越清楚,采取合作态度的博弈者就越多,在后几轮可以稳定的达到70%以上,说明重复博弈的情况下,单次博弈经常出现囚徒困境现象会得到明显改善。
在现实生活中,单次的囚徒博弈情况其实比较少见,而重复博弈的情况则比较普遍,因此研究重复博弈对于我们的工作生活有着更加明显的指导意义。
其中,一个比较常见的重复博弈现象就是电商和网购。
网购双方形成了与囚徒博弈类似的博弈情况:买方和卖方都可以选择诚信和不诚信,对于单次博弈的情况,选择不诚信总是可以带来更大的效益,双方都不诚信的情况下,交易无法完成,双方利益没有损失。
而在一方诚信另一方不诚信的情况下,诚信一方会蒙受损失。
博弈论07 重复博弈2
博弈论重复博弈重复博弈就是同样结构的博弈重复进行。
例如,囚徒困境、情侣博弈等重复进行多次时,每次都是相同的博弈,就是重复博弈。
重复博弈关系在现实中具有普遍性。
社会经济活动中除了短期一次性关系外,大量存在的是长期反复的合作和竞争关系。
重复博弈每次重复进行的博弈称为阶段博弈,或基本博弈,或原博弈。
重复博弈在理论上属于动态博弈,但重复进行的阶段博弈本身可以是静态博弈,也可以是动态博弈。
可以是完全信息重复博弈,也可以是不完全信息重复博弈。
本节讨论完全信息重复博弈。
博弈的重复是否会改变局中人的均衡策略,与重复次数及信息对称与否有关。
按重复次数可以分为有限次重复博弈和无限次重复博弈。
重复博弈的策略由于重复博弈中每个局中人在每个阶段都必须行动,因此局中人的一个策略就是在每个阶段针对每种情况(以前各阶段的结果)如何行动的整体计划。
因为重复博弈中其他局中人过去行动的历史是可以观测到的,所以一个局中人可以使自己在某个阶段的选择依赖于其他局中人过去的行动历史。
例如,囚徒困境博弈中,“如果你这次选择了坦白,我下次将选择坦白;如果你这次选择了抵赖,我下次将选择抵赖。
”重复博弈的策略也就是说,一个策略是一个完备的相机行动规则,它明确了在每一种可能的情况下局中人的行动选择。
因此,局中人在重复博弈中的策略空间远远大于和复杂于在每一个阶段博弈中的策略空间。
重复博弈的策略也就是说,一个策略是一个完备的相机行动规则,它明确了在每一种可能的情况下局中人的行动选择。
因此,局中人在重复博弈中的策略空间远远大于和复杂于在每一个阶段博弈中的策略空间。
重复博弈的策略也就是说,一个策略是一个完备的相机行动规则,它明确了在每一种可能的情况下局中人的行动选择。
因此,局中人在重复博弈中的策略空间远远大于和复杂于在每一个阶段博弈中的策略空间。
重复博弈的策略也就是说,一个策略是一个完备的相机行动规则,它明确了在每一种可能的情况下局中人的行动选择。
因此,局中人在重复博弈中的策略空间远远大于和复杂于在每一个阶段博弈中的策略空间。
博弈论-第五章
第五章重复博弈在这一章中,我们将围绕着人类的合作为什么产生这一命题来展开。
人与人之间合作生产的一个原因(从经济学的角度来看)是这种做法对于参与者双方而言是一个有利可图的事,为什么说明这一点我们将用到重复博弈。
另一个解释合作生产的方法就是引入信息不对称,在这种情况下,一个人装作是好人是有利可图的(因为好名声能够给他带来收益),这在信息不对称中会加以介绍。
第一节 重复博弈的定义及扩展式 给出重复博弈定义之前,需要做若干准备,一个准备就是由于重复博弈有可能会进行一个很长的时期,甚至是无穷期,因而必须考虑收益的时间价值。
相应的表达偏好的收益函数也需要给出一定的限制。
一、贴现因子与偏好明天的一元钱和今天的一元钱价值是不一样的,最简单的理由是今天的一元钱如果存入银行那么在明天会变成1+ r ,所以明天的一元钱只相当于今天的1/(1+ r )元钱,1/(1+ r )实际上就是经济学中的贴现率。
如果假设未来没有不确定性,定义11r δ=+,未来存在收益流R 1,R 2,R 3,…,那么这个未来收益流的贴现值之和就为V =211231t t t R R R R δδδ∞-=+++=∑L(5-1)其中(0,1)δ∈称为贴现因子(Discount factor)。
严格讲,贴现因子并不等于贴现率,但贴现因子与贴现率一定是同方向变动的。
例如,我们考虑一个特殊的重复博弈,其结束之前重复进行的次数是随机的,即在博弈的每一阶段完成之后,都要通过抛若干枚(加权的)硬币的方式来决定博弈是否结束,如果硬币朝上那么博弈结束(即概率为p),如果是其他情况,那么博弈继续(即概率为1 –p)。
如果下一阶段能得到的收益为R1,那么在当前阶段硬币未抛之前的价值(即贴现后的期望值)为(1 –p)R1/(1+ r);如果下两阶段能得到的收益为R2,在当前阶段硬币未抛之前的价值为(1 –p)2R2/(1+ r)2;下三阶段、四阶段等等的收益,照此类推。
博弈论核心观点
博弈论核心观点博弈论是一门研究人类决策行为的数学分支,其核心观点包括以下几个方面。
一、博弈的基本元素博弈论研究的对象是博弈,而博弈有三个基本元素:参与者、策略和收益。
参与者指参与博弈的人或组织,策略指参与者在不同情境下所采取的行动方案,收益指参与者在某种情况下所获得的利益或损失。
二、纳什均衡纳什均衡是博弈论中最重要的概念之一。
它是指在一个多人博弈中,每个参与者都采取了最优策略后所达成的状态。
换言之,纳什均衡是指当每个参与者都知道其他人采取了什么策略时,他们都不愿意改变自己的策略。
这种状态下,任何一个参与者单方面改变其策略都无法获得更多利益。
三、零和博弈和非零和博弈零和博弈是指所有参与者总收益为零或固定值的博弈。
在这种博弈中,参与者之间的利益是相互对立的,一方获得利益必然意味着另一方损失。
非零和博弈则是指参与者总收益不为零或固定值的博弈。
在这种博弈中,参与者之间的利益可以相互促进或相互制约。
四、重复博弈重复博弈是指一个博弈过程不只进行一次,而是进行多次。
在这种情况下,参与者可以根据前几次的策略和结果来调整自己的策略,以获得更好的收益。
五、信息不对称信息不对称是指某些参与者拥有比其他参与者更多或更准确的信息。
在这种情况下,那些拥有更多或更准确信息的参与者可以通过控制信息来影响其他人采取什么样的策略。
六、合作和竞争合作和竞争是博弈论中两个基本概念。
在合作中,参与者之间通过共同努力来实现共同目标;在竞争中,参与者之间通过相互对抗来争夺有限资源。
七、应用领域博弈论的应用领域非常广泛。
它可以用来研究国际关系、商业竞争、政治博弈、环境保护等各种问题。
在实际应用中,博弈论不仅可以帮助人们更好地理解这些问题,还可以为人们提供决策支持和战略规划。
博弈论重复博弈
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况, 最佳结果(A,A)无法实现是因为两次 博弈中博弈方没有运用触发策略的条件 或机会
两市场博弈的重复博弈(重复三次)
厂 商
A
1B
触发策略:
A 3,3 4,1
厂商2 B
1,4 0,0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
,此时利润为5.0625,高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
两市场博弈的重复博弈(重复101次)结果?
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都 不可能发生合作,博弈方会一直重复原 博弈的混合策略纳什均衡
博弈论读书笔记(五)重复博弈
博弈论读书笔记(五)重复博弈2.3重复博弈从这⾥开始,就进⼊博弈论⽐较难以理解的地⽅了。
我也不跟着书上的章节⾛,根据⾃⼰的理解和书上的例⼦来写,如果理解有什么不对的地⽅,欢迎各位⼤佬的指正。
⾸先我们来明晰博弈论到底在讨论些什么:对于这个问题,前⾯⼏章的内容可能对⼤家会造成⼀定的误导。
因为根据前⾯⼏章的例⼦,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。
这句话本⾝没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒⼀样,选择“保证对⽅不会背叛并且⾃⼰在此情况下能获得最⼤利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明⽩我的意思)。
例如第⼀章第⼀节中囚徒困境双⽅都选择招认(因为选择合作即不招认,结果可能是被背叛)。
但是⼀旦进⼊了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),⽽要考虑多次重复博弈的总收益。
这个时候就需要参与双⽅共同商定⼀个“协议”(例如双⽅说好都选择不招认),这个协议必须是对于双⽅都有利的(⾄少由于选择单次博弈的纳什均衡,例如双⽅不招认总⽐双⽅都招认要好),并且协议中会对不遵守规则的进⾏惩罚,以便于对每个⼈来说选择合作是最好的结果。
从这⾥我们就可以理解“博弈论教你如何制定规则的”这句话了。
好了,这⼀章最核⼼的思想在这⾥已经讲完了,虽然我可能说的不是那么清晰,不过还是希望你能认真理解上⾯所说的,这会对下⾯的概念理解有很⼤帮助。
2.3.A两阶段重复博弈先给出⼏个先⾏的定义和定理:定义:对个定的阶段博弈G,令G(T)表⽰G重复T次的有限重复博弈,并且在下⼀次博弈开始前,所有以前的博弈都可以被观测到。
G(T)的收益为T次阶段博弈收益的简单相加。
这个定义最重要的是引出⼀个重复博弈中收益的概念,即T次博弈的收益简单相加,后⾯我们会提到贴现的概念,不过到这⾥先理解到简单相加就⾏。
定理:如果阶段博弈G有唯⼀的纳什均衡,则对任意有限的T,重复博弈G(T)有唯⼀的⼦博弈精炼解:即G的纳什均衡结果在每⼀阶段重复进⾏。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*
0
*
0
设厂商已采用上述触发策略。由于 w > w ,工人接 受工作是最佳反应。用 V 记工人努力工作时无限次重复 博弈得益的现值,则V = ( w − e) + δV 即 V = ( w − e) (1 − δ )
* 0
e
*
*
e
e
e
用 V 记工人选偷懒时无限重复博弈得益的现值,则: w V = w + δ ( pV + (1 − p ) ) 即V = [(1− δ )w + δ (1 − p)w ] (1− δp) (1− δ )
两次重复三价博弈的等价模型
触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复 触发策略 博弈方1:第一次选h;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博弈方1
两市场博弈的重复博弈(重复两次)
厂商2 厂商 A 厂 A 商 1 B 3,3 4,1 B 1,3 0,0
削价竞争博弈
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 厂商 厂 商 1 H M L H 5,5 6,0 2,0 M 0,6 3,3 2,0 三价博弈 L 0,2 0,2 1,1 厂 H 商 M 1 L H 8,8 7,1 3,1 厂商2 厂商 M 1,7 4,4 3,1
L 1,3 1,3 2,2
-1,-1
(-5,-5) 囚徒2 囚徒 坦 白 不坦白 囚 坦白 -10,-10 -5,-13 徒 -13,-5 -6,-6 1 不坦白 (-10,-10)
有限次重复削价竞争博弈
寡头2 寡头 高 价 寡 高价 头 1 低价 100,100 150,20 低 价 20,150 70,70
有唯一纯策略纳什均衡 (70,70) 有限次重复的结果仍然是 (低价,低价)
*
*
*
综上所述,在满足 y − w ≥ 0和w ≥ w + e + 1 − δ e δ (1 − p)
* * 0
的条件下,双方的触发策略构成一个纳什均衡。而上述两式 实际上意味着 1− 1− δ y−e ≥ w + e δ (1 − p )
0
即工人努力的产出扣除努力负效用后的剩余,必须不小于工 人作个体户的收入即机会成本,加上一定比例的取决于努力 负效用、贴现系数和偷懒可能得高产量概率的附加部分。 最后这个不等式正是存在有效工资率,工作激励有效的 基本条件。
4.1.2 基本概念
有限次重复博弈:给定一个基本博弈G(可以是静态博弈, 有限次重复博弈 也可以是动态博弈),重复进行T次G,并且在每次重复G 之前各博弈方都能观察到以前博弈的结果,这样的博弈过 程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T) 的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶 段”。 无限次重复博弈:一个基本博弈G一直重复博弈下去的博 无限次重复博弈 弈,记为G( ∞ ) 策略:博弈方在每个阶段针对每种情况如何行为的计划 策略 子博弈:从某个阶段(不包括第一阶段)开始,包括此后 子博弈 所有的重复博弈部分 均衡路径:由每个阶段博弈方的行为组合串联而成 均衡路径
对任意博弈方i都成立,而δ足够接近1,那么无限 次重复博弈G (∞, δ )中一定存在一个子博弈完美纳
(5,0) (1,4) (3,3)
什均衡,各博弈方的平均得益为( x1 , L , xn )
(4,1) (1,1) (5,0)
厂商1得益
4.3.3 无限次重复古诺模型
假定: 假定 P = 8 − Q, 其中Q = q + q ,边际成本都为2。 在无限次重复古诺模型中,当贴现率δ 满足一定条件 时,两厂商采用下列触发策略构成一个子博弈完美纳什均 衡: 在第一阶段生产垄断产量的一半1.5;在第 t 阶段,如 果前 t-1 阶段结果都是(1.5,1.5),则继续生产1.5,否则生产 古诺产量2。
两市场博弈
(A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) 连续两次采用混合策略——(2,2) (A,B)+(B,A) OR (B,A)+(A,B)——(2.2,2.5)轮换 策略 一次纯策略+一次混合策略——(1.5,3)(3,较 不同策略组合、均衡得益图示
2
4δ 1− δ
当
4.5 4δ ≥ 5.0625 + 即δ ≥ 9 17 1− δ 1− δ
上述策略是厂商2对厂商1的同样触发策略的最佳反应, 否则偏离是最佳反应。
4.3.4 有效工资率
模型设定: 模型设定 首先厂商选择工资率为 w ,然后工人选择接受或拒绝。 如果拒绝,则他作个体户得到收入 w 小于 w ,如果接 受 w ,则工人选择努力工作(负效用 e )还是偷懒(无 负效用)。 厂商只能看到产量高低,高产量为 y > 0 ,低产量0。 工人努力工作时一定是高产量 y ,不努力时却并不一 定是0,而是高产量 y 的概率为 p ,低产量0的概率 为 1− p 。 工人努力工作时,厂商得益为 y − w ,工人得益 为 w − e ; 工人偷懒时,厂商期望得益为 py − w ,工人 得益为 w 。
t =1 ∞
4.2 有限次重复博弈
4.2.1 两人零和博弈的有限次重复博弈 4.2.2唯一纯策略纳什均衡博弈 的有限次重复博弈 4.2.3多个纯策略纳什均衡博弈 的有限次重复博弈 4.2.4 有限次重复博弈的民间定理
4.2.1 两人零和博弈的有限次重复博弈
零和博弈是严格竞争的,重复博弈并不改变这 一点。 以零和博弈为原博弈的有限次重复博弈与猜硬 币博弈的有限次重复博弈一样,博弈方的正确 策略是重复一次性博弈中的纳什均衡策略。
第四章 重复博弈
本章介绍基本博弈重复进行构成的重复博弈。 虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
V = 4 + δV
因此当 δ > 1 / 4 时,此触发策略纳什均衡策略
两寡头削价竞争无限次重复博弈的民间定理
无限次重复博弈民间定理:设G是一个完全信息 的静态博弈。用(e1 , L , en )记G的纳什均衡的得益, 用( xi , L , xn )表示G的任意可实现得益。如果xi > ei
厂商2 得益
本章分三节
4.1 重复博弈引论 4.2 有限次重复博弈 4.3 无限次重复博弈
4.1 重复博弈引论
4.1.1 为何研究重复博弈 4.1.2 基本概念
4.1.1 为何研究重复博弈
经济中的长期关系 人们的预见性 未来利益对当前行为的制约 长期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
定理:设原博弈G有唯一的纯策略 定理 纳什均衡,则对任意整数T,重复 博弈 G(T)有唯 一的子博弈完美 纳什均衡,即各博弈方每个阶段 都采用G的纳什均衡策略。各博弈 方在G(T)中的总得益为在G中得益 的T倍,平均得益的与原博弈G中 的得益。
囚徒2 囚徒 坦 白 不坦白 囚 坦白 -5,-5 徒 1 不坦白 -8,0 0,-8
0 0
考虑如下的触发策略: 考虑如下的触发策略 厂商在第一阶段给工资率 w ,在第t阶段,如果前面t-1 阶段结果都是( w , y ) 则继续给 w * ,否则从此永远 是w = 0 。 工人的策略是如果 w > w 则接受,否则宁愿作个体 户得到 w ,并在以前各期结果都是( w , y ) 和当前工资率 为 w * 时努力工作,否则偷懒。
4.3.2唯一纯策略纳什均衡博弈 的无限次重复博弈
两寡头削价竞争博弈
H H L 4,4 5,0 L 0,5 1,1
该博弈一次性博弈均衡是都采用低价,是囚徒困境 型博弈
无限次重复两寡头削价博弈
触发策略:第一阶段采用H,如果前t-1阶段的结果 触发策略 都是(H,H),则继续采用H,否则采用L。 如果博弈方2采用L,总得益现值为 δ π = 5 + 1× δ + 1× δ 2 + L = 5 + 1−δ 如果博弈方2采用H,总得益现值为
s
* 0
*
s
s
1− δ
s
0
1 − δp 1−δ 因此当 V > V 即 w > w + δ (1 − p ) e = w + e + δ (1 − p ) e
*
e
s
0
0
时,努力是工人的最佳选择。 反过来,设工人已采用上述触发策略。若厂商给的工资 率满足上式条件,并且威胁一旦产量降低就解雇工人,则各 阶段的得益为 y − w ,无限次重复博弈得益现值为 ( y − w ) (1 − δ ) 。若不愿给 w* ,则解雇工人,以后得益为0。 因此只要 − w ≥ 0 ,厂商选择前述触发策略就是最佳反应。 y
q2
2
2
2
q2
2
2
解得 q = 2.25 ,此时利润为5.0625,高于触发策略 第一阶段得益4.5。
2
但从第二阶段开始,厂商1将报复性地永远采用古诺产 量2,这样厂商2也被迫永远采用古诺产量,从此得利润4。 因此,无限次重复博弈第一阶段偏离的情况下总得益的现 值为:
5.0625 + 4(δ + δ + L) = 5.0625 +
厂商2 得益
(1,4)
(1.5,3)
(3,3) (2.5,2.5)
(2,2) (3,1.5) (4,1)
厂商1得益
4.2.4 有限次重复博弈的民间定理