4 重复博弈--博弈论
尹伯成《西方经济学简明教程》(第7版)笔记和课后习题(含考研真题)详解(第8章 博弈论和信息经济学)
第8章博弈论和信息经济学8.1 复习笔记一、博弈论1.博弈论与传统经济学博弈论本质上也是研究理性的经济主体的最大化行为,但比传统经济学更进一步,认为自己的效用(以及利润或收入)函数不仅依赖于自己的决策,也依赖于他人的决策。
现实的经济生活中,新古典经济学的两个基本假设均难满足:(1)市场是不完全竞争的,市场局中人之间往往是相互影响的,因此一方在决策时必须考虑对方反应,而这一扩张恰恰是博弈论主题。
(2)现实市场中,局中人间信息通常是不充分的。
2.博弈论的基本要素博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。
在策略性环境中,每一个人进行的决策和采取的行动都会对其他人产生影响。
因此,每个人在进行策略性决策和采取策略性行动时,要根据其他人的可能反应来决定自己的决策和行动。
博弈论的基本要素包括:(1)局中人:参与博弈(对策)并承担后果的利益主体,有时也称参与人。
(2)策略集合:指所有局中人可能采取的行动方案的总和。
(3)收益:指在每种策略组合情况下局中人采取特定策略得到的结果。
3.上策均衡和纳什均衡(1)上策:指不管其他局中人采取什么策略,某一局中人都采取自认为对自己最有利的策略。
均衡指博弈中所有局中人都不想改变自己策略的一种相对静止状态。
上策均衡是指不管其他局中人采取什么策略,每个局中人都选择了对自己最有利的策略所构成的一个策略组合。
(2)纳什均衡:指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。
(3)二者关系:纳什均衡不一定是上策均衡,但上策均衡一定是纳什均衡。
如表8-1所示,该博弈没有上策均衡,(策略A,策略A),(策略B,策略B)都是纳什均衡,但不是上策均衡。
表8-1 纳什均衡4.重复博弈和序列博弈(1)静态博弈指局中人同时决策或虽非同时决策,但后决策者不知道先决策者采取什么策略的博弈。
动态博弈指局中人决策有先有后,后决策者能观察到先决策者决策情况下的博弈。
博弈论(第四章)
2.有限次重复博弈
有唯一纯策略纳什均衡博弈的有限次重复博弈
有限次重复博弈的囚徒困境博弈,可以理解成警察 给两人两次交代的机会。
囚 徒2 坦白 不坦白
囚 徒 1
坦白
不坦白
-5, -5
-8, 0
0, -8
-1, -1
谢富纪 2009年3月
12
2.有限次重复博弈
因为重复博弈全过程是一种动态博弈过程,从第二 阶段开始。 此前的博弈已是既成的事实,而在此后又没有任何 的后继阶段,因此实现本阶段最大利益是两博弈 方在该阶段的唯一原则。结果是(坦白,坦白),
谢富纪 2009年3月
29
2.有限次重复博弈
本博弈中之所以不能或不能部分实现最佳结果
(A,A),是因为在两次重复博弈中博弈方没
有运用触发策略的条件或者说机会。后面的选择 并不取决于第一次博弈的结果。
谢富纪 2009年3月
30
2.有限次重复博弈
厂商2 得益
(1,4) (1.5,3) (3,3)
谢富纪 2009年3月
17
2.有限次重复博弈
削价竞争博弈
高价 寡 高价 头 1 低价
寡头2
低价
100,100 20,150 150,20 70,70
由于两个寡头在同一市场的竞争可以看作维持很 长时间,因此可以看作是重复博弈。然而结果是 令人遗憾的。
谢富纪 2009年3月 18
2.有限次重复博弈
两个悖论
谢富纪 2009年3月
27
2.有限次重复博弈
两市场博弈的重复博弈
厂商 2 A 厂A 商 1 B B
3,3
1,4
4,1
0,0
第六章第一讲重复博弈的类型解读
2020年11月18日
博弈论第六章
1
重复博弈的类型
“宽容”OR“不好惹”?
A家长教育孩子A的原则: 宽容
A的选择: 及时还击, 培养“不好惹”的声誉—— “他打你,你就打他”
C家长教育孩子C的原则: 好斗
若A与C之间的博 弈重复进行?
要与人为善
2020年11月18日
博弈论第六章
1
1 r r 市场利率
1 2 2 3 T 1T
T
2020年11月18日
t 1 博t 弈论第六章
13
t 1
重复博弈的类型
第一节 重复博弈的类型
➢二、无限次重复
➢(一)案例:寡头削价竞争
➢1.案例
➢
寡头1
➢
高价
低价
➢
高价
➢寡头2
4,4
➢
低价 5,0
0,5 1,1
2020年11月18日
重复博弈的类型
第一节 重复博弈的类型
➢二、无限次重复 ➢(一)案例:寡头削价竞争 ➢2.无限次重复博弈策略分析 ➢(3)以后各期
A、if寡头2合作,“高价”→ 寡头1坚持“高价”
2020年11月18日
B、 if寡头2不合作,“低价”→ 寡头1报复,永远低价
博弈论第六章
16
重复博弈的类型
第一节 重复博弈的类型
9
重复博弈的类型
第一节 重复博弈的类型
➢一、有限次重复
➢(二)定理:有限次重复博弈的均衡
G(T):有限次重复博弈 G:博弈 T:重复次数 G:阶段博弈,T<∞
2020年11月18日
若G有唯一的纳什均衡,
则G(T)的唯一子博弈精炼
《博弈论》知识点总结归纳
《博弈论》知识点总结归纳《博弈论》知识点总结归纳摘要:博弈论是研究决策者之间相互影响和决策制定的数学分析工具。
本文对博弈论的基本概念、解的概念、均衡理论、博弈策略和应用等方面进行了总结归纳,以帮助读者更好地理解和应用博弈论的相关知识。
关键词:博弈论、基本概念、解的概念、均衡理论、博弈策略、应用引言博弈论是研究决策者之间相互影响和决策制定的数学分析工具,源自于经济学和数学两大学科的交叉。
博弈论在经济学、管理学、政治学、社会学、计算机科学等多个领域都有广泛的应用。
本文将对博弈论的相关知识进行详细的总结和归纳。
一、基本概念1.1 博弈博弈是指决策者之间相互影响和策略选择的过程。
博弈的基本要素包括:参与者、策略、收益和信息。
1.2 参与者参与者是指博弈中的决策者,可以是个人、团体、企业、国家等。
参与者的目标是实现自身利益的最大化。
1.3 策略策略是指参与者在博弈中所能采取的行动或选择。
通常分为纯策略和混合策略。
1.4 收益收益是指在博弈中参与者根据所选择的策略所能得到的结果或利益。
收益可以用来衡量参与者的利益大小。
1.5 信息信息是指参与者在博弈中所了解的有关其他参与者或博弈环境的信息。
信息可以分为对称信息和非对称信息。
二、解的概念2.1 均衡均衡是指在博弈中各参与者选择了策略后,没有动力再改变策略,从而达到一种稳定状态。
常见的均衡概念有纳什均衡、帕累托最优和博弈解。
2.2 纳什均衡纳什均衡是指在博弈中的一组策略选择,使得每个参与者选择的策略是对其他参与者的策略选择的最佳应对,没有动机再改变策略。
2.3 帕累托最优帕累托最优是指在博弈中的一组策略选择,使得至少有一个参与者的收益达到最大,而其他参与者的收益至少不会减小。
帕累托最优是一种资源分配的有效方式。
2.4 博弈解博弈解是指在博弈中的一组策略选择,使得没参与者都没有动力再改变策略。
博弈解往往是均衡的特殊情况。
三、均衡理论3.1 零和博弈零和博弈是一种特殊的博弈形式,即参与者的利益总和为零。
聊聊四种经典的博弈论模型
聊聊四种经典的博弈论模型展开全文1、囚徒困境:为什么两个犯人都选择坐牢官差破获了一宗盗窃案,抓住了两名犯罪嫌疑人。
但在审讯过程中,被关在一处的二人始终矢口否认盗窃罪名,说东西不是我们偷的。
为了避免两人达成默契,结成攻守同盟,官差决定对他们进行单独审讯。
官差表示,如果两人中有一人坦白认罪,则可立即释放,另一个不认罪的人判5年徒刑;如果两人都坦白罪刑,则他们将各判2年徒刑。
但还有一种情况,那就是两个人都拒绝坦白,由于缺乏证据,他们只会以扰乱公共场合为名判处3个月拘役。
这就是两名罪犯面临的困境中,他们会做出怎样的选择呢?首先,他们互相之间都不清楚对方是否会坦白,其次,二人都希望将自己的刑期缩至最短。
如此考虑,最终,两名犯人都会选择坦白交代。
上面的案例就是博弈论所说的“囚徒困境”。
犯人们如果彼此合作,可为集体带来最佳利益(刑期最短);但当二人面对同样的情况且不知道对方如何选择时,在理性思考后,双方都会得出相同的结论(坦白交代),以便达到个人利益的最大化。
囚徒困境是博弈论的“非零和博弈”中具代表性的例子,反映的是个人的最佳选择并非是团体的最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
2、智猪博弈:赢的总是小猪猪圈里有大小两头猪,它们在同一个食槽里进食。
为了保持饲料的新鲜,在远离猪食槽的另一边有一个踏板,大猪或小猪跑过去,每按动一次踏板,投食口就会掉落10个单位的食物。
于是,在大猪和小猪每次进食前,就会形成这样一种局面:如果小猪跑去按踏板,大猪守在食槽边,则大猪小猪吃到的食物比是9:1;反之,如果大猪去按而小猪守在食槽边,则吃食比例是6:4。
如果二猪同时到食槽边,则吃食比是7:3。
这样一来,从纯收益的角度考虑,小猪就更愿意选择在食槽边等待食物落出,因为“等待优于行动”,而大猪只能被迫奔忙在踏板和食槽之间。
上述“智猪博弈”的案例是经济学家的假设论证模型,这个博弈的结果,用经济学视角看待,可以解释为:谁占有更多资源,谁就必须承担更多义务。
经济博弈论之重复博弈
9
三、重复博弈的得益
重复博弈的得益,必须兼顾其他阶段的得益,或者考虑整个重复博弈过程得益 的总体情况。
1.计算重复博弈的“总得益”,即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”,即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数,不同时间获得的利益对人们的价值是 有差别的,考虑到这个因素,引进将后一段的得益折算成当前阶段得益(现在值) 的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业,对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈,竞争者选择进入,先占领市场的连锁店不打击, A 打进 B 不进 (1,10) 是原博弈的唯一的子博弈完美纳什均衡,是两个理性的博弈方之间 博弈的唯一结果。 根据上诉的定理和一般结论,以这个博弈为原博弈的有限次重复博弈, 唯一的子博弈完美纳什均衡就是原博弈的纳什均衡,也就是每个竞争者 可以进入,连锁店不打击。 (-2,3) (5,5) 现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡(M,M),(L,L);符合博弈方总利益最大(H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈 厂商2 A 3,3 4,1 B 1,4 0,0 三次重复博弈的均衡路径是(A,A),(A,B),(B,A), 得益是(3+1+4)/3=2.67.
以德报德,以直报怨——重复博弈战略
重复博弈战略是博弈论中的一个重要概念,它指的是在一个博弈过程中,双方参与者不仅仅有一次的决策,而是需要多次反复进行决策。
在这种情况下,双方的策略选择不仅受到对方当前行为的影响,还受到对方未来可能的回应的影响。
在这种情况下,参与者的决策可能会考虑自己的长期利益,而不仅仅是眼前的利益。
而以德报德、以直报怨则是在重复博弈中的一种普遍策略。
以德报德这一策略强调的是合作、信任和责任。
在重复的博弈中,如果双方能够建立起互相信任的关系,相互协作,相互帮助,就能够达成双赢的局面。
在这种情况下,双方都有动力去遵守之前达成的协议,因为他们知道良好的合作关系对双方都是有利的。
这种策略在实际生活中也得到了广泛的应用,比如商业合作中的长期合作伙伴关系、国际关系中的互惠互利原则等等。
以直报怨这一策略则是强调对于对方行为的实时回应。
在重复博弈中,如果一方采取了不公平或者对自己不利的行为,另一方可以通过采取类似的回应来进行反制。
这种策略可以有效地制衡对方的不良行为,保护自己的利益。
另外,以直报怨也可以通过对方的正当行为进行回报来增进双方的合作和信任。
这种策略在博弈论中被广泛研究,并得到了丰富的实例证明。
在现实生活中,以德报德、以直报怨这两种策略都具有重要的指导意义。
比如在企业管理中,建立合作、信任和责任的企业文化能够提高员工之间的协作效率,激励员工为企业的长期利益而努力工作。
在国际关系中,秉持互惠互利原则,遵守国际法规和公平贸易原则,能够更好地维护世界和平与稳定。
以德报德、以直报怨是在重复博弈中能够取得最优结果的普遍策略。
在实际生活中,我们也可以借鉴这些策略,促进合作、信任和责任,维护自身利益的同时也考虑对他人的尊重和回报。
只有在这样的基础上,我们才能够真正实现和谐共赢,推动社会和国际关系朝着更加美好的方向发展。
在现实生活中,我们可以看到许多成功的案例,这些案例都充分体现了以德报德和以直报怨这两种重复博弈策略的重要性。
有些企业在面对市场竞争时,选择与供应商建立长期稳定的合作关系,这样不仅能够获得更好的供应和服务,还能够建立供应商信任,形成良好的合作生态。
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
博弈论读书笔记(五)重复博弈
博弈论读书笔记(五)重复博弈2.3重复博弈从这⾥开始,就进⼊博弈论⽐较难以理解的地⽅了。
我也不跟着书上的章节⾛,根据⾃⼰的理解和书上的例⼦来写,如果理解有什么不对的地⽅,欢迎各位⼤佬的指正。
⾸先我们来明晰博弈论到底在讨论些什么:对于这个问题,前⾯⼏章的内容可能对⼤家会造成⼀定的误导。
因为根据前⾯⼏章的例⼦,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。
这句话本⾝没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒⼀样,选择“保证对⽅不会背叛并且⾃⼰在此情况下能获得最⼤利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明⽩我的意思)。
例如第⼀章第⼀节中囚徒困境双⽅都选择招认(因为选择合作即不招认,结果可能是被背叛)。
但是⼀旦进⼊了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),⽽要考虑多次重复博弈的总收益。
这个时候就需要参与双⽅共同商定⼀个“协议”(例如双⽅说好都选择不招认),这个协议必须是对于双⽅都有利的(⾄少由于选择单次博弈的纳什均衡,例如双⽅不招认总⽐双⽅都招认要好),并且协议中会对不遵守规则的进⾏惩罚,以便于对每个⼈来说选择合作是最好的结果。
从这⾥我们就可以理解“博弈论教你如何制定规则的”这句话了。
好了,这⼀章最核⼼的思想在这⾥已经讲完了,虽然我可能说的不是那么清晰,不过还是希望你能认真理解上⾯所说的,这会对下⾯的概念理解有很⼤帮助。
2.3.A两阶段重复博弈先给出⼏个先⾏的定义和定理:定义:对个定的阶段博弈G,令G(T)表⽰G重复T次的有限重复博弈,并且在下⼀次博弈开始前,所有以前的博弈都可以被观测到。
G(T)的收益为T次阶段博弈收益的简单相加。
这个定义最重要的是引出⼀个重复博弈中收益的概念,即T次博弈的收益简单相加,后⾯我们会提到贴现的概念,不过到这⾥先理解到简单相加就⾏。
定理:如果阶段博弈G有唯⼀的纳什均衡,则对任意有限的T,重复博弈G(T)有唯⼀的⼦博弈精炼解:即G的纳什均衡结果在每⼀阶段重复进⾏。
重复博弈的名词解释
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
博弈论知识点总结完整版
博弈论知识点总结完整版博弈论是研究决策者在互相影响的情况下做出最佳决策的数学模型和方法。
在博弈论中,决策者被称为玩家,他们的决策会受到其他玩家的影响。
以下是博弈论的一些重要知识点的总结:1.资料和约定-玩家:博弈论中的决策者。
-策略:玩家可以采取的行动。
-支付:玩家根据博弈结果获得的效用或价值。
-最优策略:在给定博弈条件下,可以使玩家获得最大效用的策略。
-纯策略和混合策略:纯策略是指玩家在每次博弈中都采取相同的行动;混合策略是指玩家以一定概率采取不同的行动。
2.标准形博弈-扩展形式:博弈者按照时间次序做出决策,每个决策节点有多个玩家可以选择的动作。
-纳什均衡:在标准形博弈中,如果所有玩家都不愿意单方面改变他们的策略,则该策略组合是纳什均衡。
-最优反应函数:针对每个玩家的策略组合,最优反应函数给出了该玩家的最佳策略。
-支配策略:一个策略在任何情况下都能够给出玩家更好的结果,那么我们可以说这个策略是支配的。
3.矩阵博弈-矩阵:博弈论中描述玩家策略和效用的表格。
-矩阵博弈的解:通过找到纳什均衡,我们可以得出矩阵博弈的解决方案。
-互动博弈:双方玩家的效用都取决于对方的策略选择。
4.博弈树-博弈树:根据博弈的时间顺序和玩家之间的相互影响,构建的树形结构。
-极小极大算法:用于确定博弈树上的最佳策略。
- alpha-beta剪枝:通过剪枝,减少博弈树的节点数量,从而提高效率。
5.进化博弈论-重复博弈:博弈过程被连续重复进行,玩家可以根据之前的结果来调整策略。
-演化稳定策略:一个策略集合中的策略,在当前环境下被所有玩家采纳并且难以被其他策略取代。
6.合作博弈论-合作博弈:玩家可以自由选择与其他玩家联合合作,并共享所获得的效用。
-特征函数:描述合作博弈的效用分配。
-核心:合作博弈中所有合法的效用分配的集合。
- Shafer值:一种用于将效用分配给个体的方法,使得每个个体的效用都能够得到公平分配。
博弈论是多学科交叉的研究领域,应用广泛,涉及经济、管理、政治等多个领域。
博弈论四种类型
贝叶斯纳什均衡
混合战略(不完全信息情况下纯战略均衡的极限)
对原混合战略加入少许不确定性因素,求极限。
性别战
1、均衡存在性
2、不确定性体现为类型的不确定性
一般贝叶斯均衡
Harsanyi转换
机制设计
不完全信息动态博弈
在博弈开始前参与人之间的信息存在不确定性,同时参与人行动存在先后顺序。不完全信息动态博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正信念的过程。
无限次重复博弈均衡(无名氏定理)
与贴现因子有关
囚徒困境(冷酷战略)
无限期轮流讨价还价模型
一般博弈
逆向归纳法求解
斯坦科尔伯格寡头竞争
雇主与公会之间的竞争
不完全信息静态博弈
在博弈开始之前参与人之间的信息存在不确定性,但是参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。
不确定是参与人的了性的不确定性
精炼贝叶斯纳什均衡
信号传递博弈
分离均衡
根据所得信息修正判断概率,根据收益最大化决策
信号传递博弈
不完全信息重复博弈与声誉
Milgrom-Roberts垄断限价模型
不完全信息动态博弈子博弈精炼纳什均衡与海萨尼不完全信息静态博弈贝叶斯均衡的结合。
混同均衡
准分离均衡
类型
信息和行动特点
均衡
均衡类型
特别均衡
求解方法
学过的例子
性质
完全信息静态博弈
每个参与人对其他所有参与人的特征、战略空间及支付函数有精确的了解,博弈开始时不存在不确定性因素,参与人同时行动或者不是同时行动但是后行动者不知道行动者的行动信息。战略和行动相同。
纳什均衡
纯战略纳什均衡(PNE)
经济博弈论谢识予复习题集pdf
经济博弈论谢识予复习题集pdf经济博弈论是研究经济行为者在相互依赖的决策情境中如何做出选择的科学。
谢识予教授的复习题集为我们提供了深入理解经济博弈论的宝贵资源。
以下是根据谢识予教授的复习题集整理的一些关键概念和问题,以助于复习和理解经济博弈论。
经济博弈论复习题集1. 基本概念- 博弈论的定义是什么?- 什么是策略和支付?- 完全信息和不完全信息博弈的区别是什么?2. 静态博弈- 描述纳什均衡的概念。
- 举例说明纯策略纳什均衡和混合策略纳什均衡。
- 什么是支配策略均衡?3. 动态博弈- 动态博弈与静态博弈的主要区别是什么?- 什么是子博弈完美纳什均衡?- 描述逆向归纳法在动态博弈中的应用。
4. 重复博弈- 重复博弈与一次性博弈有何不同?- 什么是声誉效应?- 描述如何通过重复博弈实现合作。
5. 博弈论在经济学中的应用- 博弈论在拍卖理论中的应用是什么?- 博弈论如何帮助解释市场进入和退出的决策?- 描述博弈论在合同理论中的作用。
6. 博弈论在其他领域的应用- 博弈论在政治学中的应用有哪些?- 如何利用博弈论分析国际关系?- 博弈论在心理学和社会学中的作用是什么?7. 博弈论的局限性- 博弈论在实际应用中可能遇到哪些限制?- 描述博弈论在预测人类行为时的局限性。
- 博弈论如何与其他决策理论相结合以克服这些限制?8. 博弈论的实验研究- 描述博弈论实验研究的重要性。
- 举例说明实验经济学中的一些经典实验。
- 博弈论实验研究如何帮助我们更好地理解经济行为?9. 博弈论的数学工具- 博弈论中常用的数学工具有哪些?- 如何使用线性代数和概率论来分析博弈?- 描述博弈论中的优化问题。
10. 博弈论的前沿研究- 当前博弈论研究的热点问题有哪些?- 博弈论在人工智能和机器学习中的应用是什么?- 描述博弈论在行为经济学中的新发展。
11. 案例分析- 分析一个具体的经济博弈案例。
- 描述如何使用博弈论工具来解决实际问题。
博弈论四种博弈类型
华为在阿根廷电信设备市场上的竞争博弈华为技术冇限公司是一家总部位于中国广东省除圳市的生产销售电信设备的员工持股 的民营科技公司,经过数十年的发展,成为全球最人的电信网络解决方案提供商,全球第二 人电信基站设备供应商,同时也是全球第六人手机厂商,其海外市场的利润占到其总利润的 75%:在华为进入阿根廷电信设备市场之前,阿根廷的电信设备市场山岌鼻信、阿尔卡特- 朗讯以及阿根廷本土设备供应商三家共同分享市场份额,接下來,我们将分析其不同条件下 的博弈结果: 1、完全信息情况下的静态轉弈A 、纳什均衡:我们将上述三家公司统称为原有垄断者•,华为称为虎视眈眈的潜在进入 者,原冇垄断者想要保住自己现冇的垄断地位,就会想要阻止潜在进入者进入,在这个博弈 中,原有垄断者有两种选择:一是进行斗争,打价格战;二是不斗争,默许其进入从而共同 竞争,具体的支付矩阵结果表示如下:不斗争 斗争根据纳什均衡的定义:各个参与者所做的是在给定其他参与者的策略是所能够做出的瑕 好的一组策略。
当潜在进入者选择进入时,原有垄断者的最优选择是不斗争,获彳'J 70单位 的利润;同样的,原有垄断者选择不斗争的情况2潜在进入者的最优选择是进入,获得 20单位的利润,从而获得一个要求纳什均衡的均衡(进入,不斗争),同理可以得出另一个 纳什均衡(不进入,斗争)。
B 、占优策略:现假设华为公司已经获得了阿根廷电信集团的经营许町证,在严格管制 情况下二者都不能以低于成本的价格进行价格战,同时禁止出现单一寡头垄断的情形,(各 自均有止的利润)在这两种情况卜考虎两者是否进行价格战的情况,具体支付矩阵如卜•所示: 原有垄断者对于潜在进入者而言,不论原有垄断者是否进行价格战,潜在进入者的占优策略都是进 行价格战,因为在原有垄断者定低价时,潜在进入者定低价可以获得额外的20单位利润, 在原有垄断者定高价时,潜在进入者定低价町以获得额外的10单位利润,从而确定华为必 将进行价格战,在完全信息情况卜,原何垄断者会将自己豐于潜在进入者的位豐进行决策, 从而决定自己也要进行价格战,否则会失去更多的利润。
博弈论4 重复博弈
重复三价博弈的等价模型 不可信报复
第一阶段不管选什么策略,二阶段都选 (M,M),于是将(3,3)加到其余策略上,得到 右边等价的得益矩阵。结果第一阶段最 佳策略不是(H,H),而是(M,M)
囚徒2 坦 白 不坦白 囚 坦白 -5,-5 徒 1 不坦白 -8,0 0,-8
-1,-1
(-5,-5)
囚徒2 坦 白 不坦白 囚 坦白 -10,-10 -5,-13 徒 -13,-5 -6,-6 1 不坦白 (-10,-10)
二、一般结论 定理:设原博弈G有唯一的纯策略纳什 均衡,则对任意整数T,重复博弈 G(T)有 唯 一的子博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均衡策略。
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈中,所 有博弈方的唯一选择策略是重复一次性博弈中 的纳什均衡策略 (混合策略纳什均衡)。
原因:重复不会改变博弈效率是利益是 对立的不可调和的。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
唯一的Nash均衡有两种: 一是:本身是帕雷托最优的。它都符合双方的利益, 重复不会改变 二是:本身不是帕雷托最优的。重复能否改变得益? 一、有限次重复囚徒的困境博弈
两人零和博弈有限次重复的所有阶段都不可能发生合 作,因为他们的利益关系是完全对立的。博弈方会一 直重复原博弈的混合策略纳什均衡。 两人零和博弈无限次重复的所有阶段都不可能发生合 作,博弈方会一直重复原博弈的混合策略纳什均衡 由于无限次重复博弈没有最后一个阶段,所以无法用 逆向归纳法证明。 类似的方法是从无限次重复博弈的第t阶段,进行逆向 归纳。注意t是任意的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不管其它参与人的行为如何,某参与人在博弈中只 要自己采取某种特定策略,最低限度能获得的支付。
可实现得益(Feasible Payoff)
所有纯策略组合得益的加权平均
4.3 无限次重复博弈
得益(支付)
给定贴现系数δ (0<δ<1) ,若无限次重复博弈一路径的某 参与人各阶段得益为π1,π2 ,…,则该参与人在该无限 次重复博弈中的总得益为:
1 2 3 t 1 t
2 t 1
δ=1/(1+r) ,r—以一阶段为期限的市场利率
4.3.1 无限次重复囚徒困境
囚徒B
坦白 坦白 囚徒A 抵赖
-8,-8
0 ,-10
抵赖
-10, 0
-1,-1
可以证明,如果参与人有足够的耐心,(抵赖,抵赖) 是一个子博弈完美NE结果。
考虑第19个,进入者知道第20个市场在位者选择默许。
每一个市场均如此。
结论
若原博弈G有唯一NE,则对任意正整数T,G(T) 有唯一的子博弈完美纳什均衡,即各博弈方在每 个阶段都采用G的NE策略。
唯一性:纯策略NE,子博弈完美NE
Case: OPEC 的困境
石油输出国组织
Organization of Petroleum Exporting Countries
盖 方 反面
-1,1
1,-1
1,-1
-1,1
特点:零和博弈,双方无合作可能
结论
所有以零和博弈为原博弈所构成的重复博 弈,各博弈方的正确策略就是每次重复中 都采用一次性博弈中的NE。
长期利益不会约束短期行为
4.2.3 有限次两企业、两差别市场重复博弈
两个企业同时面临两个市场机会A和B。A市场较大,但 开发程度还很低,只有一家厂商不足以很好开发这个市 场;B市场较小,一家厂商占领可得到可观的利益,如 果两家都挤在这个市场,则大家都会无利可图。 企业2
4.2.2 连锁店悖论
4.2.3 有限次重复猜硬币博弈
4.2.4 ★有限次两企业、两差别市场重复博弈
4.2.5 民间定理
4.2.1 有限次重复的囚徒困境博弈 假设进行两次
囚徒B 坦白 坦白 囚徒A 抵赖 抵赖
-8,-8
-10, 0
0 ,-10
-1,-1
逆推归纳法求解
第二阶段:实现本阶段最大利益 (坦白,坦白)(-8,-8) 第一阶段
平均得益=(99*3+4+1)/101=2.99
触发策略
博弈方之间首先试探合作,一旦发现对方不合作 则也用不合作相报复,利用后续阶段博弈的制约 作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问:能否用两次重复构造冷酷策略?如(A,A)、(A,B)
为什么要研究重复博弈
在形式上,重复博弈是基本博弈的重复进行,但博弈 方的行为和结果却不一定是简单重复。
短期利益
长期利益
例:
• 两家企业在一个市场上的长期竞争 • 企业之间的长期协议(如10年) • 商业中的回头客等
基本概念
有限次与无限次重复博弈
给定一个博弈G,重复T次,各博弈方能观察到以前 的博弈进程,称为G的一个“T次重复博弈”,记为 G(T)。G为原博弈。每次重复称为G(T)的一个阶段。
冷酷战略
(1)开始选择抵赖。 (2)选择抵赖直到有一方选择了坦白,然后永远选 择坦白。(惩罚对方)
注:一旦自己在某阶段选择了坦白,将永远选择坦白。 (惩罚自己)
能否用逆推归纳法呢? 首先证明它是一个NE; 然后证明它是子博弈完美NE。
证明冷酷战略是一个NE
给定囚徒2选择了冷酷战略
如果囚徒1在某阶段首先选择了坦白,囚徒2将永远坦白, 此时囚徒1总得益为:
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。 OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。 有些国家因为政治、经济、军事等方面的原因造成资金、 财政紧张,促使其杀鸡取卵、大量超产。
4.2.3 有限次重复猜硬币博弈
猜方
正面 反面
正面
One-Shot NE
Venezuela
Strategy High Q Med Q Low Q
High Q 5, 3 6, 7 8, 1
Med Q 9,4 12,10 10, 18
Low Q 3, 6 20, 8 18, 15
Saudi Arabia
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
4 重复博弈
4.1 重复博弈引论 4.2 有限次重复博弈 4.3 无限次重复博弈
何为重复博弈?
动态博弈分为两类:
序贯博弈(sequential games)
参与人在前一个阶段的行动选择决定随后的子博弈结 构,即同样结构的子博弈只出现一次。
重复博弈(repeated games)
指同样结构的博弈重复多次。
重复博弈
不幸的结局:
各成员国之间这种有远见、符合群体利益、真正符合个 体利益的有效合作在现实中并没有出现,实际的结果是 所有成员国每年都突破自己的限额,甚至成倍超产,使 油价从30美元一桶降到20美元、10美元一桶的水平。
原因分析
某些成员国的石油资源已趋枯竭,构成有限次重复博弈, 长期利益的制约作用大大减弱。
均衡路径 第一阶段
(A , B)
(B , A) (A , B)
平均(期望)得益 企业1
2.5
2.5 1
第二阶段
(B , A)
(A , B) (A , B)
企业2
2.5
2.5 4
(B , A)
混合策略 (A , B) (B , A) 混合策略
(B , A)
混合策略 混合策略 混合策略 (B , A)
因为博弈重复无限次,从任何一个阶段开始 的子博弈与这个博弈的结构相同,故在每个 子博弈上构成NE。
结论: 如果δ>=1/8(即参与人有足够的耐
心),冷酷战略是无限次囚徒博弈的一个子 博弈完美NE。
囚徒走出困境的原因
A A 企业1 B
B
3, 3 4, 1
1, 4 0, 0
求解原博弈
A A 企业1 B 企业2 B
3, 3 4, 1
1, 4 0, 0
两个纯策略NE, 一个混合策略NE: r1=r2=0.5,期望效用:v1=v2=2
两次重复博弈
A A 企业1 B 企业2 B
3, 3 4, 1
1, 4 0, 0
可能的均衡路径?
策略、子博弈和均衡路径
得益
总得益 / 平均得益 贴现系数 1 2 3
2 2 T 1
T t 1 t
t 1
T
1 2 3 t 1 t
t 1
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈
Quantity of Oil
一个静态博弈
每个成员国都意识到在其他成员国不突破限额时自己突 破限额的巨大好处和其他成员国突破限额时自己不突破 限额将白白受损。 加上OPEC的限额又没有足够的强制性约束力。 因此,每个成员国都倾向于突破限额、超额生产,最后 仍然只能实现对每个成员国都并不利的高产、低价、低 利润的NE。
企业2
三次重复
如何证明为一条子博弈完美NE路径?
(A , A )、 (A , B ) 、 (B , A )
平均得益=(3+1+4)/3=2.67
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
推广到任意有限次
重复101次
企业1的策略是前99次都选A,但一旦发现哪次出现结果 (A,B),则改选并坚持B到底,最后二次与三次重复的后 两次一样; 企业2的策略是前99次都选A,但一旦发现哪次出现结果 (B,A),则改选并坚持B到底,最后二次与三次重复的后 两次一样。
policies among Member Countries, in order to secure fair and stable prices for petroleum producers…”
()
通过谈判确定限额
OPEC作为世界石油寡头组织,为了避免成员国独立决策 造成囚徒困境式对大家都不利的局面,维持较高油价以 获取更多的利润,通过谈判确定每个成员国日产石油桶 数的最高限额。
2
那么,给定囚徒2坚持冷酷战略且首先选择了坦白,囚 徒1会不会有积极性坚持冷酷战略以惩罚对方的不合作 行为呢?
3 1首先 类似地,给定给定囚徒2坚持冷酷战略,即使囚徒 选择坦白,坚持冷酷战略也是最优的。
同理,给定囚徒1选择冷酷战略,囚徒2也会坚 持冷酷战略,因此冷酷战略是一个NE
证明这个NE是一个子博弈完美NE
0 (8) 2 (8) ... 8 1
而合作的结果将是:
1 1 (1) (1) ... 1
2
当δ>=1/8时(有足够耐心),囚徒1不会首先选择坦白。
1
δ>=1/8时,给定囚徒2坚持冷酷战略且没有首先坦白, 囚徒1不会选择首先坦白。
囚徒B 坦白 坦白 囚徒A 抵赖 抵赖