第8章 重复博弈
微观经济学-第八章:博弈论
问题4:性别之战(恋爱艺术) (分析图表见黑板) △纳什均衡:在对手的策略既定下,各对手选择的策略都是 最好的
第一节:简单博弈与博弈均衡
结论: ①两个人分开都得不到任何满足, ②在一起都可以得到一定的满足, ③每人的最优策略都依赖对手的选择, ④对方决策后,自己选择最好的策略,达到纳什均衡。 指导意义:
结论:下一次博弈开始时,采用“以牙还牙”的策略或模 仿对手的策略,风险最小。
意义:避免恶性竞争,采取合作态度,防止双输局面出现。 即由竞争走向合作。(“竞争合作”理论的基础)
第二节:重复博弈与序列博弈
二、序列博弈
△对局者选择出台策略有时间先后顺序,称为序列博弈。 例1:有A、B两个房地产开发商在同一地区开发。 (对局见黑板) 1、若B已行动,分析A的策略 (分析图示见黑板) 结论:B不开,A进;B开,A不进。 2、A若已行动,分析B的策略 (分析图示见黑板) 结论:A不开,B进;A开,B不进。 小节:优先行动是关键,应先发制人,取得成功。
二、研究与开发策略(略)
第五节:不完全信息博弈
一、静态博弈
博弈的原则: 预测(估计)对手选择某个策略的可能性(概率)大小,
用概率论的方法进行分析决策。 例1: (对局、分析及图示见黑板)
二、动态博弈
博弈的原则: ①采用“黔驴技穷”的原则, ②不断试探,信息足够时再决定是否行动(选择策略)。 Firefly950整理改编,如有不宜发表内容请来信告知!
• 博弈论在20世记50年代由美国著名数Oscar Morgenstern)引入经济学。
• 目前已成为经济分析的主要工具之一。对产业组 织理论、委托代理理论、信息经济学等经济理论 的发展做出了非常重要的贡献。
尹伯成《西方经济学简明教程》(第7版)笔记和课后习题(含考研真题)详解(第8章 博弈论和信息经济学)
第8章博弈论和信息经济学8.1 复习笔记一、博弈论1.博弈论与传统经济学博弈论本质上也是研究理性的经济主体的最大化行为,但比传统经济学更进一步,认为自己的效用(以及利润或收入)函数不仅依赖于自己的决策,也依赖于他人的决策。
现实的经济生活中,新古典经济学的两个基本假设均难满足:(1)市场是不完全竞争的,市场局中人之间往往是相互影响的,因此一方在决策时必须考虑对方反应,而这一扩张恰恰是博弈论主题。
(2)现实市场中,局中人间信息通常是不充分的。
2.博弈论的基本要素博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。
在策略性环境中,每一个人进行的决策和采取的行动都会对其他人产生影响。
因此,每个人在进行策略性决策和采取策略性行动时,要根据其他人的可能反应来决定自己的决策和行动。
博弈论的基本要素包括:(1)局中人:参与博弈(对策)并承担后果的利益主体,有时也称参与人。
(2)策略集合:指所有局中人可能采取的行动方案的总和。
(3)收益:指在每种策略组合情况下局中人采取特定策略得到的结果。
3.上策均衡和纳什均衡(1)上策:指不管其他局中人采取什么策略,某一局中人都采取自认为对自己最有利的策略。
均衡指博弈中所有局中人都不想改变自己策略的一种相对静止状态。
上策均衡是指不管其他局中人采取什么策略,每个局中人都选择了对自己最有利的策略所构成的一个策略组合。
(2)纳什均衡:指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。
(3)二者关系:纳什均衡不一定是上策均衡,但上策均衡一定是纳什均衡。
如表8-1所示,该博弈没有上策均衡,(策略A,策略A),(策略B,策略B)都是纳什均衡,但不是上策均衡。
表8-1 纳什均衡4.重复博弈和序列博弈(1)静态博弈指局中人同时决策或虽非同时决策,但后决策者不知道先决策者采取什么策略的博弈。
动态博弈指局中人决策有先有后,后决策者能观察到先决策者决策情况下的博弈。
重复性博弈
为什么我不首先采取合作态度——把价格定在垄 断价格呢?
© 2011-13 王秋石
3/100
重复性博弈:日常生活
在公交车上,我们很少为素不相识的乘客买车票 ,因为这大凡是一次性博弈。
无限次重复性博弈就是可以无限次数地、重复性 地玩的一种博弈。
© 2011-13 王秋石
7/100
有限次重复性博弈
假定我们知道囚犯困境博弈只玩十次,现在就是 最后一次,结果会如何呢?最后玩的那次博弈就 像只玩一次的博弈。因此,两者的结果应该是相 同的。
第九轮会如何呢?我们已知在第十轮双方都会承 认犯罪,为什么在第九轮就要合作呢?
在囚犯困境的重复性博弈中,大家都清楚地知道 ,合作的巨大收益提供了合作的正面激励,对方 的有效威胁和潜在伤害则提供了合作的负面激励 。
© 2011-13 王秋石
2/100
重复性博弈:价格
在固定价格的一次性博弈中,哪怕有约在先,双 方都保持垄断价格同时分享市场需求,最后的均 衡为各自采用竞争性价格获得零经济利润。
无限次重复性博弈所形成 的合作均衡解并不是稳定 的,它较为容易被打破。
© 2011-13 王秋石
9/100
序列博弈
到目前为止所讨论的博弈都是两个选手要同时选 择策略。例如,在古诺模型中,两家企业同时决 定产量。
在序列博弈中,选手们按先后顺序进行选择。因 此,序列博弈就是选手依次出招的博弈。
30/100
可信的威胁
© 2011-13 王秋石
31/100
可信的威胁
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
第8章 重复博弈
上述博弈存在唯一的Nash均衡。 将上述博弈重复两次,其中第二次博 弈开始时,第一次博弈的结果已知。
问题:在一次博弈中,上述博弈的结果为 (U,L)。如果重复两次,有没有可能, 出现其它结果?
Department of Mathematics
Northwest University
两次重复博弈的博弈树
1 2 1
Department of Mathematics
Northwest University
上述重复博弈只存在唯一的Nash均衡: 在每次博弈中,参与人1都选择U,参与 人2都选择L,即 ( (U, U, U, U, U), (L, L, L, L, L) )
证明:该均衡为子博弈精炼Nash均衡。
2 Z2
0,0 0,0 3,3 0,0 0,0
P2
0,0 0,0 0,0 4,1/2 0,0
Q2
0,0 0,0 0,0 0,0 1/2,4
Y1
1 Z1
P 1 Q1
Department of Mathematics
Northwest University
触发战略:
如果第一阶段出现(Y1,Y2),则第二阶 段(Z1,Z2 ); 如果第一阶段出现(Y1,w),其中(wY2), 则第二阶段为(P1,P2);
第二部分: 完全信息动态博弈
第八章 重复博弈
主要内容: 一、有限重复博弈 二、无限重复博弈 三、讨价还价博弈
第八章 重复博弈
主要内容: 一、有限重复博弈 二、无限重复博弈 三、讨价还价博弈
Department of Mathematics
Northwest University
一、有限重复博弈
触发战略:
博弈论读书笔记(五)重复博弈
博弈论读书笔记(五)重复博弈2.3重复博弈从这⾥开始,就进⼊博弈论⽐较难以理解的地⽅了。
我也不跟着书上的章节⾛,根据⾃⼰的理解和书上的例⼦来写,如果理解有什么不对的地⽅,欢迎各位⼤佬的指正。
⾸先我们来明晰博弈论到底在讨论些什么:对于这个问题,前⾯⼏章的内容可能对⼤家会造成⼀定的误导。
因为根据前⾯⼏章的例⼦,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。
这句话本⾝没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒⼀样,选择“保证对⽅不会背叛并且⾃⼰在此情况下能获得最⼤利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明⽩我的意思)。
例如第⼀章第⼀节中囚徒困境双⽅都选择招认(因为选择合作即不招认,结果可能是被背叛)。
但是⼀旦进⼊了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),⽽要考虑多次重复博弈的总收益。
这个时候就需要参与双⽅共同商定⼀个“协议”(例如双⽅说好都选择不招认),这个协议必须是对于双⽅都有利的(⾄少由于选择单次博弈的纳什均衡,例如双⽅不招认总⽐双⽅都招认要好),并且协议中会对不遵守规则的进⾏惩罚,以便于对每个⼈来说选择合作是最好的结果。
从这⾥我们就可以理解“博弈论教你如何制定规则的”这句话了。
好了,这⼀章最核⼼的思想在这⾥已经讲完了,虽然我可能说的不是那么清晰,不过还是希望你能认真理解上⾯所说的,这会对下⾯的概念理解有很⼤帮助。
2.3.A两阶段重复博弈先给出⼏个先⾏的定义和定理:定义:对个定的阶段博弈G,令G(T)表⽰G重复T次的有限重复博弈,并且在下⼀次博弈开始前,所有以前的博弈都可以被观测到。
G(T)的收益为T次阶段博弈收益的简单相加。
这个定义最重要的是引出⼀个重复博弈中收益的概念,即T次博弈的收益简单相加,后⾯我们会提到贴现的概念,不过到这⾥先理解到简单相加就⾏。
定理:如果阶段博弈G有唯⼀的纳什均衡,则对任意有限的T,重复博弈G(T)有唯⼀的⼦博弈精炼解:即G的纳什均衡结果在每⼀阶段重复进⾏。
浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设25页PPT
谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
ቤተ መጻሕፍቲ ባይዱ
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
浙大《博弈论基础》蒋文华 第八讲 重 复博弈和制度建设
16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。
博弈论重复博弈
D,D,D,D,D,D,… D,D,D,D,D,D,…
T,T,T,…. T,D,T,D,T,…. T,D,D,D,D,… D,T,T,T,T,….
重复博弈和无名氏定理
首先证明冷酷策略是一个纳什均衡 回顾一下,所谓纳什均衡,就是这样的一个状态,对于任
意一个参与人,给定其他参与人选择纳什均衡策略,该参 与人都无法偏离纳什均衡策略。 因此,证明囚徒问题中冷酷策略是一个纳什均衡的方法是: 给定其中任意一个参与人坚持“冷酷战略”,另外一个参 与人的最优选择也是坚持冷酷战略。
Axelrod (1984)
Tit-for-tat 是成功率最高的战略
惩罚与合作
Abreu(1986):最大合作战略是使用最严厉的可信 惩罚(the strongest credible punishment);
维护合作并不需要无限期的惩罚;只要惩罚期足 够长就可以了;
萝卜加大棒(stick and carrot): 从合作开始,一直合作直到: 如果有任何一方在t期不合作,在t+1期,前期合作者选择 “不合作”来实施惩罚,前期不合作者选择合作;如果该 合作的没有合作或者该惩罚的没有惩罚,在t+2期继续按 照上述t+1期的策略规定博弈;否则,合作恢复。
因为实际生活中,进入者和在位者在每个市场都斗 得你死我活
有限次重复博弈定理
令G是阶段博弈,G(T)是G重复T次的重复博弈(T<∞)。如 果G有唯一的纳什均衡,重复博弈G(T)的唯一子博弈精炼 纳什均衡结果是:
阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次 性博弈的均衡结果)。
只要博弈的重复次数是有限的,重复本身并不改变囚徒困 境的均衡结果。
因此,如果下列条件满足,给定对手没有选择坦白, i将不会选择坦白
微观经济学 第八章 博弈论 习题
第八章博弈论一、重点和难点(一)重点1.博弈论及其基本概念2.纳什均衡3.占优策略均衡4.囚徒困境博弈(二)难点1.最小最大值(或最大最小值)策略2.子博弈精炼纳什均衡3.动态博弈战略行动4.不完全信息静态博弈5.不完全信息动态博弈二、关键概念博弈零和博弈非常和博弈囚徒困境纳什均衡支付子博弈精炼纳什均衡完全信息静态博弈占优策略均衡重复博弈战略移动可信威胁豪尔绍尼转换三、习题(一)单项选择题1.博弈论中,局中人从一个博弈中得到的结果常被称为()。
A. 效用B. 支付C. 决策D. 利润2.博弈中通常包括下面的内容,除了()。
A.规则B.占优战略均衡C.策略D.结局3.在具有占优战略均衡的囚徒困境博弈中()。
A.只有一个囚徒会坦白B.两个囚徒都没有坦白C.两个囚徒都会坦白D.任何坦白都被法庭否决了4.在多次重复的双头博弈中,每一个博弈者努力()。
A.使行业的总利润达到最大B.使另一个博弈者的利润最小C.使其市场份额最大D.使其利润最大5.一个博弈中,直接决定局中人支付的因素是()。
A. 策略组合B. 策略C. 信息D. 行动6.对博弈中的每一个博弈者而言,无论对手作何选择,其总是拥有惟一最佳行为,此时的博弈具有()。
A.囚徒困境式的均衡B.一报还一报的均衡C.占优策略均衡D.激发战略均衡7.如果另一个博弈者在前一期合作,博弈者就在现期合作;但如果另一个博弈者在前一期违约,博弈者在现期也违约的战略称为()。
A.一报还一报的战略B.激发战略C.双头战略D.主导企业战略8.在囚徒困境的博弈中,合作策略会导致()。
A.博弈双方都获胜B.博弈双方都失败C.使得先采取行动者获胜D.使得后采取行动者获胜9.在双寡头中存在联合协议可以实现整个行业的利润最大化,则()。
A.每个企业的产量必须相等B.该行业的产出水平是有效的C.该行业的边际收益必须等于总产出水平的边际成本D.如果没有联合协议,总产量会更大10.在什么时候,囚徒困境式博弈均衡最可能实现()。
重复博弈
重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。
重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。
博弈论重复博弈
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况, 最佳结果(A,A)无法实现是因为两次 博弈中博弈方没有运用触发策略的条件 或机会
两市场博弈的重复博弈(重复三次)
厂 商
A
1B
触发策略:
A 3,3 4,1
厂商2 B
1,4 0,0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
,此时利润为5.0625,高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
两市场博弈的重复博弈(重复101次)结果?
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都 不可能发生合作,博弈方会一直重复原 博弈的混合策略纳什均衡
博弈理论知识讲义
第八章 博弈论前面章节对经济人最优决策的讨论,是在简单环境下进行的,没有考虑经济人之间决策相互影响的问题。
本章讨论这个问题,建立复杂环境下的决策理论。
开展这种研究的的理论叫做博弈论,也称为对策论(Game Theory)。
最近十几年来,博弈论在经济学中得到了广泛应用,在揭示经济行为相互制约性质方面取得了重大进展。
大局部经济行为都可视作博弈的特殊情况,比方把经济系统看成是一种博弈,把竞争均衡看成是该博弈的古诺-纳什均衡。
博弈论的思想精髓与方法,已成为经济分析根底的必要组成局部。
第一节 博弈事例博弈是一种日常现象,例如棋手下棋,双方都要根据对方的行动来决定自己的行动,双方的目的都是要战胜对方,互不相容,互相影响,互相制约。
一般来讲,博弈现象的特征表现为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中,一方的行动取决于对方的行动,每个当事人的收益都取决于所有当事人的行动。
当所有当事人都拿定主意作出决策时,博弈的局势就暂时确定下来。
博弈论就是研究这种不相容现象的一种理论,并把当事人叫做局中人(player)。
博弈论推广了标准的一人决策理论。
在每个局中人的收益都依赖于其他局中人的选择的情况下,追求收益最大化的局中人应该如何采取行动?显然,为了确定出可行的策略,每个局中人都必须考虑其他局中人面临的问题。
下面来举例说明。
例1.便士匹配(Matching Pennies)(二人零和博弈)设博弈中有两个局中人甲和乙,每个局中人都有一块硬币,并且各自独立安排硬币是否正面朝上。
局中人的收益情况是这样的:如果两个局中人同时出示硬币正面或反面,那么甲赢得1元,乙输掉1元;如果一个局中人出示硬币正面,另一个局中人出示硬币反面,那么甲输掉1元,乙赢得1元。
对于这个博弈,每个局中人可选择的策略都有两种:正面朝上和反面朝上,即甲和乙的策略集合都是{正面,反面}。
当甲和乙都作出选择时,博弈的局势就确定了。
显然,该博弈的局势集合是{(正面,正面),(正面,反面),(反面,正面),(反面,反面)},即各种可能的局势的全体,也称为局势表,即表1。
重复博弈的详细介绍
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
重复博弈公式
重复博弈公式
重复博弈是指在一个博弈系统中,每个参与者都是对其他参与者的行为预期的最大化者,并且每个参与者在多次博弈中对不同的对手做出相同的决策。
在重复博弈中,可以使用以下公式来描述每个参与者的策略选择:
P(X,Y) = P(X)*P(Y|X) + K(P(X|Y) - P(X|X)) * P(Y|X) 其中,P(X,Y) 表示每个参与者在重复博弈中对每个对手做出的选择概率,P(X|Y) 表示在已知其他参与者的选择的情况下,每个参与者选择 X 的概率,P(Y|X) 表示在已知其他参与者选择 X 的情况下,每个参与者选择 Y 的概率,K 表示每个参与者对每个对手的最大化期望收益,即 K = 常数。
这个公式告诉我们,在重复博弈中,每个参与者的策略选择是以最大化期望收益为目标的。
通过计算每个参与者在不同情况下的期望收益,我们可以了解他们在每个情况下的最佳策略选择。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、有限重复博弈
重复博弈所关心的议题: 将来可信的威胁或承诺如何影响 到当前的行动
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
考察下列博弈
2 L 1 U D R
1,1 0,5
5,0 4,4
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
定理:
如果阶段博弈G有唯一的Nash均衡, 则对任意有限的T,重复博弈G(T)有唯一 的子博弈精炼解,即G的Nash均衡结果在 每一个阶段重复进行。
Control Science and Engineering, HUST
Y2
5,0 4,4 0,0 0,0 0,0
2 Z2
0,0 0,0 3,3 0,0 0,0
P2
0,0 0,0 0,0 4,1/2 0,0
Q2
0,0 0,0 0,0 0,0 1/2,4
Y1
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
2 L 1 U D R
L 1 U D
2 R
1,1 0,5
5,0 4,4
1,1 0,5
5,0 4,4
2 L 1 R U 1+1,1+1 5+1,0+1 D 0+1,5+1 4+1,4+1
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
下列博弈重复无限次。
2 L 1 U D R
1,1 0,5
5,0 4,4
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
在无限重复博弈 G(, )中,由 t+1 阶 段开始的每个子博弈都等同于初始博 弈 G(, ) ,和在有限情况下相似,博弈 G(, ) 到 t 阶段为止有多少不同的可能进 行过程,就有多少从 t+1 阶段开始的子博 弈。
Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng
在有限重复博弈G(T)中,由第 t+1 阶 段开始的一个子博弈为G进行 T-t 次的重 复博弈,可表示为G(T-t)。 由第 t+1 阶段开始有许多子博弈,到 t 阶段为止的每一可能的进行过程之后都 是不同的子博弈。
第八章 重复博弈
主要内容: 一、有限重复博弈 二、无限重复博弈 三、讨价还价博弈
Control Science and Engineering,erved, 2007, Luo Yunfeng
二、 无限重复博弈
• 定义(无线重复博弈)给定一阶段博弈G, 令 G(, ) 表示相应的无限重复博弈,其 中G将无限次低重复进行,且参与人的贴 现率为 。对每个t,之前t-1次阶段博弈 的结果在t阶段开始进行前都可以被观测 到,每个参与人在 G(, ) 中的收益都是 该参与人在无限次的阶段博弈中所得受 益的现值。
例如: 若第一阶段出现(M1,M2)(即出现合 作),则第二阶段为(R1,R2)(即“好的均 衡”); 若第一阶段没有出现(M1, M2 ), 则 第二阶段为(L1,L2)(即“差的均衡”)。
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
All Rights Reserved, 2007, Luo Yunfeng
上述博弈存在唯一的Nash均衡。 将上述博弈重复两次,其中第二次博 弈开始时,第一次博弈的结果已知。
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
如果第一阶段出现(Y1,Y2),则第二阶 段(Z1,Z2 ); 如果第一阶段出现(Y1,w),其中(wY2), 则第二阶段为(P1,P2);
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
如果第一阶段出现(w,Y2),其中(wY1), 则第二阶段(Q1,Q2 ); 如果第一阶段出现(w1,w2),其中(w1Y1, w2Y2),则第二阶段为(Z1,Z2)。
All Rights Reserved, 2007, Luo Yunfeng
考察下列博弈
L2 L1
1 M1
M2 5,0 4,4 0,0
2
R1
1,1 0,5 0,0
R2 0,0 0,0 3,3
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
对于无限重复博弈,参与人在博弈 的每一时点,都不必考虑过去的得失, 也就是说,无限重复博弈中,参与人过 去的得失并不重要,可以看成是沉没成 本(或收入)。
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
重复博弈定义
对于给定的阶段博弈G,令G(T)表示 G重复进行T次的有限重复博弈,并且在 下一此博弈开始前,所有以前博弈的进 程都可被观测到, G(T)的收益为T次阶段 博弈收益的简单相加。
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
2) 战略组合: 一共存在
59049 59049=3,486,784,401
个战略组合;
Control Science and Engineering, HUST
0+3,0+3 0+1/2,0+4 3+3,3+3
Y1 0+4,5+1/2 4+3,4+3 0+4,0+1/2 0+4,0+1/2 0+4,0+1/2
P 0+3,0+3 0+1/2,0+4 0+3,0+3 4+3,1/2+3 0+3,0+3 1 Q1 0+3,0+3 0+1/2,0+4 0+3,0+3 0+3,0+3 1/2+3,4+3
上述博弈存在两个Nash均衡: (L1 , L2)和(R1 , R2) 将上述博弈重复两次。
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
1) 战略: 每个局中人都有
3
个战略;
(1+9)
= 59049
对于阶段博弈为上述博弈的有限 重复博弈,合作不可能形成。 但对于无限重复博弈,在一定的 贴现率下,合作有可能形成。
All Rights Reserved, 2007, Luo Yunfeng
3) 均衡: 可以根据以下原则构造均衡: 由第一阶段的结果,预测第二阶 段的均衡。
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
上述结论说明: 对将来行动所作的可信威胁或承 诺可以影响到当前的行动。 考察下列博弈。
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng
X2 X1
1 Z1
P 1 Q1
1,1 0,5 0,0 0,0 0,0
在上述策略下,博弈可表示为: 2
L2
M2
R2
L1 1+1,1+1 5+1,0+1 0+1,0+1 1 M 1 0+1,5+1 4+3,4+3 0+1,0+1 R1 0+1,0+1 0+1,0+1 3+1,3+1
这意味着:合作可以在第一阶段达到
Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng
Control Science and Engineering, HUST
All Rights Reserved, 2007, Luo Yunfeng