4 重复博弈
第四章重复博弈习题讲解
• (3)将(下,左)的得益改为(1,5)情况会发生质的 变化。因为此时第一阶段两博弈方都有偏离(下,右)的 动机,而上述博弈又不存在同一个阶段中同时对两博弈方 惩罚或奖励的纳什均衡,因此重复两次时不可能存在子博 弈完美纳什均衡部分实现(4,4)得益。 • 至少在部分阶段实现得益(4,4)的条件是重复博弈的 次数达到三次或以上,或者得益进一步改变到(下,右) 是原博弈的纳什均衡。如设计触发策略: • 博弈方1:第一阶段选“下“,出现结果(下,右),则 第二阶段继续选”上“,第三阶段选”中“。 • 如果第一阶段没有出现,(下,右),则第二、第三阶段 选混合策略均衡。 • 博弈方2:第一阶段选“右“,出现结果(下,右)则第 二阶段选”左“,第三阶段选”中“,否则第二、三阶段 选择混合策略的均衡。 • 均衡路径为(下,右)(上,左)(中,中)
• 答:(1)上述静态博弈有两个纯策略纳什均衡(上,左)和 (中,中)。由于策略组合(下,右)实现的得益(4,4)对 博弈方2来说已是最理想的,因此博弈方2不会有偏离的动机, 只有博弈方1可能有偏离动机,因此可设计如下触发策略。
• 博弈方1:第一阶段采取下;如果第一阶段的结果是(下,右) 则采取上,否则采取中。 • 博弈方2:第一阶段采取右;如果第一阶段的结果是(下,右) 第二阶段采取左,否则采取中。
聊聊四种经典的博弈论模型
聊聊四种经典的博弈论模型展开全文1、囚徒困境:为什么两个犯人都选择坐牢官差破获了一宗盗窃案,抓住了两名犯罪嫌疑人。
但在审讯过程中,被关在一处的二人始终矢口否认盗窃罪名,说东西不是我们偷的。
为了避免两人达成默契,结成攻守同盟,官差决定对他们进行单独审讯。
官差表示,如果两人中有一人坦白认罪,则可立即释放,另一个不认罪的人判5年徒刑;如果两人都坦白罪刑,则他们将各判2年徒刑。
但还有一种情况,那就是两个人都拒绝坦白,由于缺乏证据,他们只会以扰乱公共场合为名判处3个月拘役。
这就是两名罪犯面临的困境中,他们会做出怎样的选择呢?首先,他们互相之间都不清楚对方是否会坦白,其次,二人都希望将自己的刑期缩至最短。
如此考虑,最终,两名犯人都会选择坦白交代。
上面的案例就是博弈论所说的“囚徒困境”。
犯人们如果彼此合作,可为集体带来最佳利益(刑期最短);但当二人面对同样的情况且不知道对方如何选择时,在理性思考后,双方都会得出相同的结论(坦白交代),以便达到个人利益的最大化。
囚徒困境是博弈论的“非零和博弈”中具代表性的例子,反映的是个人的最佳选择并非是团体的最佳选择。
虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
2、智猪博弈:赢的总是小猪猪圈里有大小两头猪,它们在同一个食槽里进食。
为了保持饲料的新鲜,在远离猪食槽的另一边有一个踏板,大猪或小猪跑过去,每按动一次踏板,投食口就会掉落10个单位的食物。
于是,在大猪和小猪每次进食前,就会形成这样一种局面:如果小猪跑去按踏板,大猪守在食槽边,则大猪小猪吃到的食物比是9:1;反之,如果大猪去按而小猪守在食槽边,则吃食比例是6:4。
如果二猪同时到食槽边,则吃食比是7:3。
这样一来,从纯收益的角度考虑,小猪就更愿意选择在食槽边等待食物落出,因为“等待优于行动”,而大猪只能被迫奔忙在踏板和食槽之间。
上述“智猪博弈”的案例是经济学家的假设论证模型,这个博弈的结果,用经济学视角看待,可以解释为:谁占有更多资源,谁就必须承担更多义务。
重复博弈的详细介绍
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
重复博弈的名词解释
重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。
在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。
通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。
1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。
1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。
1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。
因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。
2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。
2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。
协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。
2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。
背叛策略的核心是以牺牲他人利益为代价,获得短期利益。
3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。
由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。
3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。
通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。
第四讲重复博弈详解
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
第四章 重复博弈
假设某参与人在无限次重复博弈的一个均衡 路径上各阶段博弈的收益为πt,则该参与人 无限次重复博弈的总收益(即各阶段收益 的贴现值)为
PV 1 2 2 3 t 1 t
t 1
定义: 给定一个博弈G,无限次重复进行G博弈的 过程称为G的“无限次重复博弈”,记为 G(∞,δ),其中δ是参与人收益的贴现系数 (是所有参与人共同的贴现系数)。并且 在进行第t阶段(第t次重复)博弈之前,参 与人都能看到(t-1)阶段博弈的结果。 各参与人在G(∞,δ)中的收益等于各阶段收 益的贴现值。
4、子博弈完美纳什均衡 参与人2的收益:
(1)参与人2不合作
U 5 1 1 1 5
2 3
1
(2)参与人2合作
V 4 V 4 V 1
(3)参与人合作的条件:V≥U
4 5 1 1 1 4
1 当 4
– 平均期望收益为(1.5,3)。
• 第一次是混合战略均衡,第二次是纯战略均衡(B, A);
– 平均期望收益为(3,1.5)。
4、三次重复
–三次重复博弈中,除了有与上述类似的均衡战略组合 外,还有以下战略可以构成子博弈完美纳什均衡
• 厂商1的战略:
第一阶段博弈选A; 第二阶段的行动选择取决于第一阶段的结果 第三阶段无条件选B。
参与人正确的战略就是在每次重复博弈中都采
用一次性博弈的纳什均衡策略。
三、有限次重复博弈—囚徒的困境
假设:
有两个惯犯,每次判刑都不是很重。在刑 满释放之后再作案,作案之后再判刑; 刑满释放之后又作案,如此反复。 他们反复作案之后接受隔离审查过程就是 一个重复博弈的过程。
重复两次:
逆向归纳法求解
活学活用博弈成功智慧_第四章 重复博弈:所有诚信都有利可图
“善有善报”不是因果迷信在囚徒困境中,选择招供,也就是背叛是理性的,这一论断与我们的传统观念并不相符。
如果人人都这样想问题,那么诚信又从何而来呢?出现这一问题的原因是:现实中的情况和囚徒困境并不一样,困境中的两个囚徒互不相识,被判出狱后可能老死不相往来。
现实中并非如此,人们都在进行着重复的博弈,就是同样结构的博弈要重复多次,人们可能在次数不定的博弈中与其他人重复交手。
正因为如此,人们才要有诚信,诚信只是为让自己在以后的博弈中继续获得利益,这是一种长远的打算。
诚信的人一般都是聪明人,他们懂得细水长流的道理,对于“善有善报”这样的言语充满敬畏。
其实,“善有善报”的观念并不是一种迷信思想,从另一个角度看,它是有科学依据的。
如果有一个人总是出卖朋友,那么他可能会从第一次、第二次、第三次出卖中获得利益,但是长此以往,人们就会认清他的真面目,并互相传播他的劣迹。
这样,到了最后,他就会变得没有朋友可以出卖,因为他一直靠出卖朋友生存,当他没有朋友的时候,就是他穷途末路的时候,最终他只能落得众叛亲离的下场。
现在,我们明白了,诚信并不是什么了不起的美德,它也是实现利益最大化的一种手段,如果最终真的无利可图,人们便不会有诚信之举。
也许你会举出英雄人物的例子来反驳,但是英雄人物最终得到了人们的敬仰和爱戴,他们流芳百世、永垂不朽,如果他们合己为人的结果是被人指责、唾骂,遗臭万年,那么他们绝不会选择当英雄。
“一报还一报”的伟大胜利如果囚徒困境是简单的一次性博弈,使坏对于双方来说,当然都是最理性的选择。
但是,在重复性的博弈中,参与者应该怎样面对合作与背叛的问题?应该选择什么样的策略呢?著名学者爱克斯罗德所做的一个实验回答了这一问题。
实验的过程是这样的:所有参加这个实验的人都扮演“重复型”囚徒困境案例中一个区犯的角色,把自己的策略编成计算机程序,与其他程序进行一对一的博弈,在合作与背叛之间做出选择。
他们要将这个游戏以单循环赛的方式玩上200次。
博弈论4 重复博弈
重复三价博弈的等价模型 不可信报复
第一阶段不管选什么策略,二阶段都选 (M,M),于是将(3,3)加到其余策略上,得到 右边等价的得益矩阵。结果第一阶段最 佳策略不是(H,H),而是(M,M)
囚徒2 坦 白 不坦白 囚 坦白 -5,-5 徒 1 不坦白 -8,0 0,-8
-1,-1
(-5,-5)
囚徒2 坦 白 不坦白 囚 坦白 -10,-10 -5,-13 徒 -13,-5 -6,-6 1 不坦白 (-10,-10)
二、一般结论 定理:设原博弈G有唯一的纯策略纳什 均衡,则对任意整数T,重复博弈 G(T)有 唯 一的子博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均衡策略。
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈中,所 有博弈方的唯一选择策略是重复一次性博弈中 的纳什均衡策略 (混合策略纳什均衡)。
原因:重复不会改变博弈效率是利益是 对立的不可调和的。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
唯一的Nash均衡有两种: 一是:本身是帕雷托最优的。它都符合双方的利益, 重复不会改变 二是:本身不是帕雷托最优的。重复能否改变得益? 一、有限次重复囚徒的困境博弈
两人零和博弈有限次重复的所有阶段都不可能发生合 作,因为他们的利益关系是完全对立的。博弈方会一 直重复原博弈的混合策略纳什均衡。 两人零和博弈无限次重复的所有阶段都不可能发生合 作,博弈方会一直重复原博弈的混合策略纳什均衡 由于无限次重复博弈没有最后一个阶段,所以无法用 逆向归纳法证明。 类似的方法是从无限次重复博弈的第t阶段,进行逆向 归纳。注意t是任意的。
4 重复博弈
• 重复博弈可以看做是存在同时行动的扩 展式博弈。
4. 策略
• 每阶段行动的组合
策略的表示
• 假设局中人存在两种状态,C或者D。
• 冷酷策略(grim/trigger strategy): • 最初状态为 C。一旦对方在某一阶段选 择了D,那么,在下一个阶段也选择D, 并永远保持下去。
• 可以用下图表示.
• k ≥ 2, δ 足够大,有限惩罚足以促成合 作.
无限次重复博弈的子博弈 完美纳什均衡
• 子博弈完美纳什均衡(SPE): 对于任何 子博弈而言, 局中人不能通过改变子博弈 中最初的行动以增加收益。
• (1) 冷酷策略 • 假定最初的结果为 (C, D).
• 给定对方选择冷酷策略,那么局中人坚 持冷酷策略是最优的吗?
• 如果局中人1在子博弈第1阶段选择 D , 然后坚持TFT,那么结果为 (D, D) ,平 均收益为 1.
• 共四种状况 (C, C), (C, D), (D, C), (D, D).
• 对于而言 (C, C)分析与整个博弈的纳什 均衡分析完全相同: • 如果δ ≥ 1/2, TFT为最优反应.
• 接下来考虑 (C, D)之后的子博弈。
• 假定局中人2坚持TFT. 如果局中人1坚持 TFT,那么结果是在 (D, C) 和 (C, D)之 间进行交替。局中人1的平均收益为:
• 接下来,局中人2面临着与博弈初始处完 全相同的状况。
• 坚持不偏离的收益贴现均值是:
• 偏离后贴现收益均值是:
• 不偏离的条件如下:
• 如果k = 1 , 那么任何小于1的δ 都无法 满足上述不等式: 一阶段的惩罚不足以阻 止偏离, 无论局中人的耐心有多大。
• 如果 k = 2 ,要求 δ ≥ 0.62才会不偏离; • 如果 k = 3 ,要求 δ ≥ 0.55. • K增加后, δ 下限为 ½ , 下限表示的是冷 酷策略.
重复博弈
重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。
重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。
有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。
[经济学]4 重复博弈--博弈论
策略、子博弈和均衡路径
得益
总得益 / 平均得益
贴现系数
T
1 223 T 1T
t 1 t
t 1
12 23 t1t
h
t1
4
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈 4.2.2 连锁店悖论 4.2.3 有限次重复猜硬币博弈 4.2.4 ★有限次两企业、两差别市场重复博弈 4.2.5 民间定理
Med Q 9,4
12,10 10, 18
Low Q 3, 6 20, 8
18, 15
Saudi Arabia
h
16
重复博弈
合理的猜想:
石油生产和出口年年持续进行,OPEC的制约和协调按 理说总是有一定作用的。各国不可能对合作的巨大好处 无动于衷,再加上我们要考虑到成员国中最大的产油国, 如沙特阿拉伯在其中会起一定的积极作用,带头克制自 己的行为。因此OPEC这个是否突破限额的重复博弈的结 果理应比完全没有制约独立决定产量的结果要好得多。
第一阶段 第二阶段
(A , B)
(B , A)
(B , A)
(A , B)
(A , B)
(A , B)
(B , A)
(B , A)
混合策略
混合策略
(A , B)
(B , A) 混合策略 混合策略
混合策略 混合策略
(B , A) (A , B)
平均(期望)得益
企业1
企业2
2.5
2.5
2.5
2.5
1
4
4
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。
OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。
第四章 重复博弈
通用面粉
策略 无广告 12,12 20,1 中等强度 1,20 6,6 高强度 -1,15 0,9 无广告 中等强度
凯洛格
高强度
15,-1
9,0
2,2
纳什均衡
无限重复博弈
如果企业每年都进行这种一次博弈,并且永远进行下去,这时参与人可以对对 手的“欺骗”行为进行惩罚或报复。在这种情况下,共谋起作用吗?
4.2.2 有限次重复的囚徒困境博弈
如果原博弈存在唯一的纯策略纳什均衡组合,则 有限次重复博弈的唯一的均衡解即各博弈方在每 阶段(即每次重复)中都采用原博弈的纳什均衡 策略。由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺,因此这 种均衡是子博弈完美纳什均衡。
4.2.2 有限次重复的囚徒困境博弈
凯洛格
中等强度 高强度
Kellogg从欺骗行为中获得的好处:
欺骗 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i – 假设i = .05 欺骗 - 合作 = 8 - 10/.05 = 8 - 200 = -192 欺骗没有好处. – 在无限次重复博弈中共谋是纳什均衡!
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高
无广告 中等强度 高强度
欺骗行为的收益和成本
如果 当前收益 > 未来成本的现值
–
欺骗行为是有利的 欺骗行为没有好处
通用面粉
策略 无广告 12,12 20,1 15,-1 中等强度 1,20 6,6 9,0 高强度 -1,15 0,9 2,2 无广告 中等强度 高强度
一次广告博弈
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
2 3 1.5 1.5
混合策略
(A , B)
1.5
3
企业2得益
(1 , 4) (1.5 , 3) (3 , 3)
(2.5 , 2.5)
(2 , 2) (3 , 1.5) (4 , 1)
企业1得益
图 各均衡策略的平均得益
三次重复
企业1
无条件策略=〉有条件策略
第一阶段选A; 如果第一阶段的结果是(A,A),则第二阶段选A; 如果第一阶段的结果是(A,B),则第二阶段选B; 第三阶段无条件选B。 第一阶段选A; 第二阶段无条件选B; 如果第一阶段的结果是(A,A),则第三阶段选A; 如果第一阶段的结果是(B,A),则第三阶段选B。
平均得益=(99*3+4+1)/101=2.99
触发策略
博弈方之间首先试探合作,一旦发现对方不合作 则也用不合作相报复,利用后续阶段博弈的制约 作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问:能否用两次重复构造冷酷策略?如(A,A)、(A,B)
企业2
三次重复
如何证明为一条子博弈完美NE路径?
(A , A )、 (A , B ) 、 (B , A )
平均得益=(3+1+4)/3=2.67
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
推广到任意有限次
重复101次
企业1的策略是前99次都选A,但一旦发现哪次出现结果 (A,B),则改选并坚持B到底,最后二次与三次重复的后 两次一样; 企业2的策略是前99次都选A,但一旦发现哪次出现结果 (B,A),则改选并坚持B到底,最后二次与三次重复的后 两次一样。
1 2 3 t 1 t
2 t 1
δ=1/(1+r) ,r—以一阶段为期限的市场利率
4.3.1 无限次重复囚徒困境
囚徒B
坦白 坦白 囚徒A 抵赖
-8,-8
0 ,-10
抵赖
-10, 0
-1,-1
可以证明,如果参与人有足够的耐心,(抵赖,抵赖) 是一个子博弈完美NE结果。
4.2.5 民间定理
企业2得益
(1 , 4)
(3 , 3)
W=(1 , 1)
(4 , 1)
企业1得益
民间定理:设原博弈的一次性博弈均衡得益数组优于w(最差得
益数组),那么在该博弈的多次重复中,所有不小于个体理性得益 的可实现得益都至少有一个子博弈完美NE来实现它。
4.2.5 民间定理
wi为一次性博弈中博弈方i 最差的均衡得益, w=(w1,w2..wn),在两市场博弈中为(1,1)
4.2.2 连锁店悖论
4.2.3 有限次重复猜硬币博弈
4.2.4 ★有限次两企业、两差别市场重复博弈
4.2.5 民间定理
4.2.1 有限次重复的囚徒困境博弈 假设进行两次
囚徒B 坦白 坦白 囚徒A 抵赖 抵赖
-8,-8
-10, 0
0 ,-10
-1,-1
逆推归纳法求解
第二阶段:实现本阶段最大利益 (坦白,坦白)(-8,-8) 第一阶段
Selten,1978,市场进入博弈
进入者
进 不进
在位者
斗争 (-10,0) 默许
(0,300)
子博弈完美纳什均 衡:(进入,默许)
(40,50)
现假定在位者有20个连锁店
合理的猜想是: 悖论Paradox
在进入者进入第一个市场时,在位者选择斗争,以阻 止其进入其它19个市场。
用逆向归纳法求解:
假定前19个已进入,第20个市场斗争无意义。
囚徒B 坦白 坦白 囚徒A 抵赖 抵赖
-16,-16 -18, -8
-8 ,-18 -9,-9
4.2.1 有限次重复的囚徒困境博弈
结论:
有限次重复不能使囚徒走出困境。
在一个博弈中的每个博弈方的所有得益上
各自加上相同的数值不会改变博弈原来的解。
4.2.2 连锁店悖论
Chain-store paradox
重复博弈
不幸的结局:
各成员国之间这种有远见、符合群体利益、真正符合个 体利益的有效合作在现实中并没有出现,实际的结果是 所有成员国每年都突破自己的限额,甚至成倍超产,使 油价从30美元一桶降到20美元、10美元一桶的水平。
原因分析
某些成员国的石油资源已趋枯竭,构成有限次重复博弈, 长期利益的制约作用大大减弱。
为什么要研究重复博弈
在形式上,重复博弈是基本博弈的重复进行,但博弈 方的行为和结果却不一定是简单重复。
短期利益
长期利益
例:
• 两家企业在一个市场上的长期竞争 • 企业之间的长期协议(如10年) • 商业中的回头客等
基本概念有限次与无限次重复 Nhomakorabea弈
给定一个博弈G,重复T次,各博弈方能观察到以前 的博弈进程,称为G的一个“T次重复博弈”,记为 G(T)。G为原博弈。每次重复称为G(T)的一个阶段。
A A 企业1 B
B
3,3 4,1
1,4 0,0
求解原博弈
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
两个纯策略NE, 一个混合策略NE: r1=r2=0.5,期望效用:v1=v2=2
两次重复博弈
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
可能的均衡路径?
均衡路径 第一阶段
策略、子博弈和均衡路径
得益
总得益 / 平均得益 贴现系数 1 2 3
2 2 T 1
T t 1 t
t 1
T
1 2 3 t 1 t
t 1
4.2 有限次重复博弈
4.2.1 有限次重复的囚徒困境博弈
2
那么,给定囚徒2坚持冷酷战略且首先选择了坦白,囚 徒1会不会有积极性坚持冷酷战略以惩罚对方的不合作 行为呢?
3 类似地,给定给定囚徒2坚持冷酷战略,即使囚徒1首先 选择坦白,坚持冷酷战略也是最优的。
同理,给定囚徒1选择冷酷战略,囚徒2也会坚 持冷酷战略,因此冷酷战略是一个NE
证明这个NE是一个子博弈完美NE
盖 方 反面
-1,1
1,-1
1,-1
-1,1
特点:零和博弈,双方无合作可能
结论
所有以零和博弈为原博弈所构成的重复博 弈,各博弈方的正确策略就是每次重复中 都采用一次性博弈中的NE。
长期利益不会约束短期行为
4.2.3 有限次两企业、两差别市场重复博弈
两个企业同时面临两个市场机会A和B。A市场较大,但 开发程度还很低,只有一家厂商不足以很好开发这个市 场;B市场较小,一家厂商占领可得到可观的利益,如 果两家都挤在这个市场,则大家都会无利可图。 企业2
冷酷战略
(1)开始选择抵赖。 (2)选择抵赖直到有一方选择了坦白,然后永远选 择坦白。(惩罚对方)
注:一旦自己在某阶段选择了坦白,将永远选择坦白。 (惩罚自己)
能否用逆推归纳法呢? 首先证明它是一个NE; 然后证明它是子博弈完美NE。
证明冷酷战略是一个NE
给定囚徒2选择了冷酷战略
如果囚徒1在某阶段首先选择了坦白,囚徒2将永远坦白, 此时囚徒1总得益为:
不少非OPEC成员国加入市场,使得OPEC的限产作用失 效,白白丧失许多市场份额和利润。 OPEC成员之间地位不平衡,部分成员觉得限额不公平从 而相继突破限额。 有些国家因为政治、经济、军事等方面的原因造成资金、 财政紧张,促使其杀鸡取卵、大量超产。
4.2.3 有限次重复猜硬币博弈
猜方
正面 反面
正面
因为博弈重复无限次,从任何一个阶段开始 的子博弈与这个博弈的结构相同,故在每个 子博弈上构成NE。
结论: 如果δ>=1/8(即参与人有足够的耐
心),冷酷战略是无限次囚徒博弈的一个子 博弈完美NE。
囚徒走出困境的原因
如果博弈重复无穷次且每个人有足够耐心, 任何短期的机会主义行为的所得都是微不足 道的,参与人有积极性为自己建立一个乐于 合作的声誉,同时也有积极性惩罚对方的机 会主义行为。
考虑第19个,进入者知道第20个市场在位者选择默许。
每一个市场均如此。
结论
若原博弈G有唯一NE,则对任意正整数T,G(T) 有唯一的子博弈完美纳什均衡,即各博弈方在每 个阶段都采用G的NE策略。
唯一性:纯策略NE,子博弈完美NE
Case: OPEC 的困境
石油输出国组织
Organization of Petroleum Exporting Countries
Cartel founded in 1960 by Iran, Iraq, Kuwait, Saudi Arabia, and Venezuela
Currently has 11 members
“OPEC’s objective is to co-ordinate and unify petroleum
policies among Member Countries, in order to secure fair and stable prices for petroleum producers…”
()
通过谈判确定限额
OPEC作为世界石油寡头组织,为了避免成员国独立决策 造成囚徒困境式对大家都不利的局面,维持较高油价以 获取更多的利润,通过谈判确定每个成员国日产石油桶 数的最高限额。
(A , B)
(B , A) (A , B)
平均(期望)得益 企业1
2.5
2.5 1
第二阶段