第三讲声誉和对称信息重复博弈

合集下载

《产业组织理论》讲义第3章策略行为3.3动态价格竞争和合谋

《产业组织理论》讲义第3章策略行为3.3动态价格竞争和合谋

《产业组织理论》讲义第3章策略行为 3.3 动态价格竞争和合谋聂辉华_《产业组织理论》讲义第3章策略行为 3.3 动态价格竞争和合谋到目前为止,我们研究的博弈都是一次性的,尽管包括“动态”。

但是现实中的企业通常是进行重复博弈,因此研究在重复博弈的情况下,前述结论——特别是伯川德均衡——是否成立,就是本节的主要内容。

直观地看,寡头企业在进行价格竞争时,肯定会考虑合谋(collusion)。

这种合谋包括显性(如卡特尔/cartel),也包括隐性的或默契的(tacit)——如果法律严格阻止任何明显的串通行为的话。

Chamberlin就认为,垄断价格是最可能的结果。

IO研究的合谋主要是组织之间的合谋,而契约理论研究的合谋通常是组织内的合谋。

由于权力配置不同,因此治理合谋的手段也不相同。

治理组织内部合谋的手段,主要包括赎买、分权和官僚政策,而治理组织之间的合谋主要依赖反垄断法以及建立在重复博弈基础上的消费者信念,后者涉及不完美信号的公共均衡。

3.3.1 传统解释在动态博弈工具发明以前,早期的相关研究都是静态框架下进行的。

典型的是所谓的扭结需求曲线(kinked demand curve)模型。

假定两个企业的边际成本均为c。

如果两个企mm业一开始实行垄断定价p,那么每个企业得到利润∏/2。

企业对其对手的反应有如下推mm测:如果对手价格在p以上,仍然收取p价格;如果它削价,那么也削价,直到价格为c。

m因为任何∏(p)/2≤∏/2,所以实行垄断定价构成一个均衡。

更一般地,我们可以找到一f个聚点价格(focal price)p,使得默契合谋成立。

但是上述静态模型有一些缺陷。

成功的合谋必须解决以下三个问题:(1)时间滞后。

不是所有的秘密削价都可以被观察到,而且一旦面临大客户冲击,卡特尔瓦解的概率很高。

现实中,由于距离、折扣等方式可能给秘密削价带来便利。

这也许可以通过建立行业协会、转售价格维持以及代表性价格等方式来解决。

保险学之道德风险

保险学之道德风险

• 如果蓝猫先生已经用800美元买了保险,似乎不会再以花费1000美 元的时间成本去开慢车,因为开慢车受益的是保险公司而非蓝猫 本人。 • 保险公司相信蓝猫先生出于经济上的考虑不会开慢车,则信息不 对称下的道德风险就会导致保险公司按照蓝猫先生开快车的假设 收取保险费2000美元。
10
• 则在此保险费条件下,蓝猫先生不会开慢车,因为他 已经付出开快车才有的保费成本,那么,他投保后的 期望效用为:
10 H S 15 1 1/ 3
• 保险人将选择守信,并使博弈维持下去。投保人信任保险人, 保险人守信在此重复博弈中是纳什均衡。
23
(二)存在外在的惩罚机制„或道德心理成本‟的博弈
24
• 但如果存在外在的惩罚机制,但惩罚机制却由于法律本身或者法 律执行者――法官人为的原因不能有效发挥甚至是扭曲的,情况 就会变得相当糟糕。
32
• 医院和医生
——卫生服务提供者在医疗保险体系中的特征是: 1.专业性 2.公益性
33
• 社保局
——医疗保险机构在社会医疗保险体系中的特点是: 1.福利公益性 2.风险性 3.主导性中的被动性
34
35
• 假定由பைடு நூலகம்收入的不同,病人的边际收益不同。
36
• 公平分配医疗卫生资源和让每个人享有自由(使其边 际成本等于边际收益)这两种要求之间的矛盾是客观 存在的。 • 市场经济国家近年来的改革实践证明:基本医疗保险 之内化解不了的矛盾需要商业性的补充医疗保险来解 决。
12三道德风险的成本?在上个例子中如果蓝猫先生在签订保险合同的时候许诺会开慢车并且蓝猫先生的诚信状况值得保险公司信任或者保险公司能够对蓝猫先生是否开慢车进行有效的监督比如可以用gps全球定位系统对蓝猫先生的车速进行监控保险公司就完全可以相信蓝猫先生的车速进行监控保险公司就完全可以相信蓝猫先生的许诺并仅向他收取800美元的保险费投保人和保险人之间的帕累托改进就出现了

重复博弈、信息不对称与诚信建设的博弈机制

重复博弈、信息不对称与诚信建设的博弈机制

重复博弈、信息不对称与诚信建设的博弈机制
重复博弈是指参与者之间进行多次重复博弈的情况,每次博弈的结果会影响到下一次博弈。

在重复博弈中,参与者可以根据之前的博弈结果进行学习和调整策略,以追求更好的收益。

信息不对称是指在博弈中,参与者拥有不同的信息或对信息的理解不一致。

信息不对称可能导致参与者做出错误的决策或者无法达成最优的协议。

诚信建设的博弈机制是一种在重复博弈中解决信息不对称问题的尝试。

该机制通过激励措施,鼓励参与者遵守承诺、诚实守信,以达到协作和互利的最优结果。

这种机制通常包括奖励和惩罚措施,使参与者在决策中权衡自身利益和长期合作的利益。

其中,重复博弈的持续性为参与者提供了学习和调整策略的机会,有助于建立互信和合作;信息不对称则需要通过透明度、公正性和可信度的提高来减少,使参与者能够共享信息并作出更明智的决策;诚信建设的博弈机制通过奖励和惩罚的机制来引导参与者行为,以维护参与者之间的互信和合作。

总之,重复博弈、信息不对称和诚信建设的博弈机制相互关联,旨在通过多次博弈中的学习和调整、信息共享和诚信奖惩来实现协作和互利的最优结果。

7 重复博弈:对称信息

7 重复博弈:对称信息

5
重复博弈和信誉问题
• 如果博弈不是一次的,而是重复进行的,参与人 过去行动的历史是可以观察到的,参与人就可以 将自己的选择依赖于其他人之前的行动,因而有 了更多的战略可以选择,均衡结果可能与一次博 弈大不相同。
• 重复博弈理论的最大贡献是对人们之间的合作行 为提供了理性解释;在囚徒困境中,一次博弈的 唯一均衡是不合作(即坦白)。但如果博弈无限 重复,合作就可能出现。
21世纪经济学系列教材
中国人民大学出版社
• 第一节 重复博弈中的合作均衡 • 第二节 无名氏定理
• 第三节 重复博弈的其他一些策略均衡 • 第四节 一些经典的应用例子
3
4
• 给出重复博弈定义之前,需要做若干准备, 一个准备就是由于重复博弈有可能会进行 一个很长的时期,甚至是无穷期,因而必 须考虑收益的时间价值。相应的表达偏好 的收益函数也需要给出一定的限制。
2 3
合作的条件
• 如果下列条件满足,合作就是均衡结果:
1 T RP 1 1
R T RP
解释
• R-T可以理解为不合作的诱惑; • R-P是合作的剩余(利益); • 条件说明: • 给定未来的重要程度,不合作的一次性诱惑 (R-T)相对于合作带来的利益(R-P)越小, 合作的可能性越大; • 给定不合作的诱惑和合作带来的利益,未来 越重要,合作的可能性越大;
社会关系与合作行为
• 更一般地讲,市场交易常常镶嵌在复杂的社会关 系中。这种关系可以提高交易的合作程度。这也 是人们愿意发展社会关系的原因。
举例
• 在交易关系II中,假定除了这一交易外,当事人 双方之间还存在另外的社会关系,这一社会关系 对每一方的现值是V。如果交易中出现欺骗,这 一价值就不存在。合作条件为:

重复博弈的名词解释

重复博弈的名词解释

重复博弈的名词解释重复博弈(Repeated Games)是博弈论中的一个重要分支,指的是在一定时间内重复进行相同博弈过程的一类博弈模型。

在重复博弈中,参与者的行为不再是仅基于当前回合的局部最优策略选择,而是考虑到未来回合的长期利益。

通过持续进行博弈,参与者可以互相观察对方过去的行为,并以此来调整自己的决策策略,进而达到一种稳定的合作或竞争姿态。

1. 重复博弈的基本特征重复博弈具有以下基本特征:1.1 时间维度:与一次性博弈(One-shot Games)相比,重复博弈将博弈过程拉长至多个时间回合,并通过观察对方的历史行为来调整策略选择。

1.2 互动性:重复博弈需要有多个参与者之间的相互作用,参与者的决策会受到对方决策的影响,并进一步影响对方的决策。

1.3 不完全信息:在重复博弈中,参与者对于对方的信息不完全,无法准确了解对方的策略选择和收益函数。

因此,参与者需要通过观察对方的历史行为来推测对方的潜在策略和潜在目标。

2. 重复博弈的策略选择在重复博弈中,参与者的策略选择通常可以分为两种基本类型:协作(Cooperation)和背叛(Defection)。

2.1 协作策略:协作策略指的是参与者在每一轮博弈中均选择对双方都有利的行动,追求长期合作和互利利益最大化。

协作策略的核心是建立合作的声誉和信任,通过长期合作获得稳定收益。

2.2 背叛策略:背叛策略指的是参与者在某些轮次中选择对自己有利但对对方不利的行动,追求个体利益最大化。

背叛策略的核心是以牺牲他人利益为代价,获得短期利益。

3. 重复博弈的平衡在重复博弈中,参与者通过观察对方过去的行为和收益来判断对方的策略选择,并以此为依据来调整自己的行动策略。

由于参与者之间的相互影响和信息不对称,重复博弈中存在多种平衡。

3.1 历史依赖平衡:指的是参与者根据对方过去的行为来决定自己的最优策略选择,并以此为依据来推测对方的未来行为。

通过建立声誉机制和信誉积累,在博弈的不同时间段实现稳定合作关系。

重复博弈的详细介绍

重复博弈的详细介绍

收益: (3,3) 权重: (1/ 3,1/ 3,1/ 3,0) [(4, 4),(5,0),(0,5),(1,1)]
平均收益
给定贴现 率 ,无限的收1益,序2,列3
的平均收益为
(1 )
t1 t
t 1
阶段博弈收益 相等时的总收益
2 t1t t 1
重复博 弈总收益
所以 故
也称触发战略;
以囚徒困境为例:开始 选择抵赖,而且一直选 择抵赖直到有一方选择 了坦白,然后永远选择 坦白;
这意味着:一旦哪个参 与人选择了坦白,就触 发了惩罚的扳机。
根据上述原则,可构造如下战略:
01 S1:第一阶段选择M1;如果第一阶段结果为(M1, M2),则下一阶段选R1;否则选择L1。
1
竞赛的第一个回合交上来的14个程序中包含了各种复杂 的战略。但使爱克斯罗德和其他人深为吃惊的是,竞赛 的桂冠属于其中最简单的战略:一报还一报(Tit for Tat)。这是多伦多大学心理学家阿纳托 ·拉帕波特提交上 来的战略。
2
一报还一报战略:它总是以合作开局,但从此以后就采 取以其人之道还治其人之身的战略。也就是说,一报还 一报的战略实行了胡萝卜加大棒的原则。
i
集合。 若存在
G(, )
(x , x , , x ) 则 存 在 贴 现 率 , 使 无 限 重 复博弈
可达到
12
。n
存在一个子博弈精炼Nash均衡,其平均收益
子博弈精炼Nash均衡的可行收益区间 (0,5) (1,1) (0,0) (4,4) (5,0)
无名氏定理的一个解释
在无限次重复博弈中,如果参与人具有足够的耐心(只要满足一定的 条件),那么任何满足个人理性的可行收益向量都可以通过一个特定的

博弈论与信息经济学04PPT课件

博弈论与信息经济学04PPT课件
• 我们将通过这种方式得到的纳什均衡称为精 炼贝叶斯纳什均衡。
• 精炼贝叶斯均衡是贝叶斯均衡、子博弈精 炼纳什均衡和贝叶斯推断的结合。它要求:
1、在每个信息集上,决策者必须有一个定义在属 于该信息集的所有决策结上的一个概率分布(信 念);
2、给定该信息集上的概率分布和其他参与人的 后续战略,参与人的行动必须是最优的;
3、每一个参与人根据贝叶斯法则和均衡战略修 正后验概率。
贝叶斯法则
(6,0) (6,0) (7,0) (3,1) (7,0) (3,1)
(7,0) (6,0) (6,0) (9,0) (9,0) (8,0) (8,0) (7,0) (5,-1) (9,0) (5,-1) (9,Байду номын сангаас) (5,-1) (9,0)
• 在第二阶段, 企业的行动选择是一个简单的 静态博弈决策问题,但在第一阶段,情况 要复杂得多:
P=4
P=5
P=6
2
6
7
6
9
8
• 例如:低成本的在位者不会选择p=6,因 此,如果进入者观察到在位者选择了p=6, 就可以推断在位者一定是高成本,选择 进入是有利可图的。预测到p=6会招致进 入者进入,即使高成本的在位者也可能 不会选择p=6。
• 类似的,如果选择价格p=5会招致进入者 进入,低成本的在位者也不会选择p=5。
对于在位者:
价格 在位者高成本时的利润 在位者低成本时的利润
P=4 P=5
P=6
2
6
7
6
9
8
• 进入者只有一种类型:进入成本为2。如果进入, 生产成本函数与在位者高成本函数相同。在 T=2阶段,如果进入者已进入,在位者成本函 数为共同知识;

重复博弈博弈论课件.ppt

重复博弈博弈论课件.ppt
重 复 博 弈
重复博弈

动态博弈的类型

序贯博弈sequential game

每一个阶段的博弈结构是不同的,即从后一个决策结开 始的子博弈不同于从前一个决策结开始的子博弈。或者 说,同样结构的博弈只出现一次。 是指同样结构的博弈重复多次,其中的每次博弈称为 “阶段博弈”。如“囚徒困境”中小偷每次作案后判刑 释放后又作案。 分为有限次重复博弈与无限次重复博弈
H H 厂商1 M L 5, 5 6, 0 2,0
厂商2 M
L 0,2 0,2 1,1
0,6 3,3 2,0
触发策略可信的情况
博弈方1:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用P 博弈方2:第一次选H,如 果第一次结果为 (H,H),则第二次选择 M;否则采用Q
博弈方1 H M L P Q
5,5 6,0 2,0
重复两阶段三价博弈的等价博弈:如果 认为触发策略不可信,即不可信报复, 最佳选择为(M,M)
触发策略可信性问题



实际上,触发策略中的报复机制的可信性是一个很复 杂的问题,会受到相互预期等很多复杂因素的影响。 例如,未偏离的一方并不想报复偏离的一方,而偏离 的一方却因为害怕报复而采用L,结果心慈手软的未偏 离一方再次遭受损失,这种可能性的存在会使得报复 机制实施的可能性增加。 此外,考虑策略的制定者和执行者分离的情况,执行 者会严格执行决策者指令的情况等等。


在有限次重复博弈中,如果原博弈存在唯一的纯策略NE, 则有限次重复博弈的唯一的均衡解就是各博弈方在每阶段 中都采用原博弈的NE。 因为每个阶段NE都是SPNE,即不存在不可信的威胁和许 诺,因此重复博弈的解也是SPNE。

博弈论(第十一讲 重复博弈与声誉)PPT课件

博弈论(第十一讲 重复博弈与声誉)PPT课件
16
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡 假设重复博弈要经历T个阶段而此时是T-1阶段,总支付为各 个独立阶段的支付之和。在阶段T都会选择击中。用AT-2和GT-2 分别表示盟军与德军从阶段1到阶段T-2的各阶段支付之和,T 阶段的子博弈如下所示:
可以看出,AT-2和GT-2对求解 过程不产生任何影响。
17
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡
对于阶段博弈而言,有一个纳什均衡的重要性在于它 能够明确最后一个阶段中参与者如何选择。 因此,对于重复博弈而言,倒数第二阶段的行为不会 影响最后一个阶段,并且这一逻辑可以重复地应用到 任何阶段直至初始阶段。
如果阶段博弈有唯一的纳什均衡,对于有限次重复 博弈而言,唯一的子博弈精炼纳什均衡就是阶段博 弈纳什均衡的重复。
9
11.1 基本概念
阶段博弈的支付在重复博弈中仅表现为一个阶段的支付 。重复博弈中参与者的支付受到每一个独立阶段支付流 的影响。 假设T=5,重复博弈的历史为(不击中,不击中),(击 中,不击中),(不击中,不击中),(不击中,击中 ),(击中,击中),第一个行动为协约国士兵的选择 ,则协约国士兵的独立阶段支付流为4,6,4,0,2。 在重复博弈中参与者会选择能够产生最高支付的策略作 为最终策略。 支付流{4,6,4,0,2}劣于{6,6,6,0,2},但是,很难比较 支付流{6,4,4,2,6}与{4,6,4,0,2}。
10
11.1 基本概念
为了对不同的支付流进行比较,需要确定一个标准。 一个标准就是对支付流进行加总,求得各阶段支付之和 。这样做不仅因为简单,而且当单一阶段的支付增加时 ,总和也随之增加。 对于上述三个支付流有:

《经济博弈论》期末考试复习题及参考答案

《经济博弈论》期末考试复习题及参考答案

《经济博弈论》期末考试复习题及参考答案一、单项选择题1、博弈论中,参与人的策略有()A 有限的B 无限的C 有限和无限两种情况D 以上都不对参考答案:C解释:在博弈论中,参与人的策略可以是有限的,也可以是无限的,具体取决于博弈的类型和设定。

2、下列属于完全信息静态博弈的是()A 囚徒困境B 斗鸡博弈C 市场进入博弈D 以上都是参考答案:D解释:囚徒困境、斗鸡博弈和市场进入博弈都属于完全信息静态博弈。

3、在一个两人博弈中,如果双方都知道对方的策略空间和收益函数,这被称为()A 完全信息博弈B 不完全信息博弈C 静态博弈D 动态博弈参考答案:A解释:完全信息博弈意味着博弈中的参与人对彼此的策略空间和收益函数都有清晰的了解。

4、占优策略均衡一定是纳什均衡,纳什均衡()是占优策略均衡。

A 一定B 不一定C 一定不D 以上都不对参考答案:B解释:占优策略均衡是一种更强的均衡概念,占优策略均衡一定是纳什均衡,但纳什均衡不一定是占优策略均衡。

5、对于“囚徒困境”博弈,()A 双方都独立依照自身利益行事,结果限于最不利的局面B 双方都独立依照自身利益行事,导致最好的选择C 双方进行合作,得到了最好的结果D 以上说法都不对参考答案:A解释:在“囚徒困境”中,每个囚徒都从自身利益出发选择坦白,最终导致双方都受到较重的惩罚,这是一种个体理性导致集体非理性的结果。

二、多项选择题1、以下属于博弈构成要素的有()A 参与人B 策略C 收益D 信息E 均衡参考答案:ABCDE解释:博弈的构成要素通常包括参与人、策略、收益、信息和均衡等。

参与人是进行博弈的主体;策略是参与人在博弈中可选择的行动方案;收益是参与人采取不同策略所得到的结果;信息是参与人对博弈局面的了解程度;均衡是博弈的稳定状态。

2、常见的博弈类型有()A 完全信息静态博弈B 完全信息动态博弈C 不完全信息静态博弈D 不完全信息动态博弈参考答案:ABCD解释:这四种博弈类型是根据信息是否完全和博弈的进行时态来划分的。

「经济通识」11市场失灵原因三、信息不对称

「经济通识」11市场失灵原因三、信息不对称

「经济通识」11市场失灵原因三、信息不对称11.1 非对称信息非对称信息:交易一方拥有但不被另一方所知道的信息。

比如:一般的产品买卖,产品的价格与质量,卖的人知道,买的人不知道,这就是非对称信息。

在交易还没发生之时就已经存在的非对称信息,称为事前的非对称信息;在交易之后才产生的非对称信息,称为事后的非对称信息。

例如,你买了某一个产品,它的质量是给定的,是好是坏,卖的人知道,你不知道,这就是事前的非对称信息;另一种可能是,你买了一个产品,产品质量本来没有问题,但在使用的过程中,由于你操作不正确,把它弄坏了,这时候你仍然可以找厂家索赔,因为厂家可能不知道究竟是产品的质量问题还是你操作不当,这就是事后的非对称信息。

非对称信息在大部分商品中是普遍存在的。

大家都在利用非对称信息争取更多的利益。

11.2 解决非对称信息问题的市场机制11.2.1市场本身就存在不对称信息市场本身就有解决非对称信息问题的机制。

非对称信息是市场存在的理由。

道理很简单,市场基于分工和专业化,而只要有分工就有非对称信息,因为每个人都有自己所从事领域的专业知识,这些专业知识其他人没有,普通消费者更没有。

比如说一个铁匠或木匠所具有的专业知识,普通村民并不具有。

市场本身是以不对称信息为前提,而不是以对称信息为前提。

11.2.2没有私人信息的一方如何获取信息机制设计:处于信息劣势的一方通过设计某种激励方案让处于信息优势的一方说实话。

以保险市场为例。

保险公司常常同时提供若干可选择的保险方案(合同),其中有部分保险,也有全额保险。

最后的结果一定是具有较高风险的人选择更加接近全额的保险(缴的保费也更高),具有较低风险的人选择部分保险。

通过这种方式,保险公司可以识别出谁是高风险者、谁是低风险者。

另一个由非对称信息产生的问题叫作“道德风险”,解决道德风险问题的理论叫作“委托-代理理论”,比如老板怎么设计合同去激励并约束员工,国家怎么设计一个制度来激励并约束政府官员,等等。

9不完全信息与声誉 优质课件

9不完全信息与声誉 优质课件

第2阶段
参与人A:如果是理性的,选择“背叛”; 如果是非理性的,选择B在第1阶段的行 动(X);
参与人B:选择“背叛”。
t=1 非理性(p) 合作 A 理性型(1-p) 背叛
B (理性型) X
t=2 X 背叛 背叛
第1阶段
参与人A:如果是非理性的,选择“合 作”;如果是理性的,选择“背叛”;
Axelrod 实验
Axelrod(1981)实验表明:即使在有限 次博弈中,合作行为也频繁出现。
问题在哪里?
一个可能的原因在于:我们前面假定不仅参与 人的理性是共同知识,而且每个参与人可以选 择的战略和效用函数都是共同知识。但现实不 是这样。
可能性:逆向归纳方法的问题(理性共识); 信息不完全;
背叛
博弈重复3次
非理性(p) A
理性型(1-p)
t=1 合作 ?
B (理性型)
X
t=2 X 背叛
t=3 X 背叛
X
背叛
参与人A(理性)的选择
如果A是理性的,在第2阶段和第 3阶段一定会选择背叛,但第1阶 段也可能选择合作,因为建立一 个合作的形象可以换取B在第2阶 段的合作;

A
作 背

B
合作
4p+0(1-p)+0=4p

A
作 背
叛-1,4
4,-1 0,0
最优选择是合作,如果:
p>=0.25;
结论:如果B认为A非理性的概 率不小于0.25, B在第1阶段会选 择合作,即使博弈只重复两次。
t=1 非理性(p) 合作 A 理性型(1-p) 背叛
t=2 X 背叛
B (理性型) X

第三讲完全信息动态博弈

第三讲完全信息动态博弈
第15页,本讲稿共23页
在这里,B选择的策略称为“冷酷策略” (grim strategies)。冷酷策略是指重复 博弈中的任何参与人的一次性不合作将引 起其他参与人的永远不合作,从而导致所 有参与人的收益减少。因此,所有参与人 具有维持合作的积极性。我们再来讨论博 弈重复次数为有限时的情况。
第16页,本讲稿共23页
第1页,本讲稿共23页
一、子博弈精炼纳什均衡
子博弈精炼纳什均衡的创立者. ——1994年诺贝尔经济 学奖获奖者、莱茵哈德·泽尔腾。
泽尔腾则在60年代中期将纳什均衡概念引入动态 分析。在1965年发表《需求减少条件下寡头垄断模型 的对策论描述》一文,提出了“子博弈精炼纳什均衡” 的概念,又称“子对策完美纳什均衡”。这一研究对纳 什均衡进行了第一次改进,选择了更具说服力的均衡点。 海萨尼在60年代末把不完全信息引入博弈分析。
第9页,本讲稿共23页
以上的分析,就是子博弈精炼纳什均衡解的过程。 策略(A开发,B不开发)就是上述子博弈精炼纳 什均衡解。 ▪ 所谓“子博弈”(sub-game)是指它本身可以作为一 个独立的博弈进行分析,它是原博弈的一部分。例如 ,在表3-1中,每一行或每一列都是整个博弈的一个 子博弈。而且,任何博弈本身可被称为自身的一个子 博弈。 ▪ 只有当某一策略组合在每一个子博弈(包括原博弈 )上都构成一个纳什均衡,这一策略组合才是子博 弈精炼纳什均衡解。显然,如果整个博弈是惟一的 子博弈,纳什均衡与子博弈精炼纳什均衡是完全相 同的。
第18页,本讲稿共23页
三、动态博弈策略行动
在动态博弈中,由于参与人的行动有先后 顺序,而参与人行动顺序直接影响博弈的 结果。因此,参与人为了使其他参与人的 选择对自己有利,往往会主动采取一些行 动影响其他参与人对自己行为的预期,从 而达到对自己有利的结果。参与人所采取 的这些行为称之为“策略行”(strategic move)。

第三讲声誉和对称信息重复博弈

第三讲声誉和对称信息重复博弈

如果用时间平均准则来评估阶段博弈的效用序列,那么对任
何可行的,个人理性的盈利向量,总是存在一个子博弈完美 均衡达到该盈利向量。这个结论的奥妙之处在于使用时间平 均准则计算得失,因为从总体来看,这种计算方法使每一个 局中人不在乎有限个周期内因为惩罚他人而蒙受的损失。于 是对任何违反“合作协议”的行为必定会给予惩罚,这种现 象增加了合作的机会。该结论与重复博弈的其他结论一起在 社会经济领域内有重要的应用价值。
假设两个群体直接竞争,结果会怎样?
只有当好人不必对付坏人时,他们的群体才 可能有好的表现。
好心的文化非常不稳定
❖ 鸽鹰博弈
❖ 陷入重复博弈的囚徒困境时该怎么办?
自利可以改善个人的处境,但从整体来看, 使好心对大家有利。
你当然想会尽量与对手合作,以便争取更好 的结果。
答案:让对手相信,你有能力看出并会严惩欺 骗性行为。
我们同样可以把这一结论推广到囚徒困境博弈中,如果同样
的囚徒困境博弈重复无限次,这个重复博弈的均衡会是集体 最优的,即(不坦白,不坦白)。
❖ 教材137页 为什么我们对瘾君子的信任度要大打折扣? 50、60现象 对嫉妒心强的人也要防备 做生意的目的是利润最大化,而不在于比你 的竞争对手获得更多的钱。
❖ 声誉(Reputation)
在重复进行的囚徒困境博弈里,只有博弈将重复进行无限次 时,参与人才会选择合作。这是声誉的一个大问题。因为每 个人都知道一个参与人将在最后一期选择坦白,那么为什么 他们还要假设这个参与人会在目前建立起自己的声誉呢?
思考:
1,为什么隔一代的长辈比如爷爷、奶奶会对小孩子更溺爱? 2,和独生子女家庭相比,拥有多个孩子的家庭对孩子的教育
❖ 石油输出国组织的隐匿行动问题——海湾战争的借 口

重复博弈

重复博弈

重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。

重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。

在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。

有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。

下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。

定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。

在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。

[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。

2、所有参与人观察到博弈过去的历史。

3、参与人的总得益是所有阶段博弈得益的贴现值之和。

如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。

[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。

A、B两个参与人都有两种定价待选择:定高价或定低价。

博弈论重复博弈

博弈论重复博弈
(2.5,2.5)
(2,2) (3,1.5)
(4,1)
厂商1得益
轮换策略仍然不是最理想的情况, 最佳结果(A,A)无法实现是因为两次 博弈中博弈方没有运用触发策略的条件 或机会
两市场博弈的重复博弈(重复三次)
厂 商
A
1B
触发策略:
A 3,3 4,1
厂商2 B
1,4 0,0
两市场博弈
有运用触发策略的条件
4.51++2+L 14 .5
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
m 8 1 . 5 a q q x 2 q m 4 . 5 q a qx
q 2
22
2
q 2
22
解得 q 2.25 2
,此时利润为5.0625,高于触发策略
本章介绍基本博弈重复进行构成的重复博弈。
虽然形式上是基本博弈的重复进行,但重复博弈中 博弈方的行为和博弈结果却不一定是基本博弈的简 单重复,因为博弈方对于博弈会重复进行的意识, 会使他们对利益的判断发生变化,从而使他们在重 复博弈过程中的行为选择受到影响。这意味着不能 把重复博弈当作基本博弈的简单叠加,必须把整个 重复博弈过程作为整体进行研究。
两市场博弈的重复博弈(重复101次)结果?
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.2 唯一纯策略纳什均衡博弈
的无限次重复博弈 4.3.3 无限次重复古诺模型
4.3.1 两人零和博弈的无限次重复博弈
两人零和博弈无限次重复的所有阶段都 不可能发生合作,博弈方会一直重复原 博弈的混合策略纳什均衡
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五讲 声誉和对称信息重复博弈
重复博弈(Repeated Game)是动态博弈的一种特殊情况。
在重复博弈里,完全相同的环境一次次重复出现,参与人在 重复出现的相同环境中做出决策。
❖ 有限次重复博弈——连锁店悖论(Chain-store Paradox)
某家电连锁销售企业“美乐”在20个城市里都设有 分店。现有一家外国家电连锁企业“益家”也计划 在这20个城市陆续开设分店。显然,在某个特定的 城市,如果“美乐”默许“益家”的进入,则会降 低“美乐”分店的利润。但是,如果 “益家”进入 后,“美乐”实施掠夺性削价以反击,将会遭受比 合谋更大的亏损。那么,面对“美乐”的进入, “益家”应该怎么办?是合谋?还是反击(掠夺性 削价)?
在此一次卡特尔博弈中,如果A、B两家都选择背叛,增加 产量,那么它们的收益均为1024。但它们若能互相合谋,压 缩产量,报酬就可以达到1152。显然,两个公司都想要合作, 但又怕被背叛。在一次性博弈里,被欺骗之后便无法报复了。 想要合谋的企业希望对方能相信自己的诚意,但在一次性博 弈里,企业也不可能令人信服地表白诚意。但在无限次重复 博弈里,情况就不一样了。因为两家企业还要一直打交道, 所以想要表达诚意的企业就有可能通过实际行动来建立良好 的声誉。
接下来我们考虑倒数第二个市场,也就是第19个城市的市场, 在这个市场上,双方都知道“在位者将在最后一个市场上选 择合谋”,因此在位者在这个市场上也没有必要选择反斗争。 依次类推,在位者在包括第1个市场的所有市场上都将选择
合谋。这个结论称为连锁店悖论。
通过对连锁店悖论的分析,我们得出一个有意思的结论:有 限次重复博弈的均衡解和一次博弈没有区别。把这个结论推 广到囚徒困境博弈中,就是说,尽管两个人都选择不坦白是 集体最优的,但如果同样的博弈重复有限次,这个重复博弈
更严格还是更宽松?为什么?
声誉应用一 ❖ 绑架、勒索和诚实(教材14页):绑架和勒索一样,会
面临很大的信用问题 ❖ 绑架
假设你是刚拿到赎金的绑匪,此时你该不该释放被绑架 者?只有当被绑架者家属相信付赎金可以增加被绑架者 的获释的机会时,他们才会付钱。 ❖ 勒索 勒索是非法的。对被勒索者来说,就算暂时满足了勒索 者的要求,他/她为什么不继续勒索你呢?
❖ 无限次重复博弈
某地区有A、B两家生产同一产品的企业,这两家企业的成 本状况完全相同。如果这两个企业合谋结成卡特尔,就可以 通过限制产量来获得垄断利润。假设这两家企业不断重复如 图9 .4-1所示的卡特尔博弈。
B 合谋
背叛
合谋
(1152,1152) (864,1296)
A
背叛
(1296,864) (1024,1024)
❖ 声誉(Reputation)
在重复进行的囚徒困境博弈里,只有博弈将重复进行无限次 时,参与人才会选择合作。这是声誉的一个大问题。因为每 个人都知道一个参与人将在最后一期选择坦白,那么为什么 他们还要假设这个参与人会在目前建立起自己的声誉呢?
思考:
1,为什么隔一代的长辈比如爷爷、奶奶会对小孩子更溺爱? 2,和独生子女家庭相比,拥有多个孩子的家庭对孩子的教育
重复博弈比不重复进行的一次性博弈要复杂得多。在连锁店 悖论中,进入者的策略是进入和不进入,而在位者的策略则 是合谋和斗争。参与人的策略描述了当两个我们来求解这一博弈。在采取第一个行动的时候,参与
人必然要预先估计他现在所采取的行动对将来各期的影响, 所以我们使用求解动态博弈的方法——逆推法来求解重复博 弈,也就是从多期重复博弈的最后一期开始求解。我们现在 假设进入者已经进入了第19个城市。在最后一个城市的市场 上,两个参与人发现他们所在的子博弈和一个一次性的市场 进入博弈没有区别,因此无论博弈过去的历史怎样,进入者 都会选择进入,而在位者都会选择合谋。
❖ 声誉应用三(教材31页) 精神失常的收益:精神失常与非理性 考虑一个小村庄 有报复名声的人在商场上也能够增加个人收 益 思考:为什么一般企业都雇有法律顾问?
❖ 思考:如何避免连锁店悖论?
在无限次重复博弈里,参与者每期都得到一定的收益。为了
比较不同策略下收益的大小,我们必须把各期的报酬加总起 来。但今年的报酬不等于明年的报酬。假设银行一年期定期 存款利率为10%,就意味着,今年的1元钱存在银行里,明 年可得本利l.10元。同样道理,明年的1元钱只想当于今年的 0.91元。所以,只有用贴现率把未来的收入折算成现在的等 价收入,才可以把各期的收入加在一起。用i表示贴现率, 1>i>0。以现在为第0期,那么第1期的收益折算到现在便是 iR1,第2期的收益折算到现在是i*iR2,第n期的收益折算到 现在是。i n R n
从现在开始,如果A、B两公司自始至终地合作,每家企业
每期的收益为1152,那么每家企业n期(n→∞)的总收益

(1ii2in)115211152 1i
如果两家企业从第1期就选择背叛,那么每家企业n期的 总收益为
1 1024 1 i
现在我们来考虑这样一种策略,某家企业从一开始就选择合
的均衡仍然是(坦白,坦白)。
❖ 教材113页有最后一次的重复博弈
理性人假设的绝对性
❖ 教材135页非理性与囚徒困境
很多人都有善良之心,但也不喜欢被占便宜。
如果你对对手的理性程度有所怀疑,你可能 会在第一次博弈时选择用好心。这并不表明 非理性对你的对手有利,而是表明看起来非 理性对他有利。
有一个人是有名的妻管严。一天,同事问他: “你们家谁拿主意?”他回答说:“一半一 半。”同事接着问:“一半一半是什么意 思?”他说::“当意见不一致时听老婆的, 当意见一致时听我的。”
思考:对于职业绑架者或职业勒索者而言, 哪种策略是最优的?
❖ 声誉应用二(教材16页)
广告、商标和企业的商誉:要是企业行骗后 就可以赚得足够的钱,它为什么不这么做呢? 你的企业考虑向一个过去很公道的供应商下 一笔很大的订单,而这家供应商如果欺骗你 就能使自己狠狠地赚一笔。供应商行骗的后 果是什么?
相关文档
最新文档