博弈论分析报告:重复博弈现象分析
诚信建设的重复博弈分析
一个社会的诚信高低标志该社会文明程度的高低。
人们对诚信的社会价值早就有所认识。
诚信在中国自古即为修身立国之根本。
“人而无信,不知其可也”,两千多年前的孔老夫子就这样断言,强调诚信是个人修身立命的基本道德准则。
战国时商鞅相秦,曾有南门立木的故事,说明诚信对推行法律、政策,建立强国的重要性。
当今社会也非常关注诚信的话题。
特别是企业诚信的问题,诚信不仅关系到我国企业在现代市场经济环境下能否健康成长,而且由于企业在经济运行中的特定作用和地位,也更加关系和影响着我国社会主义市场经济制度的发展和完善。
在我国现阶段经济转轨期间,诚信在经济生活中的作用显得更加重要。
诚信虽然不像物质产品那样会给企业带来直接利润,但它是一种企业资源,对企业的长远发展有着巨大的促进作用。
就目前的中国市场而言,消费者对诚信的重视程度越来越高,包括企业的产品,企业的外在形象。
在现实的经营活动中,有些企业经营确实不讲诚信,存在着大量的诚信问题。
假酒、毒大米、毒狗肉、鹅毛充羽绒……这一切的一切,都归结于 4个字:诚信缺乏。
缺乏诚信的代价是巨大的。
企业失信等欺诈行为,不仅影响企业发展、危害社会,而且极大地增加了经济生活中的交易成本、败坏了商业风气和市场环境,影响到企业,甚至一国的经济发展。
因此,企业的诚信建设刻不容缓。
一、博弈论与诚信建设诚信问题的表现是道德水平,但是大量的事实表明,市场竞争中每一个追求白利的人(自然人或法人)不会天然的讲诚信,关键是要有一个当事人讲诚信的收益大于不讲诚信所付的成本的制度或机制。
因此,我们认为,诚信也许跟文化、社会、心理等因素有关,但更重要的是,诚信往往是人们基于利益需要的一种策略选择的结果,而不是基于心理需要的道德选择。
因此,可把博弈论作为诚信建设的分析工具。
博弈论,英文是gametheory,是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题的,也就是说,当一个主体,好比说一个人或一个企业的选择受到其他人、其他企业选择的影响,而且反过来影响到其他人、其他企业选择时的决策问题和均衡问题。
第六章第一讲重复博弈的类型解读
2020年11月18日
博弈论第六章
1
重复博弈的类型
“宽容”OR“不好惹”?
A家长教育孩子A的原则: 宽容
A的选择: 及时还击, 培养“不好惹”的声誉—— “他打你,你就打他”
C家长教育孩子C的原则: 好斗
若A与C之间的博 弈重复进行?
要与人为善
2020年11月18日
博弈论第六章
1
1 r r 市场利率
1 2 2 3 T 1T
T
2020年11月18日
t 1 博t 弈论第六章
13
t 1
重复博弈的类型
第一节 重复博弈的类型
➢二、无限次重复
➢(一)案例:寡头削价竞争
➢1.案例
➢
寡头1
➢
高价
低价
➢
高价
➢寡头2
4,4
➢
低价 5,0
0,5 1,1
2020年11月18日
重复博弈的类型
第一节 重复博弈的类型
➢二、无限次重复 ➢(一)案例:寡头削价竞争 ➢2.无限次重复博弈策略分析 ➢(3)以后各期
A、if寡头2合作,“高价”→ 寡头1坚持“高价”
2020年11月18日
B、 if寡头2不合作,“低价”→ 寡头1报复,永远低价
博弈论第六章
16
重复博弈的类型
第一节 重复博弈的类型
9
重复博弈的类型
第一节 重复博弈的类型
➢一、有限次重复
➢(二)定理:有限次重复博弈的均衡
G(T):有限次重复博弈 G:博弈 T:重复次数 G:阶段博弈,T<∞
2020年11月18日
若G有唯一的纳什均衡,
则G(T)的唯一子博弈精炼
经济博弈论之重复博弈
9
三、重复博弈的得益
重复博弈的得益,必须兼顾其他阶段的得益,或者考虑整个重复博弈过程得益 的总体情况。
1.计算重复博弈的“总得益”,即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”,即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数,不同时间获得的利益对人们的价值是 有差别的,考虑到这个因素,引进将后一段的得益折算成当前阶段得益(现在值) 的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业,对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈,竞争者选择进入,先占领市场的连锁店不打击, A 打进 B 不进 (1,10) 是原博弈的唯一的子博弈完美纳什均衡,是两个理性的博弈方之间 博弈的唯一结果。 根据上诉的定理和一般结论,以这个博弈为原博弈的有限次重复博弈, 唯一的子博弈完美纳什均衡就是原博弈的纳什均衡,也就是每个竞争者 可以进入,连锁店不打击。 (-2,3) (5,5) 现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡(M,M),(L,L);符合博弈方总利益最大(H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈 厂商2 A 3,3 4,1 B 1,4 0,0 三次重复博弈的均衡路径是(A,A),(A,B),(B,A), 得益是(3+1+4)/3=2.67.
第十二讲重复博弈
如果不论对方选择什么,非理性囚徒 总是选择D(合作),那么,合作均衡 就不会出现,因为给定非理性囚徒总 是选择D的情况下,C是理性囚徒的占 优战略。
54
3 g = (a − c ) 8
2 i
i的最优利润为
2 i
9 2 π = (a − c ) 64
20
j 的冷酷策略:
(1)首先选择 合作即生产量为 (2)如果i选择 2 背叛即生产量为, i 则j将永远选择 不合作。
1 g = (a − c ) 4
1 j
3 g = (a − c ) 8
21
企业i没有积极性偏离合作均 企业 没有积极性偏离合作均 衡的条件为
ui = 50 + δ 50 + • • • + δ 1− δ = 50 1− δ
T T −1
50
7
定理1.设G是价格博弈,G(T)是 G重复博弈T,
• 如果G有唯一的纳什均衡, • 则G(T)的唯一子博弈精 • 炼纳什均衡是G的纳什均衡 • 重复T次。
8
例2,掷硬币游戏
正 正 反 -1,1 1,-1
34
特别地,
• 在有限次重复囚徒博弈中,每次都选择 “坦白”是每个囚徒的最优战略。 • 这一结果与人们的直观感觉不一致。 • 阿克斯罗德( 1981)的实验结果表明,即 • 使在有限次重复博弈中,合作行为也频繁 • 出现。
35
二、悖论的破解:声誉模型
• 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(1982) • 将不完全信息引入重复博弈 • 参与人对其他参与人支付函数或策略的不完全信 息对均衡结果有重要影响, • 合作行为在有限次博弈中会出现,只要博弈重复 的次数足够长(没有必要是无限的)。 • 特别地,“坏人”可能在相当长一段时期表现得 像“好人”一样。
重复博弈的详细介绍
• 一报还一报战略的胜利对人类和其他生物 的合作行为的形成具有深刻地含义。
• 爱克斯罗德在《合作进化》一书中指出, 一报还一报战略能导致社会各个领域的合 作,包括在最无指望的环境中的合作。
• 典型的例子就是越战中自发产生的“自己 活,也让他人活”的原则:只要对方不开 枪伤人,我也不开枪。
一报还一报—自然界的例子
• 猜想:杀鸡儆猴的效应
单阶段博弈矩阵
支付 在位者
进入者
进入
默许 3,3
斗争 -1,0
不进入
1,10
1,10
纳什均衡为:在位者在每一个市场选择默许,进入者在 每一个市场选择进入。
单阶段扩展式博弈
k
I A
F
C
O
1,10
-1,0
3,3
阶段博弈的子博弈精炼纳什均衡为:在位者在每一个市 场选择默许,进入者在每一个市场选择进入。
• 该博弈存在唯一的Nash均衡,即(U,L)。
• 同时注意到,该博弈还存在一个高效均衡(D, R),高效均衡对应着一种合作行为。
• 为什么高效的均衡不是纳什均衡?如何保证 这一高效均衡能够实现?
两次重复博弈的博弈树
假设将上述博弈重复两次,那么第二次博弈开始 时,第一次博弈的结果可视为已知。
1
2 1
平均收益
给定贴现率 ,无限的收益序列1,2,3
的平均收益为
(1 ) t1t
t 1
阶段博弈收益 相等时的总收益
所以
故
2 t1t t 1
1
t1 t
t 1
(1 ) t1t t 1
重复博 弈总收益
无限次重复博弈的无名氏定理:
• 令G为一个n人阶段博弈,令(e1,e2, ,en ) 为G的
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
博弈论第五章 重复搏弈(Repeated Games)
多个纯战略纳什均衡博弈的有限次重复博弈
结 论 : 如 果 阶 段 博 弈 G={A1, A2,…,An; u1, u2,…,un) 具有多重 Nash 均衡,那么可能(但 不必)存在重复博弈 G(T) 的子博弈完美均衡 结局,其中对于任意的 t<T ,在 t 阶段的结 局并不是G的Nash均衡。
无限次重复古诺模型:垄断合作
P 8 Q, 其中Q q q 假定: , 边际成本都为2。 在无限次重复古诺模型中,当贴现率 满足一定条件 时,两厂商采用下列触发策略构成一个子博弈完美纳什均 衡: 在第一阶段生产垄断产量的一半1.5;在第 t 阶段,如 果前 t-1 阶段结果都是(1.5,1.5),则继续生产1.5,否则生产 古诺产量2。
其中的每次博弈称为“阶段博弈”。如 囚徒困境。 重复博弈类型: 有限次重复博弈 无限次重复博弈 随机结束的重复博弈
重复博弈
重复博弈的特征: 1、阶段博弈之间没有“物质上”的联系,即前一 阶段的博弈不改变后一阶段的结构 ; 2、所有参与人都观测到博弈过去的历史;
3、参与人的总支付是所有阶段博弈支付的贴现值 之和或加权平均均值。
贴现因子:下一期的一单位支付在这一期的价值。
注意:在每个阶段,参与人可同时行动,也可不同 时行动。
重复博弈
因为其他参与人过去的历史总是可以观测到的,因此, 一个参与人可以使自己在某个阶段博弈的选择依赖于其他 参与人过去的行动历史,因此,参与人在重复博弈中的战 略空间远远大于和复杂于每一阶段的战略空间,这意味着, 重复博弈可能带来一些“额外”的均衡结果。 影响重复博弈均衡结果的主要因素是博弈重复的次数 和信息的完备性。 博弈重复的次数的重要性来源于参与人在短期利益和 长远利益之间的权衡。 信息的完备性:当一个参与人的支付函数不为其他参 与人知道时,该参与人可能有积极性建立一个“好”的声 誉以换取长远利益。
博弈论读书笔记(五)重复博弈
博弈论读书笔记(五)重复博弈2.3重复博弈从这⾥开始,就进⼊博弈论⽐较难以理解的地⽅了。
我也不跟着书上的章节⾛,根据⾃⼰的理解和书上的例⼦来写,如果理解有什么不对的地⽅,欢迎各位⼤佬的指正。
⾸先我们来明晰博弈论到底在讨论些什么:对于这个问题,前⾯⼏章的内容可能对⼤家会造成⼀定的误导。
因为根据前⾯⼏章的例⼦,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。
这句话本⾝没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒⼀样,选择“保证对⽅不会背叛并且⾃⼰在此情况下能获得最⼤利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明⽩我的意思)。
例如第⼀章第⼀节中囚徒困境双⽅都选择招认(因为选择合作即不招认,结果可能是被背叛)。
但是⼀旦进⼊了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),⽽要考虑多次重复博弈的总收益。
这个时候就需要参与双⽅共同商定⼀个“协议”(例如双⽅说好都选择不招认),这个协议必须是对于双⽅都有利的(⾄少由于选择单次博弈的纳什均衡,例如双⽅不招认总⽐双⽅都招认要好),并且协议中会对不遵守规则的进⾏惩罚,以便于对每个⼈来说选择合作是最好的结果。
从这⾥我们就可以理解“博弈论教你如何制定规则的”这句话了。
好了,这⼀章最核⼼的思想在这⾥已经讲完了,虽然我可能说的不是那么清晰,不过还是希望你能认真理解上⾯所说的,这会对下⾯的概念理解有很⼤帮助。
2.3.A两阶段重复博弈先给出⼏个先⾏的定义和定理:定义:对个定的阶段博弈G,令G(T)表⽰G重复T次的有限重复博弈,并且在下⼀次博弈开始前,所有以前的博弈都可以被观测到。
G(T)的收益为T次阶段博弈收益的简单相加。
这个定义最重要的是引出⼀个重复博弈中收益的概念,即T次博弈的收益简单相加,后⾯我们会提到贴现的概念,不过到这⾥先理解到简单相加就⾏。
定理:如果阶段博弈G有唯⼀的纳什均衡,则对任意有限的T,重复博弈G(T)有唯⼀的⼦博弈精炼解:即G的纳什均衡结果在每⼀阶段重复进⾏。
第四讲重复博弈详解
重复博弈和信誉问题
如果博弈不是一次的,而是重复进行的,参与 人过去行动的历史是可以观察到的,参与人就 可以将自己的选择依赖于其他人之前的行动, 因而有了更多的战略可以选择,均衡结果可能 与一次博弈大不相同。 重复博弈理论的最大贡献是对人们之间的合作 行为提供了理性解释;在囚徒困境中,一次博 弈的唯一均衡是不合作(即坦白)。但如果博 弈无限重复,合作就可能出现。
7
市场秩序的信誉基础
经济发展史表明,在本来不认识的人之间建立相互之 间的信任关系是交易范围扩大和经济发展的关键, 而 制度作为博弈的规则 ,是建立和维持人们之间信任的 关键(Milgrom、North和Weingast,1990)。如果 制度安排使得当事人履行契约比不履行契约更有利 可图,使得人们有积极性为了交易带来的长远利益而 抵挡短期的机会主义行为的诱惑,人们之间的信任就 可以建立起来.正是从这个意义上,我们说信任是一个 制度问题.
9
市场秩序的信誉基础
但新制度经济学证明,法律制度的作用被大大地 夸大了(Greif , 1996) , 法律制度并不是合同得 以执行的唯一制度安排。即使不借助于国家的 权威,非正式的合约也可以支持交易的进行。经 验研究表明,即使在象美国这样法律制度最健全 的国家,大部分的交易活动也是通过非正式的合 约安排进行的, 商业纠纷的解决常常并不借助法 律的裁决(Macaulay , 1985 ; Macneil , 1985) 。
张维迎
2002年,他关于中国 企业的核心竞争力、中国 企业如何做大、如何重建 社会信任和企业信誉的阐 述,引起人们对这三大问 题的空前关注和讨论,当 选为“CCTV2002年中国经 济年度人物”。
5
市场秩序的信誉基础:
博弈论重复博弈
D,D,D,D,D,D,… D,D,D,D,D,D,…
T,T,T,…. T,D,T,D,T,…. T,D,D,D,D,… D,T,T,T,T,….
重复博弈和无名氏定理
首先证明冷酷策略是一个纳什均衡 回顾一下,所谓纳什均衡,就是这样的一个状态,对于任
意一个参与人,给定其他参与人选择纳什均衡策略,该参 与人都无法偏离纳什均衡策略。 因此,证明囚徒问题中冷酷策略是一个纳什均衡的方法是: 给定其中任意一个参与人坚持“冷酷战略”,另外一个参 与人的最优选择也是坚持冷酷战略。
Axelrod (1984)
Tit-for-tat 是成功率最高的战略
惩罚与合作
Abreu(1986):最大合作战略是使用最严厉的可信 惩罚(the strongest credible punishment);
维护合作并不需要无限期的惩罚;只要惩罚期足 够长就可以了;
萝卜加大棒(stick and carrot): 从合作开始,一直合作直到: 如果有任何一方在t期不合作,在t+1期,前期合作者选择 “不合作”来实施惩罚,前期不合作者选择合作;如果该 合作的没有合作或者该惩罚的没有惩罚,在t+2期继续按 照上述t+1期的策略规定博弈;否则,合作恢复。
因为实际生活中,进入者和在位者在每个市场都斗 得你死我活
有限次重复博弈定理
令G是阶段博弈,G(T)是G重复T次的重复博弈(T<∞)。如 果G有唯一的纳什均衡,重复博弈G(T)的唯一子博弈精炼 纳什均衡结果是:
阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次 性博弈的均衡结果)。
只要博弈的重复次数是有限的,重复本身并不改变囚徒困 境的均衡结果。
因此,如果下列条件满足,给定对手没有选择坦白, i将不会选择坦白
博弈论4 重复博弈
重复三价博弈的等价模型 不可信报复
第一阶段不管选什么策略,二阶段都选 (M,M),于是将(3,3)加到其余策略上,得到 右边等价的得益矩阵。结果第一阶段最 佳策略不是(H,H),而是(M,M)
囚徒2 坦 白 不坦白 囚 坦白 -5,-5 徒 1 不坦白 -8,0 0,-8
-1,-1
(-5,-5)
囚徒2 坦 白 不坦白 囚 坦白 -10,-10 -5,-13 徒 -13,-5 -6,-6 1 不坦白 (-10,-10)
二、一般结论 定理:设原博弈G有唯一的纯策略纳什 均衡,则对任意整数T,重复博弈 G(T)有 唯 一的子博弈完美纳什均衡,即各博弈 方每个阶段都采用G的纳什均衡策略。
4.2.1 两人零和博弈的有限次重复博弈
以零和博弈为原博弈的有限次重复博弈中,所 有博弈方的唯一选择策略是重复一次性博弈中 的纳什均衡策略 (混合策略纳什均衡)。
原因:重复不会改变博弈效率是利益是 对立的不可调和的。
4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈
唯一的Nash均衡有两种: 一是:本身是帕雷托最优的。它都符合双方的利益, 重复不会改变 二是:本身不是帕雷托最优的。重复能否改变得益? 一、有限次重复囚徒的困境博弈
两人零和博弈有限次重复的所有阶段都不可能发生合 作,因为他们的利益关系是完全对立的。博弈方会一 直重复原博弈的混合策略纳什均衡。 两人零和博弈无限次重复的所有阶段都不可能发生合 作,博弈方会一直重复原博弈的混合策略纳什均衡 由于无限次重复博弈没有最后一个阶段,所以无法用 逆向归纳法证明。 类似的方法是从无限次重复博弈的第t阶段,进行逆向 归纳。注意t是任意的。
[经济学]博弈论第六章 重复博弈
r表示投资收益率,1/(1+r)称为折现因子。 当1>2/r时,即周收益率r>200%时,乙选择永远背叛下去 才是值得的。而这种情况几乎是不太可能的.因此,当双方 都实行礼尚往来策略时,双方是不会背叛对方的.这样礼尚 往来策略就解决了囚徒困境的难题了!
举例
假如投资收益率为10%(即r=0.1,从而 δ=1/1.1=0.91),并且博弈在持续一期的概率为 35%(即P=0.35),那么投资的有效收益率为:
R 1 1 2.14 0.35 0.91
在前面礼尚往来例子中,假如甲坚持采用礼尚往来策略, 只有当投资收益率大于200%时,乙采用永久性背叛策略就是值 得的。但是如果乙面临10%的投资收益率以及博弈再多维持一 期的概率是0.35时,有效收益率为214%,超过了200%的临界值。 因此,如果重复博弈有足够高的概率在一阶段结束,也就是P 足够小,则通过礼尚往来策略支持的合作会由于局中人的背叛 而结束。
假如在前面那个案例中企业乙背叛了一假如在前面那个案例中企业乙背叛了一个星期后突然又个星期后突然又改邪归正改邪归正选择继选择继续合作则选择合作的这个星期利润只续合作则选择合作的这个星期利润只有有11万因为此时甲企业为了惩罚他的上万因为此时甲企业为了惩罚他的上次背叛使用了低价策略因此这次背叛次背叛使用了低价策略因此这次背叛的收益是的收益是11万在背叛的那个星期获得的万在背叛的那个星期获得的背叛的成本是损失了背叛的成本是损失了44万在背叛后接下来万在背叛后接下来的一个星期发生的那么他这次背叛是的一个星期发生的那么他这次背叛是否值得呢
在囚徒困境中,重复博弈是一种促使局中 人采用合作策略的机制。因为,局中人担 心一次不合作会招致未来合作机会的丧失。 如果未来合作的价值很大,超过采取背叛 策略所能获得的短期收益,则双方会出于 长远利益的考虑,形成非契约的默契,使 彼此都从默契的非契约合约中得到好处。
博弈论:4重复博弈
厂商2 得益
次重复博弈G(, )中一定存在一个子博弈完美纳
(5,0)
(1,4) 什均衡,各博弈方的平均得益为(x1,, xn )
(3,3)
(1,1)
(4,1) (5,0)
厂商1得益
36 4.3 无限次重复博弈
无限次重复博弈的民间定理说明: 任何程度的合作效率都能找到子博弈完美纳
32 4.3 无限次重复博弈
2、唯一纯策略纳什均衡博弈的无限次重复博弈
(1)纯策略纳什均衡就是帕累托效率意义上的 最佳策略组合
策略:重复阶段博弈中的纳什均衡策略。
33 4.3 无限次重复博弈
(2)纯策略纳什均衡没有达到帕累托效率
厂商2
厂 商H 1L
H
4,4 5,0
L
0,5 1,1
❖ 触发策略:第一阶段采用H,如果前t-1阶段的结果
厂商2
厂 商H 1L
H
4,4 5,1
L
1,5 0,0
构建1和2的策略:
1: 第一阶段选择H。
第二阶段选择L。
如果第一阶段结果为(H,H),那么第三阶段选择H; 如果第一阶段结果为(H,L),那么第三阶段选择L。
2:第一阶段选择H 。
如果第一阶段结果为(H,H),那么第二阶段选择H ; 如果第一阶段结果为( L , H ),那么第二阶段选择L 。
20 4.2 有限次重复博弈
阶段博弈G中的非纳什均衡的策略组合,可能 成为重复博弈的子博弈完美纳什均衡的组成部 分。
21 4.3 无限次重复博弈
厂 商H 1L
厂商2
H
L
4,4 5,1
1,5 0,0
重复三次该博弈,有没有子博弈完美纳什 均衡在第一阶段实现收益(4,4)?
重复博弈现象分析
重复博弈现象分析作者:段俞戎来源:《科技视界》2016年第24期【摘要】囚徒困境这一现象在日常决策中越来越常见,这是一种博弈心理的体现,同时,为减弱囚徒困境的影响,在很多情况下人们采用重复博弈这一方法。
为了确切证明博弈这种现象的真实存在并分析其发生机制,实验选取山东师范大学24名学生进行相关实例的测验,并对数据进行比较分析,得出结论:重复博弈中人们确实更倾向于选择合作策略,但是在高收益面前,人们也有可能会选择背叛。
【关键词】囚徒困境;博弈;风险与收益0 引言决策中的博弈论与博弈心理在当今时代越来越受到重视,对其的研究也有利于深入了解人们的决策心理并理解人们某些行为背后的实际意义。
博弈是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依靠所掌握的信息,选择各自策略(行动),以实现利益最大化和风险成本最小化并权衡不同决策主体之间决策的的过程。
简单说就是人与人之间为了谋取利益而竞争。
在博弈论中,以“囚徒困境”博弈模型最为著名。
该模型讲述了一个警察与小偷的故事。
两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。
警察知道两人有罪,但缺乏足够的证据。
警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。
于是,每个囚徒都面临两种选择:坦白或抵赖。
然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。
根据上述描述,我们可以知道两人同时选择抵赖对于共同利益来说是最好的。
而在多项研究中都表明,很少有人会选择抵赖而与对方达成合作并得到最优效果。
这就是囚徒困境的存在,为了自己的利益达到最大化,大多数人会选择背叛而非合作。
囚徒的两难境地确实抓住了自己效益最大化、不信任和需要相互防范背叛这种真实的一面。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
博弈论分析报告
重复博弈现象分析
现代经济学里,博弈论(GameTheory,又名对策论)已经成为十分标准的分析工具。
而完全信息静态博弈是一种最简单的博弈,重复博弈则是完全信息静态博弈论的一种进化。
重复博弈有下列三项基本特征:阶段博弈之间没有“物质上”的联系,即前阶段的博弈不改变后一阶段的结构;所有参与人都观测到博弈过去的历史;参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。
在博弈论课堂所做的两人重复博弈作业,属于多轮次的典型囚徒困境博弈。
根据囚徒困境的说法,个人最佳选择为不合作(招供)时可以达到纳什均衡,然而却达不到都合作(不招供)时的个人利益最大化。
因此,如何获得全部的信息在重复博弈的环境中显得至关重要。
这一点,从课堂同学们的决策中可以明显的看出来。
正是由于每一轮博弈后可以根据其结果来修正下一轮的选择,在经过几轮的信息交换后,大家基本可以明确博弈双方的态度,在一方释放合作意愿的情况下,采取合作态度(不招供)的人数会大幅度上升,带来双方收益的上升。
相反,在发现博弈对手采取不合作的情况下,自己往往会采取“以牙还牙,以眼还眼”的跟随策略,双方最终陷入多轮的囚徒困境,收益也会大为减少。
从同学们提交的数据中可以明显看出这一情况。
另一方面,在10轮的博弈过程中,随着轮次的增加,双方的信息越来越清楚,采取合作态度的博弈者就越多,在后几轮可以稳定的达到70%以上,说明重复博弈的情况下,单次博弈经常出现囚徒困境现象会得到明显改善。
在现实生活中,单次的囚徒博弈情况其实比较少见,而重复博弈的情况则比较普遍,因此研究重复博弈对于我们的工作生活有着更加明显的指导意义。
其中,一个比较常见的重复博弈现象就是电商和网购。
网购双方形成了与囚徒博弈类似的博弈情况:买方和卖方都可以选择诚信和不诚信,对于单次博弈的情况,选择
不诚信总是可以带来更大的效益,双方都不诚信的情况下,交易无法完成,双方利益没有损失。
而在一方诚信另一方不诚信的情况下,诚信一方会蒙受损失。
但是另一方面,网购又不是一次性的博弈,网购总是倾向于多次发生,尤其是在卖家选择诚信策略时,买家可能会与卖家建立长期的合作关系。
而且基于第三方电商平台(如淘宝)的交易信息是公开的,我们可以假设所有潜在的买家都可以完全看到该信息,这些潜在的买家完全可以被视为同一个买家。
对于重复博弈模型,我们添加如下的假设条件:交易一方首先选择信任;如果交易的另一方选择诚实守信,则交易一方在下一阶段博中即选择信任;如果在某个阶段博弈一方选择欺骗,则交易的另一方将永远选择不信任。
当卖家一直保持诚信的期望得益要大于他一次不诚信而获得的得益时,他将会在每次交易中都保持诚信的策略。
当卖家一直保持诚信时,买家就会跟卖家建立长期的合作关系。
在这种情况下,则卖家会一直采用诚信策略,博弈的双方最后的策略都将是买家购买商品,卖家一直保持诚信,这就是重复博弈产生的信用机制。
重复博弈促进了电商的发展。
根据以上推导过程,我们可以更进一步进入归纳,从重复博弈的角度来看,可以采取以下措施来促进博弈双方的合作,从而推动电商的健康发展:第一,加强监管,加大惩罚的力度。
政府部门或者第三方电子商务平台应加强对交易的监管。
只有加强建管力度,提高发现不诚信的概率,才能使交易者诚实守信,增大交易的概率。
要让守信用者和不守信用者都能很快地发现双方守信或不守信的条件和规律,并建立有效的惩罚机制,此时,交易者就会衡量守信和不守信收益的大小,视违约成本的大小而相应地改变其行为。
第二,建立良好的信息机制。
信息是市场交易者是否守信的重要基础,在复杂多变的市场交易中,市场信息量增大,且信息的不对称性使市场交易的不确定性增加。
因此,建立一个真实、高效的信息传递机制,将成为约束失信行为产生的关键。
可以通过建立交易信息数据库,保留所有交易的数据,为将来的交易双方提供参考依据,同时也促进了交易双方的博弈向着重复博弈方向进化。
第三,建立健全、完善的信用法律体系。
健全、完善的信用法律体系,是保证上述条件实现的重要前提。
必须加快电商信用体系的建立,才能从根本上抑制失信行为,使守信成为市场交易者理性的选择,为电商的发展营造一个良好的社
会环境。