第八讲 重复博弈和制度建设

合集下载

博弈论 蒋文华 浙江大学

博弈论 蒋文华 浙江大学

第一讲、博弈论概述献给诸位知人者智,自知者明;胜人者力,自胜者强;小胜者术,大胜者德。

第一章何为“博弈”博:博览全局弈:对弈棋局→谋定而动是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。

第一节从一个简单的故事说起博弈时要搞清楚对手是谁!博弈时要搞清楚和别人比什么!行为选择既跟对手的情况有关,又跟所遇到的外部环境的变化有关。

特别提示:博弈既可以是竞争,也可以是合作!特别提示:博弈,必须学会换位思考!特别提示:博弈,只需领先一步,高人一筹!博弈就是你中有我,我中有你。

由于直接相互作用(互动),每个博弈参与者的得益不仅取决于自己的策略(行动),还取决于其他参与者的策略(行动)。

博弈的核心在于整体思维基础上的理性换位思考,用他人的得益去推测他人的策略(行动),从而选择最有利于自己的策略(行动)。

特别提示:站在别人的立场上想一想,就是为自己未来的遭遇着想。

——米兰·昆德拉特别提示:如果因为对方眼中的你的傻,而让对方更愿意和你合作,何乐而不为呢?(大智若愚)特别提示:请不要在一个充分竞争的市场去追求成功!特别提示:选对市场(对手)比选对策略更重要!特别提示:在博弈之前,博弈就已经开始了!第二节博弈的渊源一、中国的理解博+弈=下围棋略观围棋,法于用兵,怯者无功,贪者先亡。

----汉代刘向,《围棋赋》二、西方的理解game(规则)费厄泼赖(fair play)第三节学习博弈论的收益一、当局者清更有利的选择更快速的反应二、旁观者更清理解历史与现实预测未来的发展三、提出完善游戏规则(制度)的建议第二章发展简史第一节最初的探索和应用一、古诺模型参加博弈的双方以各自在同一时间内相互独立的产量作为决策的变量,是一个产量竞争模型。

二、伯川德模型该模型与古诺模型的不同之处在于,企业把其产品的价格而不是产量作为竞争手段和决策变量,通过制定一个最优的销售价格来实现利润最大化。

经济博弈论之重复博弈

经济博弈论之重复博弈

9
三、重复博弈的得益
重复博弈的得益,必须兼顾其他阶段的得益,或者考虑整个重复博弈过程得益 的总体情况。
1.计算重复博弈的“总得益”,即博弈方各次重复得益的总和 2.计算各阶段的“平均得益”,即总得益除以重复次数
10
三、重复博弈的得益
考虑到重复博弈额次数和时间的先后次数,不同时间获得的利益对人们的价值是 有差别的,考虑到这个因素,引进将后一段的得益折算成当前阶段得益(现在值) 的贴现系数δ 。
连锁店悖论
是指一个在n个市场都开设连锁店的企业,对于各个市场的竞争者是否打击排斥的策略选择。
“先来后到”博弈,竞争者选择进入,先占领市场的连锁店不打击, A 打进 B 不进 (1,10) 是原博弈的唯一的子博弈完美纳什均衡,是两个理性的博弈方之间 博弈的唯一结果。 根据上诉的定理和一般结论,以这个博弈为原博弈的有限次重复博弈, 唯一的子博弈完美纳什均衡就是原博弈的纳什均衡,也就是每个竞争者 可以进入,连锁店不打击。 (-2,3) (5,5) 现实中类似问题的直觉经验与该理论结论明显不符。
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
0,6 3,3
0,6 0,2
L
2,0
1,1
两个纯纳什均衡(M,M),(L,L);符合博弈方总利益最大(H,H)
26
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
一、三价博弈的重复博弈
三价博弈
厂商2 H H 厂商1 M
M
L
5,5 6,0 2,0
31
4.2.3多个纯策略纳什均衡博弈的有限次重复博弈
三、两市场博弈的重复博弈 厂商2 A 3,3 4,1 B 1,4 0,0 三次重复博弈的均衡路径是(A,A),(A,B),(B,A), 得益是(3+1+4)/3=2.67.

博弈论课件4-重复博弈

博弈论课件4-重复博弈

4.1.1 为什么研究重复博弈 4.1.2 基本概念


生活中的重复博弈
——你到菜场去买菜,当你担心上当受骗而犹豫不决时,
卖菜的摊主便会对你说:“你放心好了,我天天在这里卖菜, 不会骗你的,如果菜不好你回来找我!‛他强调自己‚天天‛ 在这里卖菜,你通常便会放下心来,与之成交。因为他的这 句话翻译成经济学的语言就是‚我跟你是‘重复博弈’‛! ———而一次性的买卖往往发生在双方以后不再有买卖机会 的时候,特点是尽量谋取暴利并且带欺骗性,比如车站、码 头、旅游景点的东西往往质次价高,其原因就在于买卖双方 很少有‚重复博弈‛的机会。

两人零和博弈的有限次重复博弈 惟一纯策略纳什均衡的有限次重复博弈 多个纯策略纳什均衡的有限次重复博弈 有限次重复博弈的无名氏定理
4.2.1 两人零和博弈的有限次重复博弈

猜硬币博弈
正 面 盖 硬 币 方 正 面 反 面 -1, 1 1, -1
猜硬币方 反 面 1, -1 -1, 1


零和博弈是严格竞争的,重复博弈并不改变这一点。 重复零和博弈不会创造出新的利益。
4.2.1 两人零和博弈的有限次重复博弈



以零和博弈为原博弈的有限次重复博弈与猜硬币博 弈的有限次重复博弈一样,博弈方的正确策略是重 复一次性博弈中的纳什均衡策略。 可用逆推归纳法来证明 可以推广到非零和或多个博弈方,但博弈方的利益 严格对立,没有纯策略纳什均衡的其他严格竞争博 弈中 产生原因:利益关系严格对立,矛盾不可调和

有限次重复博弈民间定理
设原博弈的一次性博弈有均衡得益数组优于w, 那么在该博弈的多次重复中,所有不小于个体理性 得益的可实现得益,都至少有一个子博弈完美纳什 均衡的极限的平均得益来实现它们。

重复博弈、信息不对称与诚信建设的博弈机制

重复博弈、信息不对称与诚信建设的博弈机制

重复博弈、信息不对称与诚信建设的博弈机制
重复博弈是指参与者之间进行多次重复博弈的情况,每次博弈的结果会影响到下一次博弈。

在重复博弈中,参与者可以根据之前的博弈结果进行学习和调整策略,以追求更好的收益。

信息不对称是指在博弈中,参与者拥有不同的信息或对信息的理解不一致。

信息不对称可能导致参与者做出错误的决策或者无法达成最优的协议。

诚信建设的博弈机制是一种在重复博弈中解决信息不对称问题的尝试。

该机制通过激励措施,鼓励参与者遵守承诺、诚实守信,以达到协作和互利的最优结果。

这种机制通常包括奖励和惩罚措施,使参与者在决策中权衡自身利益和长期合作的利益。

其中,重复博弈的持续性为参与者提供了学习和调整策略的机会,有助于建立互信和合作;信息不对称则需要通过透明度、公正性和可信度的提高来减少,使参与者能够共享信息并作出更明智的决策;诚信建设的博弈机制通过奖励和惩罚的机制来引导参与者行为,以维护参与者之间的互信和合作。

总之,重复博弈、信息不对称和诚信建设的博弈机制相互关联,旨在通过多次博弈中的学习和调整、信息共享和诚信奖惩来实现协作和互利的最优结果。

重复博弈.ppt

重复博弈.ppt

中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2

[转载]博弈论——重复博弈

[转载]博弈论——重复博弈

[转载]博弈论——重复博弈原⽂地址:博弈论——重复博弈作者:FreshGraduate回家路上,看到⼩区门⼝卖⽔果的⽼⼈⼜在做⽣意,顾客买⽔果的时候挑挑拣拣担⼼上当受骗,⽼⼈家说:“别担⼼,我是不会骗你的,我天天在这⾥卖⽔果,有问题了你再找我。

”这则⽣活⼩插曲中蕴含着⼀个深刻的博弈原理——重复博弈。

所谓重复博弈,就是指博弈的重复进⾏,但由于在重复博弈过程中博弈双⽅对决策的意识、对利益的判断都会发⽣微妙的变化,因此重复博弈的均衡结果并⾮⼀次性博弈结果的简单叠加,各种均衡都可能出现,能否实现效率改善还要取决于决策者的理解和能⼒。

让座博弈——间接的重复博弈公交车上,两个陌⽣⼈也许会为了争抢座位⽽发⽣争执,双⽅互不相让。

但假如双⽅是舒适的朋友,那恐怕会是另外⼀幅场景,尽管双⽅都不能当即占有座位,但缘由却⼤相径庭。

为什么呢?这⾥就要提到⼀个名词“熟⼈社会”,这个概念是由费孝通提出来的,他认为中国的传统社会就是⼀个“熟⼈社会”。

在这个圈⼦⾥,⼈与⼈之间都存在着联系,也就是我们所说的私⼈关系,⼈们之间就是通过这样的关系构成了⼀张张关系⽹。

简⾔之,投桃报李就是这个意思,所谓予⼈玫瑰,⼿留余⾹,与⼈⽅便,⾃⼰⽅便。

⾃然界的启⽰——重复博弈与合作如果⼈们进⾏的是⼀场有限“重复博弈”,那么均衡结果会和⼀次性博弈的结果完全⼀样,博弈双⽅都⽆法建⽴相互的信任;但如果⼈们进⾏的是⽆限“重复博弈”,那么往往会在博弈中达成合作。

⼀旦达成合作,收效将远远超过单独博弈。

以⼤雁的飞⾏为例,它们多成⼈字形,这些雁飞⾏时定期变换领导者,因为为⾸的雁在前⾯开路,能帮助它两边的雁形成局部真空。

科学家发现,雁以这种队形飞⾏,要⽐单独飞⾏多飞出12%的距离。

⼀个由相互联系、相互制约的若⼲部分组成的整体,经过优化设计后,整体功能能够⼤于部分之和,产⽣ 1+1>2 的效果。

“重复博弈”中的合作可以让⽣物在⾃然界更好地⽣存,也可以让⼈们在社会中更好地⽣活。

浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设25页PPT

浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设25页PPT

谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
ቤተ መጻሕፍቲ ባይዱ
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
浙大《博弈论基础》蒋文华 第八讲 重 复博弈和制度建设
16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。

重复博弈

重复博弈
博弈论与信息经济学
1,重复博弈的定义及特征 定义: (1) 定义: 重复博弈指同样结构的博弈重复多次, 其中每次博弈称为阶段博弈. (2) 特征: A,阶段博弈之间没有"物质"上的联系,即 前一阶段的博弈不改变后一阶段博弈的结构; B,所有参与人都观测到博弈过去的历史; C,参与人的总支付是所有阶段博弈支付的 贴现值之和或加权平均值.
(A,B)+(A,B) OR (B,A)+(B,A)——(1,4)(4,1) 连续两次采用混合策略——(2,2) (A,B)+(B,A) OR (B,A)+(A,B)——(2.2,2.5)轮换策略 一次纯策略+一次混合策略——(1.5,3)(3,1.5)
厂商2 得益
(1,4)
(1.5,3)
厂商2 厂商
π 1, 2 , 相同的现在值,则称π 为π 1, 2 , 的平均得益 π π
有限次重复博弈不一定考虑贴现因素 无限次重复博弈必须考虑贴现问题π = (1 δ )∑ δ t 1π t
t =1 ∞
2010年7月15日3时11分
经济管理学院 曹正勇
ห้องสมุดไป่ตู้
博弈论与信息经济学
定理1 (3)定理1
中得益的T 平均每阶段得益等于原博弈G中的得益. 在G中得益的T倍,平均每阶段得益等于原博弈G中的得益.
2010年7月15日3时11分 经济管理学院 曹正勇
博弈论与信息经济学
例2
2010年7月15日3时11分 经济管理学院 曹正勇
博弈论与信息经济学
3,无限次重复博弈 (1)特征 无限次重复博弈的特征是不存在可作为最后一 阶段的最后一次重复. 阶段的最后一次重复. (2)分析无限次重复博弈的难点 一是普通的逆推归纳法无法直接运用; 一是普通的逆推归纳法无法直接运用; 二是在无限次重复中, 二是在无限次重复中,各博弈方的各阶段得益的 总和常常是趋向无穷大的, 总和常常是趋向无穷大的,在分析无限次重复博弈 时该用什么作判断依据. 时该用什么作判断依据.

浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设

浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设

重复博弈(repeated games) 如何处理噪音?
宽容
悔悟
宽容比悔悟表现好(0.1-1) 悔悟比宽容表现好(1-10) 宽严相济
噪音导致原谅,但是太多的原谅会被利用。
第十九章 制度建设
《党和国家领导制度的改革》,邓小平
特别提示:
制度好可以使坏人无法横行,制度不好可以 使好人无法充分做好事,甚至会走向反面。
结 人生是永不停息的博弈过程,博弈 的精髓不是通过暴力或阴谋诡计去
束 战胜对方,而是如何共同努力去建 语 立起更好的游戏规则,实现民富国
强与社会和谐的共同目标。
博弈的最高境界:双赢
谢谢
THANK YOU
斗私批修一闪念
特别提示:
不要试图改变人性,而是努力改变制度。 不要让人不想贪,而是让人不能贪、不敢贪
群众路线教育
人终有一死,我们会被他人取而代之 。因此我们不能传承个人的经历,因 为它将随我们而去,我们能够留下的 只是制度。
----让•莫奈,《欧洲联盟》
人生是永不停息的博弈过程,博弈意味着通过选 择合适策略达到合意结果。作为博弈者,最佳策 略是最大限度地利用游戏规则;作为社会的最佳 策略,是通过规则引导社会整体福利的增加。 ——计算机之父、博弈论创始人之一冯•诺伊曼
重复博弈(repeated games) “一报还一报”的4大特点
1. 它是善良的(前15名中只有一个非善良(第8 ),善良与得分的相关性是0.58)(不树敌) 2. 它是可激怒的(防背叛) 3. 它是宽容的(给机会) 4. 它是清晰的(易辨识)
重复博弈(repeated games) “针锋相对”的善良性防止他陷入非合作的麻 烦中,对对方背叛的报复则保证了对方背叛行 为的谨慎性,宽容性则有助于在对方背叛后重 新开始合作,而简单清晰的规则则易于被人理 解,从而导出长期的合作。

重复博弈

重复博弈

重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约

重复博弈(研)

重复博弈(研)
博弈论与信息经济学
(Game Theory and Information Economics)
第4章:重复博弈
Chapter 4: Repeated Game
1 基本博弈(回顾)
囚徒困境博弈

囚徒困境是这样一个博弈:每个参与人有一个占 优策略,但是,当所有参与人使用他们这一占优 策略时,所产生的均衡对于每个人的结果,比他 们都使用劣策略反而还要差。
2 博弈的有限次重复
餐馆定价博弈 假定两个餐馆开始处 于合作状态,每个人 收取高价格26。
餐馆 B
20(背叛) 餐 20(背叛) 馆 A 26(合作) 26(合作)
288,288 216,360
360,216 324,324
如果他们正常地竞争至少3个月,按照重复博弈的理论,我们似 乎就应该看到合作行为(高价格)而不是背叛行为(低价格)

两国独立决策是否出钱赞助该项目。但一旦一国赞助,另 一国则可不费成本得到科研成果使用疫苗

解法Ⅲ:领导
现在假设:两国人口不等, 多米尼加为1.5亿,索婆利 亚为0.5亿。
索婆利亚
研发 不研发
-2,-2 尼加 不研发 0,-2 如两国都不研发,多米尼

3 博弈的无限次重复
思考:当某家餐馆使用TFT策略时,重复博弈如何进行?
餐馆A背叛合作一个月,会额外获得36的支付(360而不 是324)。但如果餐馆B采取TFT策略会如何?

餐馆B会在下一个月惩罚餐馆A。

此时餐馆A有两个选择:
• 它可以继续以20元背叛合作,而餐馆B会根据TFT策略来 惩罚它,这样餐馆A会在接下来的每个月失去36的支付 (288而不是324)——代价很大。 • 可以选择回到合作策略上:因此只受到餐馆B一个月的惩 罚,并且在惩罚中损失108(得到216而不是324)。在A背 叛后的第二个月,双方回到合作并得到每月324支付。

重复博弈

重复博弈

重复博弈重复博弈(Repeated Games)[什么是重复博弈 顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。

重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。

在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。

有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。

下面给出两个重要定义: 定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。

定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。

在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。

[编辑]重复博弈的特征 1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。

2、所有参与人观察到博弈过去的历史。

3、参与人的总得益是所有阶段博弈得益的贴现值之和。

如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。

[编辑]重复博弈的例子[1] 以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。

A、B两个参与人都有两种定价待选择:定高价或定低价。

重复博弈

重复博弈

4.重复博弈问题:在旅游地很容易出现假货,而在居民小区的便利店则很少出现假货,为什么?重复博弈是指由同样结构的基本博弈重复多次进行构成的博弈过程,其中的每次博弈称为阶段博弈。

给定一个基本博弈G(可是静态或动态博弈),重复进行T次G,并且在每次重复G之前各参与人都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。

而G 则称为G(T)基本博弈,G(T)中的每次重复称为G(T)的一个“阶段”重复博弈具有三个特征:1、阶段博弈之间没有“物质上”的联系(no physical links),即前一阶段的博弈不改变后一阶段博弈的结构。

(每阶段博弈的结构相同,都是独立的)2、所有参与人都能观察到博弈过去的历史(完全信息)。

3、参与人的总支付是所有阶段博弈支付的贴现值或加权平均值。

参与人是从总支付最大化的角度进行决策的。

在长期内,参与人之间的行为可能相互影响,合作或者报复不合作者(便利店老板就比较害怕报复),这样,在博弈的一个阶段支付大并不意味着在长期内的支付也大,所以,在重复博弈中参与人必须考虑到长期利益。

现实中的例子:寡头门在市场上的长期竞争,如价格战,市场份额战等;两个企业履行长期协议;商业中的回头客等4.1有限次重复博弈重复次数较少的有限次重复博弈可以不考虑贴现问题。

4.1.1零和博弈有限次重复博弈在零和博弈中,一方所得及为另一方所失,因而即使重复多,也不可能进行合作或报复,所以零和博弈的重复进行对博弈没有影响。

以猜硬币博弈为例,用逆向归纳法证明如下:在博弈的最后阶段T,纳什均衡是双方各以0.5的概率选择正面或反面;在博弈的T-1阶段,纳什均衡纳什均衡是双方各以0.5的概率选择正面或反面;.......上述结论也可以推广到非零和或多个博伊方,但博弈方的利益严格对立,没有纯策略纳什均衡的严格竞争博弈中。

4.1.2存在唯一纯策略纳什均衡博弈的有限次重复博弈参与人的行为不会因为博弈的有限次重复而发生改变,例一:连锁店在位者默许斗争不进入在此博弈中,如果进入者先行动,唯一的子博弈精炼纳什均衡结果是进入者进入,在位者默许(注意,这是一个两阶段动态博弈)。

重复博弈PPT课件

重复博弈PPT课件

定理:设原博弈的一次性博弈有均衡得 益数组优于w,那么在该博弈的多次重复 中所有不小于个体理性得益的可实现得 益,都至少有一个子博弈完美纳什均衡
的极限的平均得益来实现它们。
厂商1得益
第15页/共30页
4.3 无限次重复博弈
4.3.1 两人零和博弈的无限次重复博弈 4.3.
w* w
时努V力工作,否则偷懒0 。 e
设厂商已采用上述触发V策略(w。* 由 e于) V

e
e
工人接受工作V是最(w佳* 反 e应) 。(1用 ) 记工人努力工作 e
时无限次重复博弈得益的现值,则 第26页/共30页
用V 记工人选偷懒时无限重复博弈得益的
在无限次重复古诺模型中,当贴现率 满足一定条
件时,两厂商采用下列触发策略构成一个子博弈完美纳什
均衡:
在第一阶段生产垄断产量的一半1.5;在第 t 阶段,如 果前 t-1 阶段结果都是(1.5,1.5),则继续生产1.5,否则生 产古诺产量2。
第21页/共30页
设厂商1已采用该触发策略,若厂商2也采用该触发策 略,则每期得益4.5,无限次重复博弈总得益的现值为:
4.51 2 4.5
1
如果厂商2偏离上述触发策略,则他在第一阶段所选
产量应为给定厂商1产量为1.5时,自己的最大利润产量,
即满足:
max q2
8 1.5 q2
q2 2q2
max q2
4.5
q2
q2
q 2.25
解得 2
,此时利润为5.0625,高于触发策略
第一阶段得益4.5。 第22页/共30页
第3页/共30页
策略:博弈方的一个策略就是在每个阶段(即每 次重复)针对每种情况如何行为的计划。 子博弈:从某个阶段(不包括第一阶段)开始, 包括此后所有阶段的重复博弈部分。 均衡路径:由每个阶段博弈方的行为组合串联而 成。

4-1 重复有用吗?--重复博弈引论

4-1 重复有用吗?--重复博弈引论

第四章重复博弈当博弈方意识到博弈会重复进行时,他们对利益的判断将发生变化,从而使他们在重复博弈过程中的行为选择受到影响。

因此在重复博弈中,博弈方的行为与博弈结果,不一定是基本博弈的简单重复。

简述1主要内容2 4.1重复博弈引论4.2有限次重复博弈4.3无限次重复博弈3 4.1 重复博弈引论1 2重复博弈的定义重复博弈基本概念给定一个基本博弈G(静态博弈或动态博弈),重复进行T次G,并且在每次重复G时博弈方都能观察到之前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。

而G则称为G(T)的“原博弈”。

G(T)中的每次重复称为G(T)的一个“阶段”。

4重复博弈定义有限次重复博弈:重复次数有限无限次重复博弈:重复次数没有限制,或理论上无结束时间。

记为G(∞)5有限次重复博弈:由基本博弈的有限次重复构成。

有明确结束时间。

无限次重复博弈:由基本博弈的无限次重复构成。

理论上无结束时间。

随机结束重复博弈:重复次数是有限的,但重复次数或结束时间不确定的重复博弈。

6重复有用吗?重复博弈不仅仅只是基本博弈的重复进行行为和结果不是基本博弈的简单重复须考虑未来的、长期的利益;未来利益对当前行为的制约短期关系&长期关系长期关系:长期竞争、长期合同、回头客重复有可能让人们达成合作策略:博弈方在每个阶段针对每种情况如何行为的完整计划子博弈:从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈阶段7重复博弈基本概念路径:由每个阶段博弈方的行为组合串联而成。

路径个数:m种策略组合,重复T次,有m T条路径。

8重复博弈——总得益贴现系数:将后一阶段得益折算为当前阶段得益(现在值)的数。

--以一阶段为期限的市场利率有限次重复博弈G(T)总得益的现在值:无限次重复博弈G(∞, )总得益的现在值:∑=--=+⋯+++=Tt tt T T 1113221πδπδπδδπππ∑∞=-=⋯+++=113221t tt πδπδδπππ γδ+=11γδ平均得益:如果一常数作为重复博弈(有限次重复或无限次重复)各个阶段的得益,能产生与得益序列π1,π2,……相同的现在值,则称为π1,π2,……的“平均得益”。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

无限次重复博弈
(4)对冷酷战略的进一步分析
突然选择不合作的总收益
背叛
背叛 0, 0
R=5Βιβλιοθήκη 持续合作的收益合作合作
5,-5
- 5, 5
3, 3
R=3+3+3+…… + 3 ……
合作还是背叛?
重复博弈(repeated games)
对冷酷战略的分析
突然选择不合作的总收益
背叛 背叛 合作 0,0 - 5,5 合作 5,-5 3,3
基本特征
1、前一阶段的博弈不改变后阶段的博弈结构
2、所有参与人都能观测到博弈过去的历史
3、参与人的总损益是所有阶段损益的贴现值 之和
第二节 重复博弈:以囚犯困境为例
背叛
背叛 合作 0,0 - 5,5
合作
5,-5 3,3
可选择的策略
雷锋策略 曹操策略 冷酷策略(grim strategies),又叫触发策略 心太软策略 一报还一报(Tit-for tat) 人鬼策略
使好人无法充分做好事,甚至会走向反面。
斗私批修一闪念
特别提示:
不要试图改变人性,而是努力改变制度。
不要让人不想贪,而是让人不能贪、不敢贪
群众路线教育
人终有一死,我们会被他人取而代之 。因此我们不能传承个人的经历,因 为它将随我们而去,我们能够留下的 只是制度。
----让•莫奈,《欧洲联盟》
人生是永不停息的博弈过程,博弈意味着通过选 择合适策略达到合意结果。作为博弈者,最佳策 略是最大限度地利用游戏规则;作为社会的最佳
解,从而导出长期的合作。
四点忠告
1.不要嫉妒 2.不要首先背叛
3.对合作和背叛都要给于回报(as soon as possible) 4.不要耍小聪明
两点启示
合作的基础不是信任,而是关系的持续性。 组织相对于个人而言往往具有更长的预期寿命, 从而提高了关系的持续性。(网购与网店)
重复博弈(repeated games)
欺软怕硬(又叫检验者战略,TESTER,先背叛)
镇定者策略(先建立信任关系,然后想办法占小便宜) 精神病患者(醉汉策略)
重复博弈(repeated games)
1 2 3 4 5 6 合计
1
2 3 4
5
6 合计
如果两个程序都合作则各得3分,如果都背叛则各得1 分,如果一方背叛而另一方选择合作,则背叛方得 5 分而合作方得0分。每轮进行200次博弈,在总共提交 的14个程序中(心理学、经济学、政治学、数学、社 会学),最后发现,一个名为“针锋相对”(tit-
第八讲 重复博弈和制度建设
第十八章 重复博弈 第十九章 制度建设
第十八章 重复博弈
第一节 重复博弈
重复博弈(repeated game):
是指同样结构的博弈重复许多次,其中的每次博弈
称为“阶段博弈”(stage games)。重复博弈是
动态博弈中的重要内容,它可以是完全信息的重复
博弈,也可以是不完全信息的重复博弈。
红鹰香烟,并借着过春节的机会将香烟送了出去。不料过了一
段时间,不少朋友纷纷打来电话,说他送去的香烟是假的。陈 先生感到十分奇怪,便找店主交涉,而店主却一口否认。陈先 生将剩下的8包大红鹰送烟草专卖局检验,证实这些香烟确属假 烟。烟草专卖局派出执法人员对那家副食品店进行了检查,但 未发现有假烟。无奈,陈先生只好再次找到店主交涉,店主同 意赔偿其 2000 元人民币。然而第二天一早,店主又反悔了,并 说自己从不卖假烟。
),善良与得分的相关性是0.58)(不树敌) 2. 它是可激怒的(防背叛)
3. 它是宽容的(给机会)
4. 它是清晰的(易辨识)
重复博弈(repeated games)
“针锋相对”的善良性防止他陷入非合作的麻 烦中,对对方背叛的报复则保证了对方背叛行 为的谨慎性,宽容性则有助于在对方背叛后重 新开始合作,而简单清晰的规则则易于被人理
for-tat,也称“一报还一报”,多伦多大学心理学
教授阿纳托尔•拉帕波特)的程序获得的分数最高。
在此后的第二轮比赛中,62个来自不同6个国家的程
序的角逐中,“针锋相对”依然稳获胜利)。
重复博弈(repeated games)
“一报还一报”的4大特点
1. 它是善良的(前15名中只有一个非善良(第8
R=5
持续合作的收益
R=3+3δ+3δ2+-------3δn = 3/(1-δ)
在什么条件下双方会永远合作?
δ的另一层含义是下次博弈的可能性
缺乏有力的证据,有理说不清
凡烟民都有这样的经历,怀着万分的小心,结果买到的仍是假
烟。上当的烟民想找卖假烟的讨个说法,却常常因为缺乏有力
的证据,有理说不清。浙江消费者陈先生就遇到了类似的事儿 。陈先生在 04 年初,在自家附近一副食品商店购买了 20 多条大
策略,是通过规则引导社会整体福利的增加。
——计算机之父、博弈论创始人之一冯•诺伊曼
结 束 语
人生是永不停息的博弈过程,博弈 的精髓不是通过暴力或阴谋诡计去
战胜对方,而是如何共同努力去建
立起更好的游戏规则,实现民富国
强与社会和谐的共同目标。 博弈的最高境界:双赢

T H A N K

Y O U
重复博弈(repeated games)

如何处理噪音?
宽容 悔悟 宽容比悔悟表现好(0.1-1) 悔悟比宽容表现好(1-10) 宽严相济
噪音导致原谅,但是太多的原谅会被利用。
第十九章 制度建设
《党和国家领导制度的改革》,邓小平
特别提示:
制度好可以使坏人无法横行,制度不好可以
相关文档
最新文档