重复博弈.ppt

合集下载

4 重复博弈

4 重复博弈

1
2 3 1.5 1.5
混合策略
(A , B)
1.5
3
企业2得益
(1 , 4) (1.5 , 3) (3 , 3)
(2.5 , 2.5)
(2 , 2) (3 , 1.5) (4 , 1)
企业1得益
图 各均衡策略的平均得益
三次重复
企业1

无条件策略=〉有条件策略

第一阶段选A; 如果第一阶段的结果是(A,A),则第二阶段选A; 如果第一阶段的结果是(A,B),则第二阶段选B; 第三阶段无条件选B。 第一阶段选A; 第二阶段无条件选B; 如果第一阶段的结果是(A,A),则第三阶段选A; 如果第一阶段的结果是(B,A),则第三阶段选B。
平均得益=(99*3+4+1)/101=2.99
触发策略
博弈方之间首先试探合作,一旦发现对方不合作 则也用不合作相报复,利用后续阶段博弈的制约 作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问:能否用两次重复构造冷酷策略?如(A,A)、(A,B)
企业2

三次重复
如何证明为一条子博弈完美NE路径?
(A , A )、 (A , B ) 、 (B , A )
平均得益=(3+1+4)/3=2.67
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
推广到任意有限次
重复101次
企业1的策略是前99次都选A,但一旦发现哪次出现结果 (A,B),则改选并坚持B到底,最后二次与三次重复的后 两次一样; 企业2的策略是前99次都选A,但一旦发现哪次出现结果 (B,A),则改选并坚持B到底,最后二次与三次重复的后 两次一样。

第六讲 重复博弈

第六讲 重复博弈

at a1 a2 aT
t 1 T 1 t 1
T
• 无限次重复博弈的总得益的现值就是

t 1

t 1
at a1 a2
T 1
aT
• 平均得益:如果一个常数A作为重复博弈的各个阶段 的得益,能产生与得益序列a1,a2, …,aT相同的现在 值,就称A为a1,a2, …,aT的平均得益。 • 如果不考虑贴现因素,可让贴现率为1,就可以同样 适用上述定义。 • 在无限次重复博弈中,当每一阶段的得益都是A时, A 现在值就是
• 重复博弈的各阶段有时间次序,各阶段的得益也有时 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 • 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1

1 r
• 则重复T次,各阶段的得益分别为a1,a2, …,aT时的总 得益的现值就是
• 2.基本概念 • (1)设G是一个基本博弈(动静都可以,但一 般研究静态),重复进行T次,并且每次重复之 前各博弈方都能看到此前的博弈结果,这样的博 弈过程称为“G的T次重复博弈”,记为G(T), G称为G(T)的原博弈,每一次重复称为G(T) 的一个阶段。 • 重复博弈的每一个阶段都是独立的博弈,各方都 有得益。这是与一般动态博弈的重要不同。另一 方面,重复博弈中各阶段的博弈方和博弈内容都 必须相同,与一般的动态博弈也不同。
1 p (1 p) A a1 a2 a3 2 1 r (1 r )
2 (1 p) 1 p t 1 at at , 其中 t 1 (1 r ) 1 r t 1 t 1 t 1

博弈论(重复博弈)

博弈论(重复博弈)
第四章 重复博弈 (p129~)
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集

B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0

重复博弈

重复博弈

在有限次重复博弈中,如果原博弈存在唯 一纯策略纳什均衡组合,则重复博弈的唯 一子博弈完美纳什均衡解为各博弈方在每 阶段都采取的原博弈纳什均衡策略 由于完全理性的博弈方具有对“共同知识” 的分析推理能力,因此在从最后阶段开始 的逆推过程中,仍然无法摆脱囚徒困境 由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺, 因此这种均衡是子博弈完美纳什均衡
重复博弈
定义:给定一个博弈G(静态或动态),若 重复进行T次G,并且在每次重复之前各博弈 方都能观察到以前博弈的结果,则称G有一 个“T次重复博弈”,记为G(T) 其中,G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段 重复博弈是一种特殊的动态博弈 与静态和动态都有关系
本章主要结论 由于参与者在重复博弈中具有了长期利益 可通过在后阶段中的报复策略使威胁变得 可信 从而可能摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作
但是在后续阶段中只能得到古诺产 量下的利润4,总收益: 5.0625+4(δ + δ*δ +…)= 5.0625+4 δ /(1- δ) (2) 如果得益满足(1)大于(2),触 发策略下保持合作的垄断产量将构 成子博弈完美纳什均衡 这要求:δ≥9/17
一般结论:在触发策略1中,如果满足条件 δ≥9/17,博弈方可以通过古诺产量作为 威胁,迫使对方合作达成帕累托最优的垄 断产量 如果允许其它利润较低的可实现得益,相 应的贴现系数要求是否可以降低(即博弈 方是否可以不那么看重未来长期利益)? 触发策略2:第一阶段生产q*,如果前(t- 1)阶段结局都是(q*,q*),那么继续生产q* , 否则采取纳什均衡的斗争能 起到一种威慑作用,使进入者不敢再进入 下一个市场 但在有限次重复博弈中,斗争并不是一个 可信的威胁 设前 19 个市场已被进入,进入者现在要进 入第20个市场 因为在最后阶段斗争已没有任何威慑意义, 在位者的最优选择是默许,进入者将选择 进入

第五章 重复博弈完全且非完美信息动态博弈(博弈论张醒洲)PPT课件

第五章 重复博弈完全且非完美信息动态博弈(博弈论张醒洲)PPT课件
1. 参与人1和2同时从各自的可行集A1和A2中选择a1和a2;
2. 收益情况为ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2;
假定(a1*,a2*)为以上同时行动博弈唯一的纳什均衡,我们称 (a1*,a2*,a3*(a1*,a2*),a4*(a1*,a2*))为这一两阶段博弈的子博弈完 美结果。
2009-03-16
张醒洲,大连
7
两阶段囚徒Байду номын сангаас境
• 得到 a3*(a1,a2),a4*(a1,a2)
– 根据第一阶段的行动a1和 a2 ,预测第二阶段参与人的反应; – 请注意,在囚徒困境博弈中存在唯一的纳什均衡,因此参与人
的反应独立于其在第一阶段的行动。
• 计算 ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2
• 两阶段囚徒困境博弈是“2×2 两人同时行动”博弈的一 个特殊例子。在这个博弈中,我们在上一节利用后向归纳 法的思路分析了“子博弈完美结果”,具体见2.2.1。
• 子博弈完美结果
如果参与人1和2预测到参与人3和4在第二阶段的行动将由 (a3*(a1,a2),a4*(a1,a2))给出,则参与人1和2在第一阶段的问题就可 以用以下的同时行动博弈表示:
参与人 1
参与人 2
L2
L1
1, 1
R1
0, 5
R2 5, 0 4, 4
图 2.3.1
• 让两个参与人进行两次囚徒困境博弈,观察第二次博弈 开始之前第一次博弈的结果,并假设整个过程博弈的总 收益等于两阶段博弈收益的简单相加 (即不考虑贴现因 素) 。
2009-03-16
张醒洲,大连
6
“2 × 2 ×2” 博弈和子博弈完美结果

博弈论课件4重复博弈

博弈论课件4重复博弈

5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理

博弈论(第十一讲 重复博弈与声誉)PPT课件

博弈论(第十一讲 重复博弈与声誉)PPT课件
10
11.1 基本概念
为了对不同的支付流进行比较,需要确定一个标准。 一个标准就是对支付流进行加总,求得各阶段支付之和 。这样做不仅因为简单,而且当单一阶段的支付增加时 ,总和也随之增加。 对于上述三个支付流有:
11
11.1 基本概念
很多时候,使用单一阶段支付总计并不能达到满意效果 ,因为没有体现出来不同阶段支付对参与人重要性的差 别。 一般而言,人们更看重及早到手的收益。因此,提出以 带权重的支付之和作为衡量标准,越往后一阶段的支付 的权重越小。用ut表示阶段t所得支付,总支付为:
第十一讲 重复博弈 与声誉
Yang Ling 13898801325
1
标题添加
点击此处输入相 关文本内容
标题添加
点击此处输入相 关文本内容
总体概述
点击此处输入 相关文本内容
点击此处输入 相关文本内容
2
11 重复博弈与声誉
11.1 基本概念
重复博弈:所有参与者周而复始地面对相同的阶段博弈的一 种动态博弈。 阶段博弈是构成重复博弈的组件。 在重复博弈中,参与者不仅考虑当前处境所产生的支付,还 要考虑所有未来可能的处境所产生的支付。 下面博弈就是德国士兵与协约国士兵重复博弈中的阶段博 弈:
16
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡 假设重复博弈要经历T个阶段而此时是T-1阶段,总支付为各 个独立阶段的支付之和。在阶段T都会选择击中。用AT-2和GT-2 分别表示盟军与德军从阶段1到阶段T-2的各阶段支付之和,T 阶段的子博弈如下所示:
可以看出,AT-2和GT-2对求解 过程不产生任何影响。
17
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡

浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设25页PPT

浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设25页PPT

谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
ቤተ መጻሕፍቲ ባይዱ
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
浙大《博弈论基础》蒋文华 第八讲 重 复博弈和制度建设
16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。

5 重复博弈和无名氏定理 优质课件

5 重复博弈和无名氏定理 优质课件
重复博弈和无名氏定理
动态博弈的另一种特殊但是非常重要的 类型就是所谓的“重复博弈”。
顾名思义,重复博弈是指同样结构的博 弈重复多次,其中的每次博弈称为“阶 段博弈”
有限次重复博弈:连锁店悖论
考虑市场进入阻挠博弈
在位者 默许 斗争 进入者 进入 40,50 -10,0 不进入 0,300 0,300
其他的战略
恕道战略 恶棍战略 流氓战略 傻客战略

6 1 1/6 1 1
解上述条件得: 1/ 6 也就是说,如果 1/ 6 ,给定j坚持冷酷战略并且j没有
首先坦白,i不会选择首先坦白。
现在假定j首先选择了坦白,那么i是否有积极 性坚持冷酷战略惩罚j的不合作行为呢?
假定j坚持冷酷战略,j一旦坦白将永远坦白; 如果i坚持冷酷战略,他随后每阶段的支付是- 6,但如果他选择任何其它战略,他在任何阶 段的支付不会大于-6,因此不论为多少,i有 积极性坚持冷酷战略。类似的,假定j坚持冷酷 战略,即使i自己首先选择了坦白,坚持冷酷战 略也是最优的。
令为贴现因子(假定两人的贴现因子相同)。如果i在 博弈的某个阶段首先选择了坦白,他在该阶段得到0单 位的支付。但他的这种行为将触发囚徒j的“永远坦白” 的惩罚,因此,i随后每个阶段的支付都是-6。因此如 果给定下列条件满足,假设j没有选择ቤተ መጻሕፍቲ ባይዱ白,i将不会选 择坦白:
0 (6) 2(6) 1 (1) 2(1)
在这个博弈中,在位者选择斗争的 惟一原因是希望斗争能起到一种威摄力 量,使进入者不敢进入。但在有限次重 复博弈中,斗争并不是一个值得置信的 威胁。
该博弈的惟一子博弈精炼均衡是: 在位者在每一个市场上都选择默许,进 入者在每一个市场上选择进入。

重复博弈

重复博弈

重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约

重复博弈

重复博弈

1 P 1 e w e e 时,努力工作是工人 0 (1 P) (1 P) 的最佳选择,也就是说,要使工人努力工作,y w*不仅要包括工人个体收入 w0
* 当 Ve Vs ,即 w w0
1 e。 和努力工作的负效用e,还要有一点升水 (1 P)


6 随即停止的重复博弈的期望得益现值:
E[ 1 ]

E[ 2 ]




E[ t ]











上述结果说明无限次重复博弈和随机停止博弈具有统一的表示形式。
7 重复博弈的几个重要理论成果
无纯策略 混合策论 有唯一纯策略
有纯策略 有多个纯策略 T h:存在合作的可能 (Folk Theorem, Friedman,1971) 三价博弈 两市场博弈
1 * e ,则只要各阶段得益 y w 0 ,厂商选择前述触 (1 P) * 发策略就是对工人触发策略的最佳反应。故在满足 y w 0 和工资率 w* w0 e 1 * e 时,双方触发策略构成一个纳什均衡。而 y w 0 (1 P) 1 * e 意味着工人努力工作产出减去努力工作的负效用 和 w w0 e (1 P) w* w0 e
e越大,工资补偿越多;
越小,说明未来利益越不重要,工人更看重当前利益,当前工资也必须高;
P越高,工人丢饭碗的风险越小,除非工资更高,否则工人宁愿偷懒。 计划经济体制下劳动者偷懒总是难以被发觉或无人认真发觉,工资又是固 定在平均水平,无任何刺激,故工人必然倾向于偷懒。
* 而若工人已采用触发策略,则对工人的选择,厂商给的工资率 w 若满足
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2
1+1 1+5 1+0 1+4 5+1 5+5 5+0 5+4 0+1 0+5 0+0 0+4 4+1 4+5 4+0 4+4 1+1 1+0 1+5 1+4 0+1 0+0 0+5 0+4 5+1 5+0 5+5 5+4 4+1 4+0 4+5 4+4
中科院博弈论课程-乔晗
14
无名氏定理(folk theorem)
• 在无限期重复博弈中,如果每个局中人都对未来 足够重视,即δ足够大,那么任何程度的合作都 可以作为一个精炼Nash均衡结果出现。
• 合作程度:整个博弈中合作出现的频率 100%合作:每一次都合作 0%合作:每一次都不合作
中科院博弈论课程-乔晗
中科院博弈论课程-乔晗
5
重复博弈分类
• 有限次重复博弈: 博弈在某一特定的时刻(或次数)后结束
• 无限次重复博弈: 博弈一直会进行下去,没有结束 博弈有可能结束,但局中人不知道什么时候结束
中科院博弈论课程-乔晗
6
重复博弈的策略空间
• 重复博弈之所以会导致合作,是因为改变了局中 人的策略空间
• 一次性博弈:合作,不合作 • 两阶段博弈: {合作,合作}
以牙还牙,以眼还眼 • 触发(trigger strategy)策略:
一开始我跟你合作,如果你与我合作,我就会一直合作 下去,但只要有一次你不合作,我就永远不合作
冷酷策略,即使对方不小心犯错误,也会导致合作破裂
中科院博弈论课程-乔晗
12
合作的价值与耐心
• 贴现率:明天的1元钱今天值多少? 0<δ<=1
中科院博弈论课程-乔晗
3
重复博弈
• 一次性囚徒困境:只考虑眼前利益 • 重复博弈:合作可能是最好的选择 • 重复博弈使理性人走出囚徒困境 • 非合作博弈得出合作的结果:博弈论的伟大成就
• 重复博弈(repeated game):同样结构的博 弈重复多次,其中的每次博弈被称为“阶段 博弈”(stage game).
局中人1
合作 不合作
中科院博弈论课程-乔晗
局中人2
合作
不合作
3,3 4,-1
-1,4 0,0
11
两种策略
• 理论和实践证明,有两种策略是人们最普遍使用tit-for-tat)策略: 每一次行动都建立在对手前一次行动的基础上,比如:开
始合作,如果你今天不合作,我明天就不与你合作,如果你 明天又选择合作,我后天就与你合作
重复博弈
中科院博弈论课程-乔晗
1
重复博弈
• 囚徒困境: 合作对双方都有利,个体理性决定了不合作的结果
• 现实社会:存在大量合作 人类文明是合作的结果 社会进步通过合作取得
• 社会合作程度越高,就越发达,人们生活福利越 好
• 如何走出囚徒困境,把不合作转变为合作?
中科院博弈论课程-乔晗
2
重复博弈
• 重复博弈是一种完全信息动态博弈,其中一个同 样结构的博弈至少重复两次,并且先前的博弈结 果可以被观测到.
(1)未来支付的价值 (2)博弈继续的概率 (3)两者的结合:
明天的1元钱等于今天的a元钱 明天得到1元钱的可能性为b 则δ=ab • 一般化解释:未来收益的重要程度
中科院博弈论课程-乔晗
13
合作的价值与耐心
• 贴现率δ :可以笼统的理解为“耐心” • 未来收益的重要性:与人的年龄、健康、婚姻家
庭、宗教信仰等因素有关 • 59岁现象:滥用职权是因为更加重视眼前利益导致 • 婚姻美满、家庭幸福的人更重视未来收益 • 相信“来世回报”的人更重视未来利益 • 宗教:有利于促进社会成员合作
15
两阶段重复博弈
• 两阶段的囚徒困境 ➢ 两个局中人进行静态博弈两次 ➢ 第一次博弈的结果在第二次博弈开始前可以被观测到 ➢ 整个博弈的支付是局中人在两个阶段支付之和,即贴 现率为1.
局中人 1 L1 R1
局中人 2
L2 1, 1
R2 5, 0
0, 5
4, 4
中科院博弈论课程-乔晗
16
两阶段囚徒困境的博弈树
进行报复或报答,从而使得合作成为可能
• 双方都选“总是不合作”,合作不会出现 • 双方都选“总是合作”,合作会出现吗?
中科院博弈论课程-乔晗
10
重复博弈的策略空间
• 双方“总是合作”不是Nash均衡: 给定一方选择“总是合作”,另一方的最优选
择是“总是不合作” • 怎样的策略既满足个体理性,又能导致合作出现?
过去合作愉快,这次还选择合作
• 过去的行动历史多样,每个人的策略空间扩大, 使得合作成为可能
中科院博弈论课程-乔晗
8
重复博弈的策略空间
囚徒困境博弈重复多次,策略举例:
• All-D: 不论过去什么发生,总是选择不合作; • All-C: 不论过去什么发生,总是选择合作; • 合作-不合作交替进行;(合作程度) • tit-for-tat:从合作开始,之后每次选择对方前一阶段的行
相关文档
最新文档