重复博弈.ppt
合集下载
4 重复博弈
1
2 3 1.5 1.5
混合策略
(A , B)
1.5
3
企业2得益
(1 , 4) (1.5 , 3) (3 , 3)
(2.5 , 2.5)
(2 , 2) (3 , 1.5) (4 , 1)
企业1得益
图 各均衡策略的平均得益
三次重复
企业1
无条件策略=〉有条件策略
第一阶段选A; 如果第一阶段的结果是(A,A),则第二阶段选A; 如果第一阶段的结果是(A,B),则第二阶段选B; 第三阶段无条件选B。 第一阶段选A; 第二阶段无条件选B; 如果第一阶段的结果是(A,A),则第三阶段选A; 如果第一阶段的结果是(B,A),则第三阶段选B。
平均得益=(99*3+4+1)/101=2.99
触发策略
博弈方之间首先试探合作,一旦发现对方不合作 则也用不合作相报复,利用后续阶段博弈的制约 作用达成均衡的策略。
trigger strategies 冷酷战略 grim strategies
问:能否用两次重复构造冷酷策略?如(A,A)、(A,B)
企业2
三次重复
如何证明为一条子博弈完美NE路径?
(A , A )、 (A , B ) 、 (B , A )
平均得益=(3+1+4)/3=2.67
A A 企业1 B 企业2 B
3,3 4,1
1,4 0,0
推广到任意有限次
重复101次
企业1的策略是前99次都选A,但一旦发现哪次出现结果 (A,B),则改选并坚持B到底,最后二次与三次重复的后 两次一样; 企业2的策略是前99次都选A,但一旦发现哪次出现结果 (B,A),则改选并坚持B到底,最后二次与三次重复的后 两次一样。
第六讲 重复博弈
at a1 a2 aT
t 1 T 1 t 1
T
• 无限次重复博弈的总得益的现值就是
t 1
t 1
at a1 a2
T 1
aT
• 平均得益:如果一个常数A作为重复博弈的各个阶段 的得益,能产生与得益序列a1,a2, …,aT相同的现在 值,就称A为a1,a2, …,aT的平均得益。 • 如果不考虑贴现因素,可让贴现率为1,就可以同样 适用上述定义。 • 在无限次重复博弈中,当每一阶段的得益都是A时, A 现在值就是
• 重复博弈的各阶段有时间次序,各阶段的得益也有时 序。重复次数不多或时间间隔不长,得益的时序问题 无关紧要,但若是次数较多,或时间较长,比如是无 限阶段重复博弈,就必须考虑得益的时序问题。 • 一般是把各阶段的得益折合成现值来计算。若利率为r, 则贴现系数为 1
1 r
• 则重复T次,各阶段的得益分别为a1,a2, …,aT时的总 得益的现值就是
• 2.基本概念 • (1)设G是一个基本博弈(动静都可以,但一 般研究静态),重复进行T次,并且每次重复之 前各博弈方都能看到此前的博弈结果,这样的博 弈过程称为“G的T次重复博弈”,记为G(T), G称为G(T)的原博弈,每一次重复称为G(T) 的一个阶段。 • 重复博弈的每一个阶段都是独立的博弈,各方都 有得益。这是与一般动态博弈的重要不同。另一 方面,重复博弈中各阶段的博弈方和博弈内容都 必须相同,与一般的动态博弈也不同。
1 p (1 p) A a1 a2 a3 2 1 r (1 r )
2 (1 p) 1 p t 1 at at , 其中 t 1 (1 r ) 1 r t 1 t 1 t 1
博弈论(重复博弈)
第四章 重复博弈 (p129~)
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集
例
B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0
§4.1 基本概念
一、什么是重复博弈 二、重复博弈的分类 三、重复博弈的策略 四、重复博弈的收益
§4.2 有限次重复博弈
一、2人零和博弈的重复 二、有唯一纯策略NE的有限次重复博弈 三、连锁店悖论(Chainstore Paradox)
H
L
4,4
5,0
0,5
1,1
ห้องสมุดไป่ตู้
可以证明,当贴现因子 较大时,上述 策略组合构成了SPNE:
1)TS 是 NE 2)这个NE是SPNE
2.无限次重复博弈的民间定理 (p133,定理5.1)
一个n人有限博弈G中,设(x1, x2,… xn)是G的任意可 实现收益,那么无限次重复博弈G(∞, δ) 中必存在一个 SPNE,各局中人的平均收益即为(x1, x2,… xn),只要 满足如下条件: 1) 时间偏好率 r =0 或是充分小的正数; 2)博弈在任意阶段结束的概率为0或是充分小的正数; 3)支付组合的元素是n维的,且严格帕累托优于G的最 小最大收益组合。
若干无限次充分博弈的例
1.“单边”的囚徒困境 博弈(p139)
抵赖 抵赖 坦白 5,5
10,-5
坦白
-5,10
购买 高质 低质 5,5
10,-5
抵制 0,0 0,0
0,0
2.产品质量博弈(p143)
均衡成立应满足的条件: 激励相容 竞争 市场出清
3.消费者转换成本博弈(p146)
马尔可夫过程 寻求马尔可夫策略(Markov st.)
合作收益集
例
B1 (开发A) B2 (开发B) a1 (开发A) 3,3 a2 (开发B) 4,1 1,4 0,0
重复博弈
在有限次重复博弈中,如果原博弈存在唯 一纯策略纳什均衡组合,则重复博弈的唯 一子博弈完美纳什均衡解为各博弈方在每 阶段都采取的原博弈纳什均衡策略 由于完全理性的博弈方具有对“共同知识” 的分析推理能力,因此在从最后阶段开始 的逆推过程中,仍然无法摆脱囚徒困境 由于在这样的双方策略下,均衡路径中的 每个阶段都不存在不可信的威胁或许诺, 因此这种均衡是子博弈完美纳什均衡
重复博弈
定义:给定一个博弈G(静态或动态),若 重复进行T次G,并且在每次重复之前各博弈 方都能观察到以前博弈的结果,则称G有一 个“T次重复博弈”,记为G(T) 其中,G成为G(T)的原博弈。每次重复称为 G(T)的一个阶段 重复博弈是一种特殊的动态博弈 与静态和动态都有关系
本章主要结论 由于参与者在重复博弈中具有了长期利益 可通过在后阶段中的报复策略使威胁变得 可信 从而可能摆脱静态博弈中“追求自身利益 最大化”导致的囚徒困境,实现长期合作
但是在后续阶段中只能得到古诺产 量下的利润4,总收益: 5.0625+4(δ + δ*δ +…)= 5.0625+4 δ /(1- δ) (2) 如果得益满足(1)大于(2),触 发策略下保持合作的垄断产量将构 成子博弈完美纳什均衡 这要求:δ≥9/17
一般结论:在触发策略1中,如果满足条件 δ≥9/17,博弈方可以通过古诺产量作为 威胁,迫使对方合作达成帕累托最优的垄 断产量 如果允许其它利润较低的可实现得益,相 应的贴现系数要求是否可以降低(即博弈 方是否可以不那么看重未来长期利益)? 触发策略2:第一阶段生产q*,如果前(t- 1)阶段结局都是(q*,q*),那么继续生产q* , 否则采取纳什均衡的斗争能 起到一种威慑作用,使进入者不敢再进入 下一个市场 但在有限次重复博弈中,斗争并不是一个 可信的威胁 设前 19 个市场已被进入,进入者现在要进 入第20个市场 因为在最后阶段斗争已没有任何威慑意义, 在位者的最优选择是默许,进入者将选择 进入
第五章 重复博弈完全且非完美信息动态博弈(博弈论张醒洲)PPT课件
1. 参与人1和2同时从各自的可行集A1和A2中选择a1和a2;
2. 收益情况为ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2;
假定(a1*,a2*)为以上同时行动博弈唯一的纳什均衡,我们称 (a1*,a2*,a3*(a1*,a2*),a4*(a1*,a2*))为这一两阶段博弈的子博弈完 美结果。
2009-03-16
张醒洲,大连
7
两阶段囚徒Байду номын сангаас境
• 得到 a3*(a1,a2),a4*(a1,a2)
– 根据第一阶段的行动a1和 a2 ,预测第二阶段参与人的反应; – 请注意,在囚徒困境博弈中存在唯一的纳什均衡,因此参与人
的反应独立于其在第一阶段的行动。
• 计算 ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2
• 两阶段囚徒困境博弈是“2×2 两人同时行动”博弈的一 个特殊例子。在这个博弈中,我们在上一节利用后向归纳 法的思路分析了“子博弈完美结果”,具体见2.2.1。
• 子博弈完美结果
如果参与人1和2预测到参与人3和4在第二阶段的行动将由 (a3*(a1,a2),a4*(a1,a2))给出,则参与人1和2在第一阶段的问题就可 以用以下的同时行动博弈表示:
参与人 1
参与人 2
L2
L1
1, 1
R1
0, 5
R2 5, 0 4, 4
图 2.3.1
• 让两个参与人进行两次囚徒困境博弈,观察第二次博弈 开始之前第一次博弈的结果,并假设整个过程博弈的总 收益等于两阶段博弈收益的简单相加 (即不考虑贴现因 素) 。
2009-03-16
张醒洲,大连
6
“2 × 2 ×2” 博弈和子博弈完美结果
2. 收益情况为ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2;
假定(a1*,a2*)为以上同时行动博弈唯一的纳什均衡,我们称 (a1*,a2*,a3*(a1*,a2*),a4*(a1*,a2*))为这一两阶段博弈的子博弈完 美结果。
2009-03-16
张醒洲,大连
7
两阶段囚徒Байду номын сангаас境
• 得到 a3*(a1,a2),a4*(a1,a2)
– 根据第一阶段的行动a1和 a2 ,预测第二阶段参与人的反应; – 请注意,在囚徒困境博弈中存在唯一的纳什均衡,因此参与人
的反应独立于其在第一阶段的行动。
• 计算 ui(a1,a2,a3*(a1,a2),a4*(a1,a2)),i=1,2
• 两阶段囚徒困境博弈是“2×2 两人同时行动”博弈的一 个特殊例子。在这个博弈中,我们在上一节利用后向归纳 法的思路分析了“子博弈完美结果”,具体见2.2.1。
• 子博弈完美结果
如果参与人1和2预测到参与人3和4在第二阶段的行动将由 (a3*(a1,a2),a4*(a1,a2))给出,则参与人1和2在第一阶段的问题就可 以用以下的同时行动博弈表示:
参与人 1
参与人 2
L2
L1
1, 1
R1
0, 5
R2 5, 0 4, 4
图 2.3.1
• 让两个参与人进行两次囚徒困境博弈,观察第二次博弈 开始之前第一次博弈的结果,并假设整个过程博弈的总 收益等于两阶段博弈收益的简单相加 (即不考虑贴现因 素) 。
2009-03-16
张醒洲,大连
6
“2 × 2 ×2” 博弈和子博弈完美结果
博弈论课件4重复博弈
5 1 1 2 5
如果博弈方2采用H,总得益现值为:
1
V 4 V
因此当 1/ 4时,此触发策略纳什均衡策略。
4.3.2 惟一纯策略纳什均衡的无限次重复博弈
无限次重复博弈民间定理(弗里德曼,1971)
设G是一个完全信息的静态博弈,用(e1, , en )记G的纳什均衡得益,
用(x , 1
重复囚徒困境悖论和连锁 店悖论
☻理论和实践的直觉矛盾,现实 中寡头之间的价格战问题并 不十分普遍,重复次数较大 的实验研究的结果(重复200 次的囚徒困境)
☻泽尔腾(1978),“连锁店悖论” (导论中的先来后到博弈), 实际中对开头几个市场的进 入者不计代价的打击
☻问题的症结与蜈蚣博弈类似, 在于在较多阶段的动态博弈 中逆推归纳法的适用性T t1t 1t1 2 23
t1
t 1
t
4.1.2 基本概念
平均得益:如果一常数作为重复博弈(有限次重复博弈或
无限次重复博弈)各个阶段的得益,能产生与得益序列
1, 2,相同的现在值,则称为1, 2,的平均得益
无限次重复博弈时
2 (1 )
1 2 23
4.2.3 多个纯策略纳什均衡的有限次重复博弈
三价博弈的两次重复博弈
+1
厂H 商M
1L
H
5,5 6,0 2,0
厂商2
M 0,6 3,3 2,0
L
0,2 0,2 1,1
+3
厂H 商M 1L
H
8,8 7,1 3,1
厂商2 M
1,7 4,4 3,1
L
1,3 1,3 2,2
三价博弈
两次重复三价博弈的等价博弈
有限次重复博弈民间定理
博弈论(第十一讲 重复博弈与声誉)PPT课件
10
11.1 基本概念
为了对不同的支付流进行比较,需要确定一个标准。 一个标准就是对支付流进行加总,求得各阶段支付之和 。这样做不仅因为简单,而且当单一阶段的支付增加时 ,总和也随之增加。 对于上述三个支付流有:
11
11.1 基本概念
很多时候,使用单一阶段支付总计并不能达到满意效果 ,因为没有体现出来不同阶段支付对参与人重要性的差 别。 一般而言,人们更看重及早到手的收益。因此,提出以 带权重的支付之和作为衡量标准,越往后一阶段的支付 的权重越小。用ut表示阶段t所得支付,总支付为:
第十一讲 重复博弈 与声誉
Yang Ling 13898801325
1
标题添加
点击此处输入相 关文本内容
标题添加
点击此处输入相 关文本内容
总体概述
点击此处输入 相关文本内容
点击此处输入 相关文本内容
2
11 重复博弈与声誉
11.1 基本概念
重复博弈:所有参与者周而复始地面对相同的阶段博弈的一 种动态博弈。 阶段博弈是构成重复博弈的组件。 在重复博弈中,参与者不仅考虑当前处境所产生的支付,还 要考虑所有未来可能的处境所产生的支付。 下面博弈就是德国士兵与协约国士兵重复博弈中的阶段博 弈:
16
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡 假设重复博弈要经历T个阶段而此时是T-1阶段,总支付为各 个独立阶段的支付之和。在阶段T都会选择击中。用AT-2和GT-2 分别表示盟军与德军从阶段1到阶段T-2的各阶段支付之和,T 阶段的子博弈如下所示:
可以看出,AT-2和GT-2对求解 过程不产生任何影响。
17
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡
11.1 基本概念
为了对不同的支付流进行比较,需要确定一个标准。 一个标准就是对支付流进行加总,求得各阶段支付之和 。这样做不仅因为简单,而且当单一阶段的支付增加时 ,总和也随之增加。 对于上述三个支付流有:
11
11.1 基本概念
很多时候,使用单一阶段支付总计并不能达到满意效果 ,因为没有体现出来不同阶段支付对参与人重要性的差 别。 一般而言,人们更看重及早到手的收益。因此,提出以 带权重的支付之和作为衡量标准,越往后一阶段的支付 的权重越小。用ut表示阶段t所得支付,总支付为:
第十一讲 重复博弈 与声誉
Yang Ling 13898801325
1
标题添加
点击此处输入相 关文本内容
标题添加
点击此处输入相 关文本内容
总体概述
点击此处输入 相关文本内容
点击此处输入 相关文本内容
2
11 重复博弈与声誉
11.1 基本概念
重复博弈:所有参与者周而复始地面对相同的阶段博弈的一 种动态博弈。 阶段博弈是构成重复博弈的组件。 在重复博弈中,参与者不仅考虑当前处境所产生的支付,还 要考虑所有未来可能的处境所产生的支付。 下面博弈就是德国士兵与协约国士兵重复博弈中的阶段博 弈:
16
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡 假设重复博弈要经历T个阶段而此时是T-1阶段,总支付为各 个独立阶段的支付之和。在阶段T都会选择击中。用AT-2和GT-2 分别表示盟军与德军从阶段1到阶段T-2的各阶段支付之和,T 阶段的子博弈如下所示:
可以看出,AT-2和GT-2对求解 过程不产生任何影响。
17
11.2 有限次重复博弈
11.2.1 有限次重复博弈——阶段博弈只有一个纳什均衡
浙大《博弈论基础》蒋文华 第八讲 重复博弈和制度建设25页PPT
谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
ቤተ መጻሕፍቲ ባይዱ
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
浙大《博弈论基础》蒋文华 第八讲 重 复博弈和制度建设
16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。
5 重复博弈和无名氏定理 优质课件
重复博弈和无名氏定理
动态博弈的另一种特殊但是非常重要的 类型就是所谓的“重复博弈”。
顾名思义,重复博弈是指同样结构的博 弈重复多次,其中的每次博弈称为“阶 段博弈”
有限次重复博弈:连锁店悖论
考虑市场进入阻挠博弈
在位者 默许 斗争 进入者 进入 40,50 -10,0 不进入 0,300 0,300
其他的战略
恕道战略 恶棍战略 流氓战略 傻客战略
或
6 1 1/6 1 1
解上述条件得: 1/ 6 也就是说,如果 1/ 6 ,给定j坚持冷酷战略并且j没有
首先坦白,i不会选择首先坦白。
现在假定j首先选择了坦白,那么i是否有积极 性坚持冷酷战略惩罚j的不合作行为呢?
假定j坚持冷酷战略,j一旦坦白将永远坦白; 如果i坚持冷酷战略,他随后每阶段的支付是- 6,但如果他选择任何其它战略,他在任何阶 段的支付不会大于-6,因此不论为多少,i有 积极性坚持冷酷战略。类似的,假定j坚持冷酷 战略,即使i自己首先选择了坦白,坚持冷酷战 略也是最优的。
令为贴现因子(假定两人的贴现因子相同)。如果i在 博弈的某个阶段首先选择了坦白,他在该阶段得到0单 位的支付。但他的这种行为将触发囚徒j的“永远坦白” 的惩罚,因此,i随后每个阶段的支付都是-6。因此如 果给定下列条件满足,假设j没有选择ቤተ መጻሕፍቲ ባይዱ白,i将不会选 择坦白:
0 (6) 2(6) 1 (1) 2(1)
在这个博弈中,在位者选择斗争的 惟一原因是希望斗争能起到一种威摄力 量,使进入者不敢进入。但在有限次重 复博弈中,斗争并不是一个值得置信的 威胁。
该博弈的惟一子博弈精炼均衡是: 在位者在每一个市场上都选择默许,进 入者在每一个市场上选择进入。
动态博弈的另一种特殊但是非常重要的 类型就是所谓的“重复博弈”。
顾名思义,重复博弈是指同样结构的博 弈重复多次,其中的每次博弈称为“阶 段博弈”
有限次重复博弈:连锁店悖论
考虑市场进入阻挠博弈
在位者 默许 斗争 进入者 进入 40,50 -10,0 不进入 0,300 0,300
其他的战略
恕道战略 恶棍战略 流氓战略 傻客战略
或
6 1 1/6 1 1
解上述条件得: 1/ 6 也就是说,如果 1/ 6 ,给定j坚持冷酷战略并且j没有
首先坦白,i不会选择首先坦白。
现在假定j首先选择了坦白,那么i是否有积极 性坚持冷酷战略惩罚j的不合作行为呢?
假定j坚持冷酷战略,j一旦坦白将永远坦白; 如果i坚持冷酷战略,他随后每阶段的支付是- 6,但如果他选择任何其它战略,他在任何阶 段的支付不会大于-6,因此不论为多少,i有 积极性坚持冷酷战略。类似的,假定j坚持冷酷 战略,即使i自己首先选择了坦白,坚持冷酷战 略也是最优的。
令为贴现因子(假定两人的贴现因子相同)。如果i在 博弈的某个阶段首先选择了坦白,他在该阶段得到0单 位的支付。但他的这种行为将触发囚徒j的“永远坦白” 的惩罚,因此,i随后每个阶段的支付都是-6。因此如 果给定下列条件满足,假设j没有选择ቤተ መጻሕፍቲ ባይዱ白,i将不会选 择坦白:
0 (6) 2(6) 1 (1) 2(1)
在这个博弈中,在位者选择斗争的 惟一原因是希望斗争能起到一种威摄力 量,使进入者不敢进入。但在有限次重 复博弈中,斗争并不是一个值得置信的 威胁。
该博弈的惟一子博弈精炼均衡是: 在位者在每一个市场上都选择默许,进 入者在每一个市场上选择进入。
重复博弈
重复博弈——平均得益
平均得益:如果一常数 作为重复博弈(有限次 重复博弈或 无限次重复博弈)各个 阶段的得益,能产生与 得益序列
1, 2 ,相同的现在值,则称 为 1, 2 ,的平均得益
有限次重复博弈不一定 考虑贴现因素 无限次重复博弈必须考 虑贴现问题 (1 ) t 1 t
4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈
厂商2 H 8, 8 7, 1 3, 1 厂商2 M 1,7 4,4 3,1 L 1, 3 1, 3 2, 2
厂 商 1
H M L
H 5,5 6,0 2,0
M 0,6 3,3 2,0 三价博弈
L 0, 2 0, 2 1, 1
厂 H 商 M 1 L
两次重复三价博弈的等价模型
论:无论博弈重复多长时期,只要是有限 次数的重复,合作都不可能达成! 有限次的重复博弈,其均衡结果与一次性 博弈的结果是完全一样的。
假设:货币存在时间价值,下一时期的1元
货币只能等于现在这一时期的 元货币, 0< <1(因此 被称为贴现因子)。 假设任何参与人都采取如下对策:自己首 先选择合作,如果观察到对方选择对抗, 那么自己从下一个时期开始就永远选择对 抗。如果每个观察到对方选择对抗,那么 自己就在第t个时期确定是否要选择对抗。
对抗与合作博弈
乙 合作 甲 合作 对抗 5元,5元 10元,0元 对抗 0元,10元 1元,1元
这个博弈实际上是一个囚徒困境博弈,因
为它具有囚徒困境一样的博弈结构,不管 对方选择对抗还是合作,甲选择对抗总是 更有利;当然乙也是一样的想法。 (对抗,对抗)是惟一的纳什均衡。 为什么不合作呢?
未来利益对当前行为的制约
重复博弈
1 P 1 e w e e 时,努力工作是工人 0 (1 P) (1 P) 的最佳选择,也就是说,要使工人努力工作,y w*不仅要包括工人个体收入 w0
* 当 Ve Vs ,即 w w0
1 e。 和努力工作的负效用e,还要有一点升水 (1 P)
6 随即停止的重复博弈的期望得益现值:
E[ 1 ]
E[ 2 ]
E[ t ]
上述结果说明无限次重复博弈和随机停止博弈具有统一的表示形式。
7 重复博弈的几个重要理论成果
无纯策略 混合策论 有唯一纯策略
有纯策略 有多个纯策略 T h:存在合作的可能 (Folk Theorem, Friedman,1971) 三价博弈 两市场博弈
1 * e ,则只要各阶段得益 y w 0 ,厂商选择前述触 (1 P) * 发策略就是对工人触发策略的最佳反应。故在满足 y w 0 和工资率 w* w0 e 1 * e 时,双方触发策略构成一个纳什均衡。而 y w 0 (1 P) 1 * e 意味着工人努力工作产出减去努力工作的负效用 和 w w0 e (1 P) w* w0 e
e越大,工资补偿越多;
越小,说明未来利益越不重要,工人更看重当前利益,当前工资也必须高;
P越高,工人丢饭碗的风险越小,除非工资更高,否则工人宁愿偷懒。 计划经济体制下劳动者偷懒总是难以被发觉或无人认真发觉,工资又是固 定在平均水平,无任何刺激,故工人必然倾向于偷懒。
* 而若工人已采用触发策略,则对工人的选择,厂商给的工资率 w 若满足
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中科院博弈论课程-乔晗
4
重复博弈的三个特征
1. 阶段博弈之间没有物理上的联系,即前一阶段博 弈的结果不改变后一阶段的结构(比如剪刀、石 头、布的重复);
2. 所有参与人观察到博弈过去的历史; 3. 参与人的总支付(报酬)是所有阶段博弈支付的
贴现值之和(局中人关心的不仅是现阶段收益, 还包括未来收益,因而有积极性做出不同于一次 性博弈的最优选择)。
{合作,不合作} {不合作,合作} {不合作,不合作} • 三阶段博弈? • N阶段博弈?
中科院博弈论课程-乔晗
7
重复博弈的策略空间
• 单阶段博弈:局中人的选择无法建立在对手前阶 段行动的基础上
• 重复博弈:过去的行动历史可以被观察到,局中 人的选择可以建立在其他局中人过去行动的基础 上
如:过去你欺骗我,这次我不与你合作
中科院博弈论课程-乔晗
动;(针锋相对)
• trigger strategies: 从合作开始,一直到有一方不合作,然后 永远选择不合作。(触发)
……
局中人1
合作 不合作
局中人2
合作
不合作
3,3
-1,4
4,-1
0,0
中科院博弈论课程-乔晗
9
重复博弈的策略空间
• 重复博弈中,局中人可以选择的策略空间变大 • 新策略的出现使得局中人可以对对方过去的行动
1 L1 2
R1 2
L2 1
R2 1
L2 1
R2 1
L1
R1
L1
R1
L1
R1
L1
R1
2
2
2
2
2
2
2
2
L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2 L2
R2
1+1 1+5 1+0 1+4 5+1 5+5 5+0 5+4 0+1 0+5 0+0 0+4 4+1 4+5 4+0 4+4 1+1 1+0 1+5 1+4 0+1 0+0 0+5 0+4 5+1 5+0 5+5 5+4 4+1 4+0 4+5 4+4
中科院博弈论课程-乔晗
14
无名氏定理(folk theorem)
• 在无限期重复博弈中,如果每个局中人都对未来 足够重视,即δ足够大,那么任何程度的合作都 可以作为一个精炼Nash均衡结果出现。
• 合作程度:整个博弈中合作出现的频率 100%合作:每一次都合作 0%合作:每一次都不合作
中科院博弈论课程-乔晗
中科院博弈论课程-乔晗
5
重复博弈分类
• 有限次重复博弈: 博弈在某一特定的时刻(或次数)后结束
• 无限次重复博弈: 博弈一直会进行下去,没有结束 博弈有可能结束,但局中人不知道什么时候结束
中科院博弈论课程-乔晗
6
重复博弈的策略空间
• 重复博弈之所以会导致合作,是因为改变了局中 人的策略空间
• 一次性博弈:合作,不合作 • 两阶段博弈: {合作,合作}
以牙还牙,以眼还眼 • 触发(trigger strategy)策略:
一开始我跟你合作,如果你与我合作,我就会一直合作 下去,但只要有一次你不合作,我就永远不合作
冷酷策略,即使对方不小心犯错误,也会导致合作破裂
中科院博弈论课程-乔晗
12
合作的价值与耐心
• 贴现率:明天的1元钱今天值多少? 0<δ<=1
中科院博弈论课程-乔晗
3
重复博弈
• 一次性囚徒困境:只考虑眼前利益 • 重复博弈:合作可能是最好的选择 • 重复博弈使理性人走出囚徒困境 • 非合作博弈得出合作的结果:博弈论的伟大成就
• 重复博弈(repeated game):同样结构的博 弈重复多次,其中的每次博弈被称为“阶段 博弈”(stage game).
局中人1
合作 不合作
中科院博弈论课程-乔晗
局中人2
合作
不合作
3,3 4,-1
-1,4 0,0
11
两种策略
• 理论和实践证明,有两种策略是人们最普遍使用tit-for-tat)策略: 每一次行动都建立在对手前一次行动的基础上,比如:开
始合作,如果你今天不合作,我明天就不与你合作,如果你 明天又选择合作,我后天就与你合作
重复博弈
中科院博弈论课程-乔晗
1
重复博弈
• 囚徒困境: 合作对双方都有利,个体理性决定了不合作的结果
• 现实社会:存在大量合作 人类文明是合作的结果 社会进步通过合作取得
• 社会合作程度越高,就越发达,人们生活福利越 好
• 如何走出囚徒困境,把不合作转变为合作?
中科院博弈论课程-乔晗
2
重复博弈
• 重复博弈是一种完全信息动态博弈,其中一个同 样结构的博弈至少重复两次,并且先前的博弈结 果可以被观测到.
(1)未来支付的价值 (2)博弈继续的概率 (3)两者的结合:
明天的1元钱等于今天的a元钱 明天得到1元钱的可能性为b 则δ=ab • 一般化解释:未来收益的重要程度
中科院博弈论课程-乔晗
13
合作的价值与耐心
• 贴现率δ :可以笼统的理解为“耐心” • 未来收益的重要性:与人的年龄、健康、婚姻家
庭、宗教信仰等因素有关 • 59岁现象:滥用职权是因为更加重视眼前利益导致 • 婚姻美满、家庭幸福的人更重视未来收益 • 相信“来世回报”的人更重视未来利益 • 宗教:有利于促进社会成员合作
15
两阶段重复博弈
• 两阶段的囚徒困境 ➢ 两个局中人进行静态博弈两次 ➢ 第一次博弈的结果在第二次博弈开始前可以被观测到 ➢ 整个博弈的支付是局中人在两个阶段支付之和,即贴 现率为1.
局中人 1 L1 R1
局中人 2
L2 1, 1
R2 5, 0
0, 5
4, 4
中科院博弈论课程-乔晗
16
两阶段囚徒困境的博弈树
进行报复或报答,从而使得合作成为可能
• 双方都选“总是不合作”,合作不会出现 • 双方都选“总是合作”,合作会出现吗?
中科院博弈论课程-乔晗
10
重复博弈的策略空间
• 双方“总是合作”不是Nash均衡: 给定一方选择“总是合作”,另一方的最优选
择是“总是不合作” • 怎样的策略既满足个体理性,又能导致合作出现?
过去合作愉快,这次还选择合作
• 过去的行动历史多样,每个人的策略空间扩大, 使得合作成为可能
中科院博弈论课程-乔晗
8
重复博弈的策略空间
囚徒困境博弈重复多次,策略举例:
• All-D: 不论过去什么发生,总是选择不合作; • All-C: 不论过去什么发生,总是选择合作; • 合作-不合作交替进行;(合作程度) • tit-for-tat:从合作开始,之后每次选择对方前一阶段的行