重复博弈囚徒困境
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果下列条件满足,企业 i 会选择合作均衡:
2 2 2 2 (a c) 2 (a c) 2 ( a c ) 9( a c ) ( a c ) ( a c ) 2 ... 2 ... 8 8 8 64 9 9
例如“信用困境”的所有纯战略收益的凸组合如图7 的阴影部分 企业2 收益 其纳什威胁点是e=(1,1)。无名氏 (5,0) (4,4) 定理告诉我们,如果 足够接近于1, 可行收益集合 由过点(1,1)的两条垂直线围成的可 企业1 (1,1) 行集合上的任意点都可以是一个子博 收益 o 弈精练纳什均衡的结果。 (0,5) 3、平均支付:假设贴现因子为 ,无穷收益系列为: 1 , 2 ,...,其贴现值之和为: x t 1 ;
2.5—2 无限重复博弈
1、合作解要在有限重复博弈申出现要求阶段 博弈 G 必须存在多重纳什均衡,但在无限重复 博弈中这一条件并不是必需的:即使阶段博弈 G只存在惟一纳什均衡,无限重复博弈中也可 以存在子博弈完美纳什均衡解,其中没有任何 一个阶段结果是G的纳什均衡。显然这和定理1 相对立,根本的原因就在于博弈可以进行无限 期。如果博弈是无限的,那么长远利益就要好 于短期利益。 2 、解开连锁店难题的办法之一是引入信息 的不完全性,或者博弈重复无限次,或者重复 未知的次数。
4、结论:当贴现因子 接近1(>1/4),以牙还牙策 略组合是重复无限信用博弈的纳什均衡。
(四)无名氏定理
当贴现因子充分接近1,无限重复信用博弈存在合作解, 那么是否所有的无服重复博弈G( )都存在合作解 ?这就 引出了无名氏定理。
G(, ) 为以G为阶 无名氏定理:令G为一个n人阶段博弈, * a 段博弈的无限次重复博弈, 是G的一个纳什均衡(纯战 * 略或混合战略), e (e1 , e2 ,..., en ) 是 a 决定的支付向
参与者j在某阶段选择欺骗将会使当期得到5的 收益,但却会触发参与者i的永远不合作策略,于 是未来每一阶段的收益都将成为1。 2 5 1 1 ... 5 (1) 收益现值为: 1 如果采取合作,设V为j在无限博弈中的最优反 映的收益现值,则有: a、 V 4 4 ... 4 (4 4 ...) 4 V (2) 4 商人1 故:V
(一)数学分析 假设利率r,则贴现率为:1/(1+r),贴现因子 ,一般 的有1/(1+r)= ; 有了贴现因子,我们就能比较无限博弈中的不 同收益值。 收益值计算法如下: 如果未来的收益系列为: R1 , R2 , R3 ,..., Rn 2 其收益流现值为: R1 R2 R3 ... t 1Rt
二、序贯博弈与重复博弈 1、序贯博弈:参与人在前一个阶段的行动选择决 定随后的子博弈结构,从后一个决策节开始的博 弈不同于从前一个决策节开始的博弈。 2、重复博弈:简单地说,就是同样结构的博弈重 复多次,其中的每次博弈称为“阶段博弈”。阶 段博弈可以是静态博弈,也可以是动态博弈; 3、重复博弈的三项特征: (1)阶段博弈之间没有“物质上”的联系;序贯 博弈涉及到物质上的联系。 (2)所有参与人观测到博弈过去的历史; (3)参与人的总支付是所有阶段博弈支付的贴现 值之和或加权平均值。
图2 信用困境(1)
逆推到第一阶段,将第二阶段的纳什均衡收 益代入,则如图3所示。 商人1 诚信 欺骗 有限重复博弈纳什 5,5 1,6 均衡是(欺骗,欺骗) 商 诚信 人 欺骗 6,1 2,2 2 此题解释了现实中 图3 信用困境(2) 存在的一类现象—— 普遍的欺诈行为;没有解释另一类现象——广泛 的合作。 为了在理论上容纳合作解,博弈论主要从三 个方面来加以发展: 一是引入多重均衡; 二是引入无限重复博弈; 三是引入信息不完全。
量, v (v1 , v2 ,..., vn )是一个任意可行的支付向量,V是 可行支付向量集合。那么,对于任何满足 vi ei 的 v V (i) ,存在一个贴现因子 * 1 使得对于所有的 v (v1 , v2 ,..., vn )是一个特定的子博弈精练纳什均 *, 衡结果。 子博弈精练纳什均衡的多重性是无限次重复博弈的 普遍问题。
t 1
如果每一期的收益都是R,则贴现值为:wenku.baidu.com
2 n R (1 ... ) lim n
R 1
例4:仍考察信用困境博弈 商人1 1、单阶段博弈是: 诚信 欺骗 4,4 (欺骗,欺骗) 0,5 商 诚信 人 5,0 1,1 2、无限重复博弈中子 2 欺骗 图6 信用困境(1) 博弈精练纳什均衡有可能为: 每一阶段都是合作:(诚信,诚信); 3、此博弈的可能完美均衡: 触发策略,又叫冷酷战略;
例:无限重复库诺特双头垄断下的共谋
c c q q 1、在纳什均衡下,库诺特均衡产量: 1 2 (a c) / 3 c (a c)2 / 9 库诺特均衡利润: 1c 2 2、在垄断情况下:垄断产量: (a c) / 2 M 2 垄断利润: (a c) / 4 3、无穷次重复博弈,考虑冷酷战略: 首先选择生产 qi q M / 2 ,继续选择生产 qi q M / 2 ; i M c q q / 2 q 直到有一个企业选择生产: ,然后生产: i (1)给定企业 j 坚持冷酷战略,证明其为纳什均衡: 企业 i 坚持合作,每期利润为: M / 2 (a c)2 / 8 如果企业 i 选择短期最优产量: qi (a c)3/ 8 当期利润为: id (a c)2 9/ 64 (a c)2 / 8 c 2 2 但随后的利润流量为: i (a c) / 9 (a c) / 8
1
诚信 商 人 2 诚信 欺骗 欺骗
b、
4 5 1 1
4,4 5,0
0,5 1,1
1 4
图6 信用困境(1)
当且仅当下式成立,选择诚信才是最优的。
2、再证明此战略是子博弈精练纳什均衡
无限重复博弈的每一子博弈都等同于原博弈,而触发 策略是无限重复信用博弈的纳什均衡,因而它同样是任 意一个子博弈的纳什均衡,根据完美均衡的定义可知触 发策略是一个子博弈精练纳什均衡。在无限重复信用困 境的触发策略纳什均衡中,当博弈进行到t阶段时,存在 两个可能的历史过程:(1)所有以前阶段的结果都是(诚信, 诚信 ) 的子博弈; (2) 至少有一个前面阶段的结果不是 ( 诚 信,诚信)的子博弈。如果参与者在整个博弈中采取触发 策略,则:(1)参与者在第一类子博弈中的最优策略同样 是触发策略,我们已证明它是整个博弈的一个纳什均衡; (2)参与者在第二类子博弈中的最优策略是永远单纯重复 阶段博弈的均衡(欺骗,跃骗),它本身就是阶段博弈G的 纳什均衡。这就证明了无限重复信用困境中的冷酷战略 纳什均衡是子博弈精练的。
2.5—1 有限次重复博弈:连锁店悖论
例1:见下图市场进入博弈,假定同样的市场有20 个,其均衡会与单个市场不同吗? 均衡1:进入者总是选择进入,在位者选择默许; 均衡2:在位者选择斗争,进入者总是选择不进入。
在位者 默许 进入 进 入 者 不进入 斗争
40,50 0,300
-10,0 0,300
1.6 重复博弈
一、有限重复博弈 定义: 对于完全信息博弈 G ( I , S , u) ,其中 S {S1 ,..., Sn } 为所有参 I=(1,2,…,n)为参与者集合, 与者的策略空间, u {u1 ,..., un } 为所有参与者的 收益函数,如果 G在时间上 (程序上 ) 不断重复, 并且在下一次博弈G开始前,所有以前博弈的历 史都被观察到,那么它构成的动态博弈就称之为 重复博弈,G就为重复博弈中的阶段博弈。如果 G 重复进行 T 次,那么 G(T) 就表示重复进行 T 次 的有限重复博弈。如果 G 重复进行 次,那么 G( )就表示无限重复博弈。
4、参与人在某一阶段的博弈选择依赖于其 他参与人过去的行动历史,所以,参与 人在重复博弈中的战略空间远远大于和 复杂于在每一个阶段博弈中的战略空间。 这一点意味着,重复博弈可能带来一些 “额外的”均衡结果,这些均衡结果在 一次性博弈中是从来不会出现的。 5、影响重复博弈均衡结果的主要因素是博 弈的重复次数。重复次数的重要性来源 于参与人在短期利益和长远利益之间的 权衡。
1
4 2 4 3 ... 4 t 2 ... t 1
1 t 1 1 t 1 4 1 1
2
1 4
2、后悔要比永远欺骗好; 2 (3)式大于(1)式: 5 0 4 1 5 1 当贴现因子为 >1/4时,参与者j选择后悔,以求得 重新合作要优于永远欺骗。 3、证明永远诚信比欺骗之后再后悔要优 ,等于证 明(2)式大于(3)式; 4 4 2 1 50 4 1 1
(五)对无名氏定理的三点说明:
1、惩罚点(纳什威胁点):在上述定理中,阶段博弈的 纳什均衡 a* 可能是混合战略均衡也可能是纯战略均衡; 由 a* 决定的支付向量 e (e1 , e2 ,..., en ) 是达到任何精练均 衡的结果v的惩罚点。 2、可行支付:v (v1 , v2 ,..., vn ) 称为一个可行支付向量,如 果它是阶段博弈G的纯战略支付的凸组合;所有可行支 付向量构成可行支付集合V。 凸组合:假设 r (r1 ,..., rn ) 为参与者选择纯策略组 合下所有可能收益组合的集合(r为向量),向量 n a (a1 ,..., an ) 中的任意一个元素 ai 0,且 ai 1 1 a r a r ... a r 那么, 11 n n 就称之为凸组合。
图1 市场进入博弈
定理1 、如果阶段博弈 G有惟一的纳什均衡,则对 任意有限的T,重复博弈G(T)有惟一的子博弈完 美纳什均衡,即G的纳什均衡结果在每一个阶段 重复进行。 注意:此定律的一个重要条件是:单阶段博弈存 在“唯一”的纳什均衡。 例2:重复博弈举例 1、参与人:商人1, 商人2; 2、行动空间:都是诚信、欺骗; 商人1 3、博弈次数:两次; 诚信 欺骗 4,4 4、支付函数: 0,5 商 诚信 人 欺骗 见图2所示。 5,0 1,1 2
(三)以牙还牙战略也是此博弈的子博弈精练纳 什均衡,可类似以上进行证明。 1、先后悔比后后悔好; (1)0阶段欺骗,1阶段后悔的收益现值 4 V 5 0 4 2 4 3 ... 4 t (3) 1 (2)0阶段欺骗,t阶段后悔的收益现值 4 2 t (4) V 5 ... 0
t 1
t
另假设有无穷收益系列: , ,... ,其贴现值之和 /(1 );要求 成为无穷序列 1 , 2 ,...的平均支付, 为: 要求: 因此有: t 1 t (1 ) t 1 t 1 t 1 t 1 即:平均支付是贴现值之和的标准化(标准化因子是 (1 ) )
(二)证明冷酷战略 战略表述:在第一阶段选择诚信,且如果所有前 面t一1阶段的结果都是(诚信,诚信),则在第t 阶段,选择诚信,否则选择欺骗,并永久欺骗 下去。 1、先证明此战略是纳什均衡:即如果给定参与 者j的策略为触发策略,那么参与者i的最优反 应也是触发策略,即触发策略是彼此策略的最 优反应。假设 与1足够接近的条件下,我们用 计算来证明;