第五章 重复博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 δ= 1+ r
• 未来存在收益流 ,R2,R3,…,那么这个未来收益流的贴 未来存在收益流R1, , , , ∞ 现值之和就为
V = R1 + δ R2 + δ R3 + ⋯ = ∑ δ
2 t =1
t −1
Rt
称为贴现因子(Discount factor)。 其中 δ ∈ (0,1) 称为贴现因子 。 我们考虑一个随机结束重复博弈,即进行一个重复博弈时, 我们考虑一个随机结束重复博弈,即进行一个重复博弈时,每 次都通过抽签来决定是否停止重复,如果抽到停止的概率为P, 次都通过抽签来决定是否停止重复,如果抽到停止的概率为 , 则抽到重复下去的概率为1-P。 则抽到重复下去的概率为 。设某博弈方在下一阶段的博弈 中得到的收益为R 利率为r,因为继续博弈的概率为1-P, 中得到的收益为 1, 利率为 ,因为继续博弈的概率为 ,么 在当前阶段硬币未抛之前的价值(即贴现后的期望值) 在当前阶段硬币未抛之前的价值(即贴现后的期望值)为(1 – p)R1/(1+ r);如果下两阶段能得到的收益为 2,在当前阶段硬 ;如果下两阶段能得到的收益为R 币未抛之前的价值为(1 币未抛之前的价值为 – p)²R2/(1+ r)²;下三阶段、四阶段等等 ;下三阶段、 的收益,照此类推。 的收益,照此类推。 令 δ = (1 − p ) /(1 + r ) ,则贴现因子既包含了货币的时间价值 贴现率1/(1+r)),又包含了博弈结束的可能性 – p)。 ),又包含了博弈结束的可能性 (贴现率 ),又包含了博弈结束的可能性(1 。
定义5.1 设贴现因子为 δ ,收益流 收益流(R1, R2, R3, …)的贴现平 定义 的贴现平 均收益值为 ∞ R = (1 − δ ) ∑ δ t −1 Rt
t =1
由于平均收益值等于贴现值之和V的 由于平均收益值等于贴现值之和 的 (1 − δ )倍,使贴现平均 收益值最大化就等同于使贴现值之和最大化。 收益值最大化就等同于使贴现值之和最大化。使用平均收益 的另一个优点, 的另一个优点,就是我们可以利用它直接和阶段博弈中的收 益进行比较,从而更容易知道哪一个策略要优 从而更容易知道哪一个策略要优。 益进行比较 从而更容易知道哪一个策略要优。 对于重复博弈中参与者的偏好, 对于重复博弈中参与者的偏好,同学们可能认为只要照搬前 面的收益函数就可以了,而这实际上是不对的。为什么呢? 面的收益函数就可以了,而这实际上是不对的。为什么呢? 我们知道在确定性下,表达相同偏好的收益函数并不唯一, 我们知道在确定性下,表达相同偏好的收益函数并不唯一, 而是满足单调变换性,即只要f是一个单调递增函数 是一个单调递增函数, 而是满足单调变换性,即只要 是一个单调递增函数,那么

其中Rmax = max{R1, R2, R3, …},即Rmax为收益流中的最大 其中 , 为收益流中的最大 同理, 值。同理,
Rmin R1 + δ R2 + δ R3 + ⋯ = ∑δ Rt > lim Rmin (1 + δ + ⋯ + δ ) = n→∞ 1− δ t =1
2 t −1 n
第一节 重复博弈的定义及扩展式
• 给出重复博弈定义之前,需要做若干准备,一个准备就是由 给出重复博弈定义之前,需要做若干准备, 于重复博弈有可能会进行一个很长的时期,甚至是无穷期, 于重复博弈有可能会进行一个很长的时期,甚至是无穷期, 因而必须考虑收益的时间价值。 因而必须考虑收益的时间价值。相应的表达偏好的收益函数 也需要给出一定的限制。 也需要给出一定的限制。 • 一、贴现因子与偏好 • 明天的一元钱和今天的一元钱价值是不一样的,最简单的理 明天的一元钱和今天的一元钱价值是不一样的, 由是今天的一元钱如果存入银行那么在明天会变成1+ , 由是今天的一元钱如果存入银行那么在明天会变成 r,所 以明天的一元钱只相当于今天的1/(1+ r)元钱,1/(1+ r)实际上 元钱, 以明天的一元钱只相当于今天的 元钱 实际上 就是经济学中的贴现率。如果假设未来没有不确定性,定义: 就是经济学中的贴现率。如果假设未来没有不确定性,定义

其中Rmin={R1, R2, R3, …},即Rmin为收益流中的最小值。 为收益流中的最小值。 其中 , 为收益流中的最小值 就这意味着,存在一个R使得 就这意味着,存在一个 使得 ∞ R 2 t −1 n R1 + δ R2 + δ R3 + ⋯ = ∑ δ Rt = lim R (1 + δ + ⋯ + δ ) = n →∞ 1− δ t =1 R就被称为收益流 就被称为收益流(R1, R2, R3, …)的贴现平均收益值。 的贴现平均收益值。 就被称为收益流 的贴现平均收益值 对于不同的策略,显然对应着不同的贴现平均收益值, 对于不同的策略,显然对应着不同的贴现平均收益值,通过 比较平均收益值就能非常方便地知道什么是最优策略。 比较平均收益值就能非常方便地知道什么是最优策略。
t
(1 − δ ) ∑ t =1 δ t −1ui ( s t )
T
第二节 合作产生的原因
• 为了更为形象,我们引入一个重复信用困境博弈, 为了更为形象,我们引入一个重复信用困境博弈, 其阶段博弈G的博弈矩阵如图 所示。 的博弈矩阵如图5-1所示 其阶段博弈 的博弈矩阵如图 所示。
商人 2 诚信 欺骗
第五章 重复博弈
在这一章中,我们将围绕着人类的合作为什么产生 在这一章中 , 这一命题来展开。 这一命题来展开 。 人与人之间合作生产的一个原因 从经济学的角度来看) ( 从经济学的角度来看 ) 是这种做法对于参与者双 方而言是一个有利可图的事, 方而言是一个有利可图的事 , 为什么说明这一点我 们将用到重复博弈。 们将用到重复博弈 。 另一个解释合作生产的方法就 是引入信息不对称, 在这种情况下, 是引入信息不对称 , 在这种情况下 , 一个人装作是 好人是有利可图的( 好人是有利可图的 ( 因为好名声能够给他带来收 这在信息不对称中会加以介绍。 益),这在信息不对称中会加以介绍。
• 经济社会中除了短期一次性关系,还存在许 经济社会中除了短期一次性关系, 多长期反复的合作和竞争关系。 多长期反复的合作和竞争关系。如两家企业 在一个市场上的长期竞争, 在一个市场上的长期竞争,商业中的回头客 问题等。 问题等。 • 长期关系与短期关系之间的差别并不只是时 间跨度长短的数量问题, 间跨度长短的数量问题,而是有重要的性质 差别。短期关系中缺乏形成某种合作关系, 差别。短期关系中缺乏形成某种合作关系, 或者通过报复、制裁的威胁相互约束行为, 或者通过报复、制裁的威胁相互约束行为, 追求共同利益的机会, 追求共同利益的机会,而在长期关系中这样 的机会就大得多。 的机会就大得多。长期关系中在考虑当前利 益的同时需要兼顾未来收益。 益的同时需要兼顾未来收益。
二、重复博弈的定义及扩展式
定义5.2对于策略式博弈 定义 对于策略式博弈G = {N , S , u},其中 对于策略式博弈 ,其中N={1, 2,…, n}为参 为参 与者集合, 为所有参与者的策略空间( 与者集合,S ={S1 ,…, Sn}为所有参与者的策略空间(策略实际 为所有参与者的策略空间 上就是行动), ),u 为所有参与者的收益函数。 上就是行动), ={u1, …, un}为所有参与者的收益函数。如果 为所有参与者的收益函数 G在时间中(或程序上)不断重复,并且在下一次博弈 开始 在时间中( 在时间中 或程序上)不断重复,并且在下一次博弈G开始 所有以前博弈的历史都被观察到, 前,所有以前博弈的历史都被观察到,那么它构成的动态博弈 就称之为重复博弈, 就为重复博弈中的阶段博弈 如果G重 就为重复博弈中的阶段博弈。 就称之为重复博弈,G就为重复博弈中的阶段博弈。如果 重 复进行T次 那么G(T)就表示重复进行 次的有限重复博弈。如 就表示重复进行T次的有限重复博弈 复进行 次,那么 就表示重复进行 次的有限重复博弈。 就表示无限重复博弈。 果T = ∞,那么 ,那么G(T)就表示无限重复博弈。重复博弈 就表示无限重复博弈 重复博弈G(T)中参 中参 与者i的偏好用收益函数 表示, 的偏好用收益函数vi表示 与者 的偏好用收益函数 表示,即
Ri vi = ui (s ) + δ ui (s ) +⋯+ δ ui (s ) = 1− δ
1 2 T-1 T
为伯努利收益函数, 为重复博弈t阶段的行动组合 其中 u ( s ) 为伯努利收益函数, s t 为重复博弈 阶段的行动组合 (T > t >1),为贴现因子,Ri为参与者i的贴现平均收益值,等于 ,为贴现因子, 为参与者 的贴现平均收益值, 的贴现平均收益值
f ( u ( i ))与 u ( i ) 就表示同一个偏好。但在(无穷)重复博 就表示同一个偏好。但在(无穷)
弈中, 弈中,整个博弈的收益函数为
1 2 2 3
V = u(s ) + δ u(s ) + δ u(s ) + ⋯ = ∑δ t −1u(st )
t =1

它实际上为阶段博弈G的收益函数 的一个贴现和, 它实际上为阶段博弈 的收益函数u(s)的一个贴现和,我们把 的收益函数 的一个贴现和 u(s)也称为伯努利收益函数,因为它也像 也称为伯努利收益函数, 偏好一样, 也称为伯努利收益函数 因为它也像v-N-M偏好一样,要 偏好一样 必须满足线形变换, 求u(s)必须满足线形变换,即只有当 = a + bu(s),b>0时,f 和 必须满足线形变换 即只有当f , 时 u才表示相同的重复博弈偏好。因为这时的v实际上是预期收益 才表示相同的重复博弈偏好。因为这时的 实际上是预期收益 才表示相同的重复博弈偏好 函数。 函数。
考虑一个无穷期的情况,如果 期的收益为R 考虑一个无穷期的情况,如果t 期的收益为 t,贴现因子 为 1 > δ > 0 那么收益流的贴现值为 ,
Rmax R1 + δ R2 + δ R3 +⋯ = ∑δ Rt < lim Rmax (1+ δ +⋯+ δ ) = n→∞ 1− δ t =1
2 t −1 n
图5-1
商人1 商人
诚信 4,4 , 5,0 , 信用困境
欺骗 0,5 , 1,1 ,
实际上,运用逆推法,很容易证明, 实际上,运用逆推法,很容易证明,只要重复博弈进行的次数是 有限的,那么(欺骗,欺骗) 有限的,那么(欺骗,欺骗)这样的结果会在每一个阶段博弈中 出现。上述的直观认识具有普遍意义。如果阶段博弈G存在唯一 出现。上述的直观认识具有普遍意义。如果阶段博弈 存在唯一 纳什均衡,那么G(T)的子博弈完美均衡不过是纳什均衡重复 次, 的子博弈完美均衡不过是纳什均衡重复T次 纳什均衡,那么 的子博弈完美均衡不过是纳什均衡重复 根本的原因是,如果最后一个子博弈G(1)存在唯一的纳什均衡, 存在唯一的纳什均衡, 根本的原因是,如果最后一个子博弈 存在唯一的纳什均衡 那么无论前面的历史如何都不会改变最后一个子博弈的均衡结果 反正过去的已经成为过去),因而G(T)的完美均衡不过是 的 ),因而 的完美均衡不过是G的 (反正过去的已经成为过去),因而 的完美均衡不过是 纳什均衡重复T次 这就有了命题5.1。 纳什均衡重复 次,这就有了命题 。 命题5.1 如果阶段博弈 有唯一的纳什均衡,则对任意有限的 , 如果阶段博弈G有唯一的纳什均衡 则对任意有限的T, 有唯一的纳什均衡, 命题 重复博弈G(T)有唯一的子博弈完美均衡:即G的纳什均衡结果在 有唯一的子博弈完美均衡: 重复博弈 有唯一的子博弈完美均衡 的纳什均衡结果在 每一个阶段重复进行。 每一个阶段重复进行。 利用命题5.1可知,无论信用困境重复多少次,只要不是无穷的, 利用命题 可知,无论信用困境重复多少次,只要不是无穷的, 可知 那么唯一的均衡结果只能是每一阶段都为(欺骗,欺骗), ),因而 那么唯一的均衡结果只能是每一阶段都为(欺骗,欺骗),因而 人类社会所谓的合作根本就不可能产生, 人类社会所谓的合作根本就不可能产生,人与人之间的诚信只能 是一种奢望。然而,现实并非如此, 是一种奢望。然而,现实并非如此,虽然人与人之间存在着利益 冲突,但也确实存在着合作的行动和结果。 冲突,但也确实存在着合作的行动和结果。那么如何破解囚徒困 境的诅咒呢? 境的诅咒呢?
相关文档
最新文档