第五章(有限理性与进化博弈)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

dx x( x x 2 ) x 2 (1 x) x 2 x 3 dt
根据进化稳定策略的定义,我们要找的是 dx dt 0 的情况,解该方程有x=0 和x=1两种情况。 当 x=0 时,上述速率等于 0,即如果初始时刻没
有博弈方采用“同意” 策略,那么采用这种策略的博 弈
由于 xi (t ) 只能取 0、1、2三个整数,因此,如果在t 时期博 弈方i 的两个邻居中只要有1个采用A,那么博弈方i在t+l时期 采用 A,如果两个邻居都没有采用 A,那么博弈方 i在 t+1时 期采用 B。
A
B B
A A
A
B B B
B
A A A
B
B B
A A A A
B
A A A
A
图5.4初次博弈为1A的最优反应动态
从上述协调博弈的最优反应动态机制给出的两 种稳定状态可以看出,只有所有博弈方都采用 A策 略同时具有在博弈方的动态策略调整中会达到,又 对少量偏离的扰动有稳健性两个性质。同时具有这 两种性质(群体趋向且抗干扰)的稳定状态,在进 化博弈论中被称为 “进化稳定策略”。在上述协调 博 弈中,A 就是一个进化稳定策略,而 B 则不是进化 稳定策略。
也就是说,由于该博弈本身是一个有多重纳什均 衡的博弈,因此在一次性博弈中,即使博弈方都是高 度理性的,博弈结果也有不确定性,很难作出完全保 险的预测。 这里举例说明最优反应动态的思想方法。 设有5个有限理性博弈方,分别处于如图5.2所示 的位署上,每个人都与各自 1 的左右邻居就图 5 .1中得益 5 2 矩阵表示的 “协调博弈” (Coordination Game)进行 反复博弈,观察他们最终会 3 4 趋于向选择哪个策略。
B B B
A A
A
A A A A A A
B
A A
图5.5初次博弈为相邻2A的最优反应动态
A
A A A A A A
B B
A
图5.6初次博弈为相连3A的最优反应动态
上述分析表明,在题设条件下,所有32种可能的 初次博弈情况中,只有一种情况是所有博弈方采用B 的状态,其余31种都会收敛到采用A的状态。这说明 A策略和 B策略都是有限理性博弈方进行上述协调博 弈的稳定状态,但前一种稳定状态显然更重要一些, 因为博弈方的策略调整收敛到这种情况的机会要大大 高于后一种情况。从而在博弈方有限理性条件下给出 了(A,A)和(B,B)这两个纳什均衡各自被采用 的机会一种趋势性判断。结论是在有限理性框架内, 博弈方采用策略 A,实现均衡(A,A)的机会远高 于采用B和实现均衡(B,B)的机会。
完美就属于有限理性。
二、有限理性博弈分析框架


有限理性意味着博弈方往往不会一开始就找到 最优策略,而是在博弈过程中学习博弈,必须通 过试错寻找较好的策略;有限理性也意味着一般 至少有部分博弈方不会采用完全理性博弈的均衡 策略,意味着均衡是不断调整和改进而不是一次 性选择的结果,而且即使达到了均衡也可能再次 偏离。 在有限理性博弈中具有真正稳定性和较强预测 能力的均衡,必须是能通过博弈方模仿、学习的 调整过程达到,具有能经受错误偏离的干扰,在 受到少量干扰后仍能够“恢复”的稳健的均衡。
的稳定状态。
需要注意的是,即使上述学习过程已经停止了, 即所有博弈方都通过学习找到了最好的策略,也不能 排除博弈方还会“犯错误” ,也就是说,博弈方仍然 可
能偏离上述复制动态收敛到的纳什均衡策略。因此,
干扰具有稳定性进行检验。
要对复制动态收敛到的稳定状态是否对于少量 “错误”
稳定性分析
假设在博弈方通过学习、模仿都已经收敛到 “同 意” 策略的情况下,出现了比例为ε的少数博弈方 “犯 1 错误”,偏离 “同意” 策略而选择了 “不同意” 策 略。此 时,选择 “同意” 策略的比例为 。同上所述, uy (1 ) 1 0 1 采用 “同意”和 “不同意” un (1 ) 两种策略博弈方的期望得益 0 0 0 和群体 u (1 ) uy un (1 )2 平得益分别为:
A、4A、5A共8种有实质差异。
假设
xi (t ) 为在t时期博弈方i
的邻居中采用A策略
的数量,该数量有0、1、2三个可能的值;邻居中采
用B策略的数量相应为 2 xi (t ) ,也有 0、1、2三个可 能值。
针对第t期 xi (t ) 的相关情况,博弈方i 采用 A的 得益为 为
xi (t ) 50 2 xi (t ) 49 2
“同意”和“不同意”两种类型博弈方各自的期 望得 益和分别为:
u y x 1 (1 x) 0 x
un x 0 (1 x) 0 0
群体成员的平均得益为:
u x u y (1 x) un x 2
博弈方策略类型比例动态变化是有限理性博弈分 析的核心,其关键是动态变化的速度(方向可由速度 的正负号反映)。 通常情况下,博弈方学习模仿的速度取决于两个 因素:一是模仿对象的数量大小(可用相应类型博弈 方的比例来表示),因为这关系到观察和模仿的难易 程度;二是模仿对像的成功程度(可用模仿对象策略 得益超过平均得益的幅度表示),因为这关系到判断 差异的难易程度和对模仿激励的大小。


第二节 最优反应动态
博弈方具有较快学习能力(在复杂局面下准确判 断和预见能力稍差,但能够对不同策略的结果作出比 较正确的事后评估,并能相应调整其策略)的博弈。 因此给定前期的经验(博弈结果),每个博弈方本期 能找到和采取针对前期其他博弈方(全部或邻近的部 分博弈方)策略的最佳反应策略。 最适合描述这种理性层次博弈方的策略调整的动 态机制,就是所谓的 “最优反应动态”(Best Response Dynamics)。
以采用“同意”策略类型博弈方的比例x为例,
其 动态变化速度可以用下列动态微分方程表示: dx
dt x (u y u )
dx
dt
即“同意”类型博弈方比例随时间的变化率 。 该动态微分方程的意义是,“同意” 类型博弈方 比 例的变化率与该类型博弈方的比例成正比,与该类型 博弈方的期望得益大于所有博弈方平均得益的幅度也 成正比。称它为“复制动态”或“复制动态方程”。 把采用“同意”策略博弈方的期望得益和群体所 有
方就始终不会出现。现实根据是对于有限理性博弈方 来说,一定要有模仿的对象才能进行模仿,当x=0 时 就不可能有学习模仿的榜样,因此所有博弈方都不会
有意识地改变策略。
当x>0,也就是开始时有采用 “同意” 策略的博 弈
方时,如果采用这种策略的期望得益超过平均得益的
幅度为正(本例中由 0<x<1,因此符合),那么上 述变化率为正,即采用 “同意” 策略的博弈方会逐 渐增 加;当上述幅度小于0时(本例因 0<x<1,故不可能

签协议博弈的复制动态和进化稳定策略
一般两人对称博弈的复制动态和进化稳
定策略

协调博弈的复制动态和进化稳定策略
鹰鸽博弈的复制动态和进化稳定策略
一、签协议博弈的复制动态和进化稳定策略
博弈方2 同意 不同意
博弈 同 意 方1 不同意
1,1
0,0
0,0
0,0
图5.7签协议博弈
该博弈有两个纯策略纳什均衡(同意,同意)和 (不同意,不同意),其中前一个纳什均衡帕累托优 于后一个纳什均衡。现在在理性层次较低的有限理性 博弈方组成的大群体成员随机配对反复博弈的分析框 架内分析该博弈。假设整个群体中“同意”类型的博 弈 方比例是x,那么“不同意”类型博弈方的比例当然 是1x。

有限理性博弈的有效分析框架是由有限理性博弈方 构成的,一定规模的特定群体内成员的某种反复博 弈。博弈方有一定的统计分析能力和对不同策略效 果的事后判断能力,但没有事先的预见和预测能力。 博弈分析的核心不是博弈方的最优策略选择(这是 大多数经济分析、决策分析的核心),而是有限理 性博弈方组成的群体成员的策略调整过程、趋势和 稳定性。此外,稳定性指群体成员采用特定策略的 比例不变,而非某个博弈方的策略不变。 有限理性博弈分析的关键是确定博弈方学习和策略 调整的模式,或者说机制。
,博弈方i 采用 B的得益为
xi (t ) 0 2 xi (t ) 60 2
。根据最优反应动态机制,当
xi (t ) 50 2 xi (t ) 49 xi (t ) 0 2 xi (t ) 60 2 2
时,即 x (t ) 22 61
i
时,博弈方i在t+1时期会采用A,否则采用B。
图5.2 博弈方的分布
在初次进行博弈时每个位置的博弈方都既可能采 用 A,也可能采用B。因此,初次博弈总共有 25 32 种可能的情况,图5.3中给出了其中部分可能情况。
B
A
A B A A
B
A
B A
B
A A
B
A
图5.3 初次博弈的部分可能情况
根据采用A博弈方的数量和分布,总共有无A、 1 A、有相邻2 A、有不相邻2 A、有3连A、有非3连
第五章 有限理性和进化博弈

有限理性博弈及其分析框架
最优反应动态 复制动态和进化稳定性:两人对称博弈

复制动态和进化稳定性:两人非对称博弈
第一节 有限理性博弈及其分析框架
一、有限理性及其对博弈的影响
完全理性包括(追求最大利益的)理性意识、
分析推理能力、识别判断能力、记忆能力和准确行
为能力等多方面的完美性要求,其中任何一方面不
道自己的反应函数(意味着知道自己的利润函数), 不知道对方的利润(反应)函数,也没有预见能力。 不妨设一个寡头生产2.5单位,另一个寡头生产 3单位为第一个时期的结果,来演示一下两个寡头的 产量调整过程。

古诺模型的最优反应过程
设生产2.5单位的是寡头1,生产了3单位的是寡
头2。把这两个产量分别代入寡头2和寡头1的反应函 数,很容易得到两寡头第二期的产量将分别是1.5单 位和1.75单位;然后再把这两个产量分别代入寡头2 和寡头1的反应函数,不难得到第三期双方的产量为 2.125 单位和 2.25单位;依次类推可得到第四期双方
一、协调博弈(Coordination Game)
博弈方2 A B
博弈 A 50,50 方1 B 0,49
49,0 60,60
图5.1 协调博弈
该博弈有两个纯策略纳什均衡:(A,A)和( B,B)。 这两个纳什均衡中,后者明显帕累托优于 前者。但如果博弈方之一有采用A的可能性,或者两 博弈方相互怀疑对方可能采用A,那么前者就是相对 于后者的风险上策均衡。因此,如果是在完全理性博 弈方之间进行这个博弈,通常的预测结果应该是(B ,B),但如果我们考虑博弈方相互对对方理性的信 任问题,或者对风险的敏感性等因素,那么风险上策 均衡(A,A)可能是更好的预测。
q1 3
q2 2
二、古诺调整过程
寡头竞争中的“古诺调整”问题,也是最优反应
动 态的一个典型例子。 古诺模型中两寡头的反应函数:
q2 q1 3 2
q1 q2 3 2
如果两个博弈方都是有博弈分析能力、有预见 能力的完全理性博弈方,那么他们都能够计算出各 自的最佳均衡产量,即各生产2单位。这个产量也称 为“古诺产量”。 假设这两个博弈方都是有限理性的,都属于知
产量为 1.875单位和 1.937 5单位,……;
上述动态调整过程趋向收敛于两寡头各生产2单
位产量(完全理性博弈的古诺产量),即唯一的纯 策略纳什均衡。由于这个稳定状态也具有对微小扰 动的稳健性,因此它是这个博弈在上述最优反应动 态下的进化稳定策略(ESS)。
第三节 复制动态和进化稳定性:两人对称博弈
出现),上述变化率为负,即采用 “同意”策略的博 弈
方会减少;当该幅度为0时(本例只在 x=1时成立), 变化率就等于0,即采用“同意”策略的博弈方比例不
dx dt
0.5
1
x
wk.baidu.com
图5.8 签协议博弈复制动态相位图
* 根据图5.8, x 0 和 x* 1 是上述复制动态的
两个稳定状态,其中 x* 1 是对应大多数初始状态


由于有限理性博弈方有很多理性层次,学习和策 略调整的方式和速度有很大的不同,因此,必须 用不同的机制来模拟博弈方的策略调整过程。
对于有快速学习能力的小群体成员的反复博弈, 相应的动态机制称为“最优反应动态”(Bestresponse Dynamics)。另一种情况是学习速度很 慢的成员组成的大群体随机配对的反复博弈,策 略调整用生物进化的“复制动态”(Replicate Dynamics)机制模拟。 通常也把研究有限理性博弈的理论称为“进化博 弈论”或“经济学中的进化博弈论”。
相关文档
最新文档