进化博弈论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
策略选择了“不同意”
策 略 选 择 了 “ 同 意 ”
uy (1)101 un(1)000 u(1)uyun(1)2
uy (1)01 un (1)000 u(1)unuy 2
u y10u n
uy0un
局中人无积极性选择"不同意",
即选择同意的比例x会越来越大, 进而趋向x1
选 择 同 意 的 比 例 x会 越 来 越 大 , 进 而 趋 向 x1
引例: 签协议博弈的复制动态和进化稳定策略
签协议博弈:
局中人2 同意(y) 不同意(n)
同意(y) 1,1 不同意(n) 0,0
0,0 0,0
在有限理性的前提下,并非所有的局中人开始就能 找到最佳策略(y, y)。下面分析(y, y)是ESS。
假设群体中采用“同意”比例为 x ,则不同策略期 望得益和总平均得益为:
反应、策略调整规则推导
x i ( t ) 表 示 在 t 时 期 , 局 中 人 i 的 邻 居 中 采 用 A 策 略 的 数 量 ; 则 采 用 B 策 略 的 数 量 为 2 - x i ( t ) 。 则 局 中 人 i :
采A 用 的得x益 i(t): 50[2xi(t)]49 采B 用 的得x益 i(t): 0[2xi(t)]60 当 xi(t)22/6时 1 ,A 采 ;用 x当 i(t)22/6时 1 ,B 采用
4.1.3 合作的行为生态
动物的适应性是在和生存环境的相互作用中形成的。
在竞争中,动物最终选择进化稳定策略(Evolutionary Stable Strategy,简称ESS)——该策略是被种群大多数 成员所采取的,而且不会受到其它对策的侵蚀。
一种ESS一旦确立,社会稳定下来,偏离的行为将 会受到自然的惩罚。
策略1 策略2
局中人2 策略1 策略2 a, a b, c c, b d, d
设x为采用策略1的比例
一般2X2对称博弈
u1 xa(1x)b u2 xc(1x)d uxu1 (1x)u2
dx dt
x(u1
u)
稳态为:
x*=0, x *=1,
x ( 1 x )x ( [ a c ) ( 1 x )b (d )]x *=(d-b)/(a-b-c+d)
x1是进化稳定E策S略 S x 0不是进化稳定策略
结论: (1)一个稳定状态必须对微小扰动具有稳健性 才能称为进化稳定策略(ESS)。 即,作为稳定策略 的x* ,除了本身必须是稳定状态以外,还必须具有这
样的性质,那就是如果某些局中人由于偶然的错误偏 离了它们,复制动态仍然会使x恢复到x* 。
(2)在数学上, ESS相当于要求:
当xx时,x是增长趋势; 当xx时,x是减小趋势;
d dx tF(x) 0 0, ,x x 当 当 x x 或: F(x)0
所以,从复制动态方程的相位图来看,ESS为与 水平轴相交且交点切线斜率为负的点。
例如,签协议博弈 dx/dt
中,只有x=1,即
(同意,同意)是 ESS。
0
0.5
1
x
一般两人对称博弈复制动态和进化稳定策略
合作博弈 合作 不合作 3,3 0,5 5,0 1,1
思考:囚犯困境中,当亲
缘系数多大时,囚犯会选 择利他行为?
坦白
抵赖
坦白 -8,-8 -10,0
抵赖 0,-10 -1,-1
(2)当x>0时, dx/dt >0,则x呈增加趋势,直至x =1 达到稳态。其意义为,只要开始有人采用“同意”策 略,最终所有的局中人都趋于采用“同意”策略。
进化稳定策略的检验
虽然x*=0, x *=1均为稳态,但不一定都是ESS。验证如下:
比例的博弈方偏离“意同” 比 例 的 博 弈 方 偏 离 “ 不 同 意 ”
dt
22
x(1x)1 (6x)
dx/dt
0
1/6
1x
因为F′(0)>0,F′(1)>0,F′(1/6)<0
所以只有x*=1/6是ESS。 即采用攻击性策略 的博弈方的数量常常稳定在1/6左右的水平。
练习:
求猎鹿博弈的ESS
古代的村庄有两个猎人。当地的猎物主要有两种:鹿 和兔子。如果一个猎人单兵优作战,一天最多只能打 到3只兔子。只有两个一起去才能猎获一只鹿。从填 饱肚子的角度来说,3只兔子能保证一个人3天不挨饿, 而一只鹿却能让两个人吃上5天。
d d x t x ( u y u ) x (x x 2 ) x 2 ( 1 x ) x 2 x 3
动态微分方程的相位图
dx/dt
0
0.5
1
x
稳定状态、不动点:x*=0, x *=1
结论: (1)当x=0时,dx/dt=0,是稳定状态。其意义 为,开始没有人采用“同意”策略,就没有学习模仿 的榜样,因此所有的局中人不会有意识的改变策略。
uyx1(1x)0x unx0(1x)00
ux u y (1x)u nx2
所以,除x=0外,有: uyx1(1x)0x unx0(1x)00
uyun,uyu ux u y (1x)u nx2
在不断的重复博弈过程中,只要局中人有基本的 判断能力,早晚会发现该差异。于是,得益较差的 局中人会或早或迟模仿另一方。
最优反应动态模拟:初次博弈1个A
A
B
A
B
BA
AB
B
B
B
B
B
A
A
A
B
A
A
A
A
A
A
A
A
初次博弈相邻2个A
B
A
A
B
AB
AA
A
B
A
A
A
A
A
初次博弈相连3个A
A
B
A
B
A
A
A
A
A
A
5.2.2 古诺调整过程
古诺模型反应函数
最优反应动态模拟
1
q1
3
q2 2
q2
3
q1 2
2
3
4………
博弈方1 2.5 1.5 2.125 1.875
4.1.2 有限理性及其对博弈的影响
有限理性局中人:不满足完全理性假设的局中人 有限理性意味着一般至少有部分局中人不会采用完 全理性博弈的均衡策略 有限理性意味着均衡是不断调整和改进而不是一次 性选择的结果,而且即使到达了均衡也可能再次偏 离 有限理性局中人会在博弈过程中学习博弈通过试错 寻找较好的策略
4.1.4 有 限 理 性 博 弈 的 分 析 框 架
最优反应动态:有快速学习能力的小群体成员的 反复博弈 复制动态:学习速度很慢的成员组成的大群体随 机配对的反复博弈 进化稳定策略(ESS)
4.2 最优反应动态
4.2.1 协调博弈的有限博弈方 快速学习模型
4.2.2 古诺调整过程
4.2.1 协调博弈的有限博弈方快速学习模型
博弈方2 3
1.75 2.25 1.9375
收敛条件 | dr1 || dr2 |1
dq2 dq1
问题:两寡头始终假设对方产量不变
4. 3 复制动态和进化稳定性: 两人对称博弈
设某一群体进行随机配对重复博弈,且该博弈为 对称博弈,即群体中个体无角色区分,所有个体 均具有相同的战略空间。
这时博弈分析的核心不是博弈方的最优策略的选择, 而是有限理性的博弈方组成的群体成员的策略调整过 程、趋势和稳定性,这里的稳定性是指采用特定策略 的成员的比例不变,而非某个博弈方的策略不变。
望得益超过平均得益的幅度表示,即 uy u )。
所以,上述比例动态变化的速度可以表示为下列 微分方程:
dx dt
x(uy
u)
以采用“同意”策略类型局中人的比例为例,其动 态变化速度可用下列微分方程反映:
d d x t x ( u y u ) x (x x 2 ) x 2 ( 1 x ) x 2 x 3
鹿
兔子
鹿 兔子
5,5 3,0
0,3 3,3
4.4 生物间合作的机制:亲缘效应和互惠 式的合作行为
(1)
合作 不合作
合作博弈
合作 不合作
3,3
0,5
5,0
1,1
(2)
退 进
斗鸡博弈
退
进
3Hale Waihona Puke Baidu3 1,5
5,1 0,0
(0,5)
(3,3)
0 (1,1) (5,0)
(1,5) (3,3)
(5,1) 0
问题:如何得到帕累托(Pareto)改进?
有利它主义和合作行为在动物界普遍存在。该行为 也可能发生在没有亲缘关系的情况:如共生现象。
4.1.4 有 限 理 性 博 弈 的 分 析 框 架
在有限理性博弈中具有真正稳定性和 较强预测 能力的均衡,必须是能够通过博弈方的模仿、 学习 的调整过程达到的,具有能经受错误偏离的干扰 的 均衡,是在受到少量干扰后仍然能够“恢复”的均衡。
考虑5个有限理性的局中人之间,相邻局中人相互 博弈,快速学习并动态调整。
局中人2
局
A
B
中
人 A 50,50 49,0 5
1 B 0,49 60,60
4
1 2
3
两个NASH均衡,但考虑到对对方理性的信任 问题,风险态度等因素,可能选(A,A)。
局中人2
局
A
B
中
人 A 50,50 49,0
1 B 0,49 60,60
这意味着两种类型局中人的比例x和1-x不是固定不 变的,而是时间的函数: x(t)和1-x (t)。
局中人策略类型比例的动态变化是进化博弈分析 的核心。
上述比例动态变化的速度取决于模仿的速度。该 速度取决于两个因素:
(1)被模仿对象的数量大小(可用x表示);
(2)被模仿对象的成功程度(可用模仿对象的期
dx/dt
复制动态 相位图
x
1
x
例: 鹰鸽博弈的复制动态 和进化稳定策略
局中人2
鹰
鸽
鹰
v
2
c
,
vc 2
v, 0
鸽
0, v
v ,v
2
2
鹰鸽博弈
v代表双方争夺的利益 c是争夺失败一方的损失
复制动态方程和相位图
设v=2, c=12,则方程为:
d x F (x ) x (1 x )x [ (v c ) (1 x )v ]
汉密尔顿法则:
通过亲缘选择促进利他行为的条件是
c b
r
其中,c为利他者付出的代价,b为受益者获得
的好处,r为亲缘系数。
例如,上述合作博弈中,若局 中人I选择利他行为,收益组 合由(1,1)变为(0,5), 故c=1,b=4, 所以,当亲缘系数r>1/4时, 合作
“利他基因在种群基因库中的 不合作 频率才会增加”。
一般模型
策略1 策略2
局中人2 策略1 策略2 a, a b, c c, b d, d
一般2X2对称博弈
进化博弈设定是在一个大群体的成员中进行随机配 对的反复博弈。
基本模型是两个局中人之间的对称博弈。含义是两 个博弈位置是无差异的。
其中abcd可以是任何得益,根据问题设定。
复制动态分析
复制动态的进化规则是生物学 中生物特征进化规则
第四章 进化博弈论
4.1 有限理性与进化博弈论
4.1.1 进化博弈的基础假设——有限理性
传统的博弈均衡,例如Nash均衡及其精炼是以 完全理性都是共同知识(common knowledge)为 前提的。
然而,完全理性在现实中很难满足,当社会经 济环境和决策问题较复杂时,人们必须存在很大的 理性局限。有限理性对人们的决策、行为选择方式 有很大影响,有限理性基础上的博弈分析与完全理 性博弈分析也有很大区别。进化博弈分析是有限理 性博弈分析的基本框架。