演化博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



(1)博弈方1的收益计算
设“进入”、“不进”两类博弈方的期望收益以及平均收益分别为 u1e、u1n、u1a: u1e= y*0 +(1-y)*2 =2(1-y) u1n= y*1 +(1-y)*1 =1 u1a = x u1e +(1-x) u1n =2x(1-y)+(1-x)


由于是一群鸟在博弈,那么每只鸟的每次博弈碰到另一只鸟采用H策略 的概率就有25%,而碰到采用D策略的鸟的概率为75%,这样可以计算 期望收益。假定z为鹰在整个种群中的比例(这里为0.25)。因此(1-z) 即为鸽子所占的比例。鹰的收益期望为: EV(H)=(-25z)+14(1-z)=14-39z 而鸽子的收益期望为: EV(D)=(-9z)+5(1-z)=5-14z 这里,EV(H)=4.25, EV(D)=1.5 。


种群收益与种群的繁殖是成比例的, 所以两个种群都会不断增长。 显然,鹰的增长速度要快于鸽子。 这样,鹰和鸽子的比例就会改变, 鸟 最后,鹰和鸽子的比例会是多少呢? A 这就是一个演化战略,即ESS.
鸟B H D
14, -9
5, 5
H
D
-25, -25
-9, 14
8.3 最优反应动态

1、协调博弈的快速学习模 型(表2)
8.4 复制动态和演化稳定性: 两人对称博弈


有限理性博弈方有多种不同的理性层次,学习的速度 差别也很大。最优反应动态是具有较快学习速度的有 限理性博弈方的策略调整和策略稳定性。下面讨论学 习速度较慢的动态策略调整及其稳定性。 分析框架是这种博弈方组成的大群体成员的随机配对 反复博弈。这一节讨论群体中博弈方是相似的,即进 行的博弈是博弈位置无差异的两人对称博弈。下一节 讨论群体成员是有差异的,进行非对称博弈的情况。
乙 方
策略1 策略2
b, c
d, d
甲 策略1 方 策略2
a,a
c, b
根据上述收益得到复制动态方程: dx/dt = x (R1 - Ra) =x(1-x)[(a-b-c+d)x+(b-d)]. 令:dx/dt=F(x) F(x)为x的单元函数。

R1 = x*a +(1-x)b R2 = x*c +(1-x)d Ra = xR1 +(1-x) R2

局中 人1
A B
50,50
0,49


2、博弈方能够对上一阶段的结果 进行总结,对策略进行调整。这 种学习和调整策略的方式,就是 “最优反应动态”(Best Response Dynamics)的思路或 者说学习调整机制。



假设有5个局中人环山而居,如图1。每 个人都与左右邻居反复博弈。 由于每个人是有限理性的,所以,第一次 可能既采用A,也可能采用B策略。初次 博弈总共有32种情况(?),右边给出 了两种情况。32种中有不少实质上是相 同的,根据采用A策略的数量和分布,总 共有“0A‖、 “1A‖、 “2A相邻”、 “2A不邻”、 “3A相连”、 “3A不相 连”、 “4A‖、 “5A‖共8中情况。 5个局中人从各种可能的初次博弈情况出 发,在反复学习调整过程中,最终结果会 怎么样?是否初始博弈的情况不同,收敛 性和稳定状态也会不同
8.5 复制动态和演化稳定性: 两人非对称博弈



如果一个群体中成员之间的地位不一样,那么博弈方之间进行就 是非对称博弈。 非对称博弈是用两个(或多个)有差别的有限理性博弈方群体的 成员,相互之间随机配对博弈。 以市场阻入博弈为例(如图4,表6)。
进入 2 打击 (0,0) 容忍 (2,2) 1
B B
A
A B
B A
A
A A


假设 xi(t) 为在t 时期的邻居中 i 采用策略 A 邻居的数量,该数量有0、1、 2三种可能。采用B 邻居的数量相应为2- xi(t) ,也有0、1、2三种可能。 针对第t期的情况, i 采用A的得益为: xi(t) *50+[2-xi(t)]*49= xi(t)+98 , 采用B则得益为: xi(t) *0+[2-xi(t)]*60= 120-60xi(t)。 因此根据最优反应动态机制,当 xi(t)+98 >120-60xi(t) 时,即 xi(t) >22/61,局中人 i 在 t+1 期会采用 A ; 而当 xi(t)<22/61 时,会采用 B 策略。 由于xi(t) 只能取0、1、2,所以,i 在t期,如果邻居中有采用A的,下一 期也采用A,如果没有,下一期就采用B。这里i在下一期采取的策略跟 上一期没有关系。 5个局中人都适应上述规则,所以,初次博弈为“0A‖时,以后都还是采 用B策略;而其余的各种情况,经过或多或少时期的最优反应动态法则 的调整,最终都会收敛到所有局中人都采用A的稳定状态。(可以对前 面2种情况演练一下)





假设在某一范围内有2只雄蛙。如果都不叫,雌蛙不来,都没有交 配的机会;如果1只叫,会吸引1只雌蛙,2只雄蛙都有获得交配的 机会,但机会不一样,叫的机会为m,0.5<m<1,但鸣叫的要付出成 本z;如果都鸣叫,则能吸引多只雌蛙,获得交配的机会为p m<p<1,各有成本z。如表4。 该博弈的NE取决于p、m、z的相对水平。首先,如果m-z<0,由于 p<1,必有p-z<1-m,两只雄蛙都不叫,不叫为NE。其次,如果mz>0,但p-z<1-m仍然成立,则存在两个NE,还存在一个混合NE。 最后,如果m-z>0,p-z>1-m,则都鸣叫为NE。结果可归结为m和z 坐标平面中的几个不同区域(图3)。
8.2 引例:鹰鸽博弈

1、鹰鸽博弈
鹰鸽策略模型是博弈中的一个经典模型。为了争夺资源(比如土地、 食物、政权、配偶等),群体中的成员之间要进行斗争,设每个成员 为博弈中的局中人,局中人可以采取两种策略,一种是恶意的强硬进 攻策略“攻击对方”(不顾一切争斗下去,直到一方失败退出竞争为 止),称之为“鹰策略”,用“H‖表示;另一种是善意的平和宽容策 略“和平相处”(允许对方分享利益,不主动争斗,在对方进攻时只 是虚张声势地吓唬一番,一旦争斗起来,为避免两败俱伤,采取退让 策略,但也可能给予一定的报复),称为“鸽策略”,用“D‖表示。 2、假设有一群鸟,一部分(25%)采用H,另一部分(75%)采用D, 其支付矩阵如下表1。
这个博弈称为协调博弈 (coordination game),有两个 NE:(A,A),(B,B)。后者明显 帕累托由于前者。通常的预测 结果是(B,B)。 如果考虑风险因素,那么前者 是更好的预测。 由于现实中的理性是不完全的, 因此要在有限理性的基础上来 分析这个模型。
局中人2 A B
49,0
60,60
1
x
0
X*


2、蛙鸣博弈的复制动态和ESS
―黄梅时节家家雨,青草池塘处处蛙”,青蛙为什么鸣叫呢?为什么有 的青蛙叫,有的不叫呢?演化博弈强调与生物进化论的关系,这里把 青蛙特定器官、行为的进化作为一般2*2对称博弈进行分析。 现代青蛙演变成了雄蛙能够非常响亮地鸣叫,而雌蛙则有相当好的听 力。雄蛙之所以如此热衷于“歌唱”,当然不是要给人类提供免费的 音乐会,而是为了获得更多的交配和繁殖后代的机会,把自身的基因 最大限度的遗传下去。 “歌唱”相当于竞赛,但“歌唱”也要成本的,一是要耗气力,消耗 能量;二是可能给天敌发现的机会。另外,雄蛙在鸣叫上还存在“搭 便车”现象。在这个博弈中,鸣叫的雄蛙并不总是获利较多的,因此 现实中的雄蛙既有鸣叫的,也有不叫的。 所以,我们还可忍受青蛙的“歌唱”,也才会写出上面这样优美的诗 句。(后两句是什么?)
m 1
鸣叫
m=1-p-z
混合 策略
不鸣叫
m=z z 1

根据复制动态方程,很容易求出3个稳定状态点。 x*=0、 x*=1、 x*=(m-z)/(1-p). (1)当0<(m-z)/(1-p)<1时,即m>z和p-z<1-m同时成立,上述3个稳定 状态都是合理的,因为都处于0≤ x ≤ 1的有效范围。相位图如图2。 但只有是x*=(m-z)/(1-p)演化稳定策略。这意味着如果上述由环境 条件等决定的蛙鸣的利益关系是稳定的,那么一旦发生少数雄蛙从 不叫到鸣叫的变异,那么这种变异雄蛙的数量会不断增加,知道占 整个雄蛙数量的(m-z)/(1-p)。如果超过这个水平,那么少量不叫的 变异又会在种群中扩散,因为此时不叫的“搭便车”的机会和利益 比较大,最终仍会回到上述比例。 (2)当(m-z)/(1-p)<0时,即m<z时,则只有两个不动点x*=0、 x*=1 符合要求,其中x*=0为ESS。(试画出相位图) (3)当(m-z)/(1-p)> 1时,即m-z>1-p,也只有x*=0、 x*=1两点, x *=1为ESS。(是画出相位图)
不进
2
(1,5)
打击
容忍
2, 2 1, 5
1
进入 不进
0, 0 1, 5




由于是非对称博弈,问题中实际上有两个不同的博弈 方,博弈方1是潜在的进入者,博弈方2是阻入者,每 次博弈实际都是前一群体的一个成员与后一群体的一 个成员进行的。 分析框架:反复在两个群体中各随机抽取一个成员配 对进行。博弈方的学习和策略模仿局限在他们所在群 体内部,策略调整的机制仍然是与对称博弈中相似的 复制动态。 分别对两个群体成员进行复制动态和演化稳定策略分 析。 假设博弈方1中,采用“进入”策略的占的比例为x; 在博弈方2中,采用“打击”策略的占的比例为y。
① ② ③




因为F(x) =x(1-x)[(a-b-c+d)x+(b-d)],该复制动态最多有3个稳定状 态,分别为x*=0、 x*=1、 x*=(b-d)/(a-b-c+d)。 一个稳定状态必须对微小扰动具有稳健性才能称为进化稳定策略。 这相当于要求当干扰使x出现高于x*时, dx/dt=F(x) 必须小于0,即 F’(x*) <0 。这就是微分方程的稳定性定理。 如 F(x) =x(1-x)(1-6x) ,不难解出x*=0、 x*=1、 x*=1/6。 进一步证明,只有1/6才是ESS。因为F’(1/6) <0 ,而F’(0) >0 , F’(1) >0 。根据图2也可以看出只有1/6才是进化稳定策略。
演化博弈
8.1 有限理性


在新古典经济学和大多数的博弈论中都假定,人是 追求收益最大化的,并且可以无误地选择最优反应 战略。但很多人认识到人的真实理性是有限的。赫 伯特· 西蒙研究认为,如果人们在某一问题有满意解 时,就不会再去寻找最优解。 在经典博弈论中,假设参与人具有使自己支付最大 化的主观意识与对于对手策略的最优反应能力,在 实际中,这种假设可能是不现实的。譬如在“象棋” 中,棋手不可能在每一步都能够采取最优的反应行 动。因而有必要把参与人的完全理性行为假设推广 为不完全理性行为的假设。

1、一般两人对称博弈的复 制动态和ESS
如表3是一个简单的2*2对称博弈, 如果不给出收益的具体数值,该博 弈有哪些NE并不清楚。考虑该博弈 的有限理性问题,对于有限理性的 博弈方来说,能否知个群体中,有比例为x的人采用 策略1,(1-x)的人采用策略2。采 用两种策略的博弈方的期望收益和 群体平均收益分别为:
雄蛙2
鸣叫 不叫
m-z, 1-m
0, 0
雄蛙 1
鸣叫
不叫
p-z,p-z
1-m, m-z


当然,通常不会认为青蛙有进行如此复杂推理分析、最优选择的 能力。要更好的反映和理解青蛙鸣叫的进化过程,只能根据基本 上没有理性要求,从本能作用下分析。 重新从上面的收益矩阵出发,利用复制动态机制,得到: F (x) = dx/dt =x(1-x)[(p-z-1+m)x+(1-x)(m-z)]


关于信任博弈
Berg等人于1995年首先对信任博弈进行了研究,假设两 个参与者P(提议者,Propose)和R(响应 者,Responder),P首先从实验组织者那里得到数量为m 的钱,然后自行决定把数额为x的钱交给R(0 ≤ x ≤ m)。 实验者再把3x的钱奖励给R。最后,R可以自由返回给P 数额为y的钱。根据逆向归纳法,实验的结果应该是:不 管P给了R的x是多少,R的最优策略是y=0,因此P的最优 策略应该是x=0。但实验的实际结果完全不是这样,大 部分的提议者总会把一定数量的钱交给R,而大部分的R也 会把一部分奖励分给P,而且,x和y之间有很强的正相关。
相关文档
最新文档