第 7 章 进化博弈论简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 可见,不存在y,使得x<y时小甲虫的期望收益 超过大甲虫。因此,策略―小体态‖不是进 化稳定的。
体态博弈中的进化稳定策略:考察大体态
甲虫2
小的 小的 甲虫1 大的
x
5, 5 8, 1
大的 (1-x) 1, 8 3, 3
• 考虑一个很小的正数x,总体中x占比为小 体态,1-x占比甲虫为大体态。
• 每只甲虫的策略都是由遗传基因硬性决定的
– ―策略选择‖的概念在此是缺失的
• 因此以策略选择为基础的纳什均衡思想在 此没有直接的对应 • 但我们可有一个平行的概念--―进化稳 定策略‖的概念
(下面我们先学习这个概念,然后看它和纳什 均衡的关系)
进化稳定策略
• 一个策略称为是进化稳定的,若当整个种群都采 取这个策略时,任何采用不同策略的小规模 ―入侵‖群体经过多代遗传后最终会消亡。 • 形式化定义
– 也就是,在互动中,p种群能比q种群更具适 应能力,从而能抑制q种群的蔓延吗?
• 若是,则称p是进化稳定混合策略
进化混合策略下的收益
第二类生物
S(q) T(1-q)
第一类 生物
S(p) T(1-p)
a, c,
a b
b, d,
c d
• 我们首先来看两个采用不同混合策略的生物体 相遇互动时的收益期望(p, q的函数) • 然后再看根据在总体中的占比,两种生物体随 机相遇所导致的收益期望(x, p, q 的函数) • 讨论最后这两个期望的大小,判断是否进化稳定
• 例子:病毒博弈
– 噬菌体Φ6病毒。这种病毒感染细胞,而且产 生自我复制(繁殖)所需的产物。 – 它的一种基因变异体称为噬菌体ΦH2,自身繁 殖能力较弱,但能够利用Φ6的化学产物,于 是当和病毒噬菌体Φ6同时存在时,噬菌体ΦH2 在适应性方面便有一个明显优势。
• 具有类似囚徒困境博弈的结构:
– 大甲虫期望收益是 8x + 3(1-x) = 3 + 5x – 小甲虫期望收益是 5x + (1-x) = 1 + 4x
• 大甲虫的期望收益总是超过小甲虫的, 所以,―大体态‖是一个进化稳定策略。
进化博弈中的“军备竞赛”
• 生物学家认为在自然界中存在具有囚徒困 境结构的进化博弈现象
– 例如:树木间高矮的关系;植物根系的竞争
• 病毒有两个进化策略Φ6和ΦH2; • 在一个纯Φ6种群中,病毒行为收益(自我复制的 能力)会优于纯ΦH2种群的病毒; • 但是,当病毒ΦH2与Φ6同时存在时,ΦH2的收益 会比较高,甚至高于纯Φ6种群情形。 • 因此,只有ΦH2是进化稳定的。
– 结果就是,一旦Φ6种群中出现了少量变 异ΦH2,则ΦH2病毒会越来越多,Φ6越来越少
– 为了使S成为一个进化稳定策略,用策略S应对 策略S的回报不能小于用策略T来应对策略S取得 的回报。
– 若策略S和T在应对策略S时的收益相等。为了保 证S是一个进化稳定策略,采取策略S应对策略T 的收益要严格优于采取策略T应对策略T的收益。
进化稳定策略与纳什均衡的关系
生物体2
S T S T
生物体1
所以应满足a(1-x)+ bx > c(1-x)+ dx
• 结论:在双人双策略的对称博弈中,若(i)a>c或(ii)a=c且b>d ,则S是进化稳定的。(注意―x很小‖在其中的作用)
生物体2
S T S T
生物体1
a, c,
a b
b, d,
c d
• 在双人双策略的对称博弈中,若(i) a>c,或(ii) a=c且b>d,则S是进化稳定的。这意味着:
进化稳定策略和严格纳什均衡
• 在一个策略选择中,若每个参与人使用的都是 唯一的最佳应对策略(即严格最佳应对),则 称这个最佳应对策略组是一个严格纳什均衡。
生物体2
S T S T
生物体1
a, c,
a b
b, d,
c d
• 不难看到:如果(S,S)是一个严格纳什均衡( 即a>c),则S是进化稳定的。反之不一定成立。
生物适应性与新陈代谢
• 对于大甲虫,维持新陈代谢实际上要比 较困难些
– 需要吃较多的食物才能维持较大的体态要求 ;即同样数量的食物,小甲虫从中可获得较 多的收益(适应性)。
• 直观结论是:大体态变异基因使适应性 减弱,经过多次繁衍后,它极可能被 淘汰。 • 然而事实真的是这样吗?
互动与生物适应性
进化博弈论:谁有更强的适应性
博弈与进化博弈若干概念的一种对比理解
• 博弈,纯策略
– 确定性策略,直接对应的收益
• 博弈,混合策略
– 概率性策略,期望收益
均衡
• 进化博弈,纯策略
– 对于个体:确定性策略,直接收益 – 对于群体(策略):适应性-其中个体与其他个体随机相 遇的收益期望
• 进化博弈,混合策略
生物适应性与种群变异
• 例子:体态大小的博弈
– 考虑一种甲虫种群 – 假设每只甲虫对给定环境的适应能力取决于
• 它是否可以发现食物 • 能否有效地从食物中汲取营养
– 假设一个特定的突变基因出现并开始蔓延, 造成携带该突变基因的甲虫体型变大。 – 因此,在该甲虫种群中,便分成两种不同的 群体——小甲虫和大甲虫。
进化博弈论简介
(对应教材第7章)
回顾上一讲(博弈论基础)
• 博弈
– 参与者(player) – 策略(strategy) – 收益,回报(payoff)
• 收益矩阵-形象地描述一个博弈的结构 • 在博弈论的分析中(决定采取什么策略)
– 不是要考虑如何战胜对方,而是基于对对方的行为的预测,自 己如何收益最大(尽可能大)。双方都如此态度。
进化稳定混合策略
• 在有些情况下不存在进化稳定策略 • 例子:鹰鸽博弈
动物2 鸽派D 鹰派H
动物1
鸽派D
鹰派H
3,3
5,1
1,5
0,0
• 可以验证:D,H都不是进化稳定的。
– 这从(D,D)和(H,H)都不是纳什均 衡即可推出
进化稳定混合策略的场景
• 一种生物个体,由其基因决定,按照概率 分布(p,1-p)随机采用两个策略S和T之一。 • 想像有一群这样的个体,在互动中繁衍 • 突然,其中出现了一种变异:概率为q • 设变异种群在总体中初始占比x(很小) ,问:原来的种群是进化稳定的吗?
进化博弈的由来
• 1960s,从博弈论视角来解释生物进化论
– 由基因决定的生物特征及行为可类比作博弈 中的策略; – 将生物的适应性(的提高)类比为它的收益。
• J. M. Smith和G. R. Price,提出―进化稳定 均衡‖,标志着进化博弈的诞生。
– John M. Smith. On Evolu)on. Edinburgh Univ Press, 1972 – M. Smith and G. R. Price, The Logic o J. Conflict, Nature, 246, 15-18, 1973.
• 换句话说,ΦH2成功入侵了Φ6
病毒博弈的收益矩阵
• 生物学家测量了两病毒在不同条件下复制 行为的相对速率(体现适应性)
病毒2
Φ6 Φ6 病毒1 ΦH2 ΦH2
1.00, 1.00 1.99, 0.65
0.65, 1.99 0.83, 0.83
• 理性的选择与进化的力量有相似的取向
进化稳定策略的一般描述
• 猎鹿,猎兔都是进化稳定的
– 因此(猎鹿, 猎鹿)和(猎兔, 猎兔)也都是 纳什均衡
例子:另一种猎鹿博弈
猎人2 猎鹿 猎兔 猎人 1 猎 鹿 猎 兔 4, 4 4,0 0,4 3,3 猎 猎人 兔 1 猎 鹿 猎人2 猎兔 猎鹿 3,3 0,4 4,0 4,4
ห้องสมุดไป่ตู้
• 猎鹿不是进化稳定的,尽管(猎鹿, 猎鹿) 是纳什均衡。 • 猎兔是进化稳定的,于是(猎兔, 猎兔) 此时也是纳什均衡。
S)是均衡,a,b,c,d之间的关系? T)是均衡,…? S)是均衡,…? T)是均衡,…?
经常会用到“期望”的概念
• 一个随机的行为,会有多种(以两种 为例)可能的结果(r1, r2),分别对应一 个概率(p1, p2),p1+p2=1 • 则这个行为的结果期望就是
p1r1 + p2r2
• 概率常常用―比率‖和―占比‖来近似 • 混合策略的收益:在纯策略集合上按概 率分布选择的收益期望
稳定性
– 对于个体:概率性策略,期望收益 – 对于群体(策略):适应性-其中个体与其他个体随机相 遇的收益期望
进化博弈的由来
• 进化论的主要观点
– 生物体的遗传基因在很大程度上决定了它的 外部特征(行为方式等),因而决定了它是 否能够适应给定的环境。 – 适应性较强的生物体往往会繁衍较多的后代 ,于是使得适应性强的基因的物种在总体中 的数量增加。 – 一个物种的成功进化取决于它其中的个体和 其他个体(同种或者不同种)的互动。
• 纯策略、混合策略(在可选纯策略集合上的一 个概率分布)
均衡(纳什均衡)
• 均衡:互为最佳应对 • 纳什均衡定理:在考虑混合策略条件下 ,任何有限参与人、有限纯策略的博弈 都存在均衡 • 一般来讲,找到均衡是很困难的,但在 某些限定条件下可能有系统化方法
– 例如,双人双(纯)策略
若(1)为空, 1. 检查四个策略组合是否为纯策略均衡 则(2)一定有; 2. 利用无差异原理试求混合策略均衡 若(1)不空, (2)也可能有
a, c,
a b
b, d,
c d
• S是进化稳定的条件:
– (i) a>c,或 (ii) a=c且b>d
• (S,S)是纳什均衡的条件:a≥c • 因此,若策略S是进化稳定的,则(S,S)一 定是一个纳什均衡。反之不一定成立。
例子:猎鹿博弈
猎人2 猎鹿 猎兔 猎 猎人 鹿 1 猎 兔 4, 4 3,0 0,3 3,3 猎 猎人 兔 1 猎 鹿 猎人2 猎兔 猎鹿 3,3 0,3 3,0 4,4
两个采用不同混合策略者相遇的收益
第二类生物
考察小体态是否进化稳定策略
甲虫2 小的 小的 甲虫1 大的
(1-x)
大的
x
5, 5 8, 1
1, 8 3, 3
• 考虑一个小正数x,总体中有x占比的个体使用 策略―大体态‖ ,有1-x占比的个体使用策 略―小体态‖。(甲虫们随机相遇争夺食物)
– 一只小甲虫的期望收益是 5(1-x)+1x = 5- – 一只大甲虫的期望收益是 8(1-x)+3x = 8-5x
• 每只甲虫从争夺一定量食物的互动中获得的生 物适应性(不是食物量),可认为是双人博弈 中的收益。 • 每只甲虫有两个策略:大和小,由其基因决定。
甲虫2
小的 小的 甲虫1 大的 5, 5 8, 1 大的 1, 8 3, 3
甲虫2
小的 大的 小 的
大 的
甲 虫1
5, 5
8, 1
1, 8
3, 3
与经典的博弈比较
– 一种生物体的适应性是指它与一个随机遇到的生物体互 动得到的收益期望 – 称―策略T在x程度上(以x水平)入侵策略S‖,指的是 在总体中有x占比的生物体采用策略T,1-x占比采用策 略S;其中x是一个小于1的小正数。 – 若存在一个小正数y,当任何其他策略T以任何x<y水平 入侵策略S时,采用策略S的个体的适应性严格高于采取 策略T的个体,则称策略S是进化稳定的(evoluVonarily stable)。
考虑 双人 对称 博弈
生物体2
S (1-x) T (x) S T
生物体1
a, c,
a b
b, d,
c d
• 如何用a,b,c,d写出S是进化稳定的条件? • 设对于一个很小的正数x,总体中有1-x部分使用策略S ,有x部分使用策略T
– 采取S策略的期望收益:a(1-x)+bx – 采取T策略的期望收益:c(1-x)+dx
• 当两只甲虫为食物争夺时,可能的结果有:
– 当争夺食物的两只甲虫大小相同时,它们会 平分同样的食物 – 当一只大甲虫和一只小甲虫争夺食物,则大 甲虫会得到大多数的食物 – 对于同样的食物量,大甲虫在适应性上得到 的益处要少,因为所得到的食物中有一部分 要转化用来维持它们消耗较高的新陈代谢
收益矩阵
囚徒困境(协调)博弈的特征模式
双人双策略 • • 对称 • 均衡出现在双方采用某一种相同的策略 ―最佳收益‖不是均衡,因为参与人之一有 • 动机改变策略
鹰鸽博弈的特征模式
• 双人双策略 • 对称 • 均衡出现在双方采用不同的策略
双人双策略对称博弈均衡的一般条件
若(S, • • 若(S, • 若(T, • 若(T,