演化博弈论PPT课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。
纳什均衡可以通过划线法得出
13
纳什均衡和演化稳定（1）
a
X b
a 0，0
Y b
1，1
1，1
0，0
策略b是否是演化稳定的？有一个规模为E的策略a入侵
策略b的平均适应度: (1 E)*0 E *1 E 策略a的平均适应度: (1 E)*1 E*0 1 E
Y/q(1p)2p0
p1/3
18
N-群体的演化稳定策略
定义1：策略组合 x{x1,x2,..x.n,}是纳什均衡，如果x是演化稳定策略，如果对于任意的策略组合 yx 存在某个 (0,1) 使得对于所有的
(0,
)
和y(1)x,有
ui(xi, i) ui(yi, i)
i I
i I
定义2：策略组合x是演化稳定策略，当且仅当x是一个严格的纳什均衡。
:是一个与突变策略y有关的常数，称之为侵入界限； εy + (1 − ε)x:表示选择进化稳定策略群体与选择突变策略群
体所组成的混合群体。
16
演化稳定策略的定义（2）
Definition 2: 对任意的s'∈S×S，满足
(i) f(s,s)≥f(s',s)； (ii)如果f(s,s)=f(s',s)，那么对任意的s≠s'有 f(s,s)>f(s',s')；则s是演化稳定策略
➢ 自演化博弈论诞生之日起，它就逐渐的被人们用来分析生物、经济等领域的问题。
1. Selten Reinhard．A Note on Evolutionary Stable Strategies in Asymmetric Animal Conflicts [J]． Journal of Theoretical Biology， 1980，(84)．
演化博弈论
演讲人：杜同学号：S201111054
1
演化博弈论
➢ 第一章演化博弈论的概述 ➢ 第二章演化稳定策略 ➢ 第三章复制子动态 ➢ 第四章应用案例 ➢ 第五章前沿介绍
2
第一章演化博弈论概述
3
什么是演化博弈论（1）
传统博弈理论的两个苛刻假设：（1）完全理性（2）完全信息
(1 E) 3E 1 2E 策略a的平均适应度:
纳什均衡
(1 E)*0 2E 2E
12
纳什均衡
纳什均衡的定义：在博弈G=﹛S1,…,Sn：u1,…，un﹜中，如果由各个博弈方的各一个策略组成的某个策论组合（s1*,…，sn*）中，任一博弈方i的策论si*，都是对其余博弈方策略的组合（s1*,…s*i-1,s*i+1,…， sn*）的最佳对策，即不等式 ui（s1*,…s*i-1,si*,s*i+1,…，sn*）≥ui（s1*,…s*i-1,sij,s*i+1,…，sn*）对任意sij∈Si都成立，则称（s1*,…，sn*）为G的一个纳什均衡。
这里的复制子是指纯策略，它可以从父母无差别的传递给孩子，随着总体状态的改变，纯策略（复制子）的收益和其适应性也会相应的改变。
22
一般的两人对称博弈复制子动态（1）
分析一个简单的情景：总体很大但是有限，总体中的个体被规定好了选取对称性两人博弈中的纯策略
K：纯策略集合 u：收益函数 pi(t)：当前被规定好了采取纯策略i的个体数。∑pi(t)表示总体 x(t)=(x1(t),…, xk(t)):总体状态。每个分量xi(t)表示时间t采取纯策略i的个体占总体的比例xi(t)=pi(t)/p(t) u(ei,x)：纯策略i在随机匹配中得到的期望收益
4. 杨波,徐升华.虚拟企业知识转移激励机理的演化博弈析[J]. 情报理论与实践,2010,33(7):50-54.
5. 徐岩，胡斌，钱任. 基于随机演化博弈的战略联盟稳定性分析和
仿真[J]. 系统工程理论与实践,2011,31(5):920-926.
9
第二章演化稳定策略
10
演化稳定策略概述
19
问题
演化过程两个基本要素：变异，选择。很明显，演化稳定性强调变异的作用，它
关注什么样的状态才是稳定状态。那么，这样的稳定状态又是通过怎样的过
程演化而来的？
20
第三章复制子动态
21
复制子动态的概述
生物种群的繁衍或者社会现象的不断变迁，就会产生一个时间上连续的总体动态，这就是复制子动态（replicator dynamics）
总体平均收益
k
u(xx,)= xiu(ei,x) i1
23
一般的两人对称博弈复制子动态（2）
假设
1收益代表博弈对个人适应性影响的增量效应
2每个个体继承父母的单一策略
3假设人的死亡率相同
采用策略i的个体在时间t的出生率 u(ei,x) ，这里是背景适应性
（与博弈结果无关），总体动态：
•
定策略
15
演化稳定策略的定义（1）
Definition 1:
单一群体
x∈A是演化稳定策略，如果y∈A，y≠x，存在一个 ∈(0，1)，使不等式
u[x,εy + (1 − ε)x] > u[y,εy + (1 − ε)x]
对任意ε ∈(0，)都成立。
A:群体中个体博弈时的支付矩阵； y:表示突变策略；
u1e= x*0 +(1-x)*5 =5-5x
u1n= x*2 +(1-x)*5 =5-3x
u1a = y u2s +(1-y) u2n =5-2xy-3x
29
两人非对称博弈（3）
(3)博弈方1的复制动态方程为
dx/dt = x (u1e – u1a)=x(1-x)(1-2y)
(4)博弈方2的复制动态方程为
0
X*
1
x
26
标准的N总体ቤተ መጻሕፍቲ ባይዱ制子动态
与一般的两人对称博弈相似，标准的N总体复制子动态：
•
xih[u(eih,xi)ui(x)x]ih
•
总体比例增长率 x ih / x ih 等于策略平均收益和博弈方平均收益之差。
27
两人非对称博弈（1）
如果一个群体中成员之间的地位不一样，那么博弈方之间进行就是非对称博弈。
者的区别从其生产成本的不同也可体现出来由于积极技术革新开放型生产商的生产成本比保守型的成本要低的正常收益时生产商两者都不实施的额外收益时生产商两者都实施rscrscrscrsc利润变化量时生产商另一方不实施两者一方实施利润变化量时生产商另一方不实施两者一方实施35假定生产商12可以随机独立地选择策略e并在多次生产销售市场重复地进行博弈
17
混合策略的演化稳定性
胆小鬼博弈
Y
a(q)
b(1-q)
混合策略纳什均衡（（1/3,2/3）,（1/3,2/3））
a(p) 0，0
2，1
X pq*0p(1q)*2(1p)q*1(1p)(1q)*0
X b(1-p) 1，2
0，0
X/p(1q)*2q0 q1/3
Y qp*0q(1 p)*2(1q)p*1(1q)(1 p)*0
非对称博弈是用两个（或多个）有差别的有限理性博弈方群体的成员，相互之间随机配对博弈。
以市场阻入博弈为例。
进入 1 不进
打击
2 容忍
（0，0）（2，2）
（1，5）
1 进入x
不进1-x
2
打击y 容忍1-y
0, 0
2, 2
1, 5
1, 5
28
两人非对称博弈（2）
（1）博弈方1的收益计算
设“进入”、“不进”两类博弈方的期望收益以及平均收益分别为
如果(S,S)不是纳什均衡，那么S不是演化稳定策略
14
纳什均衡和演化稳定（2）
a
X b
a 1，1
Y b
0，0
0，0
0，0
策略b是否是演化稳定的？有一个规模为E的策略b入侵
策略b的平均适应度: (1 E)*0 E *0 0
策略a的平均适应度: (1 E)*0 E*1 E
如果（S,S）是严格的纳什均衡，那么S是演化稳
与传统博弈理论不同，演化博弈理论并不要求参与人是完全理性的，也不要求完全信息的条件。
演化博弈论（Evolutionary Game Theory）把博弈理论分析和动态演化过程分析结合起来的一种理论。在方法论上，它不同于博弈论将重点放在静态均衡和比较静态均衡上，强调的是一种动态的均衡。演化博弈理论源于生物进化论。
一个稳定状态必须对微小扰动具有稳健性才能称为进化稳定策略。这相当于要求当干扰使x出现高于x＊时， dx/dt=F(x) 必须小于0，即 F’(x＊) ＜0 。这就是微分方程的稳定性定理。
如 F(x) =x(1-x)(1-6x) ，不难解出x＊=0、 x＊=1、 x＊=1/6。
进一步证明，只有1/6才是ESS。因为F’(1/6) ＜0 ,而F’(0) ＞0 , F’(1) ＞0 。根据图2也可以看出只有1/6才是进化稳定策略。
1974年，Smith和Price提出 “演化稳定策略”。
演化稳定策略(Evolutionarily stable stragegy,ESS)，是指如果占群体绝大多数的个体选择演化稳定策略，那么小的突变者群体就不可能侵入到这个群体。
下面我们从最简单的情况入手：考察一个大但是有限的总体，这个总体中的个体被规定好了选取对称性两人博弈中的纯策略
24
一般两人对称博弈复制子动态和ESS
如表3是一个简单的2*2对称博弈，如果不给出收益的具体数值，
在一个群体中，有比例为x的人采用策略1，（1-x）的人采用策略2。采用两种策略的博弈方的期望收益和群体平均收益分别为：
R1 = x*a +(1-x)b ①
R2 = x*c +(1-x)d
5
演化博弈论理论的特征
第一，以参与人群体为研究对象，分析动态的演化过程，解释群体为何达到以及如何达到目前的这一状态。
第二，群体的演化既有选择过程也有突变过程。
第三，经群体选择下来的行为具有一定的惯性。
6
演化博弈论的产生与发展（1）
7
演化博弈论的产生与发展（2）
8
演化博弈论的应用
4
什么是演化博弈论（2）
为什么将演化思想引入到博弈论中？
（1）博弈论对生物学的影响。博弈论的策略对应生物学中的基因，博弈论的收益对应生物学中的适应度。在生物学中应用的博弈论与经济学中的传统博弈论最大区别就是非完全理性的选择。
（2）演化化思想对社会科学的影响。例如，在市场竞争中，我们不必要去理性的想那个策略才是最优的，最后能够在市场存活下来的企业，一定是适应能力最强的公司。
u1e、u1n、u1a：
2
u1e= y*0 +(1-y)*2 =2(1-y) u1n= y*1 +(1-y)*1 =1 u1a = x u1e +(1-x) u1n =2x(1-y)+(1-x)
1 进入x 不进1-x
打击y 0, 0 1, 5
容忍1-y 2, 2 1, 5
（2）博弈方2的收益计算
设“打击”、“容忍”两类博弈方的期望收益以及平均收益分别为 u2s、u2n、u2a：
dy/dt = y(u2s – u2a)=y(1-y)(-2x)
先对博弈方1的复制动态方程分析：若y=1/2，那么dx/dt始终为0，这意味着所有x水平都是稳定状态；若y≠1/2，则x＊=0、 x＊=1，是两个稳定状态，其中y>1/2时， x＊=0是 ESS，y<1/2时， x＊=1是ESS。再对博弈方2的复制动态方程分析：若 x=0，那么dy/dt始终为0，这意味着所有x水平都是稳定状态；若x≠0 (此时必然x>0)，则y＊=0、 y＊=1，其中y＊=0是ESS。
②
Ra = xR1 +(1-x) R2 ③
甲策略1 方策略2
乙方
策略1 策略2
a,a
b, c
c, b
d, d
根据上述收益得到复制动态方程：
dx/dt = x (R1 - Ra) =x(1-x)[(a-b-c+d)x+(b-
d)].
令：dx/dt=F(x) F(x)为x的单元函数。
25
因为F(x) =x(1-x)[(a-b-c+d)x+(b-d)]，该复制动态最多有3个稳定状态，分别为x＊=0、 x＊=1、 x＊=（b-d)/(a-b-c+d)。
11
囚徒困境的演化稳定策略
Y
a
b
a 2，2
0，3
策略a 是否是演化稳定策略？有一个规模为E的策略b入侵
策略a的平均适应度：
X b
3，0
1，1
2(1 E) E *0 2 2E 策略 b的平均适应度：
3(1 E) E 3 2E 策略b 是否是演化稳定策略？有一个规模为E的策略a入侵
策略b的平均适应度:
2. 陈星光,周晶,朱振涛. 城市交通出行方式选择的演化博弈分析[J]. 管理工程学报,2009,23(2):140-142.
3. DeokJoo Kim,Sungwook Kim. Adaptive power control algorithm based on the evolutionary game theory[J]. Journal of KISS: Information Networking,2010,37(3):228-293.
p i [ u (ei,x)]p i(1 )
对恒等式 p(t)xi(t)pi(t)两边求t的导数得：
•
•
•
pxi pipxi(2)
将式（1）带入（2）中，稍加整理可得：
式（3）说明：采用策略i的总体比例的增长率等于策略收益和总体平均
•
xi [u(ei,x)u(x,x)x ]i(3)
收益之差