演化博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复杂网络上的演化博弈
主要内容
1、群体博弈简介 2、基于历史记忆的雪堆博弈 3、演化博弈动力学与网络结构的共同演化
群体博弈简介
1、囚徒困境
囚徒的选择策略有:合作(坦白)、欺骗(抵赖)
我们可以得到的博弈矩阵为:
囚徒b
T>R>P>S
合作
欺骗
2R>T+S合作
R,R
S,T
囚徒a
欺骗 T,S
P,P
对囚徒困境的说明 在囚徒困境中双方的合作是不稳定的; 该模型反映了个体理性和集体理性的矛盾;
rc=(K-m)/K
3、无标度网络上的博弈行为
(1)主要研究变量 平均度
合作率 fc
收益参数r
(2)模拟图像
(3)相关结论 与规则网络不同,无标度网络上fc是r的非单调函数
,并存在一个最优值。 合作曲线是分段结构,连续段的数量对应平均度 图像对于坐标点(0.5,0.5)呈180度旋转对称 记忆长度M不影响不连续点r的值,只影响fc的值。
带入收益函数得到:
从而得到累积收益的表达式:
通过前面的偏好连接的分析,新节点加入连 接正比已存在节点上个体的收益:
解关于ki(t)和t的微分方程得到:
ki(t)服从 =1(/ 2+ w )的幂律分布
pc(2 pc)
累积收益与节点度的相关性
假设一个度为k的节点平均有kPc个合作的 邻居和k(1-Pc)个背叛的邻居,该节点自己 合作与背叛的概率分别Pc和1-Pc。那么在t 时刻度为k的节点的收益为:
在雪堆博弈中,假设双方合作的收益为R=1, 一方合作另一方背叛,合作的收益为S=1r,背叛的收益为T=1+r,相互背叛的收益都 为P=0。
模拟是在4配位和8配位网格上进行
(3)二维网格上模拟图像
(3)二维网格相关结论
合作频率具有分段结构
图像对于坐标点(0.5,0.5)呈180度旋转 对称
记忆长度对不同段的合作率影响不同
对于很大的收益r,系统仍然表现出较高合 作水平,这表明个体为了自身利益最大化 而做出决策,合作在欺骗收益很高情况下 仍然能够产生和持久。
(3)利用局域稳定方法求分段点
局域稳定时,背叛与合作取得的收益是相同的, 即:
r=rc
假设在K配位网格上,一个节点有m个节点选择C策略,那么就有K-m个 节点选择D策略,那么对于这个节点来说,选择合作的收益为:
m*R+(K-m)(1-r) 选择背叛的收益为:
(1+r)*m+0 由于背叛和合作收益相等可以解得:
基于历史记忆的雪堆博弈
1、模型规则 将N个个体放置与某种网络的节点上 每一轮相互连接的个体同时博弈 个体的总收益是根据收益矩阵与所有邻居
博弈收益之和 一轮博弈结束后个体选择最佳策略更新 个体对于最佳策略具有记忆性,选择某个
策略取决于该策略在记忆中的数量
假设个体的记忆长度有限,长度为M,即上 一时刻到M时刻以前的历史最佳策略,个体 依据自身的历史记忆进行决策:
2、雪堆博弈
假设铲雪的代价为c, 每个人的好处量化为b,b>c,那么双 方收益矩阵为:
合作
B 背叛
合作 A
背叛
b-c/2, b-c/2 b-c ,b
b ,b-c
源自文库
0 ,0
对雪堆博弈的说明
在雪堆博弈中,遇到背叛时选择合作的收益大于 双方都背叛的收益,遇到背叛则选择合作; 个体的最佳策略取决于对手的策略; 相比囚徒困境,合作在雪堆博弈中更容易涌现。
当个体更新策略之后,一个新个体加入网 络中,并选择m个已存在的老节点相连,节 点被连接的概率正比于已存在节点的收益 :
新加入的节点随机选择策略,并且老节点 在下一轮博弈开始时保持原来的策略
重复以上步骤,网络规模就会逐渐增加。
2、模拟网络演化与合作行为的演化结果 (1)节点的度分布P(k)与累积度分布Pc(k)
(2)模型的小世界效应
(3)模型的相配混合系数A
(4)网络结构改变对合作行为的作用
3、共同演化模型模拟财富分配
(1)目的
试图讨论模型是否适合描述经济系统中的行为, 财富分配是否符合Pareto定律
(2)不同参数下个体累积收益Pc的分布
(3)模型的解析(基于个体累积收益与个体 所占节点度之间关系)
其中,pc为选择策略c的概率,NC和ND分别为策略C和D的数量 个体不断更新记忆,不断重复博弈,整个系统就会演化下去。
2、二维网格上的演化博弈
(1)主要研究变量
合作频率 fc
记忆长度M 收益参数r
(2)二维网格模拟
网络规模为1000,初始策略C和D各占50%, 并且在网络中随机分配
每个个体的初始记忆随机分配,并且个体 记忆对系统最终稳定行为没有任何影响
初始节点有m0=10个节点随机连接,每个节 点的初始状态随机赋予C和D策略
所有个体同时博弈并根据收益矩阵计算收 益,然后任意节点i随机选择一个邻居j来 更新自己的策略
节点i学习j策略的概率取决于他们之间的 收益差别,即:
该公式源于统计力学中的费米函数,其中,κ 为环境中的噪声等不确定因素,设为0.1。
(4)M与fc的关系
存在特殊区域使得M对fc起不同的作用
当M=1时,系统存在大的震荡,这是由于一部分个 体同时转变策略造成的
(5)合作者与背叛者占据的平均度<ks>与r的关系
演化博弈动力学与网络结构的共同 演化
本节主要从动态讨论演化博弈动力学与网络 结构的相互作用和共演化。
1、模型规则
模型采取雪堆博弈
相关文档
最新文档