复杂系统多智能体建模的博弈进化仿真

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Computer Engineering and Applications 计算机工程与应用
2009,45(23)1引言
复杂适应系统(Complex Adaptive System )是美国计算机
科学家霍兰于1994年首次提出[1]其基本思想是:系统中的成员主体能够与环境以及其他主体进行持续不断的交互作用,在此过程中不断地“学习”和“积累经验”,并根据所学经验改变自身的结构和行为方式,由此在整体层次上突现出新的结构、现象和更复杂的行为[2]。

复杂适应系统的复杂性源于其主体的适应
性,即“适应性造就复杂性”[3]。

经济系统就是一个典型的复杂适应系统,是一个有自组织能力和进化能力的综合体。

经济系统
中存在各种政治因素、
人为因素、随机因素和偶然事件的影响和干预,一切经济行为及其效应都是相互依赖和相互影响的一系列决策的结果,这种决策行为是双方的一种博弈行为[4],在研究经济行为及其效应问题就不能不考虑博弈主体决策行为的相互依赖和相互影响[5],不能不考虑他们的个体理性以及所获信息对博弈均衡的制约和影响[6]。

由于系统中的各个经济主体往往表现为有限理性,因此经济主体不可能正确地选择最佳策略,一次性达到均衡,而是通过成员间的某种反复博弈,选择有利的策略逐渐模仿下去,而最终达到一种进化稳定均衡状态。

这种以达尔文的自然选择思想为基础,能够包含有限理性博弈方的学习和策略调整过程,研究博弈方行为和策略动态稳定性,从而适用于分析和预测有限理性博弈的分析理论,就是进化博弈理论[7]。

基于多智能体(Agent )的整体建模仿真方法是在CAS 理论指导下研究复杂系统的一种有效方法[8],它结合自动机网络模型和计算机仿真技术来研究复杂系统。

在复杂经济系统博弈对象具有以下特征:由于经济系统的复杂性,系统中进行博弈的博弈对象数量巨大;博弈对象不固定,博弈对手经常变换;在具体的博弈过程中,每次博弈一般在两个经济体之间进行;博弈对象的理性层次不一致,经济行为的变化更多是一种缓慢进化
的过程,博弈对象是有限理性的[9]。

该文以基于多智能体的整体建模仿真方法为指导,应用Multi-Agent 的软件仿真建模平台Swarm 进行仿真,在计算机仿真生成的经济博弈环境中对A -gent 的对称博弈进行仿真。

按照以上的思想为指导,以生物进化的复制动态机制来模拟仿真复杂系统经济体的学习与调整机制,在计算机上建立对称合作竞争博弈仿真模型(EGM ),该仿真模型主要研究在仿真
基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.70761003);国家社会科学基金项目(the National
Social Science Foundation of China under Grant No.08BTQ028
)。

作者简介:杨波(1973-),男,博士研究生,讲师,研究方向为:企业信息化、知识管理;徐升华(1952-),女,博士生导师,教授,研究方向为:企业信息
化、知识管理。

收稿日期:2009-05-08
修回日期:2009-06-09
复杂系统多智能体建模的博弈进化仿真
杨波,徐升华YANG Bo ,XU Sheng-hua
江西财经大学信息管理学院,南昌330013School of Information Management ,Jiangxi University of Finance &Economics ,Nanchang 330013,China E-mail :yb_lh@
YANG Bo ,XU Sheng -hua.Evolutionary simulation game based on module of complex multi -agent puter
Engineering and Applications ,
2009,45(23):6-8.Abstract :Adopted by the method of evolutionary simulation game based on ensemble module of Complex Multi-Agent Aystem ,
the article builds a module of evolutionary simulation game —EGM.By making use of Swarm simulation software ,the module is decribed and defined.EGM is applied to different symmetric game models and the result is obtained.It reveals that the initial probability of selection strategies and gains matrix have different effects on the gaining of dynamic stability strategy in different
symmetric game models ,
and it can obtain different evolutionary stable strategies.Key words :complex system ;multi-agent ;evolutionary game ;Swarm ;ensemble modeling and simulation method 摘要:采用基于复杂系统多智能(Multi-Agent )体的整体建模仿真方法,利用Swarm 仿真软件平台建立进化博弈仿真模型
(EGM
),对该模型进行了描述和定义,运用EGM 对各类对称博弈模型进行仿真运行,并对结果进行分析。

仿真结果表明在不同类型的对称博弈中初始策略选择概率和收益矩阵对动态稳定策略的获得有不同的影响,在给定不同的收益矩阵和初始策略选择概率下可以获得不同的进化稳定策略。

关键词:复杂系统;多智能体;进化博弈;Swarm ;
整体建模仿真DOI :10.3778/j.issn.1002-8331.2009.23.002文章编号:1002-8331(2009)23-0006-03文献标识码:A 中图分类号:TP18
6
2009,45(23)a ,a c ,
b b ,
c
d ,
d C R
C
R 博弈方2博弈方1
图1两人博弈收益矩阵
的复杂经济环境中,有限理性的Agent 在博弈过程中采取的行为,研究不同类型对称博弈达到进化均衡的过程,初始策略选
择概率和收益矩阵对不同对称博弈进化稳定策略的影响。

2EGM 模型结构
在模型EGM 中,有限理性的博弈对象根据自身的属性及
所处的外部环境,按照特定的行为规则进行决策,在反复博弈过程学习、
模仿,不断调整博弈策略,提高博弈所得,最后达到进化稳定状态。

模型中的每个博弈对象都是一个智能Agent ,模型是由博弈环境和大量Agent 构成,即EGM=<environment ,A -gents>。

2.1环境定义
经济生活中的博弈行为是与博弈对象所在的外部环境密切相关,外部环境主要是影响Agent 之间的交互的拓扑结构,在博弈过程中,每个Agent 所处的环境又由外部环境和所有其他Agent 组成的内部环境所组成[10],
在EMG 模型中,所有A -gent 所处的外部环境被模拟成现实生活中的空间环境,环境由一个100×100的网格组成,
这里选择最简单的环境设置,网格是Agent 活动空间,Agent 可以在网格中前后左右4个方向自由移动。

每个Agent 在每次仿真周期t 内可以在4个方向中随机选择一个遇到的Agent 进行博弈。

在本模型中Agent 由属性、规则、行为和学习算法构成。

在博弈过程中,按照Agent 的移动规则,随机在网格中与相遇的Agent 进行博弈。

Agent 从t 时刻随机选择策略开始进行博弈,根据Agent 本次博弈的收益,学习确定t +1时刻博弈要采用的策略。

2.2Agent 的属性、
规则、行为定义及学习算法描述2.2.1Agent 属性定义
在EMG 模型中Agent 的主要属性包括:ID 号、CStrategy (本次所选策略)、N Strategy (下次所选策略)、Proceed (本次收益)。

CStrategy 记录当前Agent 的策略选择,
根据所选策略计算本次收益并记录到Proceed ,经过学习算法计算确定下次的博弈策略。

2.2.2Agent 规则定义
在EMG 模型中Agent 的主要规则是移动规则,为使进化过程具有更好的随机性,Agent 在环境中的空间位置是可以随机改变,Agent 的博弈的拓扑关系图和相互关系是不固定的,A -gent 的博弈对手和博弈关系不断变化。

仿真开始时Agent 随机分布在100×100个网格空间中,在每次仿真时钟t 内随机向4个方向移动,如果遇到其他Agent 就进行一次博弈。

具体的规则如下:每个Agent 在t 时刻都随机地选择移动一个方向,如果这个方向上的位置为空,在t 时刻就移动到该位置,如果该位置已经存在其他Agent ,则不移动,同时与该Agent 进行本次博弈,在t +1时刻重新移动位置,寻找本次的博弈对象。

2.2.3Agent 行为定义
Agent 的博弈行为,指的是博弈对象在进行博弈时所采取的行为策略,并根据博弈双方所采取的策略和得益矩阵计算本次博弈的所得。

假设整个模型中博弈对象的策略集合S i ,S i ={s 1,s 2,s 3,…,s n },s i 表示其中某个可选策略,策略集可以是有限的,也可以是无限的,在本模型中Agent 的策略集合为两个,S =
{s 1,s 2},即Agent 可以分别选择s 1(合作)、s 2(不合作)纯策略,也可以以某个概率选择混合策略。

在模型中以2×2对称博弈
为例给出得益矩阵如图1所示,其中a 、b 、c 、d 为常数。

该博弈
的特征是两个博弈方在策略和利益方面都是对称的,一个博弈方究竟是在博弈方1的位置博弈还是在博弈方2的位置博弈并没有区别。

这种博弈在进化博弈中适合用相似个体组成的群体成员之间随机配对反复博弈的分析[11]。

在环境空间的Agent 可用坐标表示,如(xy ),表示Agent 在横坐标x ,纵坐标y 处;用C 表示选择“合作”策略的Agent 集合,R 表示选择“不合作”策略的Agent 集合;若在t 时刻(gh )与(xy )相遇,则发生一次博弈,设E gh ,xy (t )为(gh )与(xy )在t 时刻博弈时(gh )的收益值,若(gh )∈C ,
则:E gh ,xy
(t )=a ,(xy )∈C
b ,
(xy )∈∈R (1)
若(gh )∈R ,
则:E gh ,xy
(t )=c ,(xy )∈C
d ,
(xy )∈∈
R (2)
2.2.4Agent 学习算法描述
每个Agent 都有一定的认知能力和学习能力,每个Agent 不是完全理性的,也不是严格按照效用最大化进行决策,在多数情况下是通过了解以前博弈的历史,通过学习模仿,动态调整策略,并且智能体在相互作用中不断学习、积累经验。

这个过程就是通过Agent 的学习算法来实现的,学习算法可以很复杂,也可以很简单,可采用遗传算法和神经网络的方法进行。

在本模型中Agent 每次博弈完后,立刻根据自身选择的策略、对手的策略和博弈所得修正自己的策略,确定下次博弈将要采取的博弈策略。

Agent (gh )的博弈学习算法描述为:
S gh ,t+1=(S gh ,t ,S xy ,t ,E gh ,
t )其中,S gh ,t 是本次博弈所采用的策略,S xy ,t 是本次博弈对手所采用的策略,E gh ,t 是本次博弈所得,它由得益矩阵确定,对于A -gent ,博弈所得是博弈行为的反馈结果,S gh ,t+1是下次博弈将要采取的策略。

假设模型中Agent 是一个理性层次较低、学习速
度较慢的大群体成员,在进行随机配对的反复博弈过程中,按照生物进化复制动态的思想,采用的策略收益较低的博弈方会改变自己的策略,转向有较高收益的策略。

每个Agent 在t +1时刻的策略选择是依据上次t 时刻所选的策略收益,若t 时刻选择“合作”策略的期望收益大于选择“不合作”策略的期望收益或本次收益大于本次期望收益,则t +1时刻将继续选择“合作”策略,否则改变策略。

设E gh (t )、S gh (t )分别为(gh )在t 时刻的收益与策略,S gh (t )=C 或S gh (t )=R ;假设在t 时刻n c ,t 为选择合作策略的Agent 个数,N 为群体Agent 总数,p t 是选择合作策略的概率,p t =n c ,t /N (p t ≥0,p t ≤1),则选择“不合作”策略的概率为1-p t ;W c (t )、W r (t )分别表示采用“合作”和“不合作”策略的适应度函数:
W c (t )=p t ×a +(1-p t )×b
(3)W r (t )=p t ×c+(1-p t )×d
(4)
若S gh (t )=C ,W r (t )>W c (t ),W c (t )>E gh ,xy (t ),则取S gh (t +1)=R 。

若S gh (t )=R ,W c (t )>W r (t ),W r (t )>E gh ,xy (t
),则取S gh (t +1)=C 。

杨波,徐升华:复杂系统多智能体建模的博弈进化仿真
7
Computer Engineering and Applications 计算机工程与应用
2009,45(23)
C R
博弈方2
博弈方1
图8投资博弈收益矩阵
C R
博弈方2博弈方1
图2
囚徒困境博弈收益矩阵
图5鹰鸽博弈收益矩阵
C R
博弈方2博弈方1
3模型运行仿真
模型运行在美国桑塔费研究所提供的Swarm 仿真平台上,根据上文对模型描述和定义进行仿真,分析群体Agent 在环境中随机两两反复博弈的进化过程。

为了讨论方便设定环境中
Agent 稠密度0.05,
个数为500;仿真图形的横坐标为时间t ,纵坐标为选择合作策略的比率,图中实线表示选择C 策略的A -gent 数占总数的比率,
虚线为选择合作策略的平均比率。

3.1囚徒困境博弈类的进化仿真
囚徒困境博弈是经典博弈模型,设定收益矩阵,如图2所示,从收益可以看出该博弈的纳什均衡为(C ,C
),运用EGM 仿真,初始选择合作策略的概率p 分别取0.1和0.9,结果如图3、4所示。

从结果可以发现此类博弈的进化的稳定策略与初始的策略选择概率p 无关,进化的稳定策略即为纳什均衡策略。

3.2鹰鸽博弈类的进化仿真
鹰鸽类博弈是同一物种、种群内部竞争和冲突中的策略和
均衡问题,其中“鹰”和“鸽”分别指“攻击型”和“和平型”的两种策略或策略类型。

鹰鸽博弈是人类社会中普遍存在的竞争和冲突现象的经典博弈。

设定收益矩阵,如图5所示。

可以知道(C ,R )、(R ,C )两个纯纳什均衡,使用EGM 的仿真,p 初始值分别取0.01和0.99,仿真结果分别如图6、7所示,
这类博弈的进化结果也与初始p 无关,进化的结果稳定在某个混合策略上,在
本例中稳定策略在p =1/6上。

3.3投资博弈类进化仿真
此类博弈表示两个企业投资两个市场,分别投资C 和R
市场,此类博弈一般有两个纯纳什均衡策略(C ,C )或(R ,R ),设定收益矩阵,如图8所示。

仿真结果见图9、10所示,
此类博弈的进化稳定策略的获得依赖初始p 的值,在给定不同初始p
图3初始p =0.1时囚徒困境博弈仿真结果
图6初始p =0.01鹰鸽博弈仿真结果
图7
初始p =0.99囚徒困境类博弈仿真结果
Computer Engineering and Applications计算机工程与应用2009,45(23)
(上接8页)
值,进化稳定策略不同,在设定初始p=0.7开始进行重复博弈,结果稳定在(R,R)策略;在设定初始p=0.8,开始进行重复博弈,结果稳定在(C,C)策略,从收益矩阵可以看出(C,C)是帕累托上策均衡,但要承担相应的风险,如果己方选择C策略,对方选择R策略,己方的损失远大于选择R的损失,所以最终进化的结果依赖博弈方对风险的评价,追求高风险高收益,进化的结果必然时(C,C),否则为(R,R)。

4结束语
通过基于多智能体的建模方法和Swarm仿真平台,对复杂经济系统中的有限理性个体的博弈问题建立进化仿真模型,利用该模型对几类博弈问题进行仿真并对结果进行分析。

从仿真结果可以看出,这种仿真方式适合于对复杂经济系统中大范围内,数量巨大的经济体之间的简单博弈进行研究分析,博弈进化仿真模型为研究分析进化博弈的稳定均衡策略过程提供了一种方式;通过仿真模型对几类典型对称博弈模型的仿真,表明在有限理性下的经济体的进化博弈中初始策略选择概率和收益矩阵对动态稳定策略的获得各有不同的影响,在给定不同的收益矩阵和初始策略选择概率下可以获得不同的进化稳定策略,充分说明在经济行为博弈中,通过制定有效的机制,如文化教育、政府干预、激励制度、分配方案等方式改变经济体初始策略选择和收益,使进化稳定策略向我们所期望的方向发展。

今后的工作是对仿真模型进行的扩展,用它来研究分析不对称条件下的复杂博弈,并运用到具体博弈行为的研究和分析上,如知识转移机制的研究和分析。

参考文献:
[1]霍兰·约翰.隐秩序—适应性造就复杂性[M].周晓牧,韩晖,译.上海:
上海科技教育出版社,2001.
[2]周登勇,戴汝为.适应性行为与仿真[J].系统仿真学报,2000,12(6):
578-583.
[3]廖守亿,戴金海.复杂适应系统及基于Agent的建模与仿真方法[J].
系统仿真学报,2004,16(1):113-117.
[4]陈学彬.宏观金融博弈分析[M].上海:上海财经大学出版社,1999.
[5]赵纯均,华立.Multi-agent仿真与资源稀缺下的适应行为[J].管理科
学学报,1999,2(4):1-7.
[6]谢识予.经济博弈论[M].上海:复旦大学出版社,1997.
[7]谢识予.有限理性条件下的进化博弈理论[J].上海财经大学学报,
2001.
[8]Gelf A E.Ensemble modeling[M].New York:Marcel Dekker,1984.
[9]Smith J M.Evolution and the theory of games[M].USA:Cambridge
University Press,1982.
[10]Arthur W plexity in economic and financialmarkets[J].Com-
plexity,1995,1(1):489-494.
[11]程德华.有限理性下的企业合作竞争的进化博弈分析[J].计算机与
数字工程,2004,33(5):45-47.
P=[0.5977,0.5072,0.2560,0.6107,0.6667,0.7161]
模型中的问题作了数据简化,使得迭代到10次左右就收敛了,在实际中可以编制一个专用软件来解决这个问题。

该优化程序运行的软件平台为Windows XP+Maple12.0。

计算结果为:
上层规划(U):
最优解U=[1,1,0,1,1,0]
最优值F=66300
下层规划(L):
最优解X=(1100,200,0,800,1500,0)
最优值f=2247.46
由结果可以看出综合得分较低的供应商3没有分得采购量,而有趣的是综合表现度最高的供应商6也没有分得采购量,但从表1中的数据可以看出这是由于供应商6距制造企业的距离太远了,高额运输成本使得在供应商6处采购不是最优的。

由此,可以看出双层规划模型的选择方法是在采购成本最低和供应商服务质量最高之间选择一个折中的方案,从短期内看不出它的优点,但当供应商选择是长期的且分阶段多次进行时,双层规划模型的选择方法能有效地激励供应商降低成本,提高服务质量,从而形成良性循环。

6结论
提出利用双层规划模型对供应商进行选择,上层规划以制造企业的采购费用最小为目标,下层以选择的供应商的服务质量最大为目标,使供应商企业在降低成本费用的同时提高服务质量增加竞争力。

其中下层规划中供应商的服务质量用综合评价得分加以体现,由于AHP(层次分析法)法对供应商服务质量的选择评价过于主观化,采用基于熵权法对供应商服务质量进行评价,先计算出各影响因素的权重,乘以标准判断矩阵得出各供应商的综合得分。

最后,设计了双层迭代的算法求解模型,并结合实例验证了模型和算法的有效性。

参考文献:
[1]李大鹏.基于层次分析法的第三方运输企业选择[J].科技情报开发
与经济,2005(3):150-151.
[2]沈雁,姚冠新.供应链物流管理中运输商综合评判研究[J].制造业自
动化,2002(7):12-14.
[3]张赫,陈建清,刘文煌,等.第四方物流中运输商的评价[J].工业工
程,2004(3):36-39.
[4]田宇.物流服务供应链构建中的供货商选择研究[J].系统工程理论
与实践,2003,49(5):49-53.
[5]Saaty T L.Decision making with dependence and feedback[M].
Pittsburgh:RWS Publications,1996.
[6]Ben-Ayed O,Boyce D E,Blair C E.A general bi-level linear pro-
gramming formulation of the network design problem[J].Transport Res,1988,22B:311-318.
[7]李爆.用模糊数学方法对产品设计进行综合评价[J].工程图学学报,
1997(1):98-105.
[8]娄平,陈幼平,周祖德,等.敏捷供应链中供货商选择的AHP/DFA方
法[J].华中科技大学学报:自然科学版,2002,30(4):29-31.
[9]Weber C A,Currint J R.A multi objective approach to vendor selec-
tion[J].European Journal of Operational Research,2003,68(2):173-184.
[10]Kaslnqam R,Glee C P.Selection of vendors-a mixed-integer pro-
gramming approach[J].Computers and Industrial Engineering,2006,31(1):347-350.
[11]高自友.基于双层规划的供应链二级分销网络优化设计模型[J].管
理工程学报,2004.
14。

相关文档
最新文档