公平关切下的供应链产销协同自适应协商策略

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

公平关切下的供应链产销协同自适应协商策略
武玉英;胡喆;何喜军;蒋国瑞
【摘要】为消解供应链产销协同计划冲突,提出一种多Agent自适应协商方法.在单个制造商Agent和多个销售商Agent协商情景下,考虑Agent的公平关切行为,采用不公平厌恶模型,通过径向基函数神经网络优化Actor-Critic学习算法,预测并调整双方Agent的让步幅度,提出自适应策略.在不同销售商Agent数量及关切程度下进行对比实验,结果表明,该方法增强了Agent的自学习和自适应能力,克服了学习效率慢且忽视公平关切行为的缺点,可实现缩短协商时间和提高冲突消解效率的目的.
【期刊名称】《计算机工程》
【年(卷),期】2016(042)004
【总页数】8页(P160-167)
【关键词】自适应协商;供应链协同;公平关切;Actor-Critic强化学习;径向基函数神经网络
【作者】武玉英;胡喆;何喜军;蒋国瑞
【作者单位】北京工业大学经济与管理学院,北京100124;北京工业大学经济与管理学院,北京100124;北京工业大学经济与管理学院,北京100124;北京工业大学经济与管理学院,北京100124
【正文语种】中文
【中图分类】TP18
为快速响应市场需求,应对市场竞争、制造商和销售商会针对商品类型、数量、交
付期、价格等细则共同敲定产销协同计划[1]。

然而,供应链上的企业往往是自利的,这在制定协同计划时易出现分歧,为解决这些冲突,企业间建立产销协同协商策略成
为关键。

传统的人工协商耗时长、成本高,将Agent技术运用到供应链协商中,可以尽快地消解冲突,达成双方满意的合同。

例如,在供应链自动协商环境中,探讨对制造商、销售商Agent使用不同谈判策略[2];允许Agent收集当前市场价格,分析潜在的协同价值,来提高效益[3]。

众多学者也将自学习机制引入协商谈判,提高协商效率。

例如,通过贝叶斯学习预测对手偏好,产生共赢提议[4];采用遗传算法优化相似案例议题权重,提高协商效率[5]。

但这些研究均是在先验知识基础上进行的,动态适应差。

而Actor-Critic(AC)学习是强化学习的一种算法,即一种环境激励-响应模型学习方法,使用当前策略来学习值函数,并依据确定的值函数评价、学习优化协商策略,具有很强的动态适应性[6]。

文献[7]最早提出该算法,文献[8]则给出了具体的算法,此后
为了加快学习速度,众多学者[9-10]对其进行了改进。

目前,很多研究已将强化学习
算法引入协商中[11],可以有效地消解冲突,优化协同协商效果。

为了加强Agent的动态学习能力,借鉴文献[5]的协商模型,改善其需要先验知识的机器学习缺点,主要通过强化学习的机器学习方法进行协商学习。

然而,供应链研究中常假定Agent是自私的,即Agent只考虑自己的收益而不考虑
协商双方的关系。

行为经济学研究表明,人们不仅关注自身利益,还会关心周围其他
人的利益[12]。

制造商或销售商在受到公平关切的驱使时,愿意放弃自身的边际效
益以达到更为公平的结果[13]。

因此,一些学者会在供应链管理和决策的交互过程
中引入行为因素。

文献[14]在供应链中考虑公平关切行为,研究了公平关切对供应
链契约的影响;文献[15]则认为供应商和零售商会将自身收益与对方进行比较,因此
将公平偏好引入供应商决策函数。

大量博弈研究表明,人的公平关切行为是普遍且
客观存在的;然而,在多Agent供应链的自适应协商方面,虽有学者考虑了谈判者的
心理偏差[16],但没有学者考虑Agent的公平关切行为。

本文针对产销协同冲突及协商者的公平关切行为,给出一种自适应协商方法AC-RBF(Actor-Critic Radial Basis Function),在径向基函数(Radical Basis Function,RBF)神经网络优化下,建立Actor-Critic强化学习的自适应协商策略,产生让步策略,尽快地消解冲突,提高协商效率,达成更公平的合同,确保供应链协同的长久性及参与者的共赢。

以两级供应链(制造商和销售商)的协同计划为研究对象。

假设在某交易中,一个制造商Agent向多个销售商Agent提出了产品的产销计划,但在制定计划时发生了冲突。

为使制造商根据自身的生产能力选择一个较满意的销售商,并达成双方都满意的协议,制造商Agent与多个销售商Agent开始进行协同协商。

2.1 协商框架
一个多边协商框架可以看成是由多个一对一协商线程组成,如图1所示。

制造商Agent会根据销售商数量创建等量的协商线程,并将每个线程的协商任务交给一个子制造商Agent,它将继承制造商Agent的所有属性,并与一个销售商Agent进行一对一协商。

而协调Agent会对多个线程进行调控。

每个线程主要完成3个模块任务,分别是提议提交模块、市场交易评价模块、协商策略生成模块。

提议提交模块中,子制造商Agent和销售商Agent对协商议题进行提议与反提议,并将提议结果提交给市场交易评价模块,以便该模块进行市场交易分析;市场交易评价模块根据双方Agent的议价程度及协商时间计算双方交易压力,得出当前交易市场的环境状态,将状态值提供给协商策略生成模块,以便该模块进行行为学习;协商策略生成模块由两部分组成,其中Actor-Critic根据行为状态进行策略的学习及调整,而RBF神经网络在其中进行优化,提高协商的效率。

2.2 协商流程
制造商Agent与销售商Agent的协同协商流程如图2所示。

首先,制造商Agent 创建与销售商数量等量的协商线程,每个线程进行相对独立的一对一协商。

以线程
k为例,根据线程k中协商双方Agent的提议进行判断,若当前协商轮次已超过最大轮次,则协商失败,否则协商继续。

然后,计算双方交易压力,采用Actor-Critic学习协商策略,并使用RBF神经网络优化协商策略,给出让步策略,Agent进行反提议。

根据反提议判断是否满足协商成功条件,若满足,则协商成功,否则协商继续。

如果线程k协商未停止,则双方Agent重复学习协商,不断做出让步,直至协商结束。

当所有线程结束,协调Agent收集各线程协商结果,并据此选择最优协商策略。

每个线程的协商结果只能是协商失败或协商成功产生的策略。

2.3 协商模型
根据自适应协商模型具有有效描述协商问题、支持Agent学习能力等特性[17],本文提出一个五元组协商模型,H={A,S,W,T,U}。

各元素定义如下:
(1)A表示协商Agent集合,A={Am,Ar}。

其中,Am,Ar分别表示制造商Agent与销售商Agent。

(2)S表示协商状态,S={X,P}。

其中,X表示协商议题集合,假定议题项均为定量议题,X={x1,x2,…,xi,…,xn};n表示协商议题数目;xi表示第i项议题值,如价格、数量、交付期等议题的数值;P={p}表示Agent的交易压力。

(3)W表示协商议题权重集合,W={x1,w2,…,wi,…,wn}。

其中,wi表示第i项议题上的权重,即Agent对第i项议题的偏好。

(4)T表示协商时限集合,T={Tm,Tr}。

其中,Tm,Tr分别表示制造商Agent、销售商Agent设定的最大协商次数。

(5)U表示协商双方的联合效用函数,。

其中,分别表示制造商Agent、销售商Agent自身感知的公平关切效用;λ为供应链中制造商的主导系数。

假设协商双方Agent是公平关切的,根据不公平厌恶模型[12],以对手Agent的效用值作为参考点,描述自身感知的公平关切效用函数,如式(1)、式(2)所示。

子制造商Agent根据所有销售商Agent的提议计算自身感知的公平关切效用,而销售商
Agent仅根据与其进行协商的子制造商Agent提议计算自身感知的公平关切效用。

-βrmax{Ur-Um,0}
其中,k为销售商个数;αm,αr分别为制造商Agent、销售商Agent的嫉妒偏好系数;βm,βr分别为制造商Agent、销售商Agent的同情偏好系数(0≤α,β≤1);Um和Ur分别为制造商Agent和销售商Agent的效用,如式(3)、式(4)所示。

其中,V(xi)表示议题的效用函数,如式(5)所示。

ximax,ximin分别为Agent允许议
题的最大最小值,并根据议题类型进行计算。

制造商Agent和销售商Agent的联合效用如式(6)所示。

协商的目的就是要让协
商双方Agent的联合效用尽可能地大。

3.1 RBF神经网络结构
在协商过程中,制造商Agent与销售商Agent就某一商品的多个属性进行提议,根
据双方议价程度及交易压力确定当前市场状态S;然后,通过Actor-Critic强化学习
给出让步率ψ,确定下一轮协商策略。

为优化Actor-Critic学习过程,本文选择结构简单、全局逼近能力强、训练方法快速易行的RBF神经网络[18]。

其中,Actor动
作选择网络接收市场状态变量S的输入,输出优化的让步策略ψ′,进行策略的估
计;Critic动作评价网络则将市场状态变量S和Actor输出的策略变量ψ′作为输入,同时接受外部强化信号r进行奖惩,输出值函数V,进行动作策略的评价,用于指导Actor的策略输出ψ。

Actor动作选择网络和Critic动作评估网络共享RBF神经
网络的输入层和隐含层的资源,降低学习系统对存储空间要求的同时,避免隐含层节
点的重复计算,从而提高系统的学习效率,加快协商速度。

RBF神经网络结构如图3
所示。

输入层包括3个节点,每个节点代表学习系统一个状态变量T。

其中,表示制造商Agent在第t轮对议题xi的提议值表示销售商Agent在第t轮对议题xi的提议值;pt表示Agent在第t轮的交易压力[19],如式(7)所示。

隐含层包括h个节点,μj=[μj1,μj2,μj3],1≤j≤hμj为第j个节点的中心向量,其基函数选用高斯核函数,则第j个节点的输出如式(8)所示。

其中,为第j个节点的宽度。

输出层由Actor和Critic组成,Actor的输出ψt′和Critic的输出Vt如式(9)和式(10)所示。

其中,分别为第j个节点到Actor输出节点和Critic输出节点的权值。

3.2 RBF网络优化下的Actor-Critic强化学习
通过RBF网络输出让步策略ψt′,但Actor网络的输出值不能直接传递,需在上叠加一高斯干扰nk,其值大小由决定,如式(11)所示。

ψt=ψt′+nk(0,σV2)
其中,。

针对每个议题项,在RBF神经网络优化下,Actor-Critic学习产生让步率后,就生成了下一轮该议题提议值,如式(12)所示,且下一轮提议值要满足式(13)。

xi min≤xi≤ximax,i=1,2,…,n
其中,ximin,ximax分别为Agent允许议题的最大最小值,即双方下一轮议题值要在自身设定的议题值范围内。

在整个策略生成过程,Actor网络和Critic网络均采用TD-error来调整,误差是由相邻状态值函数的时间差分来计算的,如式(14)所示。

其中,rt为第t轮学习系统收到的立即回报;γ为折扣因子(0<γ<1)。

在设计外部强化信号rt时,本文主要考虑双方Agent效用差值变化,如式(15)所示。

TD-error在进行更新时,采用梯度下降法,如式(16)～式(19)所示。

其中,αA,αC分别为Actor和Critic的学习率;ημ,ησ分别为中心和宽度的学习率。

3.3 自适应协商算法的复杂度分析
评价一个算法的优劣,通常通过时间复杂度来度量[20],时间复杂度越大,算法的执行
效率越低。

根据以上对自适应协商AC-RBF算法的描述,进行算法的时间复杂度分析。

算法输入层节点数为常数3,Kolmogorov定理表明,隐含层节点数为输入层节点数的2倍加1[21],设隐含层节点数h=7,并假设一个制造商Agent与k个销售商Agent关于s个议题进行协商,执行该算法,最终通过t次协商结束运行,可得算法的最大时间频度为T=85kts+14kt+5t+2k+3,则本文自适应协商算法的时间复杂度为O(kts)。

其中,t为k个线程协商的最大轮次。

当问题规模k,t,s均趋向于无穷大时,同时用n来表示(n→+∞),可知算法的渐近时间复杂度为O(n3),与传统AC算法的渐近时间复杂度相同,时间频度差别主要体现在h个隐含层节点、t协商轮次及每轮协商迭代的时间上。

4.1 协商方法步骤描述
为制造商和多个销售商能尽快建立协同计划,签订公平合同,将Actor-Critic算法和RBF算法结合,引入公平理论,形成多Agent协商方法。

整个自适应协商步骤如下: 步骤1 协商开始前,每个线程中的协商双方确定协商议题X,初始化议题权重W、时限T以及Actor-Critic参数和RBF参数。

步骤2 各线程进行时限判断,若当前协商轮次t已超过最大时限TT,则协商失败,否则转入步骤3。

步骤3 各线程双方Agent进行提议,并根据式(7),计算Agent的交易压力pt。

步骤4 根据式(8)～式(10)计算Actor策略输出和Critic评价输出。

步骤5 根据式(11)计算调整后的让步策略。

步骤6 根据式(12)计算下一轮的提议值,提交给对方Agent。

步骤7 每个议题都重复步骤3～步骤6,得到所有议题提议值后,根据式(1)～式(6)得出效用值Um,Ur,U。

步骤8 若双方综合效用差值小于ε且联合效用不断最大化,即<ε且Ut≥Ut-
1(0<ε<0.5),则认为该线程协商成功,协商成交议题值为xi=(xim+xir)/2,转入步骤9;
否则t←t+1,转入步骤2。

步骤9 等待所有线程结束,协调Agent从各线程协商结果中,选择对于制造商Agent实际效用Um最大的协商策略,作为整个一对多协商的最优策略,协商结束。

当有2个以上策略可使制造商效用最大时,选择使制造商Agent单位成本最小的策略。

4.2 算例分析
为说明该算法的有效性进行了实验测试。

仿真实验的硬件环境和软件环境分别为Intel(R)Core(TM)********************,2.00GB内存计算机和Matlab R2014a应用软件。

假设在某个数码产品供应链上,一个制造商向多个销售商提交了产销计划,但在制定协同计划时产生冲突,为避免陷入僵局,制造商Agent 和多个销售商Agent按照文中的协商策略开始进行协商。

将该计划中的价格、数量、交付期、次品率、售后期5项内容视为议题项,n=5,供应链中制造商的主导系数λ=0.6,阈值ε=0.4,制造商Agent和销售商Agent的权重、议题范围如表1所示,其他参数设定如表2所示。

首先,考虑销售商数量对协商算法的影响,设参与协商的制造商Agent和销售商Agent比例分别为1∶5,1∶10,1∶15,1∶20,1∶25,1∶30,即k=5,10,15,20,25,30,将本文的自适应协商方法(AC-RBF)与传统Actor-Critic算法(AC)对比,结果表明制造商Agent和销售商Agent的比例变化使本文的自适应协商方法(AC-RBF)平均成功率和效用均随销售商Agent数量的增加而增大,分别涨幅6.80%和0.69%,小于AC算法的16.20%和1.41%,则得出如下结论。

结论1 相比传统AC算法,销售商数量对AC-RBF算法的影响更小,体现出该算法的稳定性。

其次,考虑不同公平关切程度对协商算法的影响。

将Agent的关切系数设为
1:(0,0,0,0);2:(0.1,0,0,0);3:(0,0.1,0,0);4:(0.1,0.05,0,0);5:(0,0,0.1,0);6:(0,0,0,0.1);7:(
0,0,0.05,0.1);8:(0.1,0,0.1,0);9:(0,0.1,0,0.1);10:0.1,0.1,0.1,0.1;11:(0.3,0.2,0.1,0.1); 12:(0.1,0.1,0.3,0.2);括号中数据分别表示销售商Agent嫉妒偏好系数、销售商Agent同情偏好系数、制造商Agent嫉妒偏好系数、制造商Agent同情偏好系数。

其中,关切系数1是不考虑双方Agent的公平关切行为,关切系数2～4是只考虑销售商Agent的公平关切行为,关切系数5～7是只考虑制造商Agent的公平关切行为,关切系数8～12是考虑双方Agent的公平关切行为,且关切系数2,5,8是只考虑Agent的嫉妒关切行为,关切系数3,6,9是只考虑Agent的同情关切行为,关切系数4,7,10～12是同时考虑Agent的嫉妒、同情关切行为。

对100次协商实验的成功率及最优效用进行统计分析,每隔10次记录一次。

在不同关切程度下,AC-RBF算法的平均成功率和最终成功率分别高出传统AC算法约11%和6%。

整个实验过程中,相同关切系数下的AC-RBF算法成功率一直高于
传统AC算法成功率,中前期学习速度更快,中后期优化精确更高、协商成功率更大,最终均可达到90%以上的成功率,且考虑公平关切行为时的成功率大于不考虑公平关切行为时的成功率,则得出如下结论。

结论2 考虑Agent公平关切行为的AC-RBF算法成功率更大,体现出该算法的有效性。

当仅销售商Agent考虑公平关切行为时,该Agent只考虑嫉妒偏好、同情偏好以
及两者同时考虑的情况下,AC-RBF算法的最终成功率分别为0.914、0.908和
0.919,高出不考虑公平关切行为时该算法最终成功率的1.1%,0.4%,1.7%,而当嫉妒偏好系数相同时,AC-RBF算法的成功率会随着销售商Agent同情偏好系数的增大
而增大,如图4所示。

结论3 嫉妒偏好系数对销售商Agent的影响更大,当嫉妒偏好系数相同时,AC-RBF 算法的成功率随销售商Agent同情偏好系数的增大呈上升趋势。

当仅制造商Agent考虑公平关切行为时,该Agent只考虑嫉妒偏好、同情偏好以
及两者同时考虑的情况下,AC-RBF算法的最终成功率分别为0.908,0.913和0.919,高出不考虑公平关切行为时该算法最终成功率的0.5%,1.0%,1.7%,而当同情偏好系数相同时,AC-RBF算法的成功率会随着制造商Agent嫉妒偏好系数的增大而增大,如图5所示。

结论4 同情偏好系数对于制造商Agent的影响更大,当同情偏好系数相同时,AC-RBF算法的成功率随制造商Agent嫉妒偏好系数的增大呈上升趋势。

当销售商Agent和制造商Agent均考虑公平关切行为时,该Agent只考虑嫉妒偏好、同情偏好以及两者同时考虑的情况下,AC-RBF算法的最终成功率分别为
0.924,0.920和0.927,高出不考虑公平关切行为时该算法最终成功率的
2.2%,1.7%,2.5%,且AC-RBF算法的成功率随着Agent公平关切系数的增大而增大,如图6所示。

结论5 嫉妒偏好系数对双方Agent的影响相对更大,AC-RBF算法的成功率随Agent公平关切系数的增大呈上升趋势。

当销售商Agent和制造商Agent均考虑嫉妒和同情关切行为时,关切系数10～12下的AC-RBF算法最终成功率分别为0.927,0.948和0.939,高出不考虑公平关切行为时该算法最终成功率的2.5%,4.8%,3.9%,如图7所示。

结论6 相同幅度增长下销售商Agent关切系数变化时的成功率大于制造商Agent 关切系数变化时的成功率。

在不同关切程度下,AC-RBF算法的平均效用和最终效用分别高出传统AC算法约1.0%和1.7%,整个实验过程中,相同关切系数下的AC-RBF算法效用一直高于传统AC算法效用,优化精度更高,但考虑公平关切行为时的效用要小于不考虑公平关切行为时的效用,则得出如下结论。

结论7 与传统AC算法相比,考虑Agent公平关切行为的AC-RBF算法效用更大,体现出该算法的有效性;但供应链协同的整体效用有所损失。

当仅销售商Agent考虑公平关切行为时,该Agent只考虑嫉妒偏好、同情偏好以及两者同时考虑的情况下,AC-RBF算法的最终效用分别为0.881,0.883和0.879,低于不考虑公平关切行为时该算法最终效用的0.5%,0.2%,0.7%,而当嫉妒偏好系数相同时,AC-RBF算法的效用会随着销售商Agent同情偏好系数的增大而减小,如图8所示。

结论8 嫉妒偏好系数对销售商Agent的影响更大,当嫉妒偏好系数相同时,AC-RBF 算法的效用随销售商Agent同情偏好系数的增大呈下降趋势。

当仅制造商Agent考虑公平关切行为时,该Agent只考虑嫉妒偏好、同情偏好以及两者同时考虑的情况下,AC-RBF算法的最终效用分别为0.885,0.882和0.880,低于不考虑公平关切行为时该算法最终效用的0.1%,0.3%,0.5%,而当同情偏好系数相同时,AC-RBF算法的效用随着制造商Agent嫉妒偏好系数的增大而减小,如图9所示。

结论9 同情偏好系数对制造商Agent的影响更大,当同情偏好系数相同时,AC-RBF 算法的效用随制造商Agent嫉妒偏好系数的增大呈下降趋势。

当销售商Agent和制造商Agent均考虑公平关切行为时,该Agent只考虑嫉妒偏好、同情偏好以及两者同时考虑的情况下,AC-RBF算法的最终效用分别为
0.877,0.879和0.863,低于不考虑公平关切行为时该算法最终效用的
0.9%,0.6%,2.5%,且AC-RBF算法的效用随着Agent公平关切系数的增大而降低,如图10所示。

结论10 嫉妒偏好系数对Agent的影响相对更大,AC-RBF算法的效用随Agent公平关切系数的增大呈下降趋势。

当销售商Agent和制造商Agent均考虑嫉妒和同情关切行为时,关切系数10～12下的AC-RBF算法最终效用分别为0.863,0.844和0.848,低于不考虑公平关切行为时该算法最终效用的2.5%,4.6%,4.2%,且AC-RBF算法的效用随着Agent公平
关切系数的增大而减小,如图11所示。

结论11 相同幅度增长下销售商Agent关切系数变化时的效用要小于制造商Agent关切系数变化时的效用。

本文在考虑Agent公平关切行为的基础上,通过RBF神经网络优化Actor-Critic学习算法,给出自适应协商策略,并在不同销售商Agent数量及多种公平关切程度下进行对比实验。

结果表明,相比传统AC算法,销售商数量对AC-RBF算法的影响更小,相同关切程度下该算法效用和成功率更大,且在不同关切程度下嫉妒偏好系数对销
售商Agent的影响更大,同情偏好系数对制造商Agent的影响更大,该算法的成功
率随着Agent公平关切系数的增大而提升,特别是考虑公平关切行为时的成功率要大于不考虑公平关切行为时的成功率,效用则反之,体现出该算法的稳定性和有效性,能够更快地找到最优策略,缩短协商时间,提高供应链产销协同协商的成功率。

同时,在考虑公平关切的情况下,供应链协同的整体效用有所损失。

这也体现了公平关切
的行为,制造商或销售商有可能为了追求整个市场的公平从而放弃自身一部分利益。

接下来,将在考虑其他市场因素及行为的基础上,继续研究用于解决供应链产销协同计划冲突的自适应协商方法,增强供应链的适应性和智能化。

英文引用格式： Wu Yuying,Hu Zhe,He Xijun,et al.Self-adaptive Negotiation Strategy of Supply Chain Production Marketing Collaboration Based on Equity Concerns[J].Computer Engineering,2016,42(4):160-167.
【相关文献】
[1] 蒋国瑞.多Agent制造业供应链管理[M].北京:科学出版社,2013.
[2] Serban R,Adina M F.Bargain Strategies for Agent Automated Negotiation in an E-business Environ-ment[J].Scalable Computing:Practice and Experience,2014,15(2):121-129.
[3] Greco L,Presti L L,Augello A,et al.New Challenges in
Distributed Information Filtering and Retrieval[M].Berlin,Germany:Springer,2013.
[4] Zhang Jihang,Ren Fenghui,Zhang Minjie.Bayesian-based Preference Prediction in Bilateral Multi-issue Negotiation Between Intelligent Agents[J].Knowledge-based System,2015,84(8):108-120.
[5] 蒋国瑞,庞婷.基于多Agent供应链协同的自适应协商方法[J].计算机工程,2014,40(3):188-192.
[6] 申春.基于市场驱动代理和学习机制的自动协商模型研究[D].长春:吉林大学,2012.
[7] Barto A U,Sutton R S,Anderson C W.Neuronlike Adaptive Element That Can Solve Difficult Learning Control Problems[J].IEEE Transactions on Systems,Man and Cybernetics,1983,13(5):834-846.
[8] Konda V R.Actor-critic Algorithms[D].Cambridge,USA:Massachusetts Institute of Technology,2002.
[9] Wang Xuesong,Cheng Yuhu,Yi Jianqiang.A Fuzzy Actor-critic Reinforcement Learning Network[J].Info-rmation Sciences,2007,177(18):3764-3781.
[10] Vamvoudakis K U,Lewis F I.Online Actor-critic Algorithm to Solve the Continuous-time Infinite Horizon Optimal Control Problem[J].Automatics,2010,46(5):878-888.
[11] Shen Chun,Liu Lei,Luo Fan,et al.An Adaptive Market-driven Agent Based on Multi-Agent Reinforce-ment Learning for Automated Negotiation[J].Inter-national Journal of Digital Content Technology and Its Applications,2012,6(2):43-51.
[12] Fehr E,Schmidt K M.A Theory of Fairness,Com-petition,and Cooperation[J].Quarterly Journal of Eco-nomics,1999,114(3):817-868.
[13] Kumar N.The Power of Trust in Manufacturer-retailer Relationships[J].Harvard Business Review,1996,74(6):92-106.
[14] 杜少甫,杜婵,梁樑,等.考虑公平关切的供应链契约与协调[J].管理科学学报,2010,13(11):41- 48.
[15] 浦徐进,朱秋鹰,曹文彬.公平偏好、供应商主导和双边努力行为分析[J].预测,2014,33(1):56-60.
[16] 武玉英,李静,蒋国瑞.基于前景理论的辩论协商研究[J].计算机工程与应用,2015,51(3):239-242,246.
[17] 武玉英,李豪,蒋国瑞.基于RBF神经网络和强化学习算法的供应链产销协同计划冲突消解研究[J].计算机应用研究,2015,32(5):1335-1338,1344.
[18] 王雪松,程玉虎.机器学习理论、方法及应用[M].北京:科学出版社,2009.
[19] 库洪锋,吴清烈.B2B市场中基于Mediator调节的双边协商模型[J].武汉理工大学学报:信息与管理工程版,2012,34(6):781-784,806.
[20] 王沁,李磊,陆成勇,等.平均计算时间复杂度优化的动态粒子群优化算法[J].计算机科
学,2010,37(3):191-194,288.
[21] 朱海燕,朱晓莲,黄頔.基于动态BP神经网络的预测方法及其应用[J].计算机与信息技
术,2007,1(Z1):3-6.。