基于g期望的部分可观测非零和随机微分博弈

合集下载

最优控制课程课件II-6.LQR和微分博弈

最优控制课程课件II-6.LQR和微分博弈
最优控制的数学理论
. .. . . ..
13 / 49
从优化到博弈
博弈论基础 博弈论
定义 1 (函数极小值)
Ω ⊂ RN 是开集。称函数 F ∈ C1(Ω) 在 x 达到局部极小值,若存 在 ϵ > 0 使得:
F (x) ≤ F (x′), if ∥x′ − x∥ < ϵ, ∀x′ ∈ Ω.
定义 2 (纳什平衡 Nash Equilibrium, NE)
最优控制的数学理论
. .. . . ..
10 / 49
博弈论基础 一个例子
引入“相对位置”“相对速度”
令 x := xM − xT , v := vM − vT . 状态方程变为
x˙ = vM − vT = v,
(14)
v˙ = uM − uT .
(15)
终值条件 x(tf ) = 0, v(tf ) free。性能指标不变
1951 年起,Rand 公司在美国空军资助下,Rufus Issacs 研究 对抗双方都能自由决策行动的追逃问题,形成了微分博弈的 最初研究成果
60-70 年代,微分博弈理论逐渐完善,得到微分博弈值函数 存在性等基础结果;1965 年,Issacs 整理出版了第一部微分 博弈同名专著。也称动态博弈
最优控制的数学理论
. .. . . ..
15 / 49
博弈论基础 反应函数法求解纳什平衡
古诺博弈: 反应函数法求解纳什平衡
例 3 (古诺寡头竞争模型, Cournot Model) 两家公司 i = 1, 2 生产同类产品,生产数量为 qi ≥ 0,生产成本为 c(qi) = cqi,市场上产品单价 p(q) = a − q 与市场上的产品总量 q = q1 + q2 有关。

4微分博弈介绍

4微分博弈介绍

13 / 58
导弹攻击移动目标的最优控制
解: (引入“相对位置”“相对速度”)
x := xM − xT , v := vM − vT . 状态方程变为 ˙ = vM − vT = v, x ˙ = uM − uT . v (20) (21)
终值条件 x(tf ) = 0, v(tf ) free。性能指标不变 转化为和导弹攻击固定目标最优控制完 相同形式的问题,可使 用极值原理或动态规划求解
定理 1 (庞特里亚金极值原理, 1/2)
1
状态方程
x ˙ (t) = f (x(t), u(t), t), x(t0 ) = x0 . (4)
2
容许控制
u∈U ∫
tf
3
最小化性能指标
J (u) = h(x(tf ), tf ) +
g (x(t), u(t), t)dt.
t0
(5)
定义 Hamiltonian
tf
1 2 u (t) dt. 2
(3)
. . .
. .
.
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. .
. .
. .
. .
.
Fei-Yue, Wang (CASIA)
Optimal Control
最优控制介绍
4 / 58
欧拉-拉格朗日方程
∂g d ∂g (x(t), x ˙ (t), t) − [ (x(t), x ˙ (t), t)] = 0. ∂x dt ∂ x ˙ 考察 ∆J = 0 的必要条件:驻值条件 需假定 g 可微 在最优解 x 连续可微时成立
. .

基于微分博弈的可重构机器人系统最优人机交互控制

基于微分博弈的可重构机器人系统最优人机交互控制

2023-11-04contents •引言•基于微分博弈的机器人控制理论•可重构机器人系统设计•最优人机交互控制策略•实验与分析•结论与展望目录01引言随着机器人技术的不断发展,人机交互已成为研究的热点之一。

为了提高机器人的智能和自主性,需要研究最优人机交互控制方法。

背景介绍通过对可重构机器人系统进行最优人机交互控制,可以提高机器人的适应性和灵活性,为未来的智能机器人发展提供重要的理论和技术支持。

意义研究背景与意义现状目前,已有许多研究机构和企业开展了可重构机器人系统的研究,并取得了一定的成果。

其中,基于微分博弈的方法是一种有效的控制方法。

挑战尽管基于微分博弈的方法已被证明是有效的,但仍然存在一些挑战,如如何处理复杂的动态环境、如何保证人机安全交互等问题。

研究现状与挑战研究内容本研究旨在研究基于微分博弈的可重构机器人系统最优人机交互控制方法,包括机器人的可重构性设计、动态环境建模、人机交互策略设计、实验验证等方面。

方法本研究采用理论建模和实验验证相结合的方法,首先对可重构机器人系统和人机交互进行建模,然后设计基于微分博弈的最优控制策略,最后通过实验验证方法的可行性和有效性。

研究内容与方法02基于微分博弈的机器人控制理论微分博弈基本理论微分博弈的定义01微分博弈是一种动态的决策理论,它研究的是在一组行为者之间进行的,具有连续时间状态和连续可微分的收益函数的动态博弈问题。

微分博弈的特点02微分博弈在处理动态决策问题上具有很大的优势,它能够处理多阶段决策问题,并考虑到时间因素对决策的影响。

微分博弈的解法03微分博弈的解法主要包括最优控制理论和动态规划理论,其中最优控制理论主要解决有限时间内的决策问题,而动态规划理论主要解决无限时间内的决策问题。

机器人控制系统的定义机器人控制系统是一种能够根据环境变化来调整自身状态的控制系统,它能够使机器人实现各种复杂的运动和操作。

机器人控制理论机器人控制系统的组成机器人控制系统主要由传感器、控制器和执行器三部分组成。

人工智能领域的随机模型与不确定性推理技术研究

人工智能领域的随机模型与不确定性推理技术研究

人工智能领域的随机模型与不确定性推理技术研究第一章:引言近年来,人工智能技术的发展取得了突破性进展,特别是在计算机视觉、自然语言处理和机器学习等领域。

然而,人工智能系统仍然面临一个重要的挑战,即如何有效处理不完整或不准确的信息。

为了解决这个问题,研究人员开始将随机模型和不确定性推理技术应用于人工智能领域。

第二章:随机模型的概念与应用2.1 随机模型的概念随机模型是一种数学工具,它可以用来描述系统中的随机变量和它们之间的概率关系。

在人工智能领域,随机模型通常用于建模不确定性或复杂性问题。

例如,在自然语言处理中,可以使用隐马尔可夫模型来解决词性标注或语法分析等问题。

在机器学习中,高斯混合模型常常用于聚类或异常检测任务。

2.2 随机模型的应用随机模型在人工智能领域有着广泛的应用。

首先,在计算机视觉领域,随机模型可以用于图像分割、目标识别和图像生成等任务。

其次,在自然语言处理中,随机模型可以用于词性标注、命名实体识别和机器翻译等任务。

最后,在推荐系统和广告投放中,随机模型可以用于对用户行为进行建模和预测。

第三章:不确定性推理技术的概念与方法3.1 不确定性推理技术的概念不确定性推理技术是一种用于处理和推理不完全或不准确信息的方法。

它可以帮助人工智能系统更好地处理现实中存在的各种随机性和不确定性。

不确定性推理技术的核心思想是使用概率或统计方法来描述和表示不确定性信息。

3.2 不确定性推理技术的方法不确定性推理技术的方法主要包括概率推理、贝叶斯网络和蒙特卡洛方法等。

概率推理是一种基于贝叶斯定理的方法,可以用于计算给定观测数据的条件下的不确定性推理。

贝叶斯网络是一种用于建模和推理概率关系的图模型。

蒙特卡洛方法是一种基于概率抽样的方法,可以用于近似计算复杂模型的推理问题。

第四章:随机模型与不确定性推理技术的研究进展4.1 随机模型与不确定性推理技术的研究现状随机模型与不确定性推理技术的研究已经取得了一系列重要进展。

人工智能之模式识别_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

人工智能之模式识别_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

人工智能之模式识别_北京理工大学中国大学mooc课后章节答案期末考试题库2023年1.采用非线性激活函数可以实现感知器解决非线性分类问题。

参考答案:错误2.下列关于最大池化的说法中错误的是?参考答案:LeNet采用的是最大池化方法3.填充树法由顶向底的方法和由底向顶填充相反。

参考答案:正确4.语言可以是无限的但是句子必须是有限的。

参考答案:正确5.文法是由下列哪些参数构成的?参考答案:起始符S_终止符V_T_非终止符V_N_产生式P6.感知器算法应用什么方法求解准则函数的最优值?参考答案:梯度下降法7.下列关于对比散度算法的说法中错误的是?参考答案:深度信念网中多层受限玻尔兹曼机同时通过对比散度算法完成预训练8.下列选项中,属于模式识别系统的环节是?参考答案:分类器训练_模式采集_分类决策_预处理与特征生成9.分类器函数的VC维h越大,将使下列选项中的哪些数据发生变化?参考答案:置信风险越大_结构风险越大_分类器泛化能力越差10.利用SVM将低维空间中的非线性问题映射到高维空间,存在哪些问题?参考答案:不确定需要映射到多少维的空间上,非线性问题才会转化为线性问题_如何找到合适的映射函数φ_增加计算量,可能会因为维数灾难无法解决11.本课程中介绍的与句法模式识别相关的基本概念有?参考答案:字母表_句子(链)_文法_语言12.下列选项中属于贝叶斯分类器的特点的是?参考答案:分类决策存在错误率_先验概率已知,以新获得的信息对先验概率进行修正13.贝叶斯分类器的训练,是从样本集数据中估计出____。

参考答案:类条件概率_先验概率14.下列选项中属于特征降维的优点的是?参考答案:降低模式识别任务的复杂度_提升分类决策的正确率_用更少的代价设计出更加优秀的模式识别系统15.下列说法中正确的是?参考答案:聚类结果受特征选取和聚类准则的影响_数据聚类没有预先分好类的样本集_聚类结果受各特征量纲标尺的影响_数据聚类没有已知的分类决策规则16.设计一个组合分类器需要满足什么要求?参考答案:每个基分类器的训练集和训练结果要有差异_组合分类器需要重点考虑方差和偏差_基分类器的分类正确率大于50%17.下列选项中属于决策树分类器的特点的是?参考答案:需选择分支后两个子节点纯度最高的特征作为一个节点的测试特征_速度快,分类决策规则明确_未考虑特征间的相关性_有监督学习方法18.下列选项中属于Adaboost算法的特点的是?参考答案:异常数据(离群点)影响大_不易实现并行化训练_只能解决二分类问题_算法的组合过程能减小偏差19.下列选项中属于反馈型神经网络的是?参考答案:Hopfield网络_受限玻尔兹曼机20.调节以下哪些部分可以对神经网络的性能造成影响?参考答案:权值_激活函数_隐层单元_阈值21.下列选项中关于前馈网络和反馈网络的说法中正确的是?参考答案:前馈网络输出不作用在网络的输入中_前馈网络为静态网络_反馈网络下一时刻的输出与上一时刻的输出有关_反馈网络为动态网络22.下列选项中属于BP网络的不足的是?参考答案:容易陷入局部极小值_全连接网络计算大_隐层神经元数量难以确定_无法做到深度很深,会产生梯度消失23.下列选项中属于深度学习的特点的是?参考答案:需要大量样本进行训练_逐层抽象,发现数据集的特征_是层数较多的大规模神经网络_需要大规模并行计算能力的支持24.利用链式求导法则需要哪些信息?参考答案:损失函数与网络输出向量之间的函数关系_激活函数输出对净激励的导数25.深度信念网不能用于图像识别的原因是?参考答案:深度信念网为一维向量输入,不能直接用于二位图像_需要进行认知-重构的双向计算,学习速度不够快_受限玻尔兹曼机的层间全连接,权值数量太多26.Jp作为类内、类间可分性的概率距离度量时应该满足下列选项中哪些条件?参考答案:当两类完全不可分时,Jp等于0_当两类完全可分时,Jp取得最大值27.特征选择的算法包括以下哪些?参考答案:分支定界法_顺序后退法_穷举法_顺序前进法28.特征降维的方法包括特征选择和特征提取。

基于随机微分博弈的最优投资

基于随机微分博弈的最优投资

d i f f e r e n t i a l g a me b e t we e n t h e n a t u r e a n d i n v e s t o r .Th r o u g h s o l v i n g HJ BI e q u a t i o n s ,t h i s p a p e r d e r i v e d t h e c l o s e d — f o r m e x p r e s —
s i o n s o f o p t i ma l s t r a t e g i e s o f t h e i n v e s t o r a n d t h e o p t i ma l v a l u e f u n c t i o n u n d e r t h e c o mp l e t e ma r k e t a n d i n c o mp l e t e ma r k e t wi t h
随机 微 分博 弈 , 其 中 自然 是 博 弈 的“ 虚拟” 参与者. 利 用 随 机 微 分博 弈 分 析 方 法 , 通 过 求 解 最优 控 制 问题 对
应的 H J B I ( Ha mi l t o n - J a c o b i — B e l l ma n — I s a a c s ) 方程 , 在 完备 市 场 和 存 在 随 机 收 益 流 的 非 完备 市场 模 型 下 , 都
s t oc h a s t i c i n c o me r e s p e c t i v e l y vi a s t o c h as t i c g a me a pp r oa c h e s . The r e s u l t s i n di c a t e t h at t he a m ou nt o f op t i ma l i nv e s t me nt on

证券市场中国内外机构投资者共同参与的随机微分博弈

证券市场中国内外机构投资者共同参与的随机微分博弈

证券市场中国内外机构投资者共同参与的随机微分博弈
潘素娟;李时银;赵佩
【期刊名称】《延边大学学报:自然科学版》
【年(卷),期】2022(48)3
【摘要】基于随机微分博弈理论,建立了一种国内外机构投资者和散户群体参与的连续时间博弈模型.首先将所有散户作为一个整体与国内外机构投资者共同进行博弈,并以博弈各方持股率的动态关系构建动态系统方程,以此构建一个随机微分博弈模型;然后运用纳什均衡求解出满足价值函数的HJB偏微分方程,以此得到随机控制系统的最优策略.该结果可为金融监管部门监管证券市场和证券市场投资者买卖股票提供参考.
【总页数】6页(P229-234)
【作者】潘素娟;李时银;赵佩
【作者单位】福建商学院信息工程学院;厦门大学数学科学学院
【正文语种】中文
【中图分类】O211.6;F830.9
【相关文献】
1.机构投资者参与公司治理的博弈行为研究
2.随机利率下DC型养老金的随机微分博弈
3.证券市场中机构投资者参与上市公司治理的研究
4.中国机构投资者角色的演变——《机构投资者参与公司治理的理论与实证研究》书评
因版权原因,仅展示原文概要,查看原文内容请购买。

微分博弈求解方法

微分博弈求解方法

微分博弈求解方法引言:微分博弈是博弈论中的重要分支,研究的是在连续时间和连续状态空间下的博弈问题。

它通过建立微分方程模型,利用微分方程的解来求解博弈的均衡解。

本文将介绍微分博弈的基本概念和求解方法。

一、微分博弈的基本概念微分博弈是在连续时间和连续状态空间下进行的博弈。

它与离散时间和状态空间下的博弈有着明显的区别。

在微分博弈中,博弈过程是连续的,状态空间是连续的,玩家的策略是连续的。

微分博弈通常用微分方程来描述,其中包括状态方程和策略方程。

二、微分博弈的求解方法1. 静态博弈的求解方法静态博弈是微分博弈的一种特殊情况,即在连续时间和连续状态空间下,只进行一次博弈。

静态博弈的求解方法主要有对称性方法和最优控制方法。

对称性方法是一种常用的静态博弈求解方法。

它基于博弈的对称性,将博弈问题转化为求解微分方程的边值问题。

通过求解边值问题,可以得到博弈的均衡解。

对称性方法适用于具有对称性的博弈问题,但对于一般的博弈问题,其求解过程较为复杂。

最优控制方法是另一种常用的静态博弈求解方法。

它将博弈问题转化为求解最优控制问题。

通过建立最优控制问题的哈密顿-雅可比-贝尔曼方程,可以得到博弈的均衡解。

最优控制方法适用于一般的博弈问题,但求解过程较为繁琐。

2. 动态博弈的求解方法动态博弈是微分博弈的一种常见情况,即在连续时间和连续状态空间下,进行多次博弈。

动态博弈的求解方法主要有最优控制方法和动态规划方法。

最优控制方法是一种常用的动态博弈求解方法。

它将动态博弈问题转化为求解最优控制问题。

通过建立最优控制问题的哈密顿-雅可比-贝尔曼方程,可以得到博弈的均衡解。

最优控制方法适用于一般的动态博弈问题,但求解过程较为复杂。

动态规划方法是另一种常用的动态博弈求解方法。

它将动态博弈问题转化为求解动态规划问题。

通过建立动态规划问题的递推方程,可以得到博弈的均衡解。

动态规划方法适用于一般的动态博弈问题,但求解过程较为繁琐。

三、微分博弈的应用领域微分博弈在经济学、管理学、工程学等领域有着广泛的应用。

资产收益序列相依下的多阶段投资博弈模型

资产收益序列相依下的多阶段投资博弈模型

摘要 :现有投资组合优化研究普遍假设投资者之间相互独立,且假定标的资产在不同阶段的 收 益 序 列 不 具 相 关 性 .然 而 在 实 际 投 资 过 程 中 ,投 资 者 往 往 是 相 互 影 响 ,资 产 收 益 序 列 也 存 在 相依特征•基于多阶段投资组合优化和纳什均衡理论,利用相对绩效来刻画投资者之间的博弈 现 象 ,以每个投资者的相对终端财富的期望效用水平为目标,构建多阶段投资组合博弈模型. 在资产收益序列相依情形下,给出了纳什均衡投资策略和相应值函数的解析表达式,以及纳什 均衡投资策略与传统策略的关系.采用累计经验分布函数和夏普比率等指标,对纳什均衡投资 策略与传统策略进行仿真比较,分析了纳什均衡投资策略随投资者反应敏感系数的变化趋势. 结 果 表 明 :相 比 于 传 统 的 投 资 策 略 ,当 考 虑 竞 争 对 手 的 相 对 绩 效 时 ,纳 什 均 衡 策 略 投 资 者 更 愿 意冒高风险去追求高收益;并且投资者的反应敏感系数越大,其对风险的偏好程度也越高. 关 键 词 :资 产 收 益 序 列 相 依 ;多 阶 段 投 资 组合博弈模型;纳 什 均 衡 ;指数效用函数 中图分类号:F830.59 文献标识码:A 文章编号:1007 - 9807(2019)07 - 0066 - 23
① 收 稿 日 期 :2018-03 - 1 6 ; 修订日期:2019 - 02 - 03. 基金项目:国家自然科学基金资助项目(71771〇82; 7丨8〇1091);湖南省杰出青年科学基金资助项目(2017JJ1012; 山东省自然科学基金资 助 项 目 (ZR2019MG030). 通讯作者:吴士健(1977— ) , 男 ,山东齐河人,副教授. Email: everwsj@ 163. com
第7 期

次线性g-期望的性质及其应用

次线性g-期望的性质及其应用

1 预备知识
设 T是一个给定的正实数,(Bt)t≥0是概率空间 (Ω,F,P)上的 d-维标准布朗运动,(Ft)t≥0是由该布
朗运动生成的完备的 σ域流。对每一个正整数 n,记 |·|为 Rn中 Euclid范数;对任意的 z1,z2 ∈ Rn,记
z1·z2 为向量 z1与 z2的内积;记 L2(Ω,Ft,P)为 Ft -可测且平方可积的随机变量全体;记 L∞ (Ω,Ft,P)为
为了克服金融风险度量方法 VaR的先天性缺陷,ArtznerDelbaenEberHeath[1-2]首次通过公理化假设 的方法开创性地引入了一致性风险度量的概念。DetlefsenScandolo[3]将公理化的风险度量理论发展到条件 风险度量框架下,进而引入了动态风险度量的概念并研究了动态风险度量的时间相容性条件的等价刻画问 题。关于动态风险度量的相关研究请参阅文献 [4-8] 等。山东大学彭实戈院士获得了非线性
考虑如下形式的一维倒向随机微分方程:


∫ ∫ yt =ξ+ tg(s,ys,zs)ds- tzs·dBs, t∈ [0,T]
收稿日期:2019-04-10 基金项目:江苏省自然科学基金青年基金 (BK20150167);安徽大学博士科研启动 (Y040418128);安徽省高校自然 科学研究 (KJ2018A0496,KJ2019A0001) 作者简介:纪荣林 (1984年生),男;研究方向:非线性数学期望;Email:jironglin@ahueducn 通信作者:周津名 (1982年生),女;研究方向:非线性数学期望;Email:zjminguv@163com
需要指出的是,Jiang[12]中关于动态一致性风险度量的相关公理化假设与 DetlefsenScandolo[3]是不一致 的。由此,一个自然的问题是:在 g期望的框架下,关于动态一致性风险度量的这两种定义方式是否是一 致的?在倒向随机微分方程生成元满足基本假设条件的前提下,本文致力于研究 g期望的次线性性与生成 元函数之间的一一对应关系,进而在 g期望框架下证明关于动态一致性风险度量的这两种定义方式是等价 的;进一步地,研究次线性 g期望与其所诱导的时间相容的动态一致性风险度量之间的内在联系。

基于虚拟遗憾最小化算法的非完备信息机器博弈研究

基于虚拟遗憾最小化算法的非完备信息机器博弈研究

摘要从上世纪40年代起,图灵、香农等计算科学的先驱在国际象棋机器博弈上的探索,到近年来,深蓝、AlphaGo引发的全民关注,机器博弈一直以来都是验证计算理论与人工智能理论的试金石。

非完备信息博弈指参与人对某些博弈信息不可知,相比于完备信息博弈,无疑增加了研究的复杂性。

研究非完备信息机器博弈产生的成果,可以应用到广泛的领域中,如军事博弈、商业竞争、金融调控等。

德州扑克是风靡全球的扑克游戏,被认为是非常战略性的,包含非完备信息、随机事件、部分信息可观测等非完备信息博弈特性,成为人工智能研究的试验台。

2015年加拿大Bowling等科学家提出改进的虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)解决了两人限制性德州扑克博弈问题,是非完备信息机器博弈领域的里程碑。

但CFR算法还存在两个问题,一为CFR算法是一种离线自训练算法,无法在实际博弈中计算。

二为CFR算法仅保证在两人零和博弈中计算出近似纳什均衡策略,是否适用于多人博弈还是一个未知数。

本文针对以上两个问题,开展了在线CFR算法和CFR算法应用在多人博弈中的研究。

针对CFR不适用于实时场景的问题,提出一种在线CFR算法。

对CFR算法的流程、计算等进行深入研究,分析原始CFR算法的计算和迭代过程,对比离线与在线的区别,用统计的方法估计对手的策略,得到CFR在线更新策略所需的虚拟遗憾值。

实现的智能体在2016年世界计算机扑克博弈大赛(Annual Computer Poker Competition,ACPC)的两人非限制性德州扑克项目中获得第八名。

针对CFR算法仅限于在两人零和博弈中应用的问题,提出CFR算法应用在三人Kuhn扑克中的解决方案。

通过剖析CFR算法在两人零和博弈中收敛到近似纳什均衡策略的证明,给出CFR算法在3人零和博弈中收敛到近似纳什均衡策略的证明。

通过分析博弈论中纳什均衡概念与极大极小定理在两人博弈与多人博弈的区别,提出CFR算法应用在三人博弈中的解决方案,即使用原始CFR算法离线计算近似纳什均衡策略后,在对弈过程中应用在线CFR算法根据对手动作实时对离线策略进行更改,以便于更好的利用对手弱点,增加己方收益。

基于多智能体强化学习的无人集群协同设计

基于多智能体强化学习的无人集群协同设计

第11卷第6期2020年12月指挥信息系统与技术Command Information System and TechnologyVol.11No.6Dec.2020基于多智能体强化学习的无人集群协同设计∗郑健陈建朱琨(南京航空航天大学计算机科学与技术学院南京211106)摘要:阐述了未来战争中无人集群协同作战的概念内涵和发展现状,分析了基于强化学习的无人集群协同的特点,提出了基于多智能体强化学习的集中训练‑分布执行的无人集群协同设计方案,完成了集群分散任务的场景建模和奖励设计,并在Player/Stage平台进行了仿真试验。

仿真试验表明,使用多智能体强化学习的方法可实现无人集群协作。

最后,展望了无人集群作战技术发展方向。

关键词:无人集群;协同控制:强化学习;多智能体强化学习;多智能体系统中图分类号:TP391文献标识码:A文章编号:1674‑909X(2020)06‑0026‑06Unmanned Swarm Cooperative Design Based onMulti‑agent Reinforcement LearningZHENG Jian CHEN Jian ZHU Kun(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing211106,China)Abstract:The concept and the development present situation of unmanned swarm are expounded,the characteristics of unmanned swarm cooperation based on reinforcement learning are analyzed,and the unmanned swarm collaborative design scheme of the centralized training-distributed execution based on multi-agent reinforcement learning is proposed,the scenario modeling and the reward design of the swarm dispersing tasks are achieved,and the simulation experiments are carried out in the Play‑er/Stage platform.The simulation experimental results show the multi-agent reinforcement learning method can be used to achieve the unmanned swarm collaboration.Finally,the development direction of unmanned swarm warfare technology is prospected.Key words:unmanned swarm;cooperative control;reinforcement learning;multi-agent reinforce‑ment learning;multi-agent system0引言随着AIphaGo和AIphaStar等人工智能碾压人类职业选手[1],人工智能技术相继在棋类博弈和即时战略游戏等领域取得突破,已成为人工智能概念提出60年后的一个重要历史时刻,宣告了计算机解决博弈类问题取得突破性进展。

广义随机线性系统的非合作微分博弈及应用研究

广义随机线性系统的非合作微分博弈及应用研究

研究内容、目的和方法
研究内容
研究目的
本文主要研究广义随机线性系统的非 合作微分博弈问题,包括均衡策略的 存在性、唯一性、稳定性以及求解算 法等方面。
通过本文的研究,旨在揭示广义随机 线性系统中非合作微分博弈的本质特 征,为实际问题的解决提供新的思路 和方法。
研究方法
本文采用理论分析和数值仿真相结合 的方法进行研究。首先,建立广义随 机线性系统的数学模型和非合作微分 博弈的理论框架;然后,运用随机分 析、优化理论等工具对均衡策略的存 在性、唯一性、稳定性进行深入分析 ;最后,通过数值仿真验证理论结果 的正确性和有效性。
在广义随机线性系统非合作微分博弈中,首次证明了均衡 的存在性和唯一性,为相关领域的研究提供了重要的理论 支撑。
数值算法的创新
针对广义随机线性系统非合作微分博弈的特点,设计了具 有创新性的数值算法,提高了计算效率和精度,为实际应 用提供了有力支持。
未来研究方向展望
要点一
非线性系统的扩展研 究
目前的研究主要集中在广义随机线性 系统上,未来可以进一步将非合作微 分博弈理论扩展到非线性系统,以更 广泛地应用于实际工程领域。
纳什均衡定义及性质
阐述纳什均衡的定义及其在数学上的性质,如存在性、唯一性、稳 定性等。
广义随机线性系统下的纳什均衡
将纳什均衡的概念引入到广义随机线性系统中,讨论在该系统下纳 什均衡的存在性及其证明方法。
最优策略求解及性质讨论
最优策略的定义及求解方法
01
阐述最优策略的定义,介绍在广义随机线性系统下求
VS
非合作微分博弈模型构建
在非合作微分博弈中,每个参与者都独立 地选择自己的策略,以最大化自己的收益 。构建非合作微分博弈模型需要定义参与 者的收益函数、状态方程和约束条件等。

基于Expectimax搜索与Double DQN的非完备信息博弈算法

基于Expectimax搜索与Double DQN的非完备信息博弈算法

2021年3月March 2021第47卷第3期Vol.47 No.3计算机工程Computer Engineering•开发研究与工程应用・文章编号:1000-3428 (2021) 03-0304-07文献标志码:A中图分类号:TP183基于Expectimax 搜索与Double DQN 的非完备信息博弈算法雷捷维】,王嘉旸2,任航1,闫天伟1,黄伟1(1.南昌大学信息工程学院,南昌330031; 2.江西农业大学软件学院,南昌330000)摘要:麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax 搜索算法实现,其剪枝策略与估值函数基于 人工先验知识设计,存在假设不合理等问题。

提出一种结合Expectimax 搜索与Double DQN 强化学习算法的非完备 信息博弈算法。

在Expectimax 搜索树扩展过程中,采用Double DQN 输出的估值设计估值函数并在限定搜索层数内获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝。

在Double DQN 模型训练过程 中,将麻将信息编码为特征数据输入神经网络获得估值,使用Expectimax 搜索算法得到最优动作以改进探索策略。

实验结果表明,与Expectimax 搜索算法.Double DQN 算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更 高,具有更优异的博弈性能。

关键词:Double DQN 算法;Expectimax 搜索;非完备信息博弈;麻将;强化学习中文引用格式:雷捷维,王嘉旸,任航,等.基于Expectimax 搜索与Double DQN 的非完备信息博弈算法[J ].计算机 工程,2021,47(3):304-310,320.英文引用 格式:LEI Jiewei , WANG Jiayang , REN Hang , et al.Incomplete information game algorithm based on Expectimax search and Double DQN[J ].Computer Engineering,2021,47(3): 304-310,320.Incomplete Information Game Algorithm Based on Expectimax Search and Double DQNLEI Jiewei 1, WANG Jiayang 2, REN Hang 1, YAN Tianwei 1, HUANG Wei 1(I.School of 1nformation Engineering ,Nanchang University ,Nanchang 330031, China ; 2.School of Software Engineering , Jiangxi Agricultural University ,Nanchang 330000,China )[Abstract ] As a typical incomplete information game , mahjong is mainly realized by the traditional Expectimax search algorithm , whose pruning strategy and valuation function design based on artificial prior knowledge and thus causeunreasonable assumptions and other problems. This paper proposes an incomplete information game algorithm combining Expectimax search and Double DQN reinforcement learning algorithm. In the process of expanding the Expectimax search tree , the Double DQN output is used to design the estimation function to obtain the branch estimation within the limitednumber of search layers , and the pruning strategy is designed to sort and expand the card playing actions to realize the pruning of the search tree. In the training process of the Double DQN model , the mahjong information is encoded as feature data to input to neural network to obtain the estimation , and the Expectimax search algorithm is used to obtain the optimal action to improve the exploration strategy. Experimental results show that compared with Expectimax searchalgorithm , Double DQN algorithm and other supervised learning algorithms , the proposed algorithm has better game performance with a higher winning rate and score in mahjong gam.[Key words ] Double DQN algorithm ;Expectimax search ;incomplete information game ;mahjong ;reinforcement learningDOI : 10. 19678/j. issn. 1000-3428. 00573090概述理论和方法,是经典的研究领域之一。

未知非线性零和博弈最优跟踪的事件触发控制设计

未知非线性零和博弈最优跟踪的事件触发控制设计

未知非线性零和博弈最优跟踪的事件触发控制设计未知非线性零和博弈最优跟踪的事件触发控制设计摘要:事件触发控制是一种基于事件触发机制的控制方法,能够实时地检测系统状态变化并决定是否更新控制律。

本文针对未知非线性零和博弈最优跟踪问题,提出了一种基于事件触发控制的设计方法。

首先,介绍了非线性零和博弈问题的基本概念和数学模型,分析了该问题的难点和挑战。

然后,详细阐述了事件触发控制的原理和优势,并给出了事件触发控制器的设计流程。

接着,根据非线性零和博弈最优跟踪问题的特点,提出了一种基于事件触发控制的最优跟踪策略。

最后,通过数值仿真验证了所提方法的有效性和性能优势。

关键词:事件触发控制;非线性零和博弈;最优跟踪;控制器设计;数值仿真第一章引言1.1 研究背景和意义在现代控制理论和应用中,非线性零和博弈问题是一个重要且具有挑战性的研究方向。

非线性零和博弈是指多个参与者通过制定最优策略来追求自身利益的决策过程。

然而,由于非线性系统的复杂性和非线性零和博弈的不确定性,如何设计一种高效且鲁棒的控制方法来实现最优跟踪一直是一个难题。

1.2 研究目的本文旨在提出一种新颖的控制方法,能够针对非线性零和博弈最优跟踪问题进行事件触发控制的设计。

通过事件触发机制的实时检测和更新控制律,提高系统的控制性能和稳定性。

第二章非线性零和博弈的基本概念和数学模型2.1 非线性零和博弈的基本概念非线性零和博弈是指多个参与者通过制定最优策略来追求自身利益的决策过程。

在非线性零和博弈中,每个参与者的决策会受到其他参与者的影响,从而形成一种策略与策略的竞争。

2.2 非线性零和博弈的数学模型非线性零和博弈的数学模型可以用动态博弈模型来描述。

动态博弈模型包括参与者的策略和收益函数,以及参与者之间的决策关系。

通过求解动态博弈模型的解析解,可以得到最优的策略和收益。

第三章事件触发控制的原理和优势3.1 事件触发控制的原理事件触发控制是一种基于事件触发机制的控制方法,通过对系统状态变化的实时检测,决定是否更新控制律。

结合模糊聚类和合作竞争博弈的优化方法

结合模糊聚类和合作竞争博弈的优化方法

结合模糊聚类和合作竞争博弈的优化方法陈加明1 宋小文2 徐 浩21.杭州职业技术学院,杭州,3100002.浙江大学,杭州,310027摘要:针对多目标优化问题转化为博弈问题的难点,即博弈问题的各博弈方战略集的确定问题,利用均匀设计试验法㊁回归分析和F 检验为模糊聚类提供数据基础,将多目标优化设计与博弈分析结合起来,提出了一种多目标优化方法㊂以减速器优化设计为例,对该方法的性能进行了分析与验证,并与传统单目标优化方法进行对比分析㊂结果表明,该方法收敛速度快,计算效率高,无需人为确定各目标权重,具有工程应用价值㊂关键词:模糊聚类;合作竞争博弈;均匀设计;回归分析中图分类号:T G 122 D O I :10.3969/j.i s s n .1004132X .2015.16.009O p t i m i z a t i o nM e t h o dB a s e d o nF u z z y C l u s t e r i n g a n dC o o p e r a t i v eC o m pe t i t i o nG a m e C h e n J i a m i n g 1 S o n g Xi a o w e n 2 X uH a o 21.H a n g z h o uV o c a t i o n a l a n dT e c h n i c a lC o l l e g e ,H a n gz h o u ,3100002.Z h e j i a n g U n i v e r s i t y ,H a n gz h o u ,310027A b s t r a c t :A i m i n g a t t h e d i f f i c u l t y o f t r a n s f o r m i n g m u l t i ‐o b j e c t i v e o pt i m i z a t i o n p r o b l e mt o g a m e p r o b l e m w h i c hw a s a b o u t d e t e r m i n i n g t h e s t r a t e g y s e t f o r e a c h p a r t i t i o n o f g a m e p l a y e r s ,am u l t i ‐o b j e c t i v e o pt i m i z a t i o n m e t h o dw a s p r o p o s e db y u s i n g u n i f o r md e s i g n e x p e r i m e n t a t i o n ,r e g r e s s i o n a n a l y s i s a n dF t e s t s t a t i s t i c t o o b -t a i nd a t a b a s e s f o r f u z z y c l u s t e r i n g a n d c o m b i n i n g c o o p e r a t i v e c o m p e t i t i o n g a m e .T a k i n g r e d u c e r d e s i g no p t i -m i z a t i o n a s a n e x a m p l e ,p e r f o r m a n c e o f t h em e t h o dw a s a n a l y z e d a n dv e r i f i e d .C o m pa r e dw i t h t h e t r a d i t i o n a l s i n g l e ‐ob j ec t i v e o p t i m i z a t i o nm e t h od ,t he e x p e r i m e n t a l r e s u l t s s h o wt h a t t h em u l t i ‐o b je c t i v em e t h o dh a sf a s t c o n v e rg e n c e r a t e a n dhi g h c o m p u t a t i o n a l e f f i c i e n c y ,a n d i t i s u n n e c c e s s a r y t o d e t e r m i n e t h ew e i g h t o f e a c h t a r -g e t ,w h i c hh a s e n g i n e e r i n g a p pl i c a t i o n v a l u e s .K e y wo r d s :f u z z y c l u s t e r i n g ;c o o p e r a t i v e c o m p e t i t i o n g a m e ;u n i f o r md e s i g n ;r e g r e s s i o n a n a l y s i s 收稿日期:201504020 引言科学实践㊁工程设计及社会生产和经济发展中的许多问题都可以描述为优化问题,由于实际问题的复杂性,一般是具有多个优化目标㊁多个约束条件的多目标问题㊂现有的经典多目标优化解法主要都归结于多目标的线性组合,对P a r e t o 最优前沿的形状很敏感,不能处理前沿的凹部,优化效率非常低,时间成本高,计算量巨大,并且求解问题时由于难以获得与应用背景相关的启发式知识信息,从而使优化效果差或者无法正常实施优化,尤其对于大规模问题,这些传统的多目标优化方法的应用非常少[1]㊂多目标优化设计中,各目标之间一般是冲突的[2]㊂为了调和这些冲突,就需要以某种方式来解决各目标之间的矛盾㊂而博弈论是研究决策主体的行为在直接相互作用时,如何进行决策以及这种决策如何达到均衡的方法,目前博弈论在工程设计领域的应用已经越来越多㊂鉴于多目标优化问题和博弈问题的相似性,可以将博弈论思想和方法引入到工程多目标优化设计问题的求解之中,以克服传统多目标优化设计问题求解方法的不足㊂谢能刚等[3‐4]根据N a s h 均衡模型和S t a c k e l b e r g 寡头博弈模型,建立了多目标博弈设计的技术路线和关键指标,并在补偿滑轮组变幅机构㊁汽车被动悬架系统的多目标优化设计中成功应用㊂现有多目标优化问题的博弈分析中,将设计变量集合转化为各博弈方战略集的一般转化方法是:采用层次分析法[5]或者直接求解目标对设计变量的偏导数来得到各设计变量对各目标的影响因子矩阵,再对影响因子矩阵进行模糊分类得到其等价矩阵㊂层次分析法受主观影响较大;直接求解偏导数只能适用于目标函数可导的情况,适用范围小㊂因此,本文将均匀设计试验法应用于机械产品多目标优化设计博弈分析的博弈方战略集中,采用均匀设计试验法得到各设计变量对目标的影响因子指标,然后依据模糊聚类法对设计变量进行聚类,最终得到各博弈方的战略集㊂该方法弥补了现有方法的不足,且不要求目标函数和各约束连续可导,可用来分析离散优化问题,扩大了方法的适用范围㊂㊃9712㊃Copyright ©博看网. All Rights Reserved.1 博弈战略集的划分数据基础1.1 机械产品多目标优化的博弈描述对于一个工程实际问题,目标函数㊁设计变量和约束条件都确定以后,其最优化数学模型基本确定,多目标优化设计问题的数学模型一般表示为[6]:m i n F(X)=(f1(X),f2(X), ,f m(X))s.t. a i≤x i≤b i i=1,2, ,nh l(X)=0 l=1,2, ,pg k(X)≤0 k=1,2, ,q式中,X为设计变量,X=(x1,x2, ,x n);a i㊁b i为设计变量x i的下限和上限;n为设计变量的个数;m为优化目标的个数;f m(X)为第m个子目标;p为等式约束的个数;q为不等式约束的个数㊂对于n个博弈方的博弈可以表示如下[7]:①有限集P表示博弈方;②S i={s1,s2, ,s m}表示博弈方i的战略集;③S={S1,S2, ,S n}为所有博弈方的战略空间;④收益函数U为所有博弈方战略效用到实数空间的一个函数映射㊂因此,可以用G= {P,S,U}来表示该博弈㊂1.2 基于均匀设计、回归分析和F检验的数据分析要采用均匀设计试验法[8]得到各设计变量对目标的影响因子指标,首先要根据试验目的确定试验指标,然后选择试验因素水平和均匀设计表,制定试验方案,对试验结果进行回归分析和检验㊂均匀设计的关键是要建立多因素的回归模型㊂回归分析统计分析方法可以定量地分析多种变量的相互依赖关系㊂通过自变量和因变量的回归模型可以对设计变量进行重要性分析,可以估算新型条件下的试验结果,还可以对已有结果进行优化㊂若设计试验有m个因素,优化目标y关于因素集X的二次多项式回归模型为[9]y=β0+∑m i=1βi x i+∑m i=1βi i x2i+∑m i=1βi j x i x j+ε其中,β0㊁βi㊁βi i㊁βi j为回归系数;ε为随机误差㊂通过F检验可以对均匀设计试验进行检验㊂F检验服从F分布,可以用来检验均数差别的显著性,分析多个因素的相互作用大小以及分离各个因素,检验方差齐性等[10]㊂2 结合模糊聚类和合作竞争博弈分析方法2.1 模糊聚类方法模糊聚类的数学模型如下:n个样本数据集矢量X=(x1,x2, ,x n)聚合为m个类别,模糊聚类矩阵U=[u j f]m×n,其中u j f代表该样本x f对第j个类别的同意度㊂通常,最高的同意度决定了该样本应该属于哪一类㊂基于模糊等价关系的模糊聚类法,其传递闭包方法一般是:建立数据矩阵并将数据标准化,进而建立模糊相似矩阵,再传递闭包聚类㊂由模糊矩阵R,求传递闭包t(R),R=t(R)为模糊等价矩阵,t(R)为包含R而又被任一包含R 的传递矩阵所包含的传递矩阵㊂在给定置信度下就可以进行特定数目的聚类,从而把多目标问题转化为合作竞争博弈问题,应用合作竞争博弈思想求解㊂2.2 合作竞争博弈优化结合模糊聚类和合作竞争博弈分析方法步骤如下:(1)建立多目标问题的数学模型,确立多目标优化问题的设计变量㊁目标函数和约束条件,通过均匀设计试验和回归分析得到各设计变量对各设计目标的影响因子矩阵,并进行传递闭包转化,成功转化多目标问题为博弈优化问题,求得策略集组合S={S1,S2, ,S m}㊂(2)在策略集S中,确定该博弈优化G(S)的初始策略集S(0)={S(0)1,S(0)2, ,S(0)m},即博弈分析的初始化㊂(3)确定各博弈参与方收益模型㊂记S(0)= {S(0)1,S(0)2, ,S(0)m}为S(0)1,S(0)2, ,S(0)m在S(0)中相应的补集的集合㊂各博弈参与方的收益为U i=w i i u i+∑m j=1(j≠i)w i j^u i j∑m j=1w i j=1,w i j=w j ii,j=1,2, ,m其中,u i为博弈参与方i采取行动策略时,博弈参与方i的收益;^u i j(j=1,2, ,i-1,i+1, ,m)为博弈参与方i采取行动策略时,博弈参与方j的收益;w i j为权系数㊂(4)求解博弈参与方i最优策略S*i㊂首先对各个博弈参与方进行单目标优化,以博弈参与方的收益u1(S),u2(S), ,u m(S)为优化目标,固定各个博弈参与方的初始值补集S(0)1,S(0)2, , S(0)m,在策略集S1,S2, ,S m中进行相应优化设计,求解任意博弈参与方i(i=1,2, ,m)的最优策略S*i,使博弈收益m i n U i(S*i,S1(0))=w i i u i+∑m j=1(j≠i)w i j^u i j并满足约束条件㊂㊃0812㊃Copyright©博看网. All Rights Reserved.(5)博弈收敛循环计算㊂有S(1)=S*1∪S*2∪ ∪S*m,计算两个策略的距离能否满足收敛法则‖S(1)-S(0)‖≤ε㊂如果满足收敛法则,则博弈结束;如果不满足,则以S(1)替换S(0),转步骤(3),重新进行循环计算,直到满足收敛法则㊂3 减速器高速级传动的优化设计以带式输送机减速器的高速级齿轮传动为例进行优化设计㊂已知输出功率P1=10k W,小齿轮转速为n1=960r/m i n,传动比i=3.2(齿数比u= i)㊂驱动方式为电动机驱动,假设每年365个工作日,工作15年,两班倒㊂假设工况是带式输送机工作平稳,转向保持不变㊂减速器的三个设计目标为齿轮啮合重合度(f1)㊁齿轮体积(f2)㊁接触疲劳安全度(f3,即接触疲劳极限应力与接触疲劳许用应力之比)㊂理想的状态是通过优化设计变量,使得重合度达到最大,同时减小体积并使安全度尽可能大㊂4个设计变量分别为模数x1㊁主动轮齿数x2㊁载荷系数x3㊁齿宽系数x4㊂因此,选用均匀设计试验U7(74),对应因素水平得到均匀试验结果,如表1所示㊂对均匀设计试验进行回归分析计算,回归表1 均匀设计试验结果水平均匀设计因素目标结果均值模数x1(m m)齿数x2载荷系数x3齿宽系数x4目标f1目标f2(m3)目标f311251.21.31.7120000.0016330.742109 21.25371.51.21.7664860.0095441.474858 31.5171.11.11.6329410.0014662.236718 42291.411.7351720.0156871.804891 52.54110.91.7775600.0779281.422143 62.75211.30.81.6800000.0123881.248581 73331.60.71.7527270.0546081.203454分析结果中,目标函数f1㊁f2㊁f3的回归分析F值分别为F1=29.7220,F2=111.4113,F3= 48.2889,查F检验表,得到F(4,3)=9.12,回归分析F值结果与检验表数据对比,F1>9.12, F2>9.12,F3>9.12,因此均匀试验设计结果可靠,由此可以得到减速器4个设计变量对3个目标函数的回归分析的系数结果矩阵为R=0.1023370.0336890.0115760.011576 0.1938230.0308240.0129070.012907 0.5335830.0109240.008690.éëêêêùûúúú00869由得到的回归系数矩阵,可以得到模糊相似矩阵为R*=1.0000000.9770140.8722470.7545350.9770141.0000000.8517150.7315490.8722470.8617151.0000000.8698340.7545350.7315490.8698341.éëêêêêêùûúúúúú000000用MA T L A B编程,根据模糊聚类传递闭包的原则可以得到,减速器模糊聚类的传递闭包矩阵为t(R)=1.00000.97700.87220.86980.97701.00000.87220.86980.87220.87221.00000.86980.86980.86980.86981.éëêêêêêùûúúúúú0000由传递闭包矩阵可以看出,令置信度λ=0.99,模糊聚类矩阵为R0.99=110011000010éëêêêêêùûúúúúú0001因此,可以对4个设计变量聚类为:{1,2}㊁{3}㊁{4},应用本文的方法,得到优化结果如表2所示㊂合作竞争博弈优化迭代的过程设计变量x1㊁x2㊁x3㊁x4如图1所示,目标f1㊁f2㊁f3的博弈迭代结果如图2所示㊂表2 减速器博弈优化结果博弈回合x1(mm)x2x3x4f1f2(m3)f31(初始值)1171.01.01.630.0003950.14712412301.40.71.740.0277861.47485823.3241.40.71.7050.0639072.23671832.7301.41.151.740.0683651.80489142.3301.41.1451.740.0422591.42214352.2301.41.31.740.0369831.24858062.3281.41.31.730.0343581.20345472.3281.41.31.730.0343581.203454图1 4个设计变量的合作竞争博弈优化迭代过程4 计算结果比较及结论本文设计得到的结果与传统的减速器设计结果[11]进行对比,如表3所示㊂基于权重的多目标优化方法中,对于三个目标权重分别为0.333,编程求得的优化结果见表4㊂该优化结果表明,本文的方法在齿面接触㊁齿根弯曲强度等多种约束条件下,通过增大齿数,增加了减速器传动的重合度,使得传动的时候啮合更平稳,减少了减速器的跑偏㊁㊃1812㊃Copyright©博看网. All Rights Reserved.图2 3个目标的合作竞争博弈优化迭代过程漏料以及异常噪声等现象㊂增大齿数的同时,减少模数,减小了齿轮加工的时候金属的切削量,节省了制造费用,提高了减速器的工程经济性能㊂降低齿宽系数使得体积减少很多,但是因为齿数的增大,齿宽影响不大,不影响齿轮的承载能力㊂表3 本文设计和传统优化设计结果对比优化设计x1(mm)x2x3x4f1f2(m3)f3传统设计3241.41.01.7050.0301.084本文方法(圆整后)2301.60.71.7400.0271.475优化(%)2.0510.336.07表4 本文设计和基于权重的多目标优化结果对比多目标优化x1(mm)x2x3x4f1f2(m3)f3基于权重多目标优化3.1211.00.781.6800.0170.974本文方法(圆整后)2301.60.71.7400.0271.475优化(%)3.57-58.2451.44 本文通过均匀设计试验得到各设计变量对所有目标的影响因子指标,再利用模糊聚类进行分类,实现各博弈方战略集的划分,将多目标优化问题转化为博弈问题;在此基础上提出一种机械产品多目标优化设计方法(即多目标优化设计博弈分析方法),算例结果验证了该方法的可行性㊂与传统的优化设计方法相比,该方法不需要人为确定各目标的权重,可以用于离散问题的优化,计算效率高,具有工程应用价值㊂参考文献:[1] 唐焕文,秦学志.实用最优化方法[M].大连:大连理工大学出版社,2004.[2] S a w a r a g i Y,N a k a y a m a H,T a n i n o T.T h e o r y o fM u l t i‐o b j e c t i v eO p t i m i z a t i o n[M].N e w Y o r k:A c a-d e m i cP r e s s,1985.[3] 谢能刚,方浩,包家汉,等.博弈决策分析在补偿滑轮组变幅机构多目标设计中的应用[J].机械强度,2005,27(2):202‐206.X i e N e n g g a n g,F a n H a o,B a oJ i a h a n,e ta l.G a m eA n a l y s i so f M u l t i‐o b j e c t i v eD e s i g no nI u f f M e c h a-n i s mo fC o m p e n s a t i v eS h e a v eB l o c k[J].J o u r n a lo fM e c h a n i c a l S t r e n g t h,2005,27(2):202‐206. [4] B a oJH,X i eN G,C e nY W,e t a l.M u l t i‐o b j e c t i v eO p t i m i z a t i o nD e s i g no fP a s s i v eS u s p e n s i o nP a r a m e-t e r sB a s e do nC o l l u s i o nC o o p e r a t i o n G a m eT h e o r y[C]//20108t h W o r l dC o n g r e s so nI n t e l l i g e n tC o n-t r o la n d A u t o m a t i o n,W C I C A2010.J i n a n,2010: 118‐125.[5] 刘亚相,孙洪罡,王丽波,等.多目标博弈的模糊求解法[J].西北农林科技大学学报(自然科学版), 2004,32(10):149‐152.L i uY a x i a n g,S u nH o n g g a n g,W a n g L i b o,e t a l.F u z z-y S o l u t i o ni n M u l t i o b j e c t i v e G a m e s[J].J o u r n a lo fN o r t h w e s tS c i‐T e c h U n i v e r s i t y o fA g r i c u l t u r ea n dF o r e s t r y,2004,32(10):149‐152.[6] 方世杰,綦耀光.机械优化设计[M].北京:机械工业出版社,2003.[7] W uJ i e.C o o p e r a t i o n w i t hC o m p e t i t o r sa n dP r o d u c tI n n o v a t i o n:M o d e r a t i n g E f f e c t s o fT e c h n o l o g i c a l C a-p a b i l i t y a n d A l l i a n c e s w i t h U n i v e r s i t i e s[J],I n d u s-t r i a lM a r k e t i n g M a n a g e m e n t,2014,43(2):199‐209.[8] 刘永才.均匀设计及其应用[J].战术导弹技术,2002(1):58‐61.L i u Y o n g c a i.U n i f o r m D e s i g na n dI t s A p p l i c a t i o n[J].T a c t i c a lM i s s i l eT e c h n o l o g y,2002(1):58‐61.[9] L u l i c H,C i v i c A,P a s i c M,e ta l.O p t i m i z a t i o no fT h e r m a l I n s u l a t i o na n dR e g r e s s i o nA n a l y s i s o f F u-e l C o n s u m p t i o n[J].P r o c e d i aE n g i n e e r i n g,2014,69(3):902‐910.[10] 韦艳玲.基于F检验的模糊聚类小额农贷款信用风险预测[J].安徽农业科学,2011,39(1):565‐566,597.W e iY a n l i n g.P r e d i c t i o no fC r e d i tR i s ko f M i c r o‐l o a n s t oF a r m e rb y U s i n g F u z z y C l u s t e r i n g B a s e do n F T e s t[J].J o u r n a l t o A n h u iA g r i c u l t u r a lS c i-e n c e s,2011,39(1):565‐566.597.[11] 杨可桢,程光蕴,李仲生.机械设计基础[M].北京:高等教育出版社,2006.(编辑 王旻玥)作者简介:陈加明,男,1970年生㊂杭州职业技术学院友嘉机电学院副教授㊂主要研究方向为模具设计㊁模具C A D/C A M等㊂获国家教学成果2等奖1项,浙江省教学成果1等奖1项,发表论文10余篇㊂宋小文,女,1967年生㊂浙江大学机械工程学院副教授㊂徐 浩,女,1990年生㊂浙江大学机械工程学院硕士研究生㊂㊃2812㊃Copyright©博看网. All Rights Reserved.。

基于Choquet积分的多目标模糊两人零和博弈Nash均衡

基于Choquet积分的多目标模糊两人零和博弈Nash均衡

基于Choquet积分的多目标模糊两人零和博弈Nash均衡逄金辉;张强
【期刊名称】《北京理工大学学报》
【年(卷),期】2008(28)12
【摘要】利用Choquet积分研究了多目标模糊两人零和博弈Nash均衡问题.引入gλ测度描述任意博弈目标子集的重要程度,建立了基于gλ测度Choquet积分的多目标模糊博弈集结矩阵,验证了该博弈集结矩阵的Nash均衡也是各单目标模糊两人零和博弈的Nash均衡.
【总页数】4页(P1125-1128)
【关键词】模糊两人零和博弈;Choquet积分;gλ测度;Nash均衡
【作者】逄金辉;张强
【作者单位】北京理工大学信息资源管理研究所;北京理工大学管理与经济学院【正文语种】中文
【中图分类】O159
【相关文献】
1.基于T-S模糊建模思想的一类双人非线性非合作微分博弈的Nash均衡解 [J], 丘志鸿;翁瀚;张成科
2.基于Nash均衡博弈模型的铣削参数多目标优化设计 [J], 徐立哲;岑豫皖;谢能刚;韩延祥
3.基于Choquet积分的直觉模糊联盟合作博弈的Shapley值 [J], 南江霞; 关晶;
王盼盼
4.模糊多目标两人零和博弈的Pareto策略 [J], 逄金辉;张强
5.Fuzzy-Val模糊值Choquet积分(Ⅱ)——函数关于模糊值模糊测度的Choquet 积分(英文) [J], 郭彩梅;张德利
因版权原因,仅展示原文概要,查看原文内容请购买。

无线多跳网的一种端到端的最大最小公平调度算法

无线多跳网的一种端到端的最大最小公平调度算法

收稿日期:2007-04-26 作者简介:秦晓卫,男,1979年生,讲师,博士研究生,研究方向为无线通信及无线网中资源分配;徐佩霞,女,1941年生,教授,博士生导师,研究方向为无线通信与信号处理.无线多跳网的一种端到端的最大最小公平调度算法秦晓卫,徐佩霞(中国科学技术大学电子工程与信息科学系,安徽合肥,230027)E-mail:qinxw @us tc.ed 摘 要:提出一种基于效用函数的分布式最大最小公平性调度算法及其跨层控制模型,算法针对无线多跳网中端到端的流,通过对偶规划以及拉格朗日松弛算法把问题分解成传输层和M A C 层两个子问题,在传输层上采用基于最大价格的最大最小公平速率分配方案来交叉控制M AC 层的调度,给出了跨层层控制模型.仿真结果表明该算法具有良好的公平性和调度性能.关键词:最大最小公平性;调度;M ax Net ;对偶规划;拉格朗日松弛中图分类号:T N 915.65 文献标识码:A 文章编号:1000-1220(2008)09-1664-05Scheduling Algorithm for End -to -end Max -min Fairness in Wireless Multi -hop NetworksQ IN Xiao -w ei,XU P ei-x ia(De p ar tment of E lectronic Eng ineer ing and I nf ormation Sc ience ,Univ er sity of S cience and T echnology of China ,H e f ei 230027,China )Abstract :A utility functio n based distr ibuted scheduling algo rithm and cr o ss-lay er contr ol model for max -min fair ness w as pro -po sed .T he algo rithm w as desig ned for end -t o -end f lo w in wireless multi -hop netw or ks .With dual pro gr amming and L agr ange relax ation,ma x -min fair r ate allo cat ion schedule was decompo sed into tw o subpro blems o f t ranspo rt layer a nd M AC lay er .T hescheduling policy of M A C layer w as built on m ax -pr ice based max -min fair ra te allocatio n scheme o f tr anspo rt layer .T he cr oss -layer co ntr o l model w as pro vided.Simulat ion result show s that pro po sed alg or it hm has g oo d fair ness and pr etty scheduling per -for mance .Key words :max -min fairness;scheduling ;M ax Net ;dual pro gr amming ;lagr ange r elaxat ion1 引 言随着无线多跳网逐渐由实验阶段发展到商业应用,为网络用户合理有效的分配带宽成为一个重要的研究方向,该问题的主要障碍来自于共享无线媒质传输的空间竞争.空间竞争可从物理层和M A C 层来考虑,针对物理层而言,单信道下空间竞争激烈,多信道则相对缓和.但多信道下也存在着空间竞争,一般终端节点只装备一个收发器,因此它不能同时发送或者接收;针对M A C 层,现有随机分布式M A C 协议虽然具有分布特点和一定机动性,但这种随机接入的M A C 协议无法提供带宽分配的保证[1],建立一个无冲突的公平调度是M A C 协议的目标之一,所谓无冲突公平调度就是在保证流公平性基础上,任意时刻处于工作状态的无线链路之间互不干扰.寻找一个完美的无冲突公平调度是一个困难的问题,已有的很多文献研究了最大最小公平调度算法[2-5].文献[5]给出了有线数据网中一种最大最小公平调度策略,但有线网与无线多跳网在资源分配的限制条件方面存在着显著的不同.文献[4]首次以无线网时隙多信道下最大最小公平性为目标,给出了对应的调度策略,但算法部分是集中式的,需要全局信息,这在实际中很难实现,另外它主要针对单跳流.文献[3,4,6]是一类基于最大化效用函数的资源分配算法,[3,4]给出了对应的公平调度算法,这一类方法适用于按比例公平性,对于最大最小公平调度,由于效用函数参数取值的问题,算法收敛非常缓慢.本文主要考虑无线网络中端到端多跳流的最大最小公平性,采用对偶理论将问题分解成源端传输层子问题和M AC 层子问题,在源端传输层上采用M a xN et 控制模式实现最大最小公平性速率分配,并通过链路和集群价格因子与M AC 层的调度问题进行交叉控制,最后给出其跨层控制模型.2 最大最小公平性以及系统描述本文中,假设无线节点只有一个无线收发器因而不能同时接收和发送,无线节点之间干扰是互相的,基于以上的假设,一个无线多跳网的网络拓扑图可用一个无向图来描述,无向图中,顶点代表无线节点,边代表两节点之间距离小于无线传输距离,一般把这种无向图称为节点图.在无线多跳网中,如果一条链路的源点或者端点在另外一条链路的源点或者端点的干扰范围之内,那么这两条链路相互冲突,基于这些冲突信息,可以把节点图转化成冲突图.在冲突图中,每个顶点代表一条链路,边代表两条链路之间存在着冲突,如图1所示,小型微型计算机系统Jo urnal of Chinese Co mput er Sy st ems 2008年9月第9期V ol.29N o.92008(a )是一个无线多跳网的节点图,(b )是由(a )派生出的流冲突图G ,这里我们引进冲突图中集群和独立集的概念.图1 无线多跳网拓扑图以及流冲突图F ig.1 Wireless multi-ho p net wo rk to po log yand flow conflict gr aph定义1.(集群):集群为冲突图G 的完全子图,极大集群为冲突图G 极大完全子图.定义2.(独立集):独立集为冲突图G 顶点集的子集,其中任意两点不相邻.由以上定义可知,极大集群内同一个时刻只能有一条链路处于工作状态,即集群内的链路分享集群的“容量”,一条链路可同时属于几个极大集群,同一独立集内的链路可同时工作.设L 维矢量y T ={y 1,…,y l ,…,y L },其中y l 代表链路l 上的流速率,设c 0l 为链路l 的最大容量,则链路l 上的归一化速率为y l /c 0l,根据集群定义可以得出某一集群cl i 内可行性速率限制为: ∑ly l /c 0l ≤1 l ∈cl i(1)上述可行性限制可以通过引入竞争矩阵F 来描述,N ×L 竞争矩阵F 定义如下: F nl =1/c 0l l ∈cl n0 other s式(1): Fy ≤1(2)式中1表示一个N 维矢量,注意上式仅在网络节点图为完美图[7]时才是可行性的一个充要条件,否则极大集群的归一化容量要减小到2/3时方可成为一个充要条件[8],一般拓扑结构的可行性限制写为: Fy ≤E(3)式中E 表示一个N 维矢量,有E T={2/3,…2/3,…2/3}.设网络中端到端流用集合S 表示,端到端流速率用S 维矢量x 表示,每个流S 经过的链路集为L s <L ,L ×S 路径矩阵R 定义如下: R ls =1 l ∈L s 0 others端到端流速率矢量x 与单跳流矢量y 的关系为:y =R ・x ,因此式(3)可写为: FRx ≤E (4)Ber tsekas 在[9]中给出了有线网中最大最小公平性定义,根据以上对可行性条件的分析,我们类似的给出无线多跳网中最大最小公平性定义如下:定义3.(最大最小公平性):无线多跳网中,可行的流速率向量x 满足如下条件即为最大最小公平分配:(1)满足可行性;(2)每个端到端的流x s 至少存在一极大集群满足各个流的速率之和为集群最大容量且x s 为该极大集群中的最大流.以上的最大最小公平性可采用最大化效用函数为目标函数,进行非线性规划[3]:设每一个端到端流x s 均可从该速率获得一个效用函数U s (x s ),U s (・)为连续可微递增的严格凹函数,x s ≥0.规划的目标是要寻找一个流矢量x 达到:max x s≥0∑sU s (x s )s .t . FRx ≤E(5)上式中效用函数直接关系着系统能达到怎样的公平性,常见的效用函数如下[10]:U s (x s )=f A (x s )=log x s A =1(1-A )-1x 1-As A≠1(6)文献[10]A 决定,当A =0时,系统追求最大吞吐量;当A =1时,系统追求按比例的公平性目标;当A →∞时,系统追求最大最小公平性目标.3 基于最大价格的分布式调度算法本节我们首先介绍式(5)的对偶规划并把它分解成两个子问题,其次结合M ax N et 控制模式给出一种分布式最大最小公平调度算法及其交叉层控制模型.3.1 规划的分解调度问题是M A C 层根据某种机制来决定链路何时处于工作状态的一个问题,本文主要研究无线多跳网端到端流的最大最小公平性的调度.研究公平调度之前我们先分析一下式(5)所示的线性规划,这里引入一个辅助L 维矢量c ,矢量中的元素c l 代表链路l 的有效容量或平均容量,式(5)可进一步表示为: ma x x s ≥0,c l ≥0∑s U s (x s )s .t . Rx ≤c &Fc ≤E(7)上式中第一个约束条件代表各条链路上各个流速率之和不超过链路有效容量,第二个约束条件代表各个极大集群内的各链路有效容量之和不超过集群容量.对式(7)进行拉格朗日松弛以及对偶规划[11]得: min p ≥0d (p )d (p )=maxx s≥0,c l ≥0∑s U s (x s )-p T (Rx -c )s .t . Fc ≤E(8)式中L 维矢量p T ={p 1,…p i ,…p L }为拉格朗日算子矩阵,矩阵中各元素实际意义为对应链路价格因子[6],式(8)可进一步分解成两个子问题: d 1(p )=max x s ≥0∑sU s (x s )-p T Rx(9) d 2(p )=max c l ≥0p T c s .t . Fc ≤E(10)16659期 秦晓卫等:无线多跳网的一种端到端的最大最小公平调度算法3.2 基于最大价格的最大最小公平调度算法在将问题分解成两个子问题后,我们对其逐一分析求解.首先观察d 1(p ),由式(9)可知d 1(p )是一个无约束条件的非线性规划问题,这是一个传输层端到端的流量控制问题[6],对其微分求极大值可得各端到端的流的速率: x s =U ø-1s(∑lp l R ls )=D s (∑lp l R ls )(11)式中U ø-1s (・)为U s (・)微分函数的反函数,D s (・)称为需求函数,是一递减函数.其次考虑对d 2(p )的求解,一般分析中,矢量c 可取两种模式,一种是连续流模式,另一种为离散流模式.连续流模式下,矢量c 代表各个链路的有效容量;而实际工作中是一种离散流模式,即每条链路只能存在两种状态:工作状态或空闲状态,即链路容量为最大容量c 0l 或0.约束条件Fc ≤E 对连续流模式为一充分条件,针对离散流模式,根据极大集群定义的某一时刻集群内最多只能有一条链路处于工作状态,约束条件可松弛为Fc ≤1,因此对于离散流模式,d 2(p )可描述为: max c ≥0 p T c s .t . Fc ≤1,c l =0或c l =c 0l ,l ∈L(12)上式描述的问题是一个整数线性规划问题,即在满足集群内无冲突约束条件下求解链路瞬时速率矢量c 使得目标函数最大化,矢量c 中的元素为0或者1,代表对应链路处于空闲或工作状态,这是一个M A C 层无冲突链路调度的问题.首先对目标函数引入一个罚函数D c T c 可得: max c ≥0(p T c -D c T c )(13)式中D 是一个很小的正数,当D →0时,目标函数求解所得结果逼近原始目标函数的最佳值,对上式进行拉格朗日松弛和对偶规划可得: min K ≥0 L (K )L (K )=max c ≥0p T c -D c T c -K T(Fc -1)(14)式中N 维矢量K T ={K 1…K n ,…K N }拉格朗日算子矩阵,矩阵中各元素实际意义为集群价格因子,用梯度法[11]可得c l 和K n 的迭代过程为:c l (t )=(p l -∑nK n (t )F nl )/2D+K n (t +1)=K n (t )+B (∑nF nl c l (t )-1)+(15)式中B 为步长因子,算法收敛所要求的步长因子B 的范围为[6]: 0<B <4D /ON式中O 代表冲突图内集群所包含的链路最大个数,N 代表包含同一链路的最大集群数目.我们把网络运行时间分为若干个连续的时隙T s lot ,在一个时隙中根据式(15)逐步迭代,选取合适的时隙大小可使得式(15)在一个时隙内迭代达到收敛,根据收敛后的各链路容量c l 与设定门限值为c 0l /2比较来判定c l 取0或者c 0l ,即以此来确定下一时隙各个链路的工作状态,故以上算法可作为对应的M A C 层调度策略.由式(15)可知当算法收敛时,该时刻有p l →∑nK n (t )F nl ,故式(11)可写为: x s (t )=D s (∑l∑nK n (t )F nl R ls )(16)上式表明源端控制流速率取决于反馈回各链路所属集群的价格之和,这是一种SumN et 的控制模式[12],该模式对于最大最小公平速率分配存在着收敛速度过慢的缺点.由式(6)可知,当A →∞时代表系统追求最大最小公平流速率分配,对应的需求函数D s (p )=U ø-1s =p -1/A,需求函数的梯度为d dpD (p )=-1Ap 1-A A ,当A →∞时,梯度对于任意的p 均趋向于0,即意味着算法以缓慢的速度收敛至最大最小公平.为克服SumN et 控制模式对于最大最小公平性收敛过慢的缺点,本文采用M ax Net 控制模式[12,13].文献[12]中指出M ax Net 控制模式下,若源端采用端到端路径上所有链路的最大价格做为反馈信息,则任意单调递减的需求函数均可实现最大最小公平性速率分配.对于有线网络反馈信息指所经链路的最大价格,本文中对于无线网络则为所经集群的最大价格,如图2所示,式(16)对应的流价格q s 为: q s =max l ,nK n (t )F nl R ls(17)对应的源端速率为: x s (t )=D ~s (max l ,nK n (t )F nl R ls )(18)式中D ~s(・)为一任意递减函数.图2 M ax N et 控制模式Fig.2 M ax N et contr ol mo de式(9)、(10)中d 1(p )可微,但d 2(p )是一个分段线性函数,不可微,因此d (p )并非在任意的p 处均可微,对此须采用子梯度算法[2]来迭代求解链路价格p l :p l (t +1)=[p l (t )+C t (∑sR ls (t )x s (t )-c l (t ))]+(19)式中C t 为正的标量步长因子,当链路上流速率之和小于链路容量,即供过于求时价格p l 增大,反之减小.基于以上分析可知,最大最小公平性调度算法可描述如下:初始化:k =0,x s (0)=01.计算下一时隙各链路价格p l ((k +1)T slot )=p l (kT s lot )+C t∑sR ls ・x s (K T s lot )-c l (K T slo t )+2.令k =k +1,在第k 时隙kT s lot 内迭代计算下式至收敛c l (t )=p l (k T slot )-∑nK n (t )F nl /2D+K n (t +1)=K n (t )+B∑nF nl c l (t )-1+3.K n (kT s lot )令为收敛后K n (t )的值if c l (t )≥c 0l /2then c l (kT s lot )=11666 小 型 微 型 计 算 机 系 统 2008年else c l (k T slot )=04.计算下一时隙各端到端流速率x s (kT s lot )=D ~s max l ,nK n (kT slo t )F nl R ls5.Go to 1算法中步骤4是各源端传输层进行速率分配,步骤3是实现途经各节点M AC 层的调度问题,整个算法的公平性调度策略可用图3所示的跨层控制模型来描述,各源端传输层图3 跨层控制模型F ig.3 Cro ss-lay er co nt ro l mo del通过该端到端流途经各链路的调度信息c l 以及集群价格K n 来计算各端到端流的公平速率x s 以及各链路价格p l ,并将p l 反馈给相关各节点的M A C 层来决定下一时隙各链路的调度.源端传输层和流所经各节点M AC 层之间通过链路价格p l 和集群价格K n 相关联实现最大最小公平性调度.4 仿 真本文以图4所示的无线多跳网拓扑图为例在M atla b 中对算法进行仿真,设各相邻节点之间距离相等,节点传输距离略大于相邻节点距离,载波侦测范围为两倍传输距离.仿真中图4 网络拓扑图F ig .4 Net wo rk to polog y取D ~s (x )=1/x ,网络中包含8个节点,三条端对端的流,设每条链路归一化最大容量均为1,采用集中式的“注入法”算法[1]求出各个流在最大最小公平性下的归一化理论速率为(0.25,0.5,0.25),各链路理论有效容量如表1所示.表1 最大最小公平性下理论有效容量T able 1 Effect ive capacities in theor y fo r max -min fair ness链路123456链路容量0.50.250.250.250.50.25根据式(6),当效用函数取U s (x s )=(1-A )-1x 1-As且A →∞时,算法在SumNet 控制模式下最终收敛为最大最小公平速率.令C =0.1,取A =3和5分别进行仿真,结果如图5所示.当A=3时,算法在迭代10000次后已经收敛,收敛后各流的速率为(0.2256,0.5492,0.3421);当A =5时,算法以极其缓慢的速度收敛,迭代50000次后逐渐收敛,收敛后各流速率为(0.2565,0.5358,0.3228).可见,随着A 逐渐增大,算法的收敛速度越来越慢,收敛后的值也越来越逼近最大最小公平性下的理论速率.图5 SumNet 控制模式下的不同参数A 的收敛状况F ig .5 T he co nver gence of differ ent par ameterA under SumNet co ntro l mode步长因子C 作为调整链路价格变化快慢的因子影响算法的收敛速度,首先我们取C =0.1对算法进行仿真,结果如图6所示.图6 C =0.1下的流速率F ig.6 F low rat es w it h stepsize C =0.1图6显示当算法迭代到一定次数开始收敛,对比图5可见算法收敛速度远快于SumN et 控制模式.注意这里的收敛并非是单调收敛,而是围绕着一个中心值振荡,各条曲线的中心值接近理论最大最小公平性流速率.图7(见下页)中左图是算法收敛后链路2在某段时间内的调度状况,仿真取了20个时隙,链路容量为1代表链路处于工作状态,0代表处于空闲状态,图7显示链路容量为1占了5个时隙,为0的占了15个时隙,即链路的有效容量在算法收敛后为0.25;右图是算法收敛后各链路有效容量的直方图,对比表1可见两者基本接近.仿真结果表明算法收敛后各端到端流速率基本满足最大最小公平性,各链路调度性能良好.下面取C =0.2对算法进行仿真,如图8(见下页)所示,对比图6可以看出,当C 取值增大,算法收敛速度加快,但同时收16679期 秦晓卫等:无线多跳网的一种端到端的最大最小公平调度算法 敛后的振荡增强.因此在实际中要综合考虑收敛速度和振荡强弱这两个方面,折中考虑C 的取值.5 结 论本文给出了一种基于效用函数的最大最小公平调度算法及其交叉层控制模型,算法通过对无线多跳网中的公平性调图7 链路2某20个时隙内的调度及各链路有效容量F ig.7 T he schedule o f link 2in 20slo ts andeffectiv e capacities of all links度问题进行非线性规划,采用拉格朗日松弛法和对偶规划的理论把问题分解成端传输层和M A C 层两个子问题,整个调图8 C =0.2下的流速率F ig .8 Flow r ates with stepsize C =0.2度策略基于链路价格和集群价格使得端传输层和M A C 层相互关联、相互控制.传输层通过M ax N et 模式实现最大最小公平速率分配,加速算法收敛.仿真表明算法能达到良好的公平性和调度性能.考虑到实际的无线多跳网中信息传播延迟等因素,一种更加快速和有效的算法是我们进一步研究的目标.References :[1]Xu S ,S afadaw i T .Does the IEEE 802.11M AC protocol w orkw ell in mu ltihop w ireles s ad hoc netw orks [J].IEEE C om muni-cations M agaz ine,2001,39(6):130-137[2]Ch en L,Low S H,Doyle J C.Joint conges tion control an d mediaaccess control des ign for w ireless ad hoc netw ork s[C].Proc.of IEEE Infocom ,M iami ,2005,3:2212-2222[3]Chen L,Low S H ,Chiang M ,et al.Cross -layer conges tion con-trol ,routing and sched uling des ign in ad hoc w ireless netw or ks [C].Proc.of IEEE Infocom,Barcelon a,2006.[4]Tass iulas L ,Sarkar S.M axm in fair scheduling in w ireles s adhoc netw orks [J].IEEE J.on Selected Ar ea in Comm unications,2005,23(1):163-173.[5]Hahn e E .Round -robin sch eduling for max -min fairness in datanetw orks [J ].IEEE J.on Selected Area in Comm unications,1991,9(7):1024-1039[6]Low S H,L aps ley D E.Optimization flow control I:bas ic algo-rithm and con vergence [J ].IEEE /ACM T rans action s on Net-w orking (T ON ),1999,7(6):861-874.[7]Diestel R,Graph T heory,S pringer-verlag,1997.[8]Hajek B ,S as aki G .L ink scheduling in polynomial time [J ].IEE E Trans action s on In formation T heory,1998,34(5):910-917.[9]Bertsekas D,Gallager R.Data netw ok rs.2n d edition [].Pr en-tice Hall,1992.[10]M o J ,Walrand J .Fair end -to -end win dow -b as ed conges tion con-trol[J].IE EE/ACM T ransactions on Netw orking,2000,8(5):556-567.[11]Bertsekas D,Nonlinear Programmin g [].2nd edition,Athen as cientific,1999[12]W ydrow ski B,Zuk erman M .M ax Net:a new network conges-tion control architectu re for m ax-m in fairn ess [C].IEEE ICC,Alas ka ,2003,1,132-136.[13]Wydrow sk i B,Zukerman M.M ax Net:a con ges tion control ar-chitecture for maxmin fairness [J ].IEEE Com munications Let-ters,2002,6(11):512-514.1668 小 型 微 型 计 算 机 系 统 2008年。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Because of the continuing global financial crisis in recent years, some investigators have questioned whether current theories of risk management are appropriate and paid more attention to develop prudent methods of assessing risks. The theory of g-expectations is a fairly new research topic to avoid risks in mathematical finance and was first introduced by Peng[6] as particular
nonlinear expectations depending on backward stochastic differential equations. As an application, the model of risk minimizing portfolios was studied by Øksendal and Sulem[7], where the risk is represented in terms of g-expectations. For a comprehensive survey of theories on g-expectations and relevant applications, one can refer to the paper by Peng[8]. In fact, combining SDG systems with cost functionals defined by g-expectations, one can naturally obtain forward-backward stochastic differential games (FBSDGs).
1 Introduction
With the increasing demand of researchers in today’s technological revolution, stochastic differential game (SDG) theory has emerged to better grasp of the real world and played a distinguished role in many fields, especially in economics, finance, control theory and behavioral science. The pioneering work of SDGs was established by Ho[1]. Over recent years, SDG theory has became a very active area of research, such as An and Øksendal[2], Wang and Yu[3], Zhu and Zhang[4], and Wu and Liu[5].
YANG Bi-xuan, GUO Tie-xin, WU Jin-biao†
(School of Mathematics and Statistics, Central South University, Changsha Hunan 410083, China) Abstract: This paper is concerned with a partially observed nonzero-sum stochastic differential game system under g-expectation, where the state is governed by a Itoˆ-Le´vy process and the cost functionals are described by g-expectations. Based on Girsanov’s theorem and convex variation techniques, we derive a maximum principle and a verification theorem. An asset-liability management game problem is discussed to illustrate the results. Key words: stochastic differential game; g-expectation; forward-backward stochastic differential equation; maximum principle; verification theorem Citation: YANG Bixuan, GUO Tiexin, WU Jinbiao. Partially observed nonzero-sum stochastic differential games with g-expectations. Control Theory & Applications, 2019, 36(1): 13 – 21
关键词: 随机微分博弈; g-期望; 正倒向随机微分方程; 最大值原理; 验证定理 引用格式: 杨碧璇, 郭铁信, 吴锦标. 基于g-期望的部分可观测非零和随机微分博弈. 控制理论与应用, 2019, 36(1): 13 – 21 DOI: 10.7641/CTA.2018.18085
Partially observed nonzero-sum stochastic differential games with g-expectations
第 36 卷第 1 期 2019 年 1 月
控制理论与应用
Control Theory & Applications
Vol. 36 N和随机微分博弈
杨碧璇, 郭铁信, 吴锦标†
(中南大学 数学与统计学院, 湖南 长沙 410083)
摘要: 本文研究了g-期望下的部分可观测非零和随机微分博弈系统, 该系统的状态方程由Itoˆ-Le´vy过程驱动, 成本函 数由g-期望描述. 根据Girsanov定理和凸变分技巧, 本文得到了最大值原理和验证定理. 为对所获结果进行说明, 本文讨 论了关于资产负债管理的博弈问题.
相关文档
最新文档