13 最优控制3
最优控制复习题
x = c1 t + c2
第二章习题
习题2-6
x(1) = 4,x(tf ) = 4,tf 自由且tf > 1。求x∗ (t)使
tf
J=
1
1 2 ˙ (t)] dt [2x(t) + x 2
取极小值 解:这时始端固定,末端受约束的泛函极值问 题,F = 2x(t) + 1 ˙ 2 (t),x(tf ) = c(tf ) = 4。由欧拉方程 2x ∂L d ∂ d − =2− x ˙ (t) = 2 − x ¨(t) = 0 ∂x dt ∂ x ˙ dt x ˙ (t) = 2t + c1 , 由x(1) = 4得 1 + c1 + c2 = 4 ⇒ c1 + c2 = 3 由x(tf ) = 4得 t2 f + c1 tf + c2 = 4
图 A-1 : 天然气管道网络
课后习题解答 最优控制理论与系统 December 27, 2013 12 / 33
E 2
4 H
G 1 2 3 3 K J 4 L
第四章习题
解:首先由L开始逆向计算每一个压缩机站的最大流通能力,并标注在 站点编号右侧,为了便于区别,同时用加粗线条标注由该站点出发的最 优路径。首先,G,J,I,K四个站点只有一条路径(一种决策)通向下 一个站点,只须标注最大流通能力,无需给出最优路径。 B 3 A 4 C 2 2 2 3 D 3 5 2 1 4 2 F 5 I(5) E 2 H 2 3 3 K(3) 4 G(5) 1 J(4) 4 L
课后习题解答
最优控制理论与系统
December 27, 2013
中华人民共和国国家标准电气传动及其自动控制
sampling (of electric drive) 在有限的时间间隔内(通常是相等的时间间隔)测量一个物理量的过程。 1.1.27 采样控制系统 sampling control system 系统中一个或多个主令,偏差和监视反馈信号是采样型式的一种控制系统。 1.2 自动控制 1.2.1 自动 automatic 在一个限定的任务内自行动作(无需操作人员)。 1.2.2 自动化 automate 采用自动装置改进设备以减少人的干预。 1.2.3 过程 process 完成一种或一系列物理或化学变化的一组操作。 1.2.4 控制 control 为达到规定目标,作用于系统的有目的的动作。 注:除控制作用本身外,控制还包括监视和保护作用。 1.2.5 执行装置;末级施控元件 final controlling element 正向通道中直接改变操纵量的元件。 1.2.6 自动控制 automatic control
【国家自然科学基金】_最优制导律_基金支持热词逐年推荐_【万方软件创新助手】_20140730
推荐指数 2 2 1 1 1 1 1 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
科研热词 着地角 角度约束 最优控制 最优制导律 变结构控制 黎卡提方程 航路规划 自适应控制 离散计算 次最优制导律 检测时间 极小值原理 机动突防 末制导律 有限时间 时间约束 微分对策 导弹 多模型自适应估计 卫星制导炸弹 卫星制导炮弹 制导炮弹 保性能控制 三维导引律 三维制导律 三维 h2控制 dubins path bang-bang原理
推荐指数 3 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2011年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
推荐指数 5 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2014年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
2014年 科研热词 落角约束 高超声速飞行器 零位误差 角度约束 落角误差 脱靶量 滑模变结构 最优制导律 最优制导 控制回路 指数加权 平衡条件 巡航段 导弹 导引头 多约束条件 噪声 加权函数 制导方法 制导 倾斜转弯飞行器 schwarz不等式 推荐指数 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
【国家自然科学基金】_广义logistic模型_基金支持热词逐年推荐_【万方软件创新助手】_20140802
推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2014年 序号 1 2 3 4 5 6 7 8 9 10
2014年 科研热词 推荐指数 转录因子7类似物2基因 1 谷丙转氨酶 1 电压依赖性钾离子通道基因 1 广义多因 1 子降维法 1 基因多态性 1 基因-环境交互作用 1 参芪扶正注射液 1 倾向评分法 1 2型糖尿病 1
2011年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
2011年 科研热词 频率分布模型 非吸烟 陕北地区 肺癌 群智能优化算法 皮尔逊x2检验 病例对照研究 永久持续生存 水文频率分析 比率依赖 概率风险评价 极大似然估计 时滞 数据删除 收获率 广义线性模型 广义多因子降维法 局部影响分析 均值漂移 周期解 参数估计 危险因素 全局渐近稳定性 score检验统计量 logistic模型 logistic回归模型 hopf分支 推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
推荐指数 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
科研热词 推荐指数 稳定性 2 hopf分支 2 降尺度 1 遗传算法 1 模式分担率 1 林木存活率 1 时滞生态模型 1 时滞 1 放养率 1 广义线性模型 1 广义logistic模型 1 广义logistic回归模型 1 天气发生器 1 周期解 1 双层规划 1 区域立体物流网络 1 ncep再分析资料 1 metroplis-hastings算法 1 mcmc 1 lagrange对偶 1
13 先进控制方法
令:输入变量:Qi、R2;输出变量:h1、h2 将上式描述为增量方程,其中非线性关系h2/R2可写成:
h2 h2 h20 2 R2 R2 R2 R2o
下标0表示稳态点
有:
h1 h2 d h1 Qi A1 R10 dt h1 h2 h2 h20 d h2 2 R2 A2 R10 R20 R20 dt
机理与经验的组合模型: 通过机理分析获得数学模型的结构,通过试验 数据回归模型参数的方法获得的模型。也称为“灰 箱模型” 其他分类方法: 分布参数和集中参数模型 连续时间和离散时间模型 随机性和确定性模型 线性和非线性模型 参数与非参数模型
2) 数学模型的应用 数学模型是研究和掌握系统运动规律的有力工具, 是分析、设计、预报或预测、控制实际系统的基础。 工业控制角度: 过程的数学模型是系统方案和控制算法设计的重要基 础和应用工具之一。 先进控制应用: 过程的数学模型是实施先进控制的重要先决条件。 主要应用: 系统特性分析,过程仿真,依据模型控制,优化控制
H h1 h2 T
1 AR 1 10 A 1 A2 R10
U Qi
1 A1 R10
R2 T
1 A 1 B 0 0 h20 2 A2 R20
1 1 A2 R10 A2 R20
13.1.2 基本建模方法 1) 机理建模 根据过程对象的机理知识建立数学模型方法。 主要理论依据: 平衡关系、过程的基本规律、对象设备特性。 前提条件: 充分了解对象特性和机理,掌握必要的理论知识。
机理模型的主要特点: 优点: a. 可从事物的本质认识其外部特性; b. 可以事先求得; c. 有较大的适用范围,条件变化可推导,外延性较好。 弱点: a. 对于复杂过程建模困难,甚至无法建立机理模型。 b. 由于是理论建模,难免与实际对象特性有一定差别, 须经过实践验证。
不对称约束多人非零和博弈的自适应评判控制
第40卷第9期2023年9月控制理论与应用Control Theory&ApplicationsV ol.40No.9Sep.2023不对称约束多人非零和博弈的自适应评判控制李梦花,王鼎,乔俊飞†(北京工业大学信息学部,北京100124;计算智能与智能系统北京市重点实验室,北京100124;智慧环保北京实验室,北京100124;北京人工智能研究院,北京100124)摘要:本文针对连续时间非线性系统的不对称约束多人非零和博弈问题,建立了一种基于神经网络的自适应评判控制方法.首先,本文提出了一种新颖的非二次型函数来处理不对称约束问题,并且推导出最优控制律和耦合Hamilton-Jacobi方程.值得注意的是,当系统状态为零时,最优控制策略是不为零的,这与以往不同.然后,通过构建单一评判网络来近似每个玩家的最优代价函数,从而获得相关的近似最优控制策略.同时,在评判学习期间发展了一种新的权值更新规则.此外,通过利用Lyapunov理论证明了评判网络权值近似误差和闭环系统状态的稳定性.最后,仿真结果验证了本文所提方法的有效性.关键词:神经网络;自适应评判控制;自适应动态规划;非线性系统;不对称约束;多人非零和博弈引用格式:李梦花,王鼎,乔俊飞.不对称约束多人非零和博弈的自适应评判控制.控制理论与应用,2023,40(9): 1562–1568DOI:10.7641/CTA.2022.20063Adaptive critic control for multi-player non-zero-sum games withasymmetric constraintsLI Meng-hua,WANG Ding,QIAO Jun-fei†(Faculty of Information Technology,Beijing University of Technology,Beijing100124,China;Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing100124,China;Beijing Laboratory of Smart Environmental Protection,Beijing100124,China;Beijing Institute of Artificial Intelligence,Beijing100124,China)Abstract:In this paper,an adaptive critic control method based on the neural networks is established for multi-player non-zero-sum games with asymmetric constraints of continuous-time nonlinear systems.First,a novel nonquadratic func-tion is proposed to deal with asymmetric constraints,and then the optimal control laws and the coupled Hamilton-Jacobi equations are derived.It is worth noting that the optimal control strategies do not stay at zero when the system state is zero, which is different from the past.After that,only a critic network is constructed to approximate the optimal cost function for each player,so as to obtain the associated approximate optimal control strategies.Meanwhile,a new weight updating rule is developed during critic learning.In addition,the stability of the weight estimation errors of critic networks and the closed-loop system state is proved by utilizing the Lyapunov method.Finally,simulation results verify the effectiveness of the method proposed in this paper.Key words:neural networks;adaptive critic control;adaptive dynamic programming;nonlinear systems;asymmetric constraints;multi-player non-zero-sum gamesCitation:LI Menghua,WANG Ding,QIAO Junfei.Adaptive critic control for multi-player non-zero-sum games with asymmetric constraints.Control Theory&Applications,2023,40(9):1562–15681引言自适应动态规划(adaptive dynamic programming, ADP)方法由Werbos[1]首先提出,该方法结合了动态规划、神经网络和强化学习,其核心思想是利用函数近似结构来估计最优代价函数,从而获得被控系统的近似最优解.在ADP方法体系中,动态规划蕴含最优收稿日期:2022−01−21;录用日期:2022−11−10.†通信作者.E-mail:***************.cn.本文责任编委:王龙.科技创新2030–“新一代人工智能”重大项目(2021ZD0112302,2021ZD0112301),国家重点研发计划项目(2018YFC1900800–5),北京市自然科学基金项目(JQ19013),国家自然科学基金项目(62222301,61890930–5,62021003)资助.Supported by the National Key Research and Development Program of China(2021ZD0112302,2021ZD0112301,2018YFC1900800–5),the Beijing Natural Science Foundation(JQ19013)and the National Natural Science Foundation of China(62222301,61890930–5,62021003).第9期李梦花等:不对称约束多人非零和博弈的自适应评判控制1563性原理提供理论基础,神经网络作为函数近似结构提供实现手段,强化学习提供学习机制.值得注意的是, ADP方法具有强大的自学习能力,在处理非线性复杂系统的最优控制问题上具有很大的潜力[2–7].此外, ADP作为一种近似求解最优控制问题的新方法,已经成为智能控制与计算智能领域的研究热点.关于ADP的详细理论研究以及相关应用,读者可以参考文献[8–9].本文将基于ADP的动态系统优化控制统称为自适应评判控制.近年来,微分博弈问题在控制领域受到了越来越多的关注.微分博弈为研究多玩家系统的协作、竞争与控制提供了一个标准的数学框架,包括二人零和博弈、多人零和博弈以及多人非零和博弈等.在零和博弈问题中,控制输入试图最小化代价函数而干扰输入试图最大化代价函数.在非零和博弈问题中,每个玩家都独立地选择一个最优控制策略来最小化自己的代价函数.值得注意的是,零和博弈问题已经被广泛研究.在文献[10]中,作者提出了一种改进的ADP方法来求解多输入非线性连续系统的二人零和博弈问题.An等人[11]提出了两种基于积分强化学习的算法来求解连续时间系统的多人零和博弈问题.Ren等人[12]提出了一种新颖的同步脱策方法来处理多人零和博弈问题.然而,关于非零和博弈[13–14]的研究还很少.此外,控制约束在实际应用中也广泛存在.这些约束通常是由执行器的固有物理特性引起的,如气压、电压和温度.因此,为了确保被控系统的性能,受约束的系统需要被考虑.Zhang等人[15]发展了一种新颖的事件采样ADP方法来求解非线性连续约束系统的鲁棒最优控制问题.Huo等人[16]研究了一类非线性约束互联系统的分散事件触发控制问题.Yang和He[17]研究了一类具有不匹配扰动和输入约束的非线性系统事件触发鲁棒镇定问题.这些文献考虑的都是对称约束,而实际应用中,被控系统受到的约束也可能是不对称的[18–20],例如在污水处理过程中,需要通过氧传递系数和内回流量对溶解氧浓度和硝态氮浓度进行控制,而根据实际的运行条件,这两个控制变量就需要被限制在一个不对称约束范围内[20].因此,在控制器设计过程中,不对称约束问题将是笔者研究的一个方向.到目前为止,关于具有控制约束的微分博弈问题,有一些学者取得了相应的研究成果[12,21–23].但可以发现,具有不对称约束的多人非零和博弈问题还没有学者研究.同时,在多人非零和博弈问题中,相关的耦合Hamilton-Jacobi(HJ)方程是很难求解的.因此,本文针对一类连续时间非线性系统的不对称约束多人非零和博弈问题,提出了一种自适应评判控制方法来近似求解耦合HJ方程,从而获得被控系统的近似最优解.本文的主要贡献如下:1)首次将不对称约束应用到连续时间非线性系统的多人非零和博弈问题中;2)提出了一种新颖的非二次型函数来处理不对称约束问题,并且当系统状态为零时,最优控制策略是不为零的,这与以往不同;3)在学习期间,用单一评判网络结构代替了传统的执行–评判网络结构,并且提出了一种新的权值更新规则;4)利用Lyapunov方法证明了评判网络权值近似误差和系统状态的一致最终有界(uniformly ultimately bounded,UUB)稳定性.2问题描述考虑以下具有不对称约束的N–玩家连续时间非线性系统:˙x(t)=f(x(t))+N∑j=1g j(x(t))u j(t),(1)其中:x(t)∈Ω⊂R n是状态向量且x(0)=x0为初始状态,R n代表由所有n-维实向量组成的欧氏空间,Ω是R n的一个紧集;u j(t)∈T j⊂R m为玩家j在时刻t所选择的策略,且T j为T j={[u j1u j2···u jm]T∈R m:u j min u jl u j max, |u j min|=|u j max|,l=1,2,···,m},(2)其中:u jmin∈R和u j max∈R分别代表控制输入分量的最小界和最大界,R表示所有实数集.假设1非线性系统(1)是可控的,并且x=0是被控系统(1)的一个平衡点.此外,∀j∈N,f(x)和g j(x)是未知的Lipschitz函数且f(0)=0,其中集合N={1,2,···,N},N 2是一个正整数.假设2∀j∈N,g j(0)=0,且存在一个正常数b gj使∥g j(x)∥ b gj,其中∥·∥表示在R n上的向量范数或者在R n×m上的矩阵范数,R n×m代表由所有n×m维实矩阵组成的空间.注1假设1–3是自适应评判领域的常用假设,例如文献[6,13,19],是为了保证系统的稳定性以及方便后文中的稳定性证明,其中假设3出现在后文中的第3.2节.定义与每个玩家相关的效用函数为U i(x,U)=x T Q i x+N∑j=1S j(u j),i∈N,(3)其中U={u1,u2,···,u N}并且Q i是一个对称正定矩阵.此外,为了处理不对称约束问题,令S j(u j)为S j(u j)=2αj m∑l=1ujlβjtanh−1(z−βjαj)d z,(4)其中αj和βj分别为αj=u jmax−u j min2,βj=u jmax+u jmin2.(5)因此,与每个玩家相关的代价函数可以表示为J i(x0,U)=∞U i(x,U)dτ,i∈N,(6)1564控制理论与应用第40卷本文希望构建一个Nash均衡U∗={u∗1,u∗2,···,u∗N},来使以下不等式被满足:J i(u∗1,···,u∗i,···,u∗N)J i(u∗1,···,u i,···,u∗N),(7)其中i∈N.为了方便,将J i(x0,U)简写为J i(x0).于是,每个玩家的最优代价函数为J∗i (x0)=minu iJ i(x0,U),i∈N.(8)在本文中,如果一个控制策略集的所有元素都是可容许的,那么这个集合是可容许的.定义1(容许控制[24])如果控制策略u i(x)是连续的,u i(x)可以镇定系统(1),并且J i(x0)是有限的,那么它是集合Ω上关于代价函数(6)的可容许控制律,即u i(x)∈Ψ(Ω),i∈N,其中,Ψ(Ω)是Ω上所有容许控制律的集合.对于任意一个可容许控制律u i(x)∈Ψ(Ω),如果相关代价函数(6)是连续可微的,那么非线性Lyapu-nov方程为0=U i(x,U)+(∇J i(x))T(f(x)+N∑j=1g j(x)u j),(9)其中:i∈N,J i(0)=0,并且∇(·) ∂(·)∂x.根据最优控制理论,耦合HJ方程为0=minU H i(x,U,∇J∗i(x)),i∈N,(10)其中,Hamiltonian函数H i(x,U,∇J∗i(x))为H i(x,U,∇J∗i(x))=U i(x,U)+(∇J∗i (x))T(f(x)+N∑j=1g j(x)u j),(11)进而,由∂H i(x,U,∇J∗i(x))∂u i=0可得出最优控制律为u∗i (x)=−αi tanh(12αig Ti(x)∇J∗i(x))+¯βi,i∈N,(12)其中¯βi=[βiβi···βi]T∈R m.注2根据式(2)和式(5),能推导出βi=0,即¯βi=0,又根据式(12)可知u∗i(0)=0,i∈N.因此,为了保证x=0是系统(1)的平衡点,在假设2中提出了条件∀j∈N,g j(0)=0.将式(12)代入式(10),耦合HJ方程又能表示为(∇J∗i (x))T f(x)+N∑j=1((∇J∗i(x))T g j(x)¯βj)+x T Q i x−N∑j=1((∇J∗i(x))Tαj g j(x)tanh(A j(x)))+N∑j=1S j(−αj tanh(A j(x))+¯βj)=0,i∈N,(13)其中J∗i(0)=0并且A j(x)=12αjg Tj(x)∇J∗j(x).如果已知每个玩家的最优代价函数值,那么相关的最优状态反馈控制律就可以直接获得,也就是说式(13)是可解的.可是,式(13)这种非线性偏微分方程的求解是十分困难的.同时,随着系统维数的增加,存储量和计算量也随之以指数形式增加,也就是平常所说的“维数灾”问题.因此,为了克服这些弱点,在第3部分提出了一种基于神经网络的自适应评判机制,来近似每个玩家的最优代价函数,从而获得相关的近似最优状态反馈控制策略.3自适应评判控制设计3.1神经网络实现本节的核心是构建并训练评判神经网络,以得到训练后的权值,从而获得每个玩家的近似最优代价函数值.首先,根据神经网络的逼近性质[25],可将每个玩家的最优代价函数J∗i(x)在紧集Ω上表示为J∗i(x)=W Tiσi(x)+ξi(x),i∈N,(14)其中:W i∈Rδ是理想权值向量,σi(x)∈Rδ是激活函数,δ是隐含层神经元个数,ξi(x)∈R是重构误差.同时,可得出每个玩家的最优代价函数梯度为∇J∗i(x)=(∇σi(x))T W i+∇ξi(x),i∈N,(15)将式(15)代入式(12),有u∗i(x)=−αi tanh(B i(x)+C i(x))+¯βi,i∈N,(16)其中:B i(x)=12αig Ti(x)(∇σi(x))T W i∈R m,C i(x)=12αig Ti(x)∇ξi(x)∈R m.然后,将式(15)代入式(13),耦合HJ方程变为W Ti∇σi(x)f(x)+(∇ξi(x))T f(x)+x T Q i x+N∑j=1((W Ti∇σi(x)+(∇ξi(x))T)g j(x)¯βj)−N∑j=1(αj W Ti∇σi(x)g j(x)tanh(B j(x)+C j(x)))−N∑j=1(αj(∇ξi(x))T g j(x)tanh(B j(x)+C j(x)))+N∑j=1S j(−αj tanh(B j(x)+C j(x))+¯βj)=0,i∈N.(17)值得注意的是,式(14)中的理想权值向量W i是未知的,也就是说式(16)中的u∗i(x)是不可解的.因此,第9期李梦花等:不对称约束多人非零和博弈的自适应评判控制1565构建如下的评判神经网络:ˆJ∗i (x)=ˆW Tiσi(x),i∈N,(18)来近似每个玩家的最优代价函数,其中ˆW i∈Rδ是估计的权值向量.同时,其梯度为∇ˆJ∗i(x)=(∇σi(x))TˆW i,i∈N.(19)考虑式(19),近似的最优控制律为ˆu∗i(x)=−αi tanh(D i(x))+¯βi,i∈N,(20)其中D i(x)=12αig Ti(x)(∇σi(x))TˆW i.同理,近似的Hamiltonian可以写为ˆHi(x,ˆW i)=ˆW T i ϕi+x T Q i x+N∑j=1(ˆW Ti∇σi(x)g j(x)¯βj)−N ∑j=1(αjˆW Ti∇σi(x)g j(x)tanh(D j(x)))+N∑j=1S j(−αj tanh(D j(x))+¯βj),i∈N,(21)其中ϕi=∇σi(x)f(x).此外,定义误差量e i=ˆH i(x,ˆW i )−H i(x,U∗,∇J∗i(x))=ˆH i(x,ˆW i).为了使e i足够小,需要训练评判网络来使目标函数E i=12e Tie i最小化.在这里,本文采用的训练准则为˙ˆW i =−γi1(1+ϕTiϕi)2(∂E i∂ˆW i)=−γiϕi(1+ϕTiϕi)2e i,i∈N,(22)其中:γi>0是评判网络的学习率,(1+ϕT iϕi)2用于归一化操作.此外,定义评判网络的权值近似误差为˜Wi=W i−ˆW i.因此,有˙˜W i =γiφi1+ϕTiϕie Hi−γiφiφT i˜W i,i∈N,(23)其中:φi=ϕi(1+ϕTiϕi),e Hi=−(∇ξi(x))T f(x)是残差项.3.2稳定性分析本节的核心是通过利用Lyapunov方法讨论评判网络权值近似误差和闭环系统状态的UUB稳定性.这里,给出以下假设:假设3∥∇ξi(x)∥ b∇ξi ,∥∇σi(x)∥ b∇σi,∥e Hi∥ b e Hi,∥W i∥ b W i,其中:b∇ξi,b∇σi,b e Hi,b W i 都是正常数,i∈N.定理1考虑系统(1),如果假设1–3成立,状态反馈控制律由式(20)给出,且评判网络权值通过式(22)进行训练,则评判网络权值近似误差˜W i是UUB 稳定的.证选取如下的Lyapunov函数:L1(t)=N∑i=1(12˜W Ti˜Wi)=N∑i=1L1i(t),(24)计算L1i(t)沿着式(23)的时间导数,即˙L1i(t)=γi˜W Tiφi1+ϕTiϕie Hi−γi˜W TiφiφTi˜Wi,i∈N,(25)利用不等式¯X T¯Y12∥¯X∥2+12∥¯Y∥2(注:¯X和¯Y都是具有合适维数的向量),并且考虑1+ϕTiϕi 1,能得到˙L1i(t)γi2(∥φTi˜Wi∥2+∥e Hi∥2)−γi˜W TiφiφTi˜Wi=−γi2˜W TiφiφTi˜Wi+γi2∥e Hi∥2,i∈N.(26)根据假设3,有˙L1i(t) −γi2λmin(φiφTi)∥˜W i∥2+γi2b2e Hi,i∈N,(27)其中λmin(·)表示矩阵的最小特征值.因此,当不等式∥˜W i∥>√b2e Hiλmin(φiφTi),i∈N(28)成立时,有˙L1i(t)<0.根据标准的Lyapunov定理[26],可知评判网络权值近似误差˜W i是UUB稳定的.证毕.定理2考虑系统(1),如果假设1–3成立,状态反馈控制律由式(20)给出,且评判网络权值通过式(22)进行训练,则系统状态x(t)是UUB稳定的.证选取如下的Lyapunov函数:L2i(t)=J∗i(x),i∈N.(29)计算L2i(t)沿着系统˙x=f(x)+N∑j=1g j(x)ˆu∗j的时间导数,即˙L2i(t)=(∇J∗i(x))T(f(x)+N∑j=1g j(x)ˆu∗j)=(∇J∗i(x))T(f(x)+N∑j=1g j(x)u∗j)+N∑j=1((∇J∗i(x))T g j(x)(ˆu∗j−u∗j)),i∈N.(30)考虑式(13),有˙L2i(t)=−x T Q i x−N∑j=1S j(u∗j)+N∑j=1((∇J∗i(x))T g j(x)(ˆu∗j−u∗j))Σi,i∈N,(31)1566控制理论与应用第40卷利用不等式¯XT ¯Y 12∥¯X ∥2+12∥¯Y ∥2,并且考虑式(15)–(16)(20),可得Σi 12N ∑j =1∥−αj tanh (D j (x ))+αj tanh (F j (x ))∥2+12N ∑j =1∥g Tj (x )((∇σi (x ))T W i +∇ξi (x ))∥2,i ∈N ,(32)其中F j (x )=B j (x )+C j (x ).然后,利用不等式∥¯X+¯Y∥2 2∥¯X ∥2+2∥¯Y ∥2,有Σi N ∑j =1(∥αj tanh (D j (x ))∥2+∥αj tanh (F j (x ))∥2)+N ∑j =1∥g Tj (x )(∇σi (x ))T W i ∥2+N ∑j =1∥g T j (x )∇ξi (x )∥2,i ∈N ,(33)其中D j (x )∈R m ,F j (x )∈R m 分别被表示为[D j 1(x )D j 2(x )···D jm (x )]T 和[F j 1(x )F j 2(x )···F jm (x )]T .易知,∀θ∈R ,tanh 2θ 1.因此,有∥tanh (D j (x ))∥2=m ∑l =1tanh 2(D jl (x )) m,(34)∥tanh (F j (x ))∥2=m ∑l =1tanh 2(F jl (x )) m.(35)同时,根据假设2–3,有Σi N ∑j =1(2α2j m +b 2g j b 2∇σi b 2W i +b 2g j b 2∇ξi ),i ∈N ,(36)根据式(2)(4)–(5),可知S j (u ∗j ) 0.于是,有˙L2i (t ) −λmin (Q i )∥x ∥2+ϖi ,i ∈N ,(37)其中ϖi =N ∑j =1(2α2j m +b 2g j b 2∇σi b 2W i +b 2g j b 2∇ξi ).因此,根据式(37)可知,当不等式∥x ∥>√ϖiλmin (Q i )成立时,有˙L2i (t )<0.即,如果x (t )满足下列不等式:∥x ∥>max {√ϖ1λmin (Q 1),···,√ϖNλmin (Q N )},(38)则,∀i ∈N ,都有˙L 2i (t )<0.同理,可得闭环系统状态x (t )也是UUB 稳定的.证毕.4仿真结果考虑如下的3–玩家连续时间非线性系统:˙x =[−1.2x 1+1.5x 2sin x 20.5x 1−x 2]+[01.5sin x 1cos x 1]u 1(x )+[1.2sin x 1cos x 2]u 2(x )+[01.1sin x 2]u 3(x ),(39)其中:x (t )=[x 1x 2]T ∈R 2是状态向量,u 1(x )∈T 1={u 1∈R :−1 u 1 2},u 2(x )∈T 2={u 2∈R :−0.2 u 2 1}和u 3(x )∈T 3={u 3∈R :−0.4 u 3 0.8}是控制输入.令Q 1=2I 2,Q 2=1.8I 2,Q 3=0.3I 2,其中I 2代表2×2维单位矩阵.同时,根据式(5)可知,α1=1.5,β1=0.5,α2=0.6,β2=0.4,α3=0.6,β3=0.2.因此,与每个玩家相关的代价函数可以表示为J i (x 0)= ∞0(x TQ i x +3∑j =1S j (u j ))d τ,i =1,2,3,(40)其中S j (u j )=2αju jβj tanh −1(z −βjαj)d z =2αj (u j −βj )tanh −1(u j −βjαj)+α2j ln (1−(u j −βj )2α2j).(41)然后,本文针对系统(39)构建3个评判神经网络,每个玩家的评判神经网络权值分别为ˆW1=[ˆW 11ˆW 12ˆW13]T ,ˆW 2=[ˆW 21ˆW 22ˆW 23]T ,ˆW 3=[ˆW 31ˆW 32ˆW33]T ,激活函数被定义为σ1(x )=σ2(x )=σ3(x )=[x 21x 1x 2x 22]T,且隐含层神经元个数为δ=3.此外,系统初始状态取x 0=[0.5−0.5]T ,每个评判神经网络的学习率分别为γ1=1.5,γ2=0.8,γ3=0.2,且每个评判神经网络的初始权值都在0和2之间选取.最后,引入探测噪声η(t )=sin 2(−1.2t )cos(0.5t )+cos(2.4t )sin 3(2.4t )+sin 5t +sin 2(1.12t )+sin 2t ×cos t +sin 2(2t )cos(0.1t ),使得系统满足持续激励条件.执行学习过程,本文发现每个玩家的评判神经网络权值分别收敛于[6.90912.99046.6961]T ,[4.89012.23475.2062]T ,[1.79450.33212.4583]T .在60个时间步之后去掉探测噪声,每个玩家的评判网络权值收敛过程如图1–3所示.然后,将训练好的权值代入式(20),能得到每个玩家的近似最优控制律,将其应用到系统(39),经过10个时间步之后,得到的状态轨迹和控制轨迹分别如图4–5所示.由图4可知,系统状态最终收敛到了平衡点.由图5可知,每个玩家的控制轨迹都没有超出预定的边界,并且可以观察到u 1,u 2和u 3分别收敛于0.5,0.4和0.2.综上所述,仿真结果验证了所提方法的有效性.第9期李梦花等:不对称约束多人非零和博弈的自适应评判控制1567䇴 㖁㔌U / s图1玩家1的评判网络权值收敛过程Fig.1Convergence process of the critic network weights forplayer1䇴 㖁㔌U / s图2玩家2的评判网络权值收敛过程Fig.2Convergence process of the critic network weights forplayer2﹣䇴 㖁㔌U / s图3玩家3的评判网络权值收敛过程Fig.3Convergence process of the critic network weights forplayer 35结论本文首次将不对称约束应用到连续时间非线性系统的多人非零和博弈问题中.首先,获得了最优状态反馈控制律和耦合HJ 方程,并且为了解决不对称约束问题,建立了一种新的非二次型函数.值得注意的是,当系统状态为零时,最优控制策略是不为零的.其次,由于耦合HJ 方程不易求解,提出了一种基于神经网络的自适应评判算法来近似每个玩家的最优代价函数,从而获得相关的近似最优控制律.在实现过程中,用单一评判网络结构代替了经典的执行–评判结构,并且建立了一种新的权值更新规则.然后,利用Lyap-unov 理论讨论了评判网络权值近似误差和系统状态的UUB 稳定性.最后,仿真结果验证了所提算法的可行性.在未来的工作中,会考虑将事件驱动机制引入到连续时间非线性系统的不对称约束多人非零和博弈问题中,并且将该研究内容应用到污水处理系统中也是笔者的一个重点研究方向.﹣0.5﹣0.4﹣0.3﹣0.2﹣0.10.00.10.20.00.10.20.30.40.5(U )Y 1(U )Y 2图4系统(39)的状态轨迹Fig.4State trajectory of the system (39)0.00.51.01.52.00.00.20.40.60.81.01.200.012345678910﹣0.40.4﹣0.20.2(U )V 3(U )V 2(U )V 1U / s 012345678910U / s 012345678910U / s (c)(b)(a)(U )V 1(U )V 2(U )V 3图5系统(39)的控制轨迹Fig.5Control trajectories of the system (39)1568控制理论与应用第40卷参考文献:[1]WERBOS P J.Beyond regression:New tools for prediction andanalysis in the behavioral sciences.Cambridge:Harvard Universi-ty,1974.[2]HONG Chengwen,FU Yue.Nonlinear robust approximate optimaltracking control based on adaptive dynamic programming.Control Theory&Applications,2018,35(9):1285–1292.(洪成文,富月.基于自适应动态规划的非线性鲁棒近似最优跟踪控制.控制理论与应用,2018,35(9):1285–1292.)[3]CUI Lili,ZHANG Yong,ZHANG Xin.Event-triggered adaptive dy-namic programming algorithm for the nonlinear zero-sum differential games.Control Theory&Applications,2018,35(5):610–618.(崔黎黎,张勇,张欣.非线性零和微分对策的事件触发自适应动态规划算法.控制理论与应用,2018,35(5):610–618.)[4]WANG D,HA M,ZHAO M.The intelligent critic framework foradvanced optimal control.Artificial Intelligence Review,2022,55(1): 1–22.[5]WANG D,QIAO J,CHENG L.An approximate neuro-optimal solu-tion of discounted guaranteed cost control design.IEEE Transactions on Cybernetics,2022,52(1):77–86.[6]YANG X,HE H.Adaptive dynamic programming for decentralizedstabilization of uncertain nonlinear large-scale systems with mis-matched interconnections.IEEE Transactions on Systems,Man,and Cybernetics:Systems,2020,50(8):2870–2882.[7]ZHAO B,LIU D.Event-triggered decentralized tracking control ofmodular reconfigurable robots through adaptive dynamic program-ming.IEEE Transactions on Industrial Electronics,2020,67(4): 3054–3064.[8]WANG Ding.Research progress on learning-based robust adaptivecritic control.Acta Automatica Sinica,2019,45(6):1037–1049.(王鼎.基于学习的鲁棒自适应评判控制研究进展.自动化学报, 2019,45(6):1037–1049.)[9]ZHANG Huaguang,ZHANG Xin,LUO Yanhong,et al.An overviewof research on adaptive dynamic programming.Acta Automatica Sini-ca,2013,39(4):303–311.(张化光,张欣,罗艳红,等.自适应动态规划综述.自动化学报, 2013,39(4):303–311.)[10]L¨U Yongfeng,TIAN Jianyan,JIAN Long,et al.Approximate-dynamic-programming H∞controls for multi-input nonlinear sys-tem.Control Theory&Applications,2021,38(10):1662–1670.(吕永峰,田建艳,菅垄,等.非线性多输入系统的近似动态规划H∞控制.控制理论与应用,2021,38(10):1662–1670.)[11]AN P,LIU M,WAN Y,et al.Multi-player H∞differential gameusing on-policy and off-policy reinforcement learning.The16th In-ternational Conference on Control and Automation.Electr Network: IEEE,2020,10:1137–1142.[12]REN H,ZHANG H,MU Y,et al.Off-policy synchronous iterationIRL method for multi-player zero-sum games with input constraints.Neurocomputing,2020,378:413–421.[13]LIU D,LI H,WANG D.Online synchronous approximate optimallearning algorithm for multiplayer nonzero-sum games with unknown dynamics.IEEE Transactions on Systems,Man,and Cybernetics: Systems,2014,44(8):1015–1027.[14]V AMVOUDAKIS K G,LEWIS F L.Non-zero sum games:Onlinelearning solution of coupled Hamilton-Jacobi and coupled Riccati equations.IEEE International Symposium on Intelligent Control.Denver,CO,USA:IEEE,2011,9:171–178.[15]ZHANG H,ZHANG K,XIAO G,et al.Robust optimal controlscheme for unknown constrained-input nonlinear systems via a plug-n-play event-sampled critic-only algorithm.IEEE Transactions on Systems,Man,and Cybernetics:Systems,2020,50(9):3169–3180.[16]HUO X,KARIMI H R,ZHAO X,et al.Adaptive-critic design fordecentralized event-triggered control of constrained nonlinear inter-connected systems within an identifier-critic framework.IEEE Trans-actions on Cybernetics,2022,52(8):7478–7491.[17]YANG X,HE H.Event-triggered robust stabilization of nonlin-ear input-constrained systems using single network adaptive critic designs.IEEE Transactions on Systems,Man,and Cybernetics:Sys-tems,2020,50(9):3145–3157.[18]WANG L,CHEN C L P.Reduced-order observer-based dynamicevent-triggered adaptive NN control for stochastic nonlinear systems subject to unknown input saturation.IEEE Transactions on Neural Networks and Learning Systems,2021,32(4):1678–1690.[19]YANG X,ZHU Y,DONG N,et al.Decentralized event-driven con-strained control using adaptive critic designs.IEEE Transactions on Neural Networks and Learning Systems,2022,33(10):5830–5844.[20]WANG D,ZHAO M,QIAO J.Intelligent optimal tracking withasymmetric constraints of a nonlinear wastewater treatment system.International Journal of Robust and Nonlinear Control,2021,31(14): 6773–6787.[21]LI M,WANG D,QIAO J,et al.Neural-network-based self-learningdisturbance rejection design for continuous-time nonlinear con-strained systems.Proceedings of the40th Chinese Control Confer-ence.Shanghai,China:IEEE,2021,7:2179–2184.[22]SU H,ZHANG H,JIANG H,et al.Decentralized event-triggeredadaptive control of discrete-time nonzero-sum games over wireless sensor-actuator networks with input constraints.IEEE Transactions on Neural Networks and Learning Systems,2020,31(10):4254–4266.[23]YANG X,HE H.Event-driven H∞-constrained control using adap-tive critic learning.IEEE Transactions on Cybernetics,2021,51(10): 4860–4872.[24]ABU-KHALAF M,LEWIS F L.Nearly optimal control laws for non-linear systems with saturating actuators using a neural network HJB approach.Automatica,2005,41(5):779–791.[25]HORNIK K,STINCHCOMBE M,WHITE H.Universal approxima-tion of an unknown mapping and its derivatives using multilayer feed-forward networks.Neural Networks,1990,3(5):551–560.[26]LEWIS F L,JAGANNATHAN S,YESILDIREK A.Neural NetworkControl of Robot Manipulators and Nonlinear Systems.London:Tay-lor&Francis,1999.作者简介:李梦花博士研究生,目前研究方向为自适应动态规划、智能控制,E-mail:*********************;王鼎教授,博士生导师,目前研究方向为智能控制、强化学习,E-mail:*****************.cn;乔俊飞教授,博士生导师,目前研究方向为智能计算、智能优化控制,E-mail:***************.cn.。
最优控制最小值原理
2-1 连续系统的最小值原理
问题 2-1 设系统的状态方程是
x f [x(t),u(t),t]
(2-1)
其中 f 是 n 维连续可微的向量函数;状态 x(t) Rn,其初态已
知是
x(t0 ) x0
终态应满足边界条件
(2-2)
[x(t f ),t f ] 0 其中 是 r 维连续可微的向量函数,r n;
tf t0
{L(x,
w,t)
T[
f
(x,
w,t)
x]
T[g(x,
w,t)
z2]}dt
(2-8)
的极值。
为 简 便 计 , 令
H(x,,w ,t)L(x,w ,t)Tf(x,w ,t)
(2-9)
(x,x,w,w ,z,z,,,t) H(x,,w ,t)TxT[g(x,w ,t)z2]
(2-10)
8
于 是 (2-8)式 可 写 成
J(u) [x(tf)t,f]vT[x(tf)t,f]
tt0f (x,x ,w ,w ,z,z,,,t)dt
(2-11)
现 在 求 广 义 性 能 指 标 (2-11)的 一 阶 变 分 :
JJtfJxJwJz
(2-12)
式 中 Jtf, Jx, Jw, Jz分 别 是 由 于tf , x , w和z的 微 变
tf t0
(x,x,w,w ,z,z,,,t)d
=0
分步积分
J w
t f
t0
(wT
w
w T
w )dt
wT
(t
)
w
t
t
f
t f wT t0
d dt
w
dt
【国家自然科学基金】_序列最优控制_基金支持热词逐年推荐_【万方软件创新助手】_20140730
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
参考轨迹 参数识别 去卷 协商系统策略 动态规划 免疫算法 估值补偿 优化模型 下半弱连续 三相逆变器 rnn神经网络 riccati方程 monte mean shift算法 lqg最优控制 fisher信息阵 eiv模型滤波 carlo仿真 ar模型估计
科研热词 最优控制 时滞系统 预测 非线性系统 运动估计 输出跟踪 观测器 码率控制 比特分配 正弦扰动 h.264/avc 饱和 预载 非线性时间序列 非均匀有理b样条 随机逼近 量测噪声 遗传算法 通信序列 逐次逼近法 迭代学习控制 输出跟踪控制 调度 语义web服务 语义 装配petri网 自校正kalman估值器 自回归模型 脉冲耦合神经网络 能量法 肾综合征出血热 细菌性痢疾 组合优化 线性系统 约束最优控制 系统辨识 离散系统 离散时间最优控制 瞬时输入能 相空间重构 电容电压平衡域 现代时间序列分析方法 灰度等级 流行病学 流水车间 汽车工程 死区 模拟路径 有效前沿 最小二乘 最优装配序列 最优扫描结构
推荐指数 5 3 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2009年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
【制造业自动化】_最优控制_期刊发文热词逐年推荐_20140725
推荐指数 1 1 1 1 1 1 1 1 1 1 1 1
2011年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
科研热词 鲁棒自适应 预见控制 重新参数化 遗传算法 轨迹跟踪 轨迹规划 路径规划 行车控制 粒子群算法 稳定最短ph曲线 时间最优 无人机 序列二次规划 工业机器人 参数不确定 伺服驱动系统 三次样条 pythagorean hodograph曲线 pid matlab仿真 itae b样条函数
推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2012年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
科研热词 粒子群 分区控制 防摆控制器 配煤 遗传算法 自适控制能力 自主学习 神经网络 炼焦 机械加工 最优输出跟踪器 最优化 无功/电压控制 无功/电压控制 拉格朗日方程 多约束 多智能体强化学习 多十字路口的城市交通 加权矩阵 交通流量 交通信号控制
Hale Waihona Puke 2009年 序号 1 2 3 4
科研热词 遗传算法(ga) 自适应遗传算法 符号函数 早熟
推荐指数 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12
科研热词 黎卡提方程 面积误差 神经网络 目标预见时间 电力需求预测 最优预见控制 支持向量机 增益参数整定 免疫遗传算法 三维目标轨迹 pid控制器 elitism策略
推荐指数 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2013年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
【国家自然科学基金】_最优消费和投资_基金支持热词逐年推荐_【万方软件创新助手】_20140730
2012年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
科研热词 推荐指数 随机控制 3 红利 3 通胀 2 最优消费和投资 2 最优投资组合 2 高管 1 随机微分效用 1 退休期限 1 股权激励 1 科技企业孵化器 1 消费与闲暇的效用函数 1 最优退休时刻 1 最优消费-投资与闲暇选择 1 效用函数 1 借贷约束 1 倒向随机微分方程 1 企业型 1 习惯形成 1 α -maxmin期望效用 1 knight不确定 1 hjb方程 1
2013年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
科研热词 推荐指数 红利 3 随机微分方程 2 遗产 2 通胀 2 自由选择退休 2 最优投资策略 2 投资组合 2 奈特不确定 2 风险厌恶 1 鞅 1 递归偏好 1 负效用 1 蒙特·卡洛malliavin导数方法 1 能源强度 1 股票价格波动率 1 红利支付 1 碳排放高峰 1 碳排放需求量 1 碳排放配额 1 破产保护 1 消费过程 1 消费和投资组合 1 消费和投资与退休 1 比较 1 模型不确定 1 机制转换 1 最优消费与投资 1 最优消费 1 效用函数 1 投资组合选择 1 幂效用函数 1 常相对风险厌恶 1 实业投资 1 均值回复过程 1 可容许策略 1 动态规划 1 分数布朗运动 1 交易费 1 中国大陆 1 下行风险 1 α -最大最小预期效用 1 knight不确定 1
2014年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
【国家自然科学基金】_地空导弹_基金支持热词逐年推荐_【万方软件创新助手】_20140801
推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2014年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
2014年 科研热词 螺旋机动 变结构制导律 超声速反舰导弹 综合校正 粒子群 粒子修复策略 空舰导弹 电四极子 水平阻尼 时延补偿 控制科学与技术 捷联惯导系统 惯性系 大空域飞行弹道 地空导弹 地下目标成像 后向投影算法 使用保障 位置信息 推荐指数 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
科研热词 空地导弹 静态检验 金刚石超精密加工 系统有效性分析方法 空空导弹 空天信息 相对距离 滑膜变结构控制 滑模制导 机动目标 快速伺服刀架 微结构功能表面 巡航导弹 图论 参数化最小割 动态检验 作战效能 sar图象分割 gomory-hu算法
2013年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
科研热词 防御体系 连续辐射 运动补偿 边缘密度 视景仿真 突防 空地导弹 气象要素 无人机 排队论 微带漏波天线 导弹 导引律 导引弹道 多普勒调频率估计 多尺度匹配区选取 复合左右手传输线 合成孔径雷达 匹配区选取 制导精度 minkowski分形 frieden灰度熵
2009年 序号 1ห้องสมุดไป่ตู้2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
基于事件触发优化的鲁棒H_(∞)控制
2021年4月第28卷第4期控制工程Control Engineering of ChinaApr. 2021Vol.28, No.4文章编号:1671-7848(2021)04-0751-08D01:10.14107/ki.kzgc.20190264基于事件触发优化的鲁棒汉〇控制陆佳杰,樊渊,刘天龙(安徽大学电气工程与自动化学院,安徽合肥230601)■摘要:针对线性系统,研究事件触发优化机制下的鲁棒//〇〇控制。
首先,在时间触发和事 件触发机制下,给出系统优化性能指标,设计优化控制器。
接着,考虑基于事件触发优化机制下的鲁棒//〇〇控制,当外部干扰为零时,给出线性系统渐近稳定性的证明:当外部干扰不为零时,推导得到系统具有给定干扰抑制水平X。
然后,分析线性系统的Z e n o行为,通过推导给出一个正的最小触发时间间隔来保证系统不会存在Z e n o行为。
最后,通过系统仿真验证算法的有效性。
关键词:事件触发控制:优化控制;鲁棒//〇〇控制;Z e n o行为中图分类号:T P273 文献标识码:ARobust H〇〇 Control Based on Event-triggered OptimizationL U Jia-jie,F A N Yua n,L I U Tian-long(School of Electrical Engineering and Automation, Anhui University, Hefei 230601, China)Abstract:For linear systems,the robust //〇〇control under the event-triggered optimization m e c h a n i s m is studied.Firstly,under the time-triggered and event-triggered m e c h a n i s m,the system optimization performance index i s given and the optimization controller is designed.T h e n,robust//〇〇control based on the event-triggered optimization mecha n i s m is considered.W h e n the external interference i s zero,the proof of the asymptotic stability of the linear systems is given.W h e n the external interference is not zero,i t is derived that the system has a given interference suppression level Y of//x control.T h e n,the Z e n o behavior of the linear system i s analyzed,and a positive m i n i m u m trigger time interval i s given by derivation to ensure that there i s no Ze n o behavior in the system.Finally,the effectiveness of the algorithm i s verified b y system simulation.K e y w o r d s:Event-triggered control;optimization control;robust H〇^control;Z e n o behaviori引言随着计算机和网络通信技术的不断发展,目前 产生了一种大规模资源受限的无线嵌入式控制系统。
【国家自然科学基金】_最优收获控制_基金支持热词逐年推荐_【万方软件创新助手】_20140730
科研热词 推荐指数 周期解 2 全局渐近稳定 2 食物链 1 竞争 1 空间扩散 1 种群系统 1 极值原理 1 最大值原理 1 最优策略. 1 最优收获策略 1 最优收获 1 最优控制 1 持续生存 1 广义logistic 模型 1 年龄结构 1 pontryagin最大值原理 1 pontryagin 最大值原理 1
2013年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
科研热词 极值原理 脉冲收获 随机种群系统 比例和常量脉冲收获 最大经济净收益 最优脉冲时刻 最优收获控制 最优收获 捕食模型 年龄依赖性 周期优化控制 周期logistic系统 伴随方程 poisson跳 it?公式 gompertz系统 gompertz模型 ekeland变分原理
2009年 序号 1 2 3 4 5 6 7
科研热词 模型 梯级电站生态系统 最优收获 时变种群 平衡点 存在性 发电用水率
推荐指数 1 1 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13
科研热词 推荐指数 最优控制 2 年龄结构 2 种群系统 1 种群模型 1 相互作用 1 状态约束 1 最优收获 1 时滞 1 收获 1 共轭系统 1 euler-lagrange条件. 1 ekeland变分原理 1 dubovitskii-milyutin定理 科研热词 最优控制 种群 污染环境 收获 扩散 必要条件 半线性 推荐指数 2 1 1 1 1 1 1
2012年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
13自动控制原理期末试卷与答案(2)
13⾃动控制原理期末试卷与答案(2)⾃动控制原理1⼀、单项选择题(每⼩题1分,共20分)1. 系统和输⼊已知,求输出并对动态特性进⾏研究,称为( c ) A.系统综合 B.系统辨识 C.系统分析 D.系统设计2. 惯性环节和积分环节的频率特性在()上相等。
A.幅频特性的斜率B.最⼩幅值C.相位变化率D.穿越频率3. 通过测量输出量,产⽣⼀个与输出信号存在确定函数⽐例关系值的元件称为( d )A.⽐较元件B.给定元件C.反馈元件D.放⼤元件4. ω从0变化到+∞时,延迟环节频率特性极坐标图为(a ) A.圆 B.半圆 C.椭圆 D.双曲线5. 当忽略电动机的电枢电感后,以电动机的转速为输出变量,电枢电压为输⼊变量时,电动机可看作⼀个( d )A.⽐例环节B.微分环节C.积分环节D.惯性环节6. 若系统的开环传递函数为2)(5 10s s ,则它的开环增益为(c )A.1B.2C.5D.107. ⼆阶系统的传递函数52 5)(2++=s s s G ,则该系统是(b )A.临界阻尼系统B.⽋阻尼系统C.过阻尼系统D.零阻尼系统8. 若保持⼆阶系统的ζ不变,提⾼ωn ,则可以(b )A.提⾼上升时间和峰值时间B.减少上升时间和峰值时间C.提⾼上升时间和调整时间D.减少上升时间和超调量 9. ⼀阶微分环节Ts s G +=1)(,当频率T1=ω时,则相频特性)(ωj G ∠为( a )A.45°B.-45°C.90°D.-90° 10.最⼩相位系统的开环增益越⼤,其( d )A.振荡次数越多B.稳定裕量越⼤C.相位变化越⼩D.稳态误差越⼩11.设系统的特征⽅程为()0516178234=++++=s s s s s D ,则此系统() A.稳定 B.临界稳定 C.不稳定 D.稳定性不确定。
12.某单位反馈系统的开环传递函数为:())5)(1(++=s s s ks G ,当k =()时,闭环系统临界稳定。
线性二次型最优控制
✓ R(t)为r×r维时变旳分段连续旳正定矩阵,且其逆矩 阵存在并有界;
✓ 末态时刻tf是固定旳。
线性二次型最优控制(6/12)
下面对上述性能指标泛函作细致旳讨论: 1) 性能指标泛函J[u(·)]中旳第1项e(tf)Fe(tf),是为了突出对 末端目旳旳控制误差旳要求和限制而引进旳,称为末端 代价函数。 ✓ 非负定旳常数矩阵F为加权矩阵,其各行各列元素旳 值旳不同,体现了对误差向量e(t)在末态时刻tf各分量 旳要求不同、主要性不同。 ✓ 若矩阵F旳第i行第i列元素值较大,代表二次项旳主 要性较大,对其精度要求较高。
线性二次型最优控制(9/12)
3) 性能指标泛函J[u(·)]中旳被积函数旳第2项u(t)R(t)u(t),表 达在系统工作过程中对控制向量u(t)旳大小旳要求和限 制。
✓ 因为时变旳加权矩阵R(t)为正定旳,故该项函数值在 u(t)为非零向量时总是为正旳。 ❖ 而且u(t)越大,该项函数值越大,其在整个性能指 标泛函所占旳分量就越大。
时变状态调整器(3/3)
因为所讨论旳系统为线性系统,给定旳性能指标泛函对状态 变量x(t)和控制量u(t)均连续可微,所以,状态调整器问题可用 变分法、极大值原理和动态规划措施中旳任一种求解。
➢ 本节采用变分法给出最优控制解存在旳充分必要条件及 最优控制问题解旳体现式,讨论最优控制解旳存在性、 唯一性等性质及解旳计算措施。
➢ 最优轨线为下述状态方程
x *(t) A(t) x*(t) B(t)u*(t), x*(t0 ) x0, t [t0, t f ]
旳解,而最优性能值为
J*
J[u* (t)]
1 2
x0 P(0) x0 , x0
0
式中,P(t)为下述矩阵黎卡提微分方程旳正定或半正定解。
【国家自然科学基金】_绳系卫星系统_基金支持热词逐年推荐_【万方软件创新助手】_20140730
2014年 科研热词 闭环反馈控制 释放 绳系卫星 拟线性化 回收 保辛 推荐指数 1 1 1 1 1 1
2010年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
科研热词 绳系卫星系统 绳系卫星 非线性规划 滚动时域控制 黏弹性绳 非线性动力学 退步控制方法 绳系卫星编队 直接配点法 概周期振动 有限差分法 时变自由度 时-变系统 控制规律 平动点周期轨道 子星回收 姿态运动 姿态 多尺度方法 地面实验 后退时域控制 动力学仿真 动力学 伪线性化 snopt软件包 legendre伪谱方法 hill限制性三体问题
2012年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
科研热词 绳系卫星系统 绳系卫星 鲁棒最优控制 鲁棒控制 饱和 镇定 自适应控制 绳系太阳能发电卫星 椭圆函数 最优控制 姿态控制 姿态 复合控制 回转机动 周期运动 分岔 内共振 主动振动抑制 不确定系统 不确定性
推荐指数 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2013年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13
科研热词 推荐指数 边界控制 1 绳系太阳能发电卫星 1 绳系卫星 1 稳定性分析 1 旋转三角形绳系卫星编队 1 平动点 1 姿轨耦合 1 复合控制 1 地面物理仿真 1 在轨飞行试验 1 回转机动 1 卫星技术与应用 1 hill限制性三体问题 1
2008年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
科研热词 推荐指数 绳系卫星系统 2 绳系卫星 2 最优控制 2 变轨 2 动态释放 2 kelvin-tait-chatayev定理 2 编队飞行 1 电动力绳系卫星 1 时间最优控制 1 微分包含 1 弹性系绳 1 动态规化 1 伪谱算法 1 伪线性化 1
最优控制第六章极小值原理
J1
Ψ
x T
Ψ x
Φ t f
N T t f
tt f
t f
d xT
tf
Φ
x
N T x
Ψ x
t t
f
wT
Ψ w tt f
zT
Ψ z
tt f
t f
t0
xT
uU
此外,协态方程也略有改变,仅当g函数中不包 括x时,方程才与前面一致。
第三个条件,即式(46),描述了H函数终值 H tt f
与tf的关系,可用于确定tf的值。在定理推导过程中 看出,该条件是由于tf变动而产生的,因此当终端时 刻固定时,该条件将不复存在。
第四个、五个条件,即式(47)~式(48),将为正则 方程式(41)~式(43)提供数量足够(2n个)的边值条件。
xt0 x0
Nxt f ,t f 0
(48)
这就是著名的极小值原理。
下面对定理作些说明: 1) 定理的第一、第二个条件,即式(41)~式
(44),普遍适用于求解各种类型的最优控制问题, 且与边界条件形式或终端时刻自由与否无关。其
中,第二个条件:min H x*, *,u,t H x*, *,u*,t uU
t0
(39)
取哈密尔顿函数为
H Lx,u,t T f x,u,t
(40)
则实现最优控制的必要条件是,最优控制u*、
最优轨迹x*和最优协态矢量λ*满足下列关系式:
1) 沿最优轨线满足正则方程
x H
(41)
H g T
13最少拍无差系统设计
1
2
Tz ( 2 z z ) C ( z ) ( z ) R( z ) 1 2 (1 z )
2
Tz 1 ( 2 z 1 z 2 ) C ( z ) ( z ) R( z ) 1 2 (1 z )
C ( z ) 2Tz 3Tz 4Tz
Φ (z)
R(z) r(t) + e*(t) u*(t) G(z) C(z) c(t)
D(z)
E(z) U(z)
H(s)
GC(s)
D( z )G( z ) C(z) ( z ) 系统的误差传递函数Фe(z) R( z ) 1 D( z )G( z )
为:
E ( z ) R( z ) C ( z ) C(z) e (z) 1 1 ( z ) R( z ) R( z ) R( z )
1 z 1
0
e( ) lim 1 z
z 1
1
1 ( z )R( z ) 0
典型输入Z变换的一般形式为:
A( z ) R( z ) (1 z 1 )q
A( z ) 1 ( z ) 0 e( ) lim1 z 1 q z 1 (1 z )
制时,很难满足要求。 此时,往往从被控对象的特性出发,
直接根据采样系统理论设计控制器,
这种方法称为直接设计法。
直接设计法
假定对象本身是离散化模型或者用 离散化模型表示的连续对象,以采 样理论为基础,以Z变换为工具,在 Z域中直接设计出数字调节器D(z)。
数学工具:差分方程、Z变换
由于D(z)是依照稳定性、准确性和快
E( z) e (z) 1 ( z ) R( z )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
试求最优控制 ,使性能指标取极小值。
J
tf
u dt
2
0
T
最优解的必要条件是:
(2) 边界条件
x (t 0 ) x 0
(t f )
x (t f )
最优解的必要条件是:
(3) 哈密顿函数相对最优控制为极小值
H ( x , u , ) min H ( x , u , )
* * * u ( t )
(4)哈密顿函数沿最化轨线保持为常数 当 t f 固定时
(t f )
x (t f )
T
x (t f )
(t f )
[ x ( t f ), t f ] 0
最优解的必要条件是:
(3) 哈密顿函数相对最优控制为极小值
H ( x , u , , t ) min H ( x , u , , t )
* * * u ( t )
第三章 极小值原理及其应用
利用古典变分法求联最优控制问题时, 只有当控制向量 u(t)不受任何约束,其 容许控制集合充满整个m维控制空间, 用古典变分法来处理等式约束条件下的 最优控制问题才是行之有效的 。
§3.1 连续系统的极小值原理
最优控制问题的具体形式是多种多样的、 为了方便阐述先研究定常系统、末值型 指标、末端自由控制问题的极小值原理 然后将所得结果逐步扩大到一般的最优 控制问题中。
x (t ) H f ( x, u , t)
其中
(t ) H x
H ( x , u , , t ) F ( x , u , t ) (t ) f ( x , u , t )
T
最优解的必要条件是:
(2) 边界条件
x (t 0 ) x 0
(4) 哈密顿函数在最优轨线末端满足
H (t f ) (t f )
T
(t f )
(t f )
举例
设一阶系统的状态方程及初始条件为
x xu x (0) 5
其中标量控制 u(t)的约束条件为
0 .5 u (t ) 1
若系统的末端状态 x ( t )是自由的,试求 最优控制 u ( t ) ,使性能指标
极小值原理的重要意义
(1)容许控制条件放宽了。 (2)最优控制使哈密顿函数取全局极小值。 (3)极小值原理不要求哈密顿函数对控制的 可微性。 (4)极小值原理给出了最优控制的必要而非 充分条件。
举例
设二阶系统的状态方程及初始条件为
x1 x1 u x 2 x1 x1 (0 ) 1 x 2 (0) 0
f
*
J
取极小值。
1
( x u ) dt
0
举例2
设二阶系统的状态方程及初始条件为
x1 x 2 x2 u x1 (0 ) 0 x 2 (0) 0
其中标量控制 u(t)的约束条件为
u (t ) 1
若系统的末端时刻是自由的,末端状态为
x1 (t f ) x 2 (t f ) 1 4
H u 0
换为由极小值条件
H (x ,u , ) H (x ,u, )
* * *
u (t )
系统:
x (t ) f ( x , u , t )
J [ x ( t f ), t f ]
性能指标: 末端约束:
t
f
F ( x , u , t ) dt
t0
* * * u ( t )
(4)哈密顿函数沿最化轨线保持为常数
* * * * * *
H ( x ( t ), u ( t ), ( t )) H ( x ( t f ), u ( t f ), ( t f )) const
*
t
f
自由时,最优解的必要条件为:
(1) x ( t ) 和 ( t ) 满足下列正则方程
一、自由末端的极小值原理
定理:对于如下定常系统
x ( t ) f ( x , u ), x (t 0 ) x 0
f
x (t f )
自由,性能指标为 J [ x ( t )] 控制受约束 u (t ) , u (t ) 为分段连续函数
假设:
函数 f ( x , u ) 和 ( x ) 都是其自变量的连续函数; 函数 f ( x , u ) 和 ( x ) 对于 x是连续可微的 ; 函数 f ( x , u ) 在任意有界集上对变量 x满足李 卜希茨条件:
H ( x ( t ), u ( t ), ( t )) H ( x ( t f ), u ( t f ), ( t f )) const
* * * * * * *
当
t
f
*
自由时
* * * * * *
H ( x ( t ), u ( t ), ( t )) H ( x ( t f ), u ( t f ), ( t f )) 0
其中标量控制 u(t)的约束条件为 若系统的末端状态 x ( t )是自由的,试求最 优控制 u ( t ) ,使性能指标 J x 2 (1) 取极小值。
f
u (t ) 1
*
二、其它情况下的极小值原理
当系统描述和性能指标为其它形式时, 极小值原理得到的最优控制必要条件同 变分法相对应,只需把对应的极值条件
T
最优解的必要条件是:
(2) 边界条件
x (t 0 ) x 0
(t f )
x (t f )
T
x (t f )
(t f )
[ x ( t f ), t f ] 0
最优解的必要条件是:
(3) 哈密顿函数相对最优控制为极小值
H ( x , u , , t ) min H ( x , u , , t )
[ x ( t f ), t f ] 0
t
f
固定时,最优解的必要条件为:
(1) x ( t ) 和 ( t ) 满足下列正则方程
x (t ) H f ( x, u , t)
其中
(t ) H x
H ( x , u , , t ) F ( x , u , t ) (t ) f ( x , u , t )
f (x ,u) f (x ,u) a x x
1 2 1 2
则最优解的必要条件为:
(1) x ( t ) 和 ( t ) 满足下列正则方程
x (t ) H f ( x, u , t) u , , t ) (t ) f ( x , u , t )