一类非线性系统的自强化学习自抗扰控制研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
结果表明,与原算法相比,RL-ESO和RL-ADRC都有更强的抗扰能力 和控制精度,后者还具有更快的训练速度。
2.当参考轨迹连续变化时,尤其是变化轨迹的弯曲程度较大时, 追踪误差会变得很大。针对强化学习在未知非线性系统控制中 存在的问题,本文首先建立了一套动作-评价网络结构的连续强 化学习算法,它采用了一个特别的性能指标函数以避免使用系统 动态函数,然后做了如下的改进:1.为了提高控制系统追踪连续 轨迹的能力,尤其是在参考轨迹曲度较大时的控制效果。
针对这一问题,本文研究了如何在具有强非仿射特性的未知非线 性纯反馈系统控制中提高强化学习的控制精度和抗扰能力。由 于传统强化学习算法的动作和状态都是在有限集中,因而在非线 性系统控制中应用最多的是的连续强化学习算法,也就是动作评价网络结构的强化学习。
在应用中,该类算法存在这样的一些问题:1.对扰动的抑制能力 十分有限。随着扰动逐渐增大,控制效果急剧衰退,直至发散。
一类非线性系统的自强化学习自抗扰 控制研究
未知非线性系统的控制一直以来都是控制领域内的重要课题,由 于系统动态未知,许多需要机理模型的控制算法都难以实施,而 强化学习方法由于能够在未知的环境中通过与环境的交互自主 学习,找到近似最优控制策略且不需要系统结构信息等先验知识, 使其成为未知非线性系统控制的理想算法。近些年来,强化学习 已在这一领域取得诸多成果,然而,现实中的非线性系统往往受 到各种扰动的影响,而强化学习的抗扰能力却不够强大,在大扰 动下系统输出往往会大幅偏离设定值,系统性能严重衰退。
Leabharlann Baidu
3.最后,我们将强化学习算法与线性自抗扰相结合,用自抗扰控 制器代替传统的神经网络执行器,调整了控制器的权值更新方式, 大幅提高了系统的抗扰能力和控制精度。同时,待调参数数目减 少,大大调高了算法的训练速度。
为了验证改进强化学习算法的有效性,将它们应用在未知非线性 纯反馈系统的追踪控制上,并给出基于扩张状态观测器的强化学 习算法(reinforcement learning-extended state observer,RL-ESO,基于改进 1 和 2)和基于线性自抗扰的强化 学习算法(reinforcement learning-active disturbance rejection control,RL-ADRC,基于改进 3)的原理与设计流程。 在纯反馈系统追踪控制的实验中,控制器仅获得系统的输出和控 制输入等信息,而无需其他结构信息。
我们设计了一个与参考轨迹有关的因子,利用它动态地调整执行 器网络的权重更新速率,使得系统在参考轨迹曲度变大时能更加 及时地调整控制策略。2.为了提高控制系统的抗扰能力,利用扩 张状态观测器将未知的外部扰动和内部参数摄动等效为一个总 扰动,将其应用在控制律中,抵消内外扰动的影响,削弱系统的不 确定性,帮助强化学习提高其抑制扰动能力。