基于强化学习补偿器的水下航行器姿态控制
基于btt控制的无人水下航行器动力学模型
基于btt控制的无人水下航行器动力学模型1. 简介无人水下航行器是一种可以在水下环境中自主航行的机器人。
为了实现精确的控制和导航,需要建立准确的动力学模型。
本文将介绍基于btt(背推头)控制的无人水下航行器动力学模型。
2. 动力学模型2.1 水下航行器结构水下航行器通常由机体、推进装置和控制系统组成。
机体是整个水下航行器的主体,包括浮力装置、外壳和传感器等。
推进装置用于提供推进力,常见的有螺旋桨和喷射式推进器。
控制系统负责接收指令并控制航行器进行相应动作。
2.2 btt控制原理btt(背推头)控制是一种常用的姿态控制方法,在水下航行中具有广泛应用。
其原理是通过调整推进装置产生的推进力矩来实现姿态调整。
在btt控制中,通过改变螺旋桨或喷射式推进器的转速来改变推进力的方向和大小。
当推进力矩与航行器的姿态矩平衡时,航行器可以保持稳定的姿态。
2.3 动力学方程为了建立水下航行器的动力学模型,需要考虑以下因素:质量、浮力、推进力和阻力。
2.3.1 质量水下航行器的质量可以表示为:m=m机体+m推进装置+m控制系统2.3.2 浮力水下航行器在水中受到浮力的作用,浮力可以表示为:F b=ρ⋅g⋅V其中,ρ是水的密度,g是重力加速度,V是水下航行器的体积。
2.3.3 推进力推进装置产生的推进力可以表示为:F p=k p⋅n2其中,k p是推进装置的系数,n是转速。
2.3.4 阻力水下航行器在水中受到阻力的作用,阻力可以表示为:F r=k r⋅n2其中,k r是阻力系数。
根据牛顿第二定律,可以得到水下航行器的动力学方程:m⋅a=F p−F r−F b2.4 控制系统设计为了实现btt控制,需要设计合适的控制系统。
控制系统主要包括姿态传感器、控制器和执行器。
姿态传感器用于测量水下航行器的姿态,常见的有陀螺仪和加速度计。
控制器根据姿态传感器的数据计算出相应的控制指令。
执行器根据控制指令调整推进装置产生的推进力矩。
3. 实验与仿真为了验证动力学模型和btt控制方法的有效性,可以进行实验和仿真。
SINS_DVL_USBL水下组合导航系统的设计与验证
(4) Experimental verification: the corresponding static and dynamic experiments are designed. The experimental results show that the navigation accuracy of the integrated navigation system meets the design requirements, and the system is stable and reliable. The
(2) Principle and error analysis: on the premise of defining common navigation coordinate system, the basic principles of sins, DVL and USBL are analyzed; on this basis, the corresponding error model is established; the IMU in SINS system is calibrated and compensated and the random error parameters are identified.
基于RBF网络Q学习的AUV路径跟踪控制方法
西北工业大学学报 Journal of Northwestern Polytechnical University
https: / / doi.org / 10.1051 / jnwpu / 20213930477
June 2021 Vol.39 No.3
图 3 AUV 路径跟踪示意图
向角速度,当 AUV 在路径段 pipi+1 右侧,εe 取正,反 之 εe 取负。 εe = | ξ(ηi+1 - ηi) + η(ξi+1 - ξi) + (ηiξi+1 - ηi+1ξi) |
(ξi+1 - ξi)2 + (ηi+1 - ηi)2 (1)
ψcmd =
图 2 AUV 深度控制原理图
1.1 AUV 路径跟踪导引律 水平面路径跟踪示意如图 3 所示, pi( ξi,ζ0,ηi)
和 pi+1( ξi+1,ζ0,ηi+1) 为相邻的 2 个路径点,两点连线 即为期望路径,ψ0,ψ 分别表示路径切线方向和 AUV 当前航向,εe 表示 AUV 当前位置(ξ, ζ, η) 距路径 段 pipi+1 的位置偏移, 计算如(1) 式所示。 采用如 (2) 式的 AUV 目标路径航向导引控制律,其中 c0, c1 ,c2 ,ε0 ,εmax ,ψmax 均为大于零的常数,ψ̇ 为 AUV 航
·478·
西 北 工 业 大 学 学 报
第 39 卷
化以下 2 个子问题组合控制:即调整目标路径航向 ψcmd 的导引控制,以及对 ψcmd 的航向角跟踪控制。
图 1 欠驱动 AUV 水平面路径跟踪控制原理图
为实现水平面路径跟踪,AUV 需要保持在指令 深度 ζ0 处航行,控制原理如图 2 所示。
小型水下自航行器动力学建模与控制
小型水下自航行器动力学建模与控制随着无人机技术的快速发展,水下自主航行器已经成为了海洋采样、水下勘探和海底修复等领域的重要工具。
然而,水下环境的特殊性质带来了水下自主航行器设计和控制方面的特殊挑战。
本文将介绍小型水下自航行器的动力学建模和控制策略。
动力学建模小型水下自航行器通常由四个关节驱动器驱动,分别控制航向和俯仰。
考虑到水下环境中流体阻尼的影响,可以将水下自航行器的动力学建模为以下状态方程:$$M\dot{v} + C(v) v + D(v)v + g(\xi) + g_b = f$$其中,$M$为质量矩阵,$\dot{v}$为加速度,$C(v)$表示水阻阻力和海洋涡流阻力矩阵,$D(v)$表示附加质量影响矩阵,$g(\xi)$表示重力和仰角作用,$g_b$表示浮力作用,$f$为推力。
控制策略为了使水下自航行器能够自主控制,需要设计一种有效的控制策略。
传统的PID控制器可以在水下环境中使用,但由于水下环境中流体的阻尼作用,PID控制器的效果可能不如在空气中控制的那么好。
因此,我们可以使用模型预测控制器(MPC)等高级控制算法。
模型预测控制器是一种最优控制方法,通过对未来时间步的预测模型进行优化,选择最优控制输入。
基于MPC控制器,可以设计出以下控制策略:$$f = f_{ss} + K_p(v - v_{ss}) + K_d(\dot{v} - \dot{v}_{ss}) + K_i \int_0^t (v - v_{ss}) dt + f_{mpc}$$其中,$f$为推力,$f_{ss}$为稳态推力,$K_p$、$K_d$和$K_i$为控制器增益。
$v_{ss}$和$\dot{v}_{ss}$为目标状态的速度和加速度。
$f_{mpc}$表示MPC算法输出的控制输入。
总之,本文介绍了小型水下自航行器的动力学建模和控制策略。
采用MPC等高级控制算法,可以使得水下自航行器的控制效果更好。
在未来,随着技术的不断发展,水下自航行器将会得到广泛的应用。
基于专家S面控制的UUV姿态控制系统设计
基于专家S面控制的UUV姿态控制系统设计黄悦华;刘瑞勇;杨培培;李闯;向东旭【摘要】近年来,长航程UUV的应用越来越多,长航程UUV在水下进行长距离航行时,由于不同水域的海水密度不同,使得UUV的受力状况发生变化,从而影响其航行姿态角,使其不能按照预定的路径完成航行任务,甚至发生危险.本文针对姿态变化问题,将专家控制和S面控制相结合,设计一种专家S面控制器,并进行半实物仿真.仿真试验结果表明,该方法可以实现对UUV实时准确的定深定向调节,满足实际使用要求.【期刊名称】《三峡大学学报(自然科学版)》【年(卷),期】2015(037)006【总页数】5页(P80-84)【关键词】UUV;整体构架;专家S面控制;定深定向;半实物仿真【作者】黄悦华;刘瑞勇;杨培培;李闯;向东旭【作者单位】三峡大学电气与新能源学院,湖北宜昌 443002;三峡大学电气与新能源学院,湖北宜昌 443002;三峡大学电气与新能源学院,湖北宜昌 443002;三峡大学电气与新能源学院,湖北宜昌 443002;三峡大学电气与新能源学院,湖北宜昌443002【正文语种】中文【中图分类】TP273UUV恶劣的工作环境决定了其可能会遇到各种可控或不可控的危险,如果UUV没有性能良好的控制系统,极有可能会导致水下机器人失事或失联[1],最终沉入海底或者被他国所窃取.基于此,面对复杂的海域工作环境,如何研究有效且可靠的UUV控制系统,成为装备高质量UUV设备的重要课题.综合控制系统是整个UUV的核心组成部分,其设计的优劣直接影响到整个UUV的性能以及航行的安全性.该课题中UUV的航行分为自主航行和遥控模式两种航行方式,其中自主航行由中央控制单元自主决策控制航行,遥控模式下的航行是通过上位机以无线电或者有揽通信的方式与实验艇通信;自主航行模式下,通过惯导(INS)、深度计、多普勒测速仪(DVL)等传感器获取UUV的运动信息,并根据这些信息做出控制决策,来完成自主航行任务.本课题设计的UUV综合控制系统整体构架如图1所示.此UUV具有如下功能:1)通过操控台可对UUV进行操控,包括对各个模块的电源控制、对UUV进行手操驾驶、预编程操控、定向航行、定深航行控制.2)UUV实时信息可以实时反馈给操控台.包括UUV电池组的测量系统和控制系统的电流、电压、已用电量,实验艇的实时姿态:横滚角、俯仰角、偏航角、航行速度、电机转速、实时位置、深度,离底高度,各个阀门开关状态、各个水舱水量、以及舱内实时图像等.这些数据通过两路信道传输,为保证航行安全,主要考虑无线电通信的顺畅[2].3)对UUV运行状态进行实时监测,包括7个舱的漏水检测、温度检测、氢气浓度检测、火警检测;控制系统、测量系统以推进电机电流和电压监测以及超深、超速、无线电通信等各种报警检测,并具备在运行故障(主要指超深)情况下通过释放压载确保实验艇的安全.4)通过给定推电机的转速或者航速(一般而言,转速和航速对应有一定的关系)可以控制UUV的前进,通过给定水平舵机、垂直舵机和围壳舵机一定角度来控制UUV转向和下潜运动,通过压载水舱注排水及左右浮力水舱调水可以控制艇的横滚、俯仰等艇态和负浮力的设定,以在水面环境不利于水平舵机发挥舵效的时候辅助UUV顺利下潜.5)对UUV位置进行实时监测,并具有导航定位功能.UUV在水面标定时完成GPS的信息的收集,并将该信息给到惯性导航装置,当实验艇下潜到水下时,由惯性导航装置和多普勒计程仪计算出当前的航行位置,当实验艇浮出水面时,通过操控台给定校准指令,将当前实验艇的位置与GPS位置进行校准.实验艇同时利用深度计和多普勒计程仪实时获取UUV在水下的深度和离底高度、航行速度等信息.6)可通过路径规划来实现实验艇的路径跟踪航行.采用智能积分时应该遵循的判断条件是:当>0时,对偏差进行积分;当<0时,不对误差进行积分.此条件为是否引入智能积分的基本判断条件.除此之外,还应该考虑边界条件[3],即偏差及偏差变化率出现的极值点的情况,综合上述3种情况组合,可以将是否引入智能积分的条件总结如下:1)当>0且e≠0时,对偏差进行积分控制;2)当或e=0时,不对偏差积分.这样的积分作用即为智能积分.引入智能积分,能够在模糊控制的基础上提高控制系统的稳态状态和精度.有智能积分的条件可以得到智能积分的S面控制模型[4],如下描述:由S面控制模型可知,控制参数为k1、k2和ki,相比模糊控制,S面控制需要调整的变量简单得多.改变k1、k2和ki的值就能实现偏差和偏差变化率在控制输出中的比重的调整,达到对超调量和收敛速度的控制效果的优化[5],同时控制系统的稳态误差,以满足智能作业的要求.在S面控制系统中,一般采用人工调整或者自适应调整这两种参数调整方式.所谓人工调整,指的是通过对k1、k2和ki大小的调节,实现水下机器人在一般情况下的运动控制精度.所谓自适应调整,指的是需对k1、k2两个参数进行智能的在线调整,实现系统实时的动态性能和稳态性能.应该注意的是,在参数调整的过程中,由于是全局范围内的参数调整,导致自适应调整和人工调整都不能达到控制参数的最佳匹配.但是,S面控制方法主要关注控制过程的全局性,注重控制过程稳定、超调小、平滑、收敛速度快等控制效果.通过对S面控制器参数的修改,能够比较方便地完成控制器全局过程的控制.在自适应调整中,参数k1、k2对S面控制器的控制作用有重要影响,即这两个参数的变化会对S面控制器的输出产生大的干扰,导致控制系统的动态性能和稳态性能的变化,对于水下机器人而言,固定k1、k2的值不能达到较好的控制效果[6].通过本章前面的阐述,可以建立一个完整的智能控制理论模型—专家S面控制器,其控制模型如图2所示.专家S面控制器是以间接专家控制系统为基础,运用人的知识和经验[7],并按照专家在求解控制问题时的启发式思维模式和控制规则构造而成的控制策略.专家S面控制器通过对参数k1、k2和ki的在线调整,使得系统动态性能和稳态性能达到要求.专家S面控制器作为一个二级实时智能协调控制器,由两部分组成:专家智能协调级、基本控制级.由S面控制和专家控制组成控制级,S面控制器为控制系统的基本控制级,控制级与被控对象组成实时闭环控制系统.专家智能协调级由数据库、知识库和智能协调器组成,数据库主要用来存放误差变化率和误差的阈值以及参数k1、k2的在线调整范围;知识库主要为常规的产生式规则的集合;智能协调器为推理机.专家智能协调级主要实现在线监测控制系统,实时监测系统性能[8].根据系统的数据信息,通过推理机完成对S面控制器参数的在线调整,实现对控制对象的有效控制.在本文的研究对象中,存在规则库少、推理搜索空间有限的缺点,因此本文采用有条件推理结论的正向推理机制[9],通过对控制规则的逐条匹配,实现控制规则集的完善和在线智能.由S面的数学控制模型可知,在S面控制系统中,控制参数k1、k2分别对偏差和偏差变化率有很大的影响效果,下面对系统响应的影响进行具体分析:控制参数k1影响偏差e在系统中的控制作用.k1的变化将引起误差的控制效果,如果k1取值增大,误差的控制效果相应增强,导致系统控制所要上升时间变短,由于控制的惯性作用,产生较大的超调量,收敛速度变慢,如果k1选取过大,系统可能产生较大幅度的震荡现象,所以k1的值不能过大.如果减小参数k1的值,削弱误差的控制作用,这样可以减小超调量,同时避免震荡的产生,但如果k1的值过小,导致误差的控制作用不够,将使得上升速度变缓,收敛时间增长,稳定状态下的误差变大,同样不能达到控制效果.控制参数k2影响偏差变化率在系统中的控制作用.k2的变化将会引起误差变化率的控制效果,如果k2取值增大,误差变化率的控制效果相应增强,S面控制系统的灵敏度得到提升,能够抑制超调的发生.如果k2的值选取过大,将使S面控制器对出现的细微变化过于敏感,超前使用了误差变化率的控制作用,使系统的响应时间变长.如果k2的值过小,S面控制系统的灵敏度被大幅削弱,将不能对超调产生较好的控制效果.通过分析,控制参数k1、k2的选取将对控制器的控制效果造成不同的影响,在系统的不同控制阶段,参数k1、k2的值都将对控制器的控制效果产生不同的影响.通过对S面控制系统经验的总结,得到了如下所示的控制参数在线调整算法,这样的一组产生式的控制规则用来实现本文控制策略中的k1、k2和ki选取:R1 IF (e>0 and<0 and e>δ)THEN(K1=Δk1,K2=0)R3 IF (e<0 and<0) THEN(K1=-Δk1,K2=Δk2)R5 IF (e>0 and>0) THEN(K1=Δk1,K2=0)R6 IF>0 or=0且e≠0) THEN(ki=ki)R7 IF<0 and=0) THEN(ki=0)上述规则中,e和为系统中的偏差和偏差的变化率,Δk1、Δk2表示k1和k2的极小增量,其值可按照实际控制情况选取,K1和K2表示k1和k2的动态修正因子.如果k1(t)、k2(t)、k1(t-1)、k2(t-1)为上一时刻和当前时刻的参数,那么他们具有如式(1)所示的调整规则.本文中,k1(0)、k2(0)和ki的初始值主要按照控制系统的特性和控制经验选取.UUV定深定向控制系统半实物仿真试验,要求能为UUV定深定向控制系统提供真实的工作环境,模拟不同的工作条件,并能模拟各种极端条件下的工作情况,以检验系统的控制器的各种功能和可靠性,分析系统、设备的临界工作条件.UUV定深定向控制系统半实物仿真试验具体应实现如下功能:1)仿真机建立UUV的模型,包括6个自由度的受力模型以及动力系统、浮力、均衡模型,并对UUV的6自由度非线性模型进行仿真解算.2)采用半实物模拟机构,即三轴转台,直观地体现给定艉水平舵、艉垂直舵、围壳舵舵角时,三轴转台的运动状态,分析反馈数据的正确性.在UUV预编程航行及自主航行时候,观察定深定向航行过程中三轴转台的变化过程,分析其合理性.3)通过海流模拟器模拟不同的海况,浪涌、温度、盐度、深度等数据,分析在不同的海况下算法的适应性.4)通过中央控制单元输入的UUV定深航行的深度,模拟定深航行过程,分析到达预定深度的仿真波形图;通过中央控制单元输入UUV的航向,模拟定向航行过程,分析到达预定航向的仿真波形图.UUV定深定向控制系统半实物仿真试验原理图如图3所示,为了UUV定深定向控制系统的功能,在进行UUV定深定向控制系统半实物仿真系统设计时,必须包括以下设备:1)DSPACE实时仿真系统:主要功能是仿真被控对象和环境;2)Matlab仿真工作站:主要功能是建立UUV定深定向控制系统的数学模型;3)Fluent仿真工作站:主要完成UUV结构特性分析、流体动力性能分析;4)GPS 及深度信号给定机构:自主航行和预编程航行时,需要最初的GPS位置信号才能开始航行,深度给定信号后才能进行定深航行,为提供UUV的航行深度控制;5)中央控制单元:本课题使用的中央控制单元是由盛博协同设计制作,主要是基于PC104主板设计的.主要的定深定向算法均在中央控制单元中执行.在进行定深定向控制时,根据Matlab仿真工作站反馈的深度信息进行定深控制,同时根据三轴转台给定的航向角进行航向控制,根据三轴转台给定的横滚角和俯仰角进行航行过程中的姿态控制;6)本文所研究的控制对象比较特殊,不同于一般UUV,在下潜过程中先进行注水动作使得实验艇处于零浮力的状态,然后电机启动,艉水平舵、围壳舵、艉垂直舵开始打舵.因此在Matlab仿真工作站的仿真模型应建立均衡系统模拟完成注排水过程.基于均衡系统设计需要准确的主排水流量信息,故在本文中使用的模型没有采用均衡系统.在下潜准备过程中直接将潜深初值设置为-2 m.浮力状态设置为小负浮力状态下开始仿真.如图4所示为定深定向的Matlab工作站半实物仿真模型,主要由3部分组成,控制算法、深度控制模型、航向控制模型.定深算法中,对俯仰角的控制具有重大意义,它除了能更好地控制航行器下潜姿态以外,还是衡量控制算法的一个重要指标.为了保证航行器定深控制的性能,俯仰角在定深控制过程中至关重要.在实际航行过程中,由于海流等各种干扰因素的存在,控制定深常态状态下会存在一定的偏差,UUV在航行时就会通过不停的打舵来校正俯仰角,保持航行的姿态,一般情况下,UUV的俯仰角不应该超过正负10°的范围,对于本文的研究对象而言,由于其体积重量庞大,艇体长的特点,一般控制实验艇的俯仰角在正负5°的范围以内,否则就要进行水下均衡调整艇的状态,甚至进行应急处理以保证实验的安全.定深控制主要是航行器从水面下潜到某一深度和航行器在某一深度航行时受到各种扰动而加以纠正控制.深度的变化必将伴随着俯仰角的的变化,俯仰角如果变化过于剧烈,深度控制将产生较大的超调量,如果俯仰角变化过于缓慢,将导致深度变化也很缓慢,调节时间长.该控制算法是基于专家S面控制算法研究而设计的,控制算法考虑了UUV的垂向速度以及俯仰角速度,由于UUV的排量大,机动能力较小型UUV差,因此通过UUV的艉水平舵和艏水平舵来实现的.1)定深20 m,即深度从0 m变深到20 m的过程,航向角定向10°,且从0°变到10°,如图5所示.如图5(a)所示,此次定深定向航行过程中第240 s时航行深度第一次达到20 m,之后60 s发生了超调,超调量0.8 m左右,第400 s时航行深度收敛于20 m的设定深度值,具有较好的深度控制效果;在定深定向航行的过程中,由图5(b)可以看出,实验艇在0~100的范围内产生了一个大的埋首,根据智能控制的理念,俯仰角提前产生归零趋势,在200 s时俯仰角为0°,此时系统检测深度未到20 m,再次产生埋首的效果,直到第400 s系统深度到达20 m,实验艇开始抬首,此时抬首,产生了一定的超调量.此定向航行中航向角的基本趋势、控制趋势与定深航行相同.图5(d)中也对定深航行过程中(0~400 s的时间内)的垂向速度进行了分析,可以看出,在340 s左右的时间上,垂向速度由正值向负值过渡,以抵消超调.2)定深12.5 m,即深度从0 m变深到12.5 m,航向角5°方向,且从0°到5°,如图6所示.如图6(a)所示,此次定深定向航行过程中第170 s时航行深度第一次达到12.50 m,之后50 s发生了超调,超调量0.6 m,第340 s时航行深度收敛于12.5 m的设定深度值,具有较好的深度控制效果;在定深定向航行的过程中,由图6(c)可以看出,实验艇在0~200的范围内产生了一个大的埋首,根据智能控制的理念,俯仰角提前产生归零趋势,在1 200 s时俯仰角为0°,12.5 m定深航行的效果与20 m定深航行的不同,俯仰角曲线在很长时间范围内均存在波动,其原因是小深度控制存在近水面干扰.本文将专家控制与S面控制相结合,设计了一种专家S面控制器,对专家S面控制算法进行半实物仿真分析,分别在定深20 m和定深12.5 m,定向10°时对定深效果和定向效果进行分析,得出了较好的结论;进行了水下变深的半实物仿真实验,实验结果表明,变深过程中姿态基本稳定,能够满足实际使用要求.。
基于深度强化学习的四旋翼航迹跟踪控制方法
基于深度强化学习的四旋翼航迹跟踪控制方法在科技的海洋中,四旋翼无人机犹如一艘精巧的帆船,而深度强化学习技术则是引领它穿越波涛的罗盘。
本文将探讨这一技术的奥秘,以及它如何革新航迹跟踪控制领域。
首先,我们必须认识到,四旋翼无人机的航迹跟踪控制是一项极具挑战性的任务。
它要求无人机在复杂的环境中精确地遵循预定路径,这就像要求一位舞者在狂风暴雨中完成一套完美的舞蹈动作。
传统的控制方法往往难以应对这种高度动态和不确定性的环境,而深度强化学习提供了一种全新的解决思路。
深度强化学习,这一机器学习的分支,通过让机器自我学习最优策略,来实现对复杂系统的控制。
在这个过程中,算法不断与环境互动,通过试错来优化其行为。
这就像是给无人机装上了一双会思考的眼睛,让它能够在飞行中自我调整,适应各种未知的挑战。
那么,深度强化学习是如何在四旋翼无人机的航迹跟踪控制中发挥作用的呢?首先,我们需要构建一个准确的模型来描述无人机的动态特性和环境因素。
这个模型就像是一张精细的地图,为无人机的飞行提供指导。
然后,我们设计一个奖励函数,用来评价无人机的飞行表现。
这个奖励函数就像是一面镜子,反映出无人机是否偏离了预定的航迹。
最后,我们利用深度神经网络来学习最优的控制策略。
这个网络就像是无人机的大脑,能够处理复杂的信息并做出决策。
在实际应用中,这种方法展现出了惊人的效果。
无人机能够在风速变化、障碍物突然出现等极端情况下,依然紧密地跟随预定航迹。
这就像是在狂风巨浪中依然能够保持航线的船只,展现了深度强化学习的强大能力。
然而,我们也必须看到这项技术面临的挑战。
深度强化学习需要大量的数据和计算资源,这对于实际部署来说是一个不小的障碍。
此外,如何确保学习过程的稳定性和安全性,也是一个亟待解决的问题。
总的来说,基于深度强化学习的四旋翼航迹跟踪控制方法为我们打开了一扇通往未来的大门。
它不仅提高了无人机的性能,也为我们提供了一个理解复杂系统的新视角。
尽管这条路上充满了挑战,但正如航海家面对茫茫大海时的勇气一样,我们也有理由相信,这项技术将带领我们驶向一个更加智能和自主的未来。
基于深度强化学习算法的自主式水下航行器深度控制
收稿日期:2020−11−08;修回日期:2020−11−30 通信作者:李慧平,lihuiping@ 基金项目:国家自然科学基金资助项目(No.61922068,No.61733014);陕西省杰出青年科学基金资助项目(No.2019JC-14); 西北工业大学翱翔青年学者项目(No.20GH0201111)
AUV 在执行任务时,一般要求在固定的深度保
持稳定的运动,因此深度控制是 AUV 的基本控制 目标。本文的目的是探索一种更加先进的 AUV 深 度控制方法,解决 AUV 模型的不确定性和非线性 给控制带来的难题,并提高 AUV 的控制性能;仅 依靠训练得到的与周围环境的交互数据,设计 DRL 算法,从而实现 AUV 的深度控制。
−
xc
cosθ
)
+
1 2
ρv2
SLmz
)
,
m11
= m + λ11 ,
·356·
智能科学与技术学报
第2卷
m22
=
m + λ22
,m26
=
mxc
+ λ26 ,mz
=
mαy α
+
mδe y
δ
e
+
mϖy zϖ z 。m 是 AUV 的质量;G 是 AUV 的重力;λ11 、
λ22 、λ26 、λ66 是与流体动力学有关的附加质量;xc 、 yc 是 AUV 重心到浮力中心的距离在 x 轴和 y 轴上 的分量;T 是由螺旋桨提供的推力;CxS 是 AUV 的
其中, γ ∈ (0,1) 为折扣因子, 保 证 G 是收敛的。
图 2 强化学习的基本框架
强化学习理论推导是在马尔可夫决策模型下进行
我国深海自主水下机器人的研究现状
我国深海自主水下机器人的研究现状一、本文概述随着科技的飞速发展,深海探索已成为人类认识地球、拓展生存空间、开发资源的重要领域。
深海自主水下机器人(AUV)作为深海探索的核心装备,其技术水平直接决定了我国在深海资源开发、深海科学研究、海洋环境监测等领域的竞争力。
本文旨在全面梳理我国深海自主水下机器人的研究现状,分析存在的问题和挑战,并展望未来的发展趋势,以期为推动我国深海自主水下机器人技术的进一步发展提供参考和借鉴。
本文将首先回顾深海自主水下机器人的发展历程,阐述其在我国海洋战略中的重要地位。
接着,将从设计制造、导航定位、智能感知与控制等方面,详细介绍我国深海自主水下机器人的技术现状,以及在国际上的地位和影响力。
在此基础上,本文将深入探讨我国在深海自主水下机器人技术研究中面临的主要问题和挑战,包括核心技术瓶颈、关键部件依赖进口、研发周期长、经费投入不足等。
本文将对未来深海自主水下机器人技术的发展趋势进行展望,提出针对性的建议,以期为我国深海自主水下机器人技术的持续创新和发展提供有益的参考。
二、深海自主水下机器人技术概述深海自主水下机器人(AUV,Autonomous Underwater Vehicle)是海洋工程技术与机器人技术相结合的产物,具有高度的自主性,能够在无人操控的情况下,独立完成复杂的海洋环境探测、海底地形测绘、海洋资源勘探等任务。
我国深海自主水下机器人的研究,经过多年的积累和发展,已经取得了一系列显著的成果。
在硬件设计方面,我国的深海AUV已经具备了较高的耐压性、稳定性和续航能力。
许多型号的AUV采用了先进的复合材料和轻量化设计,有效减轻了机体的重量,提高了其在深海环境中的机动性和灵活性。
同时,AUV的推进系统也经过了优化设计,能够在各种复杂的海洋环境中稳定运行,保证了探测任务的顺利完成。
在软件与控制系统方面,我国的深海AUV已经实现了较高的智能化水平。
通过搭载先进的导航、定位和控制系统,AUV能够自主完成路径规划、避障、目标跟踪等任务。
基于强化学习的自主式水下潜器障碍规避技术
Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater VehiclePrashant Bhopale 1&Faruk Kazi 1&Navdeep Singh 1Received:24September 2017/Accepted:19March 2018/Published online:8April 2019#Harbin Engineering University and Springer-Verlag GmbH Germany,part of Springer Nature 2019AbstractObstacle avoidance becomes a very challenging task for an autonomous underwater vehicle (AUV)in an unknown underwater environment during exploration process.Successful control in such case may be achieved using the model-based classical control techniques like PID and MPC but it required an accurate mathematical model of AUV and may fail due to parametric uncer-tainties,disturbance,or plant model mismatch.On the other hand,model-free reinforcement learning (RL)algorithm can be designed using actual behavior of AUV plant in an unknown environment and the learned control may not get affected by model uncertainties like a classical control approach.Unlike model-based control model-free RL based controller does not require to manually tune controller with the changing environment.A standard RL based one-step Q-learning based control can be utilized for obstacle avoidance but it has tendency to explore all possible actions at given state which may increase number of collision.Hence a modified Q-learning based control approach is proposed to deal with these problems in unknown environment.Furthermore,function approximation is utilized using neural network (NN)to overcome the continuous states and large state-space problems which arise in RL-based controller design.The proposed modified Q-learning algorithm is validated using MATLAB simulations by comparing it with standard Q-learning algorithm for single obstacle avoidance.Also,the same algorithm is utilized to deal with multiple obstacle avoidance problems.Keywords Obstacleavoidance .Autonomousunderwatervehicle .Reinforcementlearning .Q-learning .Functionapproximation1IntroductionThe ocean is the central energy source of energy,minerals,food,etc.for human being hence understanding and exploring the ocean area becomes an important task (Council 1996).Such exploration can be carried out by humans themselves using different manned and unmanned vehicles.Butsometimes,it is not possible for human being to personally visit some hostile areas like radioactive environments or higher depth;in such cases,autonomous underwater vehicle (AUV)plays a vital role for achieving such tasks.AUVs are unmanned type underwater vehicles which are used in the commercial,military,scientific,and private sectors which are designed to explore underwater areas and perform differ-ent missions like pipeline monitoring,etc.(Russell et al.2014).AUVs are the most suitable candidate for exploration of extreme environments due to their ability to operate auton-omously (Fossen 2011).In such operations,AUVs are sup-posed to maneuver on their own as per programmed mission,but such missions are prone to fail due to unknown obstacles in AUV ’s programmed path.Hence,obstacle avoidance be-comes a necessary task for AUV .Obstacle detection and avoidance can be carried out by de-signing proper feedback control for AUV .The controller design-ing process can be classified into two types,namely model-based control and model-free control.Model-based control requires precise computation;the typical classical controller design pro-cedure requires derivation of an exact mathematical model byArticle Highlights•In order to complete the given task in unknown environment,AUV must avoid collisions with obstacles.•A modified Q-learning-based control is proposed to reduce number of collisions and compared with standard one-step Q-learning-based control.•Function approximation is utilized along with RL to deal with continu-ous states and large state-space problem.•Proposed RL-based control is utilized for multiple obstacle avoidance.*Prashant Bhopalepsbhopale_p14@el.vjti.ac.in1Electrical Engineering Department,Veermata Jijabai Technological Institute,Mumbai 400019,IndiaJournal of Marine Science and Application (2019)18:228–238https:///10.1007/s11804-019-00089-3careful analysis of process dynamics;by using this mathematical model,control law has to be derived to meet certain design criteria(Su et al.2013;Qu et al.2017).Sometimes,reduced order models are used to design controller(Bhopale et al. 2017)but it again requires an abstract mathematical model of the plant.Construction of the abstract model may be carried out by system identification approach but it may increase the param-eter dependency(Hafner and Riedmiller2014)and if the behav-ior of plant in real time is different from the abstract model due to parametric uncertainties then,the controller designed using that model may fail.In such scenario,robust controller is proposed for AUVin Cheng et al.(2010)and Bhopale et al.(2016),but the performance of robust control is again limited due to assump-tions of bounded uncertainties.All these methods mentioned above are usually based on specific environment and plant’s abstract mathematical model and depend on more prior knowl-edge like experience and rules.Also,they lack self-learning property to adapt to various unknown environments.Once there is any change in the task or environment,the corresponding designed model-based controller need to be updated manually. Hence,it is better to incorporate model-free self-learning ap-proach in designing feedback control for AUV since dependency on the mathematical model,and uncertainties will vanish and the controller will be developed depending entirely on plant’s(AUV in our case)behavior in the unknown environments.Different model-free control approaches have been pro-posed in literature;where the controller learns plant behavior using neural network(NN).Reinforcement learning(RL)can be considered as a suitable candidate for both self-learning model-based and model-free control approach.Kober (Kober et al.2013)contains a detailed survey regarding the application of RL in the area of robotics,where AUVapplica-tions are also listed.Model-based RL approach utilizes the kinematic model of AUV or sometimes the behavior can be summarized into Gaussian process(GP)model and this model will be used for long-term prediction.Many researchers have combined other controllers with RL where the predicted con-trol of classical control is used as known policy and this policy is modified using actor-critic approach;this particular ap-proach is known as on-policy approach where predefined pol-icy is available but it increases the dependency on model available or derived using NN or GP(Paula and Acosta 2015).On the other hand,the off-policy approach does not require knowledge of AUV’s kinetics or dynamics and the agent learn entire control law by itself.Q-learning is one of the off-policy RL algorithms which can learn from actual plant behavior and can decide its own control command depending on previous experience (Phanthong et al.2014).The Q-learning process executes in the following sequence:for present state,agent selects action depending on policy(random policy or greedy policy)from Q-table which is a storage of state-action value pairs as per previous experience,this selected action is then executed on plant and generated output is measured,depending on how good or bad the output is,the agent receives reward or pun-ishment and using this reward or punishment the Q-value for particular state-action pair is updated and stored as an experi-ence in the Q-table.For next step,the same process is execut-ed and Q-table is updated.In this way,the Q-table is updated iteratively with different state-action pair for the entire state and action space.At the end of the process,Q-learning policy learns the entire control law by itself for defined state-action space from the scratch,without knowing the kinetics or dy-namics of the plant.This self-learning policy can be applied for AUV set-point tracking problem,where AUV can explore entire state space by trying each and every state-action pair (exploration process)to reach the set-point with the objective of maximizing cumulative reward.But in such exploration process if AUV comes across an obstacle and takes any ran-dom action in order to explore,it is possible that collision may occur with obstacle causing damage to AUV.In such case, some researchers have proposed auxiliary controller strategy to switch controller to avoid obstacle but again this controller has to be designed from the mathematical model of AUV which as stated above is prone to uncertainties.Also,curse of dimensionality and continuous state problem are some oth-er drawbacks being faced while standard one-step Q-learning algorithm which is being utilized for AUV.Hence,as a remedy,a modified Q-algorithm is proposed in this paper which does not require auxiliary control or mathemat-ical model of AUV.In the proposed method force exploitation is carried out to deal with this obstacle avoidance problem when AUV is in the unsafe region.This method is entirely model-free and furthermore,NN-based function approximation is utilized to deal with the curse of dimensionality and continuous state prob-lem.Together proposed method removes the dependency of plant model and deals with the curse of dimensionality and con-tinuous state space problem while designing self-learning con-troller for AUV set point tracking and obstacle avoidance.Remaining of the paper is organized as follows:In Section2,a brief introduction to RL and the standard one-step Q-learning algorithm is presented.Then in Section3,the main idea of obstacle avoidance for AUV using RL is pro-posed with a modified Q-learning algorithm.Also for the same problem,issues with continuous state space and curse of dimensionality are highlighted and utilization of function approximation method using the NN is proposed.In Section4,the proposed approach is illustrated using simula-tion results.Finally,Section5concludes the paper by discussing the overall results of the proposed approach.2Reinforcement Learning(RL)RL is a standard machine learning method which is used to solve sequential decision problems modeled in the form ofP.Bhopale et al.:Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater Vehicle229Markov decision processes (MDPs)(Powell 2007).The dy-namic programming assumes deterministic system;on the other hand,RL is approximate dynamic programming obtaining an optimal control policy when the perfect mathe-matical model is not available.Hence,we can say that RL can be utilized as a model-free approach.In the RL problem,the agent which is interacting with the environment has to observe a present state s ∈S of the envi-ronment and,depending on policy an action,a ∈A is selected,where state space S and action space A can be either discrete or continuous set,and can be single or multi-dimensional.It is assumed that state s t at any time instant t contains all relevant information about the plant ’s current situation.As shown in Fig.1below,at time instant t agent observe the state s t ,selects an action a t from A using policy decided,this action a t which is used to control states of the system is executed on the en-vironment,then the environment reacts to the action and next state s t +1is generated by the system using action a t .Now depending on the state s t +1,a reward r t is generated for state-action pair (s t ,a t )this reward can be designed as a sca-lar value or a function of the error between the present state and destination/target state or combination of both.The main goal of RL is to find a policy πby maximizing cumulative expected reward for the action a in given state s .The desired policy πcan be deterministic or stochastic.We can say that a is a sample over actions distribution over new state en-countered as a ~π(s ,a )=P (a |s ).The reward functions are com-monly designed as function of present state,i.e.,r =r (s t );current state and action pair,i.e.,r =r (s t ,a t );or it can be a function of the transitions from one state to new state,i.e.,r =r (s t ,a t ,s t +1).The RL agent is expected to find out the relations between available states,available actions,and earned rewards depend-ing on experience or best available choices.Hence,knowledge of exploration and exploitation is necessary to design RL agent.2.1Exploration vs ExploitationFrom the agent point of view,the environment may be static or dynamic;hence,agent has to try different actions randomly,receive a reward,and keep learning on trial and error basis,this process is known as exploration.When the agent chooses the best action from learned experience and minimizes the cost of learning,it is called exploitation.If the agent has very less expe-rience in large dimensional spaces,then agent selecting best actions based on current learned experience (which is not suffi-cient)is not preferable,because better alternative actions may be available which were potentially never been explored,hence sufficient exploration has to be done for learning the global op-timal solution.Now a question arises that how much and when to explore,and how much and when to exploit.However,too much exploration can cost more in terms of performance and stability when the online implementation is necessary.The greedy policy can be used in such case where the exploration rate is more when the agent starts learning,as experience is gained and exploitation rate increases and exploration rate de-creases gradually to reach the optimal solution.This method can be used to deal with exploration and exploitation trade-off.2.2Q-learningThe Q-learning algorithm is model-free,off-policy RL tech-nique,which uses temporal difference learning approach.It is possible to prove that if sufficient training and experience is given to RL agent under any soft-policy,then the algorithm will converge to close approximation of the action-value func-tion for arbitrary target policy with probability 1.Optimal policy can be learned by Q-learning in both more exploration and random policy case.The state-action value is updated in Q-learning as,Q s t ;a t ðÞ≔Q s t ;a t ðÞþαr t þ1þγmax aQ s t þ1;a t ðÞ−Q s t ;a t ðÞh ið1ÞThe following are parameters in the Q-value update process:&αis a learning rate parameter;it can be set between 0and 1value.If αis set to 0,then,no learning process is carried out and Q-values will never be updated.If αis set to 0.9,then,learning can occur very quickly.&γis a discount factor;this parameter can take any value between 0and 1.This factor is used to ensure that the future rewards are not worth.&ε-if ε=1then pure exploration is carried out and if ε=0then pure exploitation.Hence εis normally set to small positive value between 0and 1.It is a probability fordeciding the policy selection factor ^B,when ^B =1exploi-tation is carried out,else exploration continues.In a scenario when each action is executed on every state in a huge number of times,and if learning rate αis decayed appropriately with increasing number of trials,the Q-values will converge optimal value Q *with probability 1seeFig.1Reinforcement learning mechanism where learning agent interacts with an environment230Journal of Marine Science and Application(Watkins and Dayan1992).In this case,Q directly approxi-mates to optimal value Q*,independent of the policy being followed.This approximation simplifies algorithm analysis and enabled early convergence proofs.But this policy still depends on which state-action pairs are visited and which value functions are updated hence it becomes mandatory to visit all state action pair.If proper exploration-exploitation is carried out then under this assumption Q t converges to Q*with probability1,this one-step Q-learning algorithm(Sutton and Barto1998)is shown below:Algorithm1One-step Q-learning algorithmInitialize (,)arbitrailyrepeat(for each episode):Initialize;repeat(for each step of episode):Choose for using policy derived from ;Take action , observe and ;update(,)(,)+[+max(,)−(,)]until is terminaluntil all episodes end.2.3Q-learning in an Unknown EnvironmentSince Q-learning is a type of RL,it can directly interact with the unknown environment and develop self-learning control without any prior knowledge of the environment.When the environment is unknown,the obstacle avoidance problem of an AUV can be considered as a behavior selection task.In this task,the AUV can automatically produce a correct action of reaching the destination without collision according to the environment information perceived by the sensors equipped on the AUV.The task of finding the optimal path for AUV in an unknown environment is shown in Fig.2.It is assumed that AUV’s sensor system collects information regarding its own position[x t,y t,ψt]and information of nearby obstacle’s(rep-resented by gray circles)position with its dimension at every time instant t.The black point is initial position of AUV rep-resented by[x o,y o,ψo]and the green point is the destination point fed to AUV which is represented by[x d,y d,ψd].The linear distance between AUV and destination point is calculated byΔd¼ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffix d−x tðÞ2þy d−y tðÞ2 qAnd the angular difference between AUV’s current orienta-tion and the destination expected orientation at time t is given by Δψ¼ψd−ψt;Δψ∈−π;þπ½In order to navigate the AUV to its destination point, it is assumed that these variables are always known at each time instant t.Therefore,an obstacle avoidance task is to obtain these variables,Δd andΔψat each time step t,and based on them determine a state-action mapping process until the goal is achieved.As stated in above section Q-learning is a self-learning approach which learns optimal value function(1)with sufficient train-ing using trial and error approach.Q-learning learns control policy for what to do and how to do,to maximize the reward value as stated in Algorithm1.According to this algorithm, AUV first checks its current state s t(position and orientation) in current environment,then pick up random action a t.The random action will result in next state s t+1and,depending on next state,the reward value r t is generated as reinforcement signal depending onΔd,Δψand whether target achived or collision occored.This reward value indicates the conse-quences or advantages of a t at s t.The information s t,a t,s t+1and r t are fed to Q-value function and Q-value,Q(s t,a t)is updated.This process is repeated for next state and taking random action at that state until the destination point is reached or AUV collide with some obstacle.If in this process,AUV find out4paths namely A,B,C and D as shown in Fig.2 then the path A is decided as optimal path at the time of exploitation because Q-learning policy attempts to maximize the cumulative reward value which agent re-ceives in progressive transition of states from its present state.But as we can see,there is no provision to avoid or reduce collision with obstacles in this standardQ-Fig.2Q-learning to find optimal path for AUVP.Bhopale et al.:Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater Vehicle231learning algorithm,all it can learn is from experience, also there is no provision to deal with curse of dimen-sionality,hence a modified Q algorithm is proposed which can reduce the number of collision with obstacles in learning process and can deal with curse of dimen-sionality along with continuous state space problem.3Modified Q-learningTraditionally,AUV consists3subsystems namely guidance system,navigation system,and control system.Guidance system designs an optimal path depending on vehicle dy-namics and obstacles,control system executes the path, and navigation system estimates the states/trajectory in presence of noise or disturbances.Together this guidance, navigation,and control(GNC)systems strongly require the mathematical model of AUV which is againparameter-dependent and may fail due to parametric uncer-tainties,plant-model mismatch or change in the environ-ment.Hence,to replace the GNC system,a behavior adaptive self-learning controller is required to be designed in such scenario which does not depend on plant’s math-ematical model.The self-learning standard one-step Q-learning algorithm stated in Algorithm1can be utilized for this task as stated in Section2.3but it has a tendency to explore all possible actions at given state which may be dangerous in presence of obstacle,as controller may try random action as stated in step4of Algorithm1in order to explore and end up in colliding with obstacle many more times, e.g.,as Path C and Path D shown in Fig. 2.This random action exploration at all time is a drawback of present one-step Q-learning algorithm.Also, standard Q-learning requires a large amount of storage to save all discretized state and action space,this particular problem is known as the curse of dimensionality.Hence, to reduce the collision with an obstacle and to deal with the curse of dimensionality,a modified version of Q-learning algorithm is proposed in Section2.3by augment-ing obstacle with an imaginary unsafe region around the obstacle,force exploitation when the unsafe region is de-tected and utilizing NN.This modified algorithm ensures that when the obstacle is detected AUV will not perform exploration(will not try new or random action)and force exploitation is carried out to get out of the unsafe region to reduce the number of collisions.Static obstacles represent hard constraints that must be taken into account in the development of approxi-mately optimal path planner.To facilitate the develop-ment of obstacle avoiding modified Q-learning control, we assume that AUV receives full knowledge about nearby obstacle,initial point and current state(position and orientation)using sensor mounted on AUV,then obstacles are augmented with an imaginary perimeterin the received database that extends from their bordersdenoting an unsafe region as illustrated in Fig.3.It is also possible to use auxiliary controller alongwith optimal Q control for obstacle avoidance,andswitch in between auxiliary and Q control in case ofthe obstacle detected but it again increases model depen-dency.Hence,a new approach to deal with this problemby updating next values in Q matrix for upcoming ob-stacle and force exploitation in the process is proposed inthis paper.Normally,exploration and exploitation is a trade-offbetween deciding whether to take action which issafe(exploit),try well-known previously updated actionwhich is having high rewards or dare to try new action(explore)in order to discover new strategies with aneven higher or lower reward.But in presence of anobstacle,trying exploration is not a good idea since arandom new action may result in collision with the ob-stacle,hence in the modified Q-learning algorithm,forceexploitation is carried out whenever the AUV goes intothe unsafe region around an obstacle to avoid the pos-sibility of a collision.Theεis probability which is setbetween0and1to decide how much to exploit andhow much to explore as stated in Section 2.1above. The policy factor^B is random value with(1−ε)exploi-tation and(ε)exploration probability.When^B becomes 1then pure exploitation is carried out else pure explo-ration(process randomly choosing an action a t at states t)will be continued as,Action a t¼argmaxa∈AQ if^B^¼1rand a t∈AðÞotherwise&Fig.3i th obstacle with(radius r obs)is augmented with the unsafe region (with radius r pen)232Journal of Marine Science and ApplicationAs stated in Algorithm2,if the AUV enters in theunsafe region then future Q-values is updated to avoid the collision and^B will be set to1for pure exploita-tion irrespective ofεvalue.Until AUV is in the unsaferegion this process repeated to move AUV into the saferegion and avoid collision with obstacles.Proposedmodified Q-learning algorithm is stated in Algorithm2below,Algorithm2Modified one-step Q-learning algorithm Initialize (,)arbitrailyInitialize desired staterepeat (for each episode):Initialize;Initialize exploration or exploitation policy factor and store it asrepeat (for each episode):if ==1then =max(,): choose action with maximum ;else=datasam ple(action space): random ly choose action;endTake action , and observe ;Decide reward (,,)using Algorithm 3;update(,)(,)+[+max(,)−(,)] if unsafe region is detected(,)=maximum(): give m inim umvalue for next step and same action to not to go closer to the obstacle or to avoid collision.=1: m ake pure exploitation to avoid next action in same directionelse=: load saved factor for episode.end ifuntil is terminaluntil all episodes end.To explain the importance of policy factor^B in Algorithm2,the procedure in this algorithm is shown as flowchart in Fig.4.The reward r can be designed as a function of the error between desired state s d and new state s t+1for the transition using action a t,also the reward value will be depending on the current state of AUV that whether present action a t made the transition from safe to unssafe resion,unsafe to safe resion or collision oc-curred.The short schematic for the same is stated in Algorithm3below,Algorith3Reward function for obstacle avoidanceif transition from safe region to unsafe region,then=−10;elseif transition from unsafe region to unsafe region, then =−20;elseif transition from unsafe region to safe region,then =+10;elseif collision with obstacle,then =−100and restart the exploration;else it's transition from safe region to safe region,then (,)=tanh(|_−|end ifThe second last step in algorithm3is reward func-tion as a function of error.This algorithm ensures that if the AUV is entered in the unsafe region,it will try not to go closer to the obstacle avoiding the collision andget out of the unsafe region by taking adifferent action. If the AUV in a safe region it will try to take greedy action towards the desired set-point.Fig.4Flowchart for modified Q algorithmP.Bhopale et al.:Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater Vehicle2333.1Issues with Continuous State Space and Curseof DimensionalityRL algorithms can be modeled as MDPs;hence,we are re-quired to define state space S and action space A.Q-learning is executed in order to learn the mapping from present state input (s t)to the highest value of tried action(max(Q(s t,a t)).In a navigation problem,the AUV receives the state information from environment using its internal measurement units (IMUs),and this state is used to decide which action is to be taken in order to achieve desired setpoint/goal.For AUV action space,A is defined by the span of rudder plane[minδr maxδr]and stern plane[minδs maxδs].Since the maximum span is[−20+20]in degrees for AUV the action space for each control plane can have m user-defined discrete values.This will help AUV in taking other decision and avoiding the previous decision in case if AUV is in unsafe region near the obstacle.It is assumed that,when sensor system detects a nearby obstacle,the AUV will receive this information from vector U∈R,as an indicator of upcoming obstacle’s position and it is unsafe region.Therefore,a state space is augmented with U to define two groups of features,and is expressed as,S t¼s t U !ð2ÞBut as we discretized the states,it is not always possible to be precise and optimal at the same time.Choosing to be more precise will make increase the computation cost;hence,there is a trade-off between the smoothness of the output trajectory and computational efficiency.In such case output,will not remain smooth.(Yoo and Kim2016)used path smoothing to deal with the smoothness of the output trajectory but compu-tation cost is still high.Also,if the state space discretized coarsely then the dimension of Q matrix increases to high extend increasing storage space,this particular problem is known as the curse of dimensionality.Hence,we propose to use function approximation to deal with continuous state problem and curse of dimensionality.3.2Function Approximation Using Neural Network Traditional Q-learning can be designed directly for AUV but on the cost of discretization of states and actions. However,in AUV navigation task,the states are continu-ous due to continuous motion and sensory inputs;hence, it is required to have large memory space to store all the state-action pair value for Q-table and learning speed may decrease as it required to precise state space.This is typ-ically known as the curse of dimensionality.In order to solve this problem,function approximation using the neu-ral network(NN)can be used,since it provides a good generalization as a universal function approximation also it has strong ability to deal with large-scale state spaces.NN basically have three layers namely input layer where input data is loaded,output layer where output data is loaded for training or output is generated for testing,and the interme-diate layer is known as hidden layer where different function (e.g.,Sigmoid)is used for function approximation,these hid-den layers are connected to input and output layer via links and these links have weights assigned.NN can be classified into two types:feed-forward neural network(FFNN)where the weights are fixed and not changed and back-propagation neural network(BPNN)where weights are updated using var-ious methods like back-propagation to train the NN.In order to propose the NN based Q-learning,the tradition-al Q-table is replaced by function approximation using three layers NN as shown in Fig.5.The input layer of NN has4inputs,where3inputs are AUV positions in the surge,sway,and yaw direction,and fourth input is obstacle position.The action space is divided into21discrete states for convenience and represented as m number of Q-values at the output layer.A NN with fully trained weights is utilized in AUV’s navigation problem.For every state transition from s t to s t+1,the inputs are passed through input layer as shown in Fig.5and predicted output is generated by NN.The weights are updated on the basis of networks error,which is a difference between itspredicted Fig.5Neural network(NN)for modified Q algorithmTable1Parameters for AUVInitial poistion x=1,y=1,ψ=0°Desired set point x=100,y=100,ψ=45°State space x∈0:110meters,y∈0:110meters,ψ∈0:359°Action space[0,±5°,±10°,±15°,±20°] 234Journal of Marine Science and Application。
基于深度强化学习的自适应汽车底盘控制系统研究
基于深度强化学习的自适应汽车底盘控制系统研究近年来,随着人工智能技术的不断发展和应用,深度强化学习作为一种新兴的机器学习技术逐渐引起了人们的关注和研究。
在汽车行业中,深度强化学习也被广泛应用于自适应汽车底盘控制系统的研究中,以提高汽车行驶的安全性和稳定性。
自适应汽车底盘控制系统是一种通过自动化调整车辆底盘阻尼、悬挂和转向等参数来实现汽车驾驶稳定性和安全性的控制系统。
目前,传统的汽车底盘控制系统主要是利用人工设计的规则和程序来控制,而深度强化学习则采用了更加智能化和自适应的方法,可以根据实际情况自主学习和调整控制策略,从而提高汽车行驶的安全性、舒适性和燃油效率。
深度强化学习是一种基于试错和奖励机制的学习方法,其基本思想是通过在一个环境中不断尝试行动,并根据行动的结果获得相应的奖励或惩罚,从而逐步寻找一种最优的行动策略。
在自适应汽车底盘控制系统中,深度强化学习可以通过对车辆底盘阻尼、悬挂和转向等参数的不断调整和优化,使得车辆可以快速适应路况变化,并保持稳定性和安全性。
具体来说,深度强化学习可以通过构建一个基于神经网络的控制模型来实现汽车底盘的自适应控制。
在学习过程中,系统会不断从输入数据中提取特征,并根据当前环境和车辆状态调整控制策略,从而使得汽车行驶更加稳定和安全。
而随着深度强化学习的不断应用和优化,汽车底盘控制系统也会逐渐变得更加智能化和自适应,可以在不同条件下提供更加精准和高效的控制策略,从而提高汽车行驶的质量和可靠性。
虽然深度强化学习在自适应汽车底盘控制系统中的应用还处于初级阶段,但是其未来的发展前景广阔。
随着汽车技术的不断更新和升级,深度强化学习也将会成为汽车底盘控制系统的主流技术之一,为实现人类智慧和机器智能的融合提供强有力的支持。
同时,我们也需要加强对深度强化学习技术的研究和开发,进一步探索其在汽车领域中的应用和优化,以推动汽车行业的技术进步和发展。
洋流影响下的水下滑翔机动力学建模、运动分析与控制器设计研究
洋流影响下的水下滑翔机动力学建模、运动分析与控制器设计研究一、本文概述Overview of this article随着海洋科技的飞速发展,水下滑翔机作为一种新型的海洋探测设备,其在海洋环境监测、海底资源勘探、海洋灾害预警等领域的应用日益广泛。
然而,水下滑翔机在复杂的海洋环境中运行时,受到洋流、海流、潮汐等多种因素的影响,其动力学特性极为复杂。
因此,深入研究洋流影响下的水下滑翔机动力学建模、运动分析以及控制器设计,对于提高水下滑翔机的运行效率、稳定性和安全性具有重要意义。
With the rapid development of marine technology, underwater gliders, as a new type of marine exploration equipment, are increasingly widely used in fields such as marine environmental monitoring, seabed resource exploration, and marine disaster warning. However, when underwater gliders operate in complex marine environments, they are influenced by various factors such as ocean currents, ocean currents, tides,etc., and their dynamic characteristics are extremely complex. Therefore, in-depth research on the dynamics modeling, motion analysis, and controller design of underwater gliding under the influence of ocean currents is of great significance for improving the operational efficiency, stability, and safety of underwater gliders.本文旨在探讨洋流影响下的水下滑翔机动力学建模方法,分析水下滑翔机在洋流作用下的运动特性,研究控制器设计策略以提高水下滑翔机的运动性能和鲁棒性。
基于强化学习的无人船自主避障路径规划
基于强化学习的无人船自主避障路径规划一、无人船自主避障路径规划概述无人船技术近年来在海洋探索、环境监测、货物运输等领域得到了广泛的应用。
随着技术的发展,无人船的自主性变得越来越重要,尤其是在复杂多变的海洋环境中,自主避障路径规划成为无人船技术的核心之一。
基于强化学习的无人船自主避障路径规划,是指通过机器学习的方法,使无人船能够在未知或动态变化的环境中自主学习并规划出避开障碍物的最优路径。
1.1 无人船自主避障路径规划的重要性无人船在执行任务时,需要面对各种海洋环境的挑战,如礁石、漂浮物、其他船只等。
有效的自主避障路径规划能够确保无人船安全、高效地完成任务,减少因碰撞或搁浅导致的损失。
此外,自主避障路径规划还能提高无人船的作业效率,优化资源分配,降低人为干预的需求。
1.2 无人船自主避障路径规划的应用场景无人船自主避障路径规划的应用场景非常广泛,包括但不限于以下几个方面:- 海洋环境监测:无人船可以搭载传感器,对海洋环境进行长期监测,自主规划路径避开障碍,确保数据采集的连续性和准确性。
- 货物运输:在特定的水域内,无人船可以自主规划路径,避开障碍物,提高运输效率和安全性。
- 搜救行动:在紧急搜救任务中,无人船能够快速规划出避开障碍物的路径,及时到达目标区域进行搜救。
二、基于强化学习的无人船自主避障路径规划强化学习是一种无模型的学习方法,通过与环境的交互来学习策略,以最大化累积奖励。
在无人船自主避障路径规划中,强化学习可以用于学习如何在复杂的海洋环境中做出最优决策。
2.1 强化学习的基本框架强化学习的基本框架包括智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)和策略(Policy)。
智能体在环境中通过执行动作来改变状态,并根据状态转移获得奖励。
智能体的目标是学习一个策略,以最大化长期累积的奖励。
2.2 强化学习在无人船自主避障路径规划中的应用在无人船自主避障路径规划中,智能体可以是无人船的控制系统,环境是海洋环境,状态可以是无人船的位置和速度,动作是无人船的控制指令,奖励可以是避障成功与否的反馈,策略则是无人船的避障决策规则。
无人水下航行器集群控制
这本书的实用性也非常强。它不仅提供了丰富的理论知识,还通过具体的实 验和案例分析,帮助读者更好地理解和应用这些知识。这样的结构使得这本书不 仅适合作为学术研究的参考书,也适合作为工程实践的指导手册。
总体来说,《无人水下航行器集群控制》是一本深入浅出、理论与实践相结 合的书籍。它不仅为我们揭示了无人水下航行器集群控制的奥秘,还为我们展示 了这一领域的未来发展方向。随着海洋资源的日益重要和海洋环境的日益复杂, 无人水下航行器的集群控制将发挥越来越重要的作用。这本书无疑为我们提供了 一个宝贵的视角,让我们更加深入地了解这个领域的前沿技术和研究成果。
本书首先介绍了AUV的基本原理、集群控制的概念及其重要性,然后深入阐述了AUV集群的通信、 导航、路径规划等核心技术。其中,通信技术是实现AUV之间信息交换的关键,涉及数据传输的 可靠性、实时性和安全性等问题;导航技术则需要考虑水下环境的复杂性和不确定性,使AUV能 够准确地进行定位和导航;路径规划则是在保证任务完成的同时,如何降低能耗,提高AUV的续 航能力。
该章节主要介绍了AUV集群在协同探测和信息融合方面的关键技术,包括多 AUV探测信息融合、多传感器信息融合、多源数据融合等方面的内容,为AUV集群 的高效探测提供了技术支持。
该章节主要介绍了AUV集群系统的硬件和软件设计,包括AUV本体设计、传感 器选型、通信协议设计、控制系统设计等方面的内容。同时,还给出了一个AUV 集群系统的实现案例,为读者提供了实际操作的经验和参考。
无人水下航行器集群控制
读书笔记
01 思维导图
03 精彩摘录 05 目录分析
目录
02 内容摘要 04 阅读感受 06 作者简介
思维导图
本书关键字分析思维导图
集群
实现
基于水下航行器导航定位及信息融合技术研究
基于水下航行器导航定位及信息融合技术研究一、本文概述随着海洋资源的日益开发和利用,水下航行器在海洋探测、海底资源勘探、水下救援等领域的应用越来越广泛。
然而,水下环境的复杂性和不确定性,使得水下航行器的导航定位及信息融合技术成为其性能提升和广泛应用的关键。
本文旨在深入探讨水下航行器的导航定位技术及其信息融合方法,分析当前国内外研究现状,并在此基础上提出新的技术思路和改进方案,为水下航行器的性能提升和实际应用提供理论支撑和实践指导。
本文首先对水下航行器导航定位技术的基本原理和常用方法进行了详细介绍,包括声学导航、惯性导航、视觉导航等多种导航方式,以及各种导航方式的优势和不足。
在此基础上,对水下航行器信息融合技术的研究现状进行了综述,包括传感器数据融合、多源信息融合、导航与感知信息融合等方面的研究进展。
针对当前研究中存在的问题和不足,本文提出了一种基于多源信息融合的水下航行器导航定位方法。
该方法充分利用了声学、惯性、视觉等多种导航方式的优势,通过信息融合技术实现对水下航行器的高精度导航定位。
本文还提出了一种基于深度学习的水下环境感知模型,用于提高水下航行器对复杂环境的感知和适应能力。
本文对所提出的方法进行了仿真实验和性能评估,验证了其有效性和可行性。
对未来研究方向和应用前景进行了展望,以期为推动水下航行器技术的发展和进步做出贡献。
二、水下航行器导航定位技术基础水下航行器的导航定位技术是其实现精确导航与高效作业的关键所在。
该技术融合了多种学科领域的知识,包括物理学、数学、控制工程以及海洋科学等。
其核心技术主要包括声纳导航、惯性导航、视觉导航以及地磁导航等。
声纳导航:声纳(SONAR)是水下航行器最常用的导航手段之一。
它利用声波在水中的传播特性,通过发射声波并接收其反射回波,从而获取航行器与周围环境的相对距离和形状信息。
声纳导航的优点在于其工作范围广泛,不受光线条件限制,但精度受水质、水温、盐度等多种因素影响。
水下滑翔机动力学建模及PID控制
水下滑翔机动力学建模及PID控制王旭超;齐向东【摘要】为了解决水下滑翔机的控制问题,设计了尾部四螺旋桨来控制滑翔机的俯仰和转向,对水下滑翔机进行运动学和动力学建模,并在其基础上设计了PID控制器.通过Matlab/Simulink仿真和湖试对所设计的PID控制器的有效性进行验证.仿真结果表明在所设计的PID参数下,控制器能够有效地完成水下滑翔机自稳定控制.湖试结果与仿真结果相比较,可以得出设计的PID控制器参数选取合理,能够快速准确地实现姿态的调节.%In order to solve the problem of underwater glider control, the tail four-propeller is designed to control the pitching and steering of the glider. The kinematics and dynamics of the underwater glider are modeled and the PIDcontrol-ler is designed on the basis of it. The validity of the designed PID controller is verified by Matlab/simulink simulation and lake test. The simulation results show that the controller can effectively control the self-stabilization of the underwater glider under the designed PID parameters. Compared with the simulation results, it can be concluded that the design of the PIDcon-troller is reasonable and the attitude can be adjusted quickly and accurately.【期刊名称】《舰船科学技术》【年(卷),期】2017(039)012【总页数】6页(P64-69)【关键词】水下滑翔机;动力学模型;PID控制;Matlab仿真;湖试【作者】王旭超;齐向东【作者单位】太原科技大学电子信息与工程学院,山西太原 030051;太原科技大学电子信息与工程学院,山西太原 030051【正文语种】中文【中图分类】N945.12;TP391.921世纪以来,海洋资源的开发和利用问题越来越引起人们的关注,随着技术的不断成熟,水下滑翔机作为一种新型的海洋勘测工具逐渐发展起来。
基于模型预测控制的水下机器人动态目标跟踪控制
高技术通讯2020年第30卷第6期;606-614doi:10.3772/j.issn.1002-0470.2020.06.008基于模型预测控制的水下机器人动态目标跟踪控制①魏亚丽②朱大奇③褚振忠(上海海事大学智能海事搜救与水下机器人上海工程技术研究中心上海201306)摘要针对水下动态目标跟踪问题,研究了基于模型预测控制(MPC)的水下机器人跟踪控制方法。
首先,对于多波束前视声纳图像所采集的图像,通过滤波去噪、阈值分割及特征提取处理,得到动态跟踪目标的位置信息;然后构建无迹卡尔曼滤波器预测动态目标的轨迹信息,通过与卡尔曼滤波器对比,体现了无迹卡尔曼滤波对动态目标预测结果的准确性;最后,应用模型预测控制器实现对动态目标的水下跟踪,解决了反步控制算法中速度超限的问题,使跟踪结果更加稳定可靠。
实验与仿真表明所提动态目标跟踪控制方法有效可行。
关键词水下机器人;跟踪控制;模型预测控制(MPC);动态目标;前视声纳0引言水下动态目标跟踪技术在海洋资源勘探、水下工程作业、海战场监视及水下精确制导等方面具有广泛的应用前景。
近年来,水下动态目标跟踪问题研究得到了一定的发展,在声纳图像处理及动态目标定位方面提出了很多方法。
文献[1]提出了基于声纳图像的高斯混合基数化概率假设密度(Gaussi-an mixture cardinality probability hypothesis density, GM-CPHD)滤波算法,更有效地实现了目标状态及数目的估计。
文献[2]提出了基于鲁棒粒子滤波的被动声纳多目标跟踪算法,该算法能够在保持多目标连续跟踪的同时跟踪未知的时变多目标,提高了水下目标跟踪的准确性。
文献[3]针对主动声纳测量误差引入的目标机动决策模糊问题,提出了一种基于机动检测延迟的跟踪滤波算法,提高了声纳图像目标定位的精度。
文献[4]研究了基于交互式多模型的水下动态目标跟踪问题,在动态目标轨迹预测中具有较好的实时性与可靠性。
水下无人航行器装备技术发展与作战应用研究
水下无人航行器装备技术发展与作战应用研究世界范围内开展水下无人航行器研发的国家主要为美、俄、欧亚各国等,其中以美国在役数量最多,在能源动力、自主控制、导航精度及水声通信等关键技术均处于领先水平,已形成系列化产品或装备,广泛应用于军民各领域。
据兰德公司2019年统计数据显示,全球已研制完成航行器超过160型,其中重量在2t以下的数量比例超过50%。
图1国外水下无人航行器尺寸重量分布军用水下无人航行器全球已列装和在研约50型,按照美海军划分标准统计,可分为超大型2型、大型22型、中型20型、小型11型。
其中,中小型主要用于情报监视侦察、反水雷、诱饵欺骗、海洋调查等,大型兼具运载、反潜反舰、电子战等能力,超大型将进一步具备直接打击与对抗等作战能力。
一、国外发展现状现阶段,美国军用水下无人航行器以小型、中型、大型和超大型为发展序列,其中大型、超大型无人航行器尚处于研制验证阶段,未来将重点拓展作战能力、探索作战形式;中小型无人航行器已完成MK18系列中小型反水雷航行器、“刀鱼”中型反水雷航行器、LBS-G中型战场感知水下滑翔机等装备的列装,具备反水雷、情报监视侦察、海洋环境探测等实际作战能力,未来将进一步提升作战效能。
图2 “虎鲸”超大型无人水下潜航器畅想图超大型航行器方面以“虎鲸”超大型无人航行器为发展重点,2019年美海军正式启动5艘“虎鲸”研制建造计划,以美国波音公司“回声-航行者”型超大型无人航行器为基础进行研制,该型航行器2017年开始初次海试,长16m,重50t,潜深3300m,采用混合式可充电电力系统,续航力6个月,并装配长达10.2m的模块化有效载重舱,主要用于执行情报监视侦察、反水雷、时敏打击任务,全部5具将至2022年完成交付。
图3 “虎鲸”超大型无人航行器平台概念图图4 国外水下无人航行器典型装备大型航行器方面以“蛇头”大型航行器为发展重点,2016年海军研究办公室完成900~1100nmile长航时试验,排水量约10t,直径约1.5m,续航30d或更长,计划能够由“弗吉尼亚”级潜艇改装的导弹发射筒发射。
基于深度强化学习的控制器优化设计
基于深度强化学习的控制器优化设计深度强化学习(Deep Reinforcement Learning)是一种让机器学习代理通过与环境的交互来学习决策的方法。
控制器优化设计在实际应用中具有广泛的重要性,能够用于处理诸如智能交通系统、机器人控制、工业自动化等领域中的复杂问题。
本文将介绍基于深度强化学习的控制器优化设计,并探讨其在实际应用中的潜力和挑战。
在传统的控制器设计中,通常基于模型的方式来描述系统的行为,并通过数学方法求解最优控制策略。
这种方法对于问题的建模要求较高,且难以处理复杂的非线性、高维度、模型不确定等问题。
而深度强化学习则通过在无模型、无需环境的先验知识的情况下,通过与环境的交互来优化控制策略的方式,克服了这些问题。
深度强化学习的核心思想是基于奖励信号来指导代理的学习过程。
具体而言,代理通过不断与环境进行交互,观察当前状态并选择动作来影响环境,从而获得奖励信号。
代理的目标是最大化累积奖励,在不断尝试不同的动作和获得奖励的过程中,学习到最优的策略。
在设计控制器时,深度强化学习的一个关键是如何有效地表示状态和动作空间。
通常情况下,状态可以由传感器读取的观测信息表示,而动作空间可以是离散的或连续的。
在处理高维观测和大动作空间问题时,可以使用深度神经网络来近似值函数和策略函数。
深度神经网络的优势在于其具备强大的表示能力和对复杂数据结构的处理能力,能够学习到隐含在观测和动作中的抽象特征。
在深度强化学习中,控制器的设计通常涉及两个关键组件:值函数和策略网络。
值函数用于评估每个状态的价值,反映行动对未来奖励的影响;策略网络则用于生成动作的概率分布。
这两个组件相互作用,通过不断迭代优化,逐步得到最优的控制策略。
然而,基于深度强化学习的控制器优化设计也面临一些挑战。
首先,深度强化学习的训练过程需要大量的交互数据和计算资源,训练时间较长。
同时,由于深度神经网络的非线性和复杂性,深度强化学习容易陷入局部最优解,难以达到全局最优。
基于强化学习的流场控制策略优化研究
基于强化学习的流场控制策略优化研究近年来,基于强化学习的流场控制策略优化研究成为了流体力学领域的热点之一。
随着人工智能技术的快速发展,强化学习在流体力学领域得到了广泛应用,尤其是在流场控制方面。
流场控制是指通过改变流场中的某些参数,如流速、压力等,来达到某种效果。
传统的流场控制方法主要是通过设计一些结构来改变流场的流动状态,如增加阻力、加速流动等。
然而,这种方法容易造成能量损失,并且不灵活。
基于强化学习的流场控制策略优化研究,正是为了解决上述问题而出现的。
强化学习是一种通过多次试错来训练智能体,使其学会最优决策的方法。
在流场控制中,智能体就是通过改变流场的某些参数来达到最优效果的。
强化学习的优势在于可以通过反复试错来获取最优决策,而不需要事先知道最优解。
这种方法可以自适应地调整流场控制策略,提高流动控制的效率。
在流体力学领域,基于强化学习的流场控制策略优化研究已经得到了广泛应用。
在基于强化学习的流场控制策略优化研究中,通常采用的方法是将流场控制看作一个序列决策问题。
通过建立状态空间、行为空间和奖励空间,将问题转化为马尔科夫决策过程(MDP)。
然后,通过强化学习算法来训练智能体,使其能够在不断试错中找到最优决策。
在强化学习算法中,最常用的是Q学习算法和策略梯度算法。
Q学习算法基于Q函数来更新策略,可以通过离线学习来获得策略。
策略梯度算法则是基于梯度来更新策略,可以通过在线学习来获得策略。
两种算法各有优缺点,应根据具体情况选择。
在具体应用中,基于强化学习的流场控制策略优化研究可以应用于飞行器、汽车、船舶等复杂系统的流场控制中。
例如,在飞行器上应用流场控制技术可以提高空气动力学效率,从而降低油耗,延长飞行时间。
在汽车上应用流场控制技术可以提高车辆性能,降低油耗和排放量。
在船舶上应用流场控制技术可以提高航行效率,减少波浪和阻力,从而提高船舶的速度和运载能力。
总之,基于强化学习的流场控制策略优化研究是一项十分有前途的研究方向。
基于冗余管理的水下航行器深度容错控制方法
基于冗余管理的水下航行器深度容错控制方法
张立川;徐德民;李俊
【期刊名称】《火力与指挥控制》
【年(卷),期】2009(034)007
【摘要】随着海洋开发的日益增加,水下航行器的研究也进入了快速发展阶段,如何保证航行器在水下恶劣环境中可靠工作成为急待解决的问题,尤其对于超远航程和超长航时的航行器,其航行过程中难免会发生意外错误,因此在保证性能的同时,如何提高水下航行器的容错能力成为近年来研究的一个热点问题.提出了一种基于冗余管理(Redundancy Management)理论的水下航行器容错控制方案,方案有效利用了航行器中各传感器的冗余性,减少了硬件设备的增加,降低了成本,并利用有限元状态机方法进行了Matlab程序仿真,结果表明,整个方案设计合理,容错控制律真正达到了"容错控制"的目的.
【总页数】3页(P57-59)
【作者】张立川;徐德民;李俊
【作者单位】西北工业大学航海学院,陕西,西安,710072;西北工业大学航海学院,陕西,西安,710072;西北工业大学航海学院,陕西,西安,710072
【正文语种】中文
【中图分类】TP273
【相关文献】
1.基于 Matlab的水下航行器航向自抗扰控制方法研究* [J], 陈路伟;汤华涛
2.基于Stateflow的水下航行器容错控制设计 [J], 张立川;徐德民;高剑;杨立
3.基于深度强化学习的机械臂容错控制方法 [J], 李铭浩; 张华; 刘满禄; 李新茂; 周祺杰
4.一种开关磁阻电机无位置传感器低速起动冗余容错控制方法及应用 [J],
5.基于信息冗余的容错阀门管理 [J], 于达仁;毛志伟;徐基豫
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于强化学习补偿器的水下航行器姿态控制近年来,水下航行器的研发和应用越来越广泛。
然而,由于水下环境的复杂性和航行器自身的动力学特性,水下航行器的姿态控制问题一直是一个具有挑战性的任务。
传统的基于模型的控制方法在面对水下环境的不确定性时表现不佳。
为了解决这一问题,本文提出了一种基于强化学习补偿器的水下航行器姿态控制方法。
一、介绍
水下航行器姿态控制是指通过控制航行器的角度和方向,使其达到所期望的目标姿态。
传统的控制方法通常采用PID控制器等经典控制方法,但这些方法需要精确的数学模型,并且对于水下环境的不确定性敏感。
因此,基于强化学习的方法成为研究的热点,其能够通过试错学习,自适应地调整控制策略,提高控制性能。
二、强化学习补偿器原理
强化学习补偿器是一种通过学习方式自适应调整航行器控制策略的方法。
其基本原理是建立一个强化学习器,以反馈信号作为输入,输出一个补偿控制指令,用于修正传统控制器的输出。
补偿器通过与控制器串联连接,实现对传统控制方法的增益和补偿。
三、强化学习补偿器的设计
1. 状态空间设计
为了实现姿态控制,首先需要定义航行器的状态空间。
状态空间可
以包括航行器的位置、方向、速度等信息。
这些状态信息将作为强化
学习器的输入。
2. 动作空间设计
动作空间定义了航行器姿态控制的可行动作集合。
例如,俯仰角、
横滚角和偏航角等。
强化学习器将在动作空间中选择合适的动作,以
实现期望的姿态控制。
3. 奖励函数设计
为了引导强化学习器学习到良好的控制策略,需要定义一个奖励函数。
奖励函数应该根据航行器的当前状态和期望的姿态,给出一个适
当的奖励,以鼓励学习器选择正确的动作。
四、实验与结果分析
为了验证基于强化学习补偿器的水下航行器姿态控制方法的有效性,进行了一系列的实验。
实验使用了一台水下航行器,并通过搭载的各
种传感器获取姿态信息。
实验结果表明,与传统的PID控制方法相比,基于强化学习补偿器的控制方法能够更好地适应水下环境的不确定性,并且具有良好的控制性能。
五、结论
本文基于强化学习补偿器的水下航行器姿态控制方法,通过学习方
式实现了对传统控制方法的增益和补偿。
实验结果表明,该方法能够
有效地提高水下航行器的姿态控制性能,具有应用潜力。
未来的研究可以进一步优化强化学习算法,并将其应用于更多实际任务中。
总结起来,本文介绍了基于强化学习补偿器的水下航行器姿态控制方法,并详细阐述了方法的原理、设计步骤,以及实验结果分析。
该方法在水下环境的不确定性下表现出良好的控制性能,为水下航行器的姿态控制领域提供了一种新的解决方案。
相信该方法的研究将进一步推动水下航行器技术的发展和应用。