10未知环境中无人驾驶船舶智能避碰决策方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文献标志码: A
决策的设计准则。然后, 在此基础上, 建立基于 Markov 决策方法 (MDP) 的智能避碰决策模型, 通过值函数求解
DOI: 10.19693/j.issn.1673-3185. 01144
Method for intelligent obstacle avoidance decision-making of unmanned vessel in unknown waters
作者简介: 王程博, 男, 1992 年生, 硕士生。研究方向: 无人驾驶船舶行为决策, 船舶交通流。 张新宇 (通信作者) , 男, 1978 年生, 博士, 教授, 博士生导师。研究方向: 交通信息工程, 组织优化调度, 交通管理系统, 无人驾驶船舶技术。
Baidu Nhomakorabea
第6期
王程博等: 未知环境中无人驾驶船舶智能避碰决策方法
in the unmanned vessel's intelligent obstacle avoidance decision-making,propose the design criteria of
based on Deep Reinforcement Learning (DRL) is established. Here we analyze the problems encountered
0
引
言
Temizer 等[8]将无人机避碰问题视为 MDP 过程, 实 现了无人机避碰的智能决策。 Furda 和 Vlacic[9]针 对自主式城市车辆的实时决策问题, 建立了 MCDM 模 型 , 验证了该模型在新领域的适用性。 Li 等[10]使用 Q 学习算法, 通过一系列模拟驾驶场 车决策模型。 Zheng 等[11]建立了基于 MDP 方法的 MDP 决策模型的性能。 景, 学习优化策略, 建立了基于强化学习的智能超 车辆决策模型, 使用近似强化学习方法来改善 国内外学者对智能决策的理论、 模型和实现
第 13 卷 第 6 期 2018 年 12 月
中 国 舰 船 研 究 Chinese Journal Ship Research 中 国 舰 of 船 研 究
Vol.13 No.6 Dec. 2018 第 13 卷
引用格式: 王程博, 张新宇, 张加伟, 等. 未知环境中无人驾驶船舶智能避碰决策方法 [J] . 中国舰船研究, 2018, 13 (6) : 72-77. WANG C B, ZHANG X Y, ZHANG J W, et al. Method for intelligent obstacle avoidance decision-making of unmanned vessel in unknown waters [J] . Chinese Journal of Ship Research, 2018, 13 (6) : 72-77.
WANG Chengbo1, ZHANG Xinyu1, ZHANG Jiawei1, LIU Shuo2 1 Key Laboratory of Marine Simulation and Control for Ministry of Communications, Dalian Maritime University, Dalian 116026, China 2 College of Navigation, Dalian Maritime University, Dalian 116026, China Abstract: [Objectives]In order to realize intelligent obstacle avoidance of unmanned vessel in unknown waters, [Methods] an intelligent obstacle avoidance decision-making model of the unmanned vessel
the intelligent obstacle avoidance decision-making,and then accordingly establish a decision-making excitation function specially composed of target approaching,off course and safety. Finally,carry out the simulation tests respectively in static and dynamic waters.[Results] The results show that the proposed
function to make the maximum returns in behavior mapping of the unmanned vessel status and to design an intelligent decision-making method can effectively avoid obstacles,and ensure the safe navigation of the reference for autonomous navigation of the unmanned vessel. obstacle avoidance
未知环境中无人驾驶船舶智能避碰决策方法
王程博 1, 张新宇 1, 张加伟 1, 刘硕 2
1 大连海事大学 航海动态仿真与控制交通行业重点实验室, 辽宁 大连 116026 2 大连海事大学 航海学院, 辽宁 大连 116026
摘
要: [目的]为了实现无人驾驶船舶在未知环境下的智能避障功能, [方法]首先, 建立一种基于深度强化学
73
随着人工智能和无人驾驶技术的快速发展, 无人驾驶船舶成为海上智能交通的重要研究领 域。当前, 航运业正处于从自动化、 信息化时代向 智能化时代过渡的阶段。随着船联网建设的不断 完善, 以及云计算、 大数据在航运领域的逐步应 用, 构建智能化的航运系统已成为未来几年甚至 十几年内可能实现的目标。无人驾驶船舶集成了 众多先进技术, 包括智能航行 (智能识别和智能决 策) 、 岸基支持、 船舶运维、 船岸通信、 船舶设计与 制造、 能效、 集成测试等。智能决策层在整个无人 驾驶船舶系统中扮演着 “副驾驶” 的角色, 需要解 决的问题是在已知无人驾驶船舶系统所处环境的 信息基础上, 决定船舶的航行策略。目前, 国内外 关于无人驾驶船舶行为决策的研究较少, 但在无 人驾驶汽车和移动机器人等其他领域内行为决策 方法的研究已取得较好成果。 动下, 移动机器人相关技术的研究获得了飞跃式 发展, 涌现出了许多移动机器人行为决策的方法, 包括速度矢量可行度方法、 多目标决策方法 (Multi-Criteria Decision-making Method, MCDM) 、 马尔科夫决策方法 (Markov Decision-making Pro⁃ cess,MDP) 、 贝叶斯网络决策方法、 模糊决策方法 和产生式规则决策方法等。其中, 赵忆文和谈大 龙[1]提出了基于速度矢量可行度的自主移动机器 人多行为综合决策方法, 并取得了更合理的行为 综合结果。张晓东等 通过解决物资转运线路规 划、 时间计算、 作业排序和资源配班 4 个主要问
习 (DRL) 技术的无人驾驶船舶智能避碰决策模型, 分析无人驾驶船舶智能避碰决策面临的问题, 提出智能避碰 决策模型中的最优策略, 使无人驾驶船舶状态对行为映射中的回报最大, 并专门设计由接近目标、 偏离航线和 安全性组成的激励函数。最后, 分别在静态、 动态障碍环境下进行仿真实验。 [结果]结果表明, 该智能决策方法 可以有效避让障碍物, 保障无人驾驶船舶在未知水域中的航行安全, [结论]所提方法可为无人驾驶船舶的自主 航行提供理论参考。 关键词: 无人驾驶船舶; 智能决策; 深度强化学习; 避障 中图分类号: U664.82; TP273.5
[3] [2]
方法等进行了许多探索和研究, 但在无人驾驶船 舶智能避碰决策领域的研究和应用尚处于起步阶 段。鉴于此, 本文将首先对无人驾驶船舶智能行 为决策算法的设计进行分析, 探讨无人驾驶船舶 智能决策所面临的问题。然后, 通过构建适用于 无人驾驶船舶的深度强化学习 (Deep Reinforce⁃ ment Learning, DRL) 和设定惩罚函数, 建立无人驾 驶船舶避障的智能决策模型。最后, 分别在不同 障 碍 环 境 下 对 基 于 DRL 的 无 人 驾 驶 船 舶 智 能 避 法的适用性。 碰决策模型进行仿真, 以验证模型的有效性和算
Key words: unmanned vessel; intelligent decision-making; Deep Reinforcement Learning(DRL);
收稿日期: 2017 - 12 - 29 网络首发时间: 2018-10-19 14:14
基金项目: 国家自然科学基金资助项目 (51779028)
自上世纪 70 年代以来, 在各种智能技术的推
1
无人驾驶船舶智能避碰决策面临 的问题
相比于车辆在陆地道路上的行驶, 无人驾驶
船舶航行的海洋环境更复杂、 多变, 在避碰智能决 策方面面临如下 2 个难点。 1)海洋环境复杂、 多变。
首先, 在海洋环境下, 风、 流、 涌、 浪等的时变 性较强, 极大地影响了船舶航行安全。其次, 近海 水域有较强的结构化通航特征, 分道通航种类较 多且助航信息量大, 例如, 灯浮、 灯标、 航道建筑 物、 航行信号灯和不守规则的小型渔船等外部环 境因素。因此, 无人驾驶船舶避碰智能决策的设 计需要考虑多源信息的约束, 并能从中提取有效 信息。 实现 “拟人化” 。 2)无 人 驾 驶 船 舶 的 终 极 目 标 是 最 大 限 度 地 在有人驾驶船舶的操纵过程中, 驾驶员会将 人、 船、 航线视为一个整体, 在海上交通规则、 驾驶 经验及意图的指导下进行反应式驾驶, 通过值函 数求解决策模型中的最优策略, 使无人驾驶船舶 状态对行为映射中的回报最大; 在避碰智能决策 设计上, 无人驾驶船舶需要借鉴有人驾驶船舶的 操作人员处理复杂交通场景的决策过程, 合理学 习其驾驶经验及规则中的模糊定义, 在操作过程
题, 设计了用于舰船物资转运方案的计算机辅助 决策方法。王斌明 提出了一种结合神经网络和 模糊神经网络的机器人智能决策方法, 在提高多 级信息识别准确率的基础上, 完成了机器人智能 避障操作。 Tanaka 等 描述了一种用于移动机器
[4]
人导航的新型粗糙地形可穿越性分析和行为生成 方法, 利用参考姿态跟踪的控制方法实现移动机 器人的智能导航。陈雪梅等 采用粗糙集提取驾 驶员换道行为的决策规则, 以达到有效进行无人 驾驶避碰的决策。杜明博[6]通过研究人类在各种 交通场景下的驾驶行为决策过程, 构建了一种基 于决策树的驾驶行为决策模型, 并在 “智能先锋 Ⅱ ” 无人驾驶车辆平台上验证了智能决策模型的有效 性。田赓 在获取有经验的驾驶员决策信息的基 础上, 深入研究了人为换道的决策机理, 并建立 了有效决策模型, 实现了车辆准确换道决策。
[7] [5]
74
中
国
舰
船
研
究
第 13 卷
中智能化地实现 “拟人化” 决策。
下 到 达 下 一 个 状 态 s′ 的 概 率 ,R a (ss′) 为 激 励 函 数, 表示无人驾驶船舶在动作 a 情况下, 从状态 s 到 下 一 个 状 态 s′ 所 得 到 的 激 励 ;γ Î (0 1) , 为激 励 衰减因子, 在下一时刻 t 的激励便按此因子衰 减[12-13]。 在上述的 MDP 定义下, 无人驾驶船舶的智能
model based on Markov Decision Process (MDP),through which obtain the optimal strategy by value
unmanned vessel in unknown waters. [Conclusions] The proposed method can provide a theoretical
决策的设计准则。然后, 在此基础上, 建立基于 Markov 决策方法 (MDP) 的智能避碰决策模型, 通过值函数求解
DOI: 10.19693/j.issn.1673-3185. 01144
Method for intelligent obstacle avoidance decision-making of unmanned vessel in unknown waters
作者简介: 王程博, 男, 1992 年生, 硕士生。研究方向: 无人驾驶船舶行为决策, 船舶交通流。 张新宇 (通信作者) , 男, 1978 年生, 博士, 教授, 博士生导师。研究方向: 交通信息工程, 组织优化调度, 交通管理系统, 无人驾驶船舶技术。
Baidu Nhomakorabea
第6期
王程博等: 未知环境中无人驾驶船舶智能避碰决策方法
in the unmanned vessel's intelligent obstacle avoidance decision-making,propose the design criteria of
based on Deep Reinforcement Learning (DRL) is established. Here we analyze the problems encountered
0
引
言
Temizer 等[8]将无人机避碰问题视为 MDP 过程, 实 现了无人机避碰的智能决策。 Furda 和 Vlacic[9]针 对自主式城市车辆的实时决策问题, 建立了 MCDM 模 型 , 验证了该模型在新领域的适用性。 Li 等[10]使用 Q 学习算法, 通过一系列模拟驾驶场 车决策模型。 Zheng 等[11]建立了基于 MDP 方法的 MDP 决策模型的性能。 景, 学习优化策略, 建立了基于强化学习的智能超 车辆决策模型, 使用近似强化学习方法来改善 国内外学者对智能决策的理论、 模型和实现
第 13 卷 第 6 期 2018 年 12 月
中 国 舰 船 研 究 Chinese Journal Ship Research 中 国 舰 of 船 研 究
Vol.13 No.6 Dec. 2018 第 13 卷
引用格式: 王程博, 张新宇, 张加伟, 等. 未知环境中无人驾驶船舶智能避碰决策方法 [J] . 中国舰船研究, 2018, 13 (6) : 72-77. WANG C B, ZHANG X Y, ZHANG J W, et al. Method for intelligent obstacle avoidance decision-making of unmanned vessel in unknown waters [J] . Chinese Journal of Ship Research, 2018, 13 (6) : 72-77.
WANG Chengbo1, ZHANG Xinyu1, ZHANG Jiawei1, LIU Shuo2 1 Key Laboratory of Marine Simulation and Control for Ministry of Communications, Dalian Maritime University, Dalian 116026, China 2 College of Navigation, Dalian Maritime University, Dalian 116026, China Abstract: [Objectives]In order to realize intelligent obstacle avoidance of unmanned vessel in unknown waters, [Methods] an intelligent obstacle avoidance decision-making model of the unmanned vessel
the intelligent obstacle avoidance decision-making,and then accordingly establish a decision-making excitation function specially composed of target approaching,off course and safety. Finally,carry out the simulation tests respectively in static and dynamic waters.[Results] The results show that the proposed
function to make the maximum returns in behavior mapping of the unmanned vessel status and to design an intelligent decision-making method can effectively avoid obstacles,and ensure the safe navigation of the reference for autonomous navigation of the unmanned vessel. obstacle avoidance
未知环境中无人驾驶船舶智能避碰决策方法
王程博 1, 张新宇 1, 张加伟 1, 刘硕 2
1 大连海事大学 航海动态仿真与控制交通行业重点实验室, 辽宁 大连 116026 2 大连海事大学 航海学院, 辽宁 大连 116026
摘
要: [目的]为了实现无人驾驶船舶在未知环境下的智能避障功能, [方法]首先, 建立一种基于深度强化学
73
随着人工智能和无人驾驶技术的快速发展, 无人驾驶船舶成为海上智能交通的重要研究领 域。当前, 航运业正处于从自动化、 信息化时代向 智能化时代过渡的阶段。随着船联网建设的不断 完善, 以及云计算、 大数据在航运领域的逐步应 用, 构建智能化的航运系统已成为未来几年甚至 十几年内可能实现的目标。无人驾驶船舶集成了 众多先进技术, 包括智能航行 (智能识别和智能决 策) 、 岸基支持、 船舶运维、 船岸通信、 船舶设计与 制造、 能效、 集成测试等。智能决策层在整个无人 驾驶船舶系统中扮演着 “副驾驶” 的角色, 需要解 决的问题是在已知无人驾驶船舶系统所处环境的 信息基础上, 决定船舶的航行策略。目前, 国内外 关于无人驾驶船舶行为决策的研究较少, 但在无 人驾驶汽车和移动机器人等其他领域内行为决策 方法的研究已取得较好成果。 动下, 移动机器人相关技术的研究获得了飞跃式 发展, 涌现出了许多移动机器人行为决策的方法, 包括速度矢量可行度方法、 多目标决策方法 (Multi-Criteria Decision-making Method, MCDM) 、 马尔科夫决策方法 (Markov Decision-making Pro⁃ cess,MDP) 、 贝叶斯网络决策方法、 模糊决策方法 和产生式规则决策方法等。其中, 赵忆文和谈大 龙[1]提出了基于速度矢量可行度的自主移动机器 人多行为综合决策方法, 并取得了更合理的行为 综合结果。张晓东等 通过解决物资转运线路规 划、 时间计算、 作业排序和资源配班 4 个主要问
习 (DRL) 技术的无人驾驶船舶智能避碰决策模型, 分析无人驾驶船舶智能避碰决策面临的问题, 提出智能避碰 决策模型中的最优策略, 使无人驾驶船舶状态对行为映射中的回报最大, 并专门设计由接近目标、 偏离航线和 安全性组成的激励函数。最后, 分别在静态、 动态障碍环境下进行仿真实验。 [结果]结果表明, 该智能决策方法 可以有效避让障碍物, 保障无人驾驶船舶在未知水域中的航行安全, [结论]所提方法可为无人驾驶船舶的自主 航行提供理论参考。 关键词: 无人驾驶船舶; 智能决策; 深度强化学习; 避障 中图分类号: U664.82; TP273.5
[3] [2]
方法等进行了许多探索和研究, 但在无人驾驶船 舶智能避碰决策领域的研究和应用尚处于起步阶 段。鉴于此, 本文将首先对无人驾驶船舶智能行 为决策算法的设计进行分析, 探讨无人驾驶船舶 智能决策所面临的问题。然后, 通过构建适用于 无人驾驶船舶的深度强化学习 (Deep Reinforce⁃ ment Learning, DRL) 和设定惩罚函数, 建立无人驾 驶船舶避障的智能决策模型。最后, 分别在不同 障 碍 环 境 下 对 基 于 DRL 的 无 人 驾 驶 船 舶 智 能 避 法的适用性。 碰决策模型进行仿真, 以验证模型的有效性和算
Key words: unmanned vessel; intelligent decision-making; Deep Reinforcement Learning(DRL);
收稿日期: 2017 - 12 - 29 网络首发时间: 2018-10-19 14:14
基金项目: 国家自然科学基金资助项目 (51779028)
自上世纪 70 年代以来, 在各种智能技术的推
1
无人驾驶船舶智能避碰决策面临 的问题
相比于车辆在陆地道路上的行驶, 无人驾驶
船舶航行的海洋环境更复杂、 多变, 在避碰智能决 策方面面临如下 2 个难点。 1)海洋环境复杂、 多变。
首先, 在海洋环境下, 风、 流、 涌、 浪等的时变 性较强, 极大地影响了船舶航行安全。其次, 近海 水域有较强的结构化通航特征, 分道通航种类较 多且助航信息量大, 例如, 灯浮、 灯标、 航道建筑 物、 航行信号灯和不守规则的小型渔船等外部环 境因素。因此, 无人驾驶船舶避碰智能决策的设 计需要考虑多源信息的约束, 并能从中提取有效 信息。 实现 “拟人化” 。 2)无 人 驾 驶 船 舶 的 终 极 目 标 是 最 大 限 度 地 在有人驾驶船舶的操纵过程中, 驾驶员会将 人、 船、 航线视为一个整体, 在海上交通规则、 驾驶 经验及意图的指导下进行反应式驾驶, 通过值函 数求解决策模型中的最优策略, 使无人驾驶船舶 状态对行为映射中的回报最大; 在避碰智能决策 设计上, 无人驾驶船舶需要借鉴有人驾驶船舶的 操作人员处理复杂交通场景的决策过程, 合理学 习其驾驶经验及规则中的模糊定义, 在操作过程
题, 设计了用于舰船物资转运方案的计算机辅助 决策方法。王斌明 提出了一种结合神经网络和 模糊神经网络的机器人智能决策方法, 在提高多 级信息识别准确率的基础上, 完成了机器人智能 避障操作。 Tanaka 等 描述了一种用于移动机器
[4]
人导航的新型粗糙地形可穿越性分析和行为生成 方法, 利用参考姿态跟踪的控制方法实现移动机 器人的智能导航。陈雪梅等 采用粗糙集提取驾 驶员换道行为的决策规则, 以达到有效进行无人 驾驶避碰的决策。杜明博[6]通过研究人类在各种 交通场景下的驾驶行为决策过程, 构建了一种基 于决策树的驾驶行为决策模型, 并在 “智能先锋 Ⅱ ” 无人驾驶车辆平台上验证了智能决策模型的有效 性。田赓 在获取有经验的驾驶员决策信息的基 础上, 深入研究了人为换道的决策机理, 并建立 了有效决策模型, 实现了车辆准确换道决策。
[7] [5]
74
中
国
舰
船
研
究
第 13 卷
中智能化地实现 “拟人化” 决策。
下 到 达 下 一 个 状 态 s′ 的 概 率 ,R a (ss′) 为 激 励 函 数, 表示无人驾驶船舶在动作 a 情况下, 从状态 s 到 下 一 个 状 态 s′ 所 得 到 的 激 励 ;γ Î (0 1) , 为激 励 衰减因子, 在下一时刻 t 的激励便按此因子衰 减[12-13]。 在上述的 MDP 定义下, 无人驾驶船舶的智能
model based on Markov Decision Process (MDP),through which obtain the optimal strategy by value
unmanned vessel in unknown waters. [Conclusions] The proposed method can provide a theoretical