基于强化学习的路径规划方法研究

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于强化学习的路径规划方法研究

随着信息化的不断加深,人工智能技术的发展进入黄金时期。人工智能技术作为现代化社会和信息化社会发展的分水岭,技术成熟和应用受到各个科技领域的广泛关注,与移动机器人技术的结合更是越来越多的专家的研究热点。其中,强化学习作为一种非监督且自身更新能力较强的机器学习方法,非常符合移动机器人合理应对各种情况的需求。针对地图残缺或环境未知状况的路径规划问题,研究基于强化学习的路径规划方法。首先,针对强化学习算法的探索权衡问题,

设计一种基于策略选择模型的Q-Learning算法。该方法根据Agent 运动过程中的环境信息,结合路径规划任务需求,对经典Q-Learning 算法进行改进。以策略迭代算法为基础设计策略选择算法,并将策略选择算法容嵌在Q-Learning算法前端,增加Agent策略选择策略集的能力,提高计算效率和最优策略的适应度。与传统的Q-Learning算法相比,基于策略选择算法的Q-Learning算法能够得到一个更加优化

的策略结果。然后,针对动态未知环境的情况,设计一种情感学习系统,将Agent的情感学习系统划分为外环境系统和内环境系统双层结构,辅助强化学习系统。在外环境系统中,针对强化学习系统设计外环境奖惩制度。在内环境中,针对强化系统构建MDP模型和以情感学习系统为基础的函数体系。情感学习系统对强化学习系统会产生联动影响,进一步提高强化学习决策系统的稳定性,增强Agent在未知环境下的适应性决策能力。最后,将复杂结构的强化学习系统与A*算法进行融合构建,搭建Agent路径规划系统的软件平台。在Windows操作系统

下编写机器人操作系统软件Python框架,实现基于强化学习的路径规划的仿真实验。