基于图像识别的爬壁机器人的路径规划
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于图像识别的爬壁机器人的路径规划
何宏;李宇;张志宏
【期刊名称】《工业技术创新》
【年(卷),期】2015(000)003
【摘要】目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但
在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态-动作对收敛缓慢、无法估计状态-动作对的问题。
本文结合单步Q-learning算法,并对该算法进行
改进,提出了跟踪迹Q(λ)算法:即一种基于离散马尔可夫决策过程的经典Q学习并结合了瞬时差分算法多步回报和跟踪迹提取的算法。
实践表明,该算法解决了路径规划过程中,强化学习算法存在的局部寻优能力差、实时性不强等缺点。
%At present, reinforcement learning algorithm has been widely used in the
path planning of wall-climbing robots, but within the real-time dynamic and complex industrial environment, the algorithm has many problems such as lag of data transfer, slow convergence of state- action,and incalculable of state-action. This paper proposes the tracking Q(λ) algorithm by combining and improving one-step Q-learning algorithm,i.e the classical Q learning based on discrete Markov decision processes, combining the temporal difference algorithm multi-step return and tracing extraction algorithm. Practice shows that this algorithm solve the limitations in local searching ability and timeliness of the reinforcement learning algorithm in the path planning process.
【总页数】5页(P267-271)
【作者】何宏;李宇;张志宏
【作者单位】天津理工大学自动化学院,天津市复杂系统控制理论及应用重点实验室,天津,300384;天津理工大学自动化学院,天津市复杂系统控制理论及应用重点实验室,天津,300384;天津广播电视台传输发射部,天津,300072
【正文语种】中文
【中图分类】TP242.2
【相关文献】
1.基于GP L模型的仿生爬壁机器人路径规划 [J], 朱佩华;王巍;李雪鹏;吴士林
2.基于模糊K均值聚类和Sarsa(λ)算法的自适应爬壁机器人路径规划 [J], 李静静
3.基于强化学习的爬壁机器人路径规划方法 [J], 王金秋;孙晓松;秦华
4.双足爬壁机器人三维壁面环境全局路径规划 [J], 卢俊华; 朱海飞; 梁经伦; 管贻生
5.基于可变粒度调度的爬壁机器人路径规划仿真 [J], 王鹏远
因版权原因,仅展示原文概要,查看原文内容请购买。