基于深度强化学习的机器人手臂控制
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【摘 要】基于深度强化学习策略,研究了机器人手臂控制问题。 以两节机器人手臂为对象,给出奖励函数和移动方 式等。 结合深度学习与确定性策略梯度强化学习,设计深度确定性策略梯度(DDPG)学习步骤,使得机器人手臂经过训练 学习后具有较高的环境适应性。 实验表明基于深度强化学习机器人手臂可以快速并且准确的找到在环境中移动的目标 点。
图 2-1 DDPG 原理图 其中 DDPG 处理数据是独立同分布的,但强 化 学 习 的 数 据 是按照顺序采集,数据之间存在联系。 为了打破数据之间的关 联性,采用“经验回放”方法。
基金项目:江苏省大学生实践创新训练项目 201813579004Y来自百度文库
·28· 福 建 电 脑 2019 年第 1 期
【关键词】深 度 强 化 学 习 ; 深 度 确 定 性 策 略 梯 度 学 习 算 法 ; 机 器 人 手 臂 控 制
1、引言 2015 年,中国提出并实施制造强国战略。 实现制造业的自 动化必定离不开机器人手臂。 传统机器人手臂控制主要是基于 单片机、传感器或嵌入式等。 对传统机器人手臂进行改造,在传 统机器人手臂的基础上加入传感器,使机械手臂具有外部感知 功能,类似于人的某种外部功能。 其灵活性得到有效提高,但是 传 感 器 获 得 的 信 息 往 往 与 环 境 误 差 很 大 [1]。 深度强化学习将深度学习的感知能力和强化学习的决策 能力相结合,可以直接根据输入的图像进行控制,是一种更接 近人 类思维方式的人工智能的方法 [2]。 2016 年, 谷歌 的 Deep Mind 团队研究设计的人工智能 Alpha Go 与前世界冠军、 职业 九段棋手李世石先生进行围棋人机大赛,在这场吸引了全世界 目光的人机大战中,Alpha Go 以 4:1 的优秀成绩获得胜 利 。 深 度强化学习也应用到游戏行列中,比如 Atari 游 戏 系 列 ,比 较 经 典 的 打 砖 头 、 拳 击 等 [3]。 本文研究的是利用深度强化学习对机器人手臂的控制。 深 度强化学习可以很好的与周围环境交互,并且不断从以前的经 验进行学习,这就克服了机器人手臂不能很好学习的问题。 2、背景知识 强化学习的原理是:如果智能体的某些动作产生了正的奖 励,则智能体以后执行这些动作的概率就会增加,否则,智能体 在学习过程中执行这些动作的概率就会减弱。 智能体在每个时 间点 t 从环境中获得当前状态 st, 然后从动作集 A 中选择并执 行一个动作 at,就会得到环境给的一个奖励 rt,而且在执 行 动 作 at 后将导致状态转移到 st+1 [4]。 强化学习可分为基于价值的强化学习和基于策略的强化 学习。 基于策略的强化学习分析所处的环境,输出下一步行动 的概率分布,根据概率分布采取行动。 另一种是输出的每种行 动的价值,一般是基于最高的价值来选择动作。 将两者结合,就 是 actor-critic(演员-评论家)算法。 演员基于策略做出相应的动 作,而评论家利用价值函数,给出行动的价值分数。 这就相当于 在原有的策略梯度的方法上加速了策略学习的过程。 2.2 深度学习 深度学习是机器学习中的一种方法,具体的说,是一种对 输入数据进行特征学习的方法。 在深度学习中,主要内容就是 对输入数据的特征进行学习,并且通过分层次的多层网络得到 特 征 信 息 , 从 而 使 机 器 “ 理 解 ” 学 习 数 据 , 获 得 特 征 信 息 [5]。
DOI:10.16707/j.cnki.fjpc.2019.01.013
F福 建 电 脑 UJIAN COMPUTER
基于深度强化学习的机器人手臂控制
杨淑珍 1, 韩建宇 1, 梁 盼 1, 古 彭 1, 杨发展 1, 吕萍丽 1,2*
(1 中国矿业大学徐海学院 江苏 徐州 221000; 2 中国矿业大学徐海学院信电系教师 江苏 徐州 221000)
2.3 深度强化学习 深度学习把从原始输入数据中提取高层特征变成现实,虽 然在感知方面表现十分优秀,但是在决策方面不尽人意。 与此 相反,强化学习在决策方面表现出众,却在感知方面并无突出 能力。 所以,将深度学习与强化学习结合起来,构成深度强化学 习算法,二者优势互补,就可以给解决复杂系统的感知决策问 题 提 供 有 效 的 方 法 [6]。 2.3.1 DDPG 算法 对于本文中机器人手臂,强化学习的目的是通过大量的学 习和训练使机器人手臂可以快速且准确的找到目标点,并且保 持到目标点下次移动前,动作不改变。 目标点是随机移动的,那 么机器人手臂在寻找目标点的过程的动作是连续的,也是随机 的。 将机器人手臂输出的动作放在数组 Q, 那么数组 Q 的维度 高,数据量大。 鉴于数组 Q 的特点,对于机器人手臂的控制采用 深度确定性算法(DDPG)。 从而实现连续动作的控制问题。 DDPG 算法采用 actor-critic 框架, 由 4 个神经网络组成,2 个结构相同的网络,分别是 actor 网络和 critic 网络。 actor 网络 选出动作网络,输入状态,输出动作。 critic 网络评价动 作网络, 输入状态,输出 Q。 目标值与估计 Q 值的差,与进行梯度计算, 其结果作为误差。 然后用误差影响动作的输出能获得更大奖励 的动作。 DDPG 原理如图 2-1 所示。
F福 建 电 脑 UJIAN COMPUTER
3 实验设计与仿真 对于本文的机器人手臂,强化学习的目标是通过大量的学 习训练使机器人手臂对于任意位置的目标点,能够根据经验策 略自主找到目标点,从而在使得机器人手臂达到自主控制。 3.1 实验设计 本 实 验 环 境 配 置 如 下 :计 算 机 操 作 系 统 Ubuntu16.04,编 程 语 言 :Python, 版 本 :python3.6, 需 要 的 库 :tensorflow1.9.0、numpy、 matlibplot、pyglet。 实验环境中存在智能体、目标点。 环境如图 31 中 a 所示。 图中蓝色的正方体代表着目标物,红色的两个长方 体代表着机器人手臂。