【CN110084307A】一种基于深度强化学习的移动机器人视觉跟随方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910361528.4
(22)申请日 2019.04.30
(71)申请人 东北大学
地址 110819 辽宁省沈阳市和平区文化路
三巷11号
(72)发明人 张云洲 王帅 庞琳卓 刘及惟
王磊
(74)专利代理机构 大连理工大学专利中心
21200
代理人 陈玲玉 梅洪玉
(51)Int.Cl.
G06K 9/62(2006.01)
G06N 3/04(2006.01)
G05D 1/12(2006.01)
(54)发明名称一种基于深度强化学习的移动机器人视觉跟随方法(57)摘要本发明提出了一种基于深度强化学习的移动机器人视觉跟随方法。采用“模拟图像有监督预训练+模型迁移+RL ”的架构,首先在真实环境中收集少量的数据,采用计算机程序和图像处理技术对数据集进行自动化扩充,以便在短时间内得到大量可以适应真实场景的模拟数据集,用于对跟随机器人的方向控制模型进行有监督训练;其次,搭建用于机器人方向控制的CNN模型,并用自动化构造的模拟数据集对其进行有监督训练,使其作为预训练模型;接着将预训练模型的知识迁移到基于DRL的控制模型中,令机器人在真实环境中执行跟随任务,结合强化学习机制,使得机器人可以在环境交互的过程中一边跟随,一边对方向控制性能进行提升,不仅鲁棒性高,且大
大降低成本。权利要求书2页 说明书5页 附图3页CN 110084307 A 2019.08.02
C N 110084307
A
1.一种基于深度强化学习的移动机器人视觉跟随方法,其特征在于,包括如下步骤:步骤一:数据集的自动化构造;
(1)准备一个被跟随的目标易与背景区分开的简单场景;在简单场景下,从跟随机器人的视野采集目标人在机器人视野中不同位置的视野图像;
(2)准备跟随机器人的应用场景作为复杂场景图像,利用图像掩模技术将目标人从简单场景的背景中提取出来,进而与复杂场景相叠加,即得到目标人处于复杂场景下的图像,并且直接为合成的复杂场景图像赋予相应的简单场景下的动作空间标签;
步骤二:基于CNN的方向控制模型搭建及训练;
利用步骤一自动化构造的数据集对CNN模型进行有监督训练,使得CNN能够达到通过机器人视野输入图像输出对应动作状态的效果,从机器人的单目彩色相机采集到的图像,在输入给CNN之前,先将其RGB三通道转换为HSV通道,再作为输入图像送给CNN,之后网络可以输出对应的动作状态;
步骤三:模型迁移;
将步骤二训练好的CNN参数权重作为初始参数迁移给DRL模型,使得DRL模型获得与CNN 模型相同的控制水平;
步骤四:基于DRL的方向控制模型搭建及训练;
将步骤三初始参数迁移后的DRL模型用于机器人端进行使用,并且通过不断与环境进行交互,使机器人能够不断更新模型,学习到当前所处的环境。
2.根据权利要求1所述的基于深度强化学习的移动机器人视觉跟随方法,其特征在于,步骤二:从机器人的单目彩色相机采集到的图像大小为640×480,在输入给神经网络之前,先将其RGB三通道转换为HSV通道,并且将640×480大小的图像调整成60×80大小,将4个相邻时刻所采集到的图像合并在一起作为网络的输入,最终的输入层包含4×3共12通道,每一个通道的大小都为60×80。
3.根据权利要求1所述的基于深度强化学习的移动机器人视觉跟随方法,其特征在于,步骤二:基于的CNN结构由8层组成,包括卷积层3层、池化层2层、全连通层2层和输出层;从前往后,三个卷积层的的卷积核参数设置分别为:8×8、4×4、2×2;两个池化层均采用最大池化,大小均为2×2;经过第三个卷积之后,将会输入给两个全连接层,每一层均有384个节点,在全连接层之后为输出层,经过输出层之后即为多维输出,每一个维度表示对应方向的动作,一共包含三个方向的动作:向前、向左、向右;三个卷积层和两个全连接层之后都会加一个Relu激活函数用以对输入层的结果非线性化;CNN参数的更新采用交叉熵损失函数,具
体表示为:
其中,y ′为样本的标签数据,是三维的One -Hot向量,其中为1的维度表示正确的动作;f (x)表示CNN模型对各个动作维度的预测概率。
4.根据权利要求1所述的基于深度强化学习的移动机器人视觉跟随方法,其特征在于,步骤三中的DRL模型具体为DQN模型,迁移过程为:去除训练好的CNN网络的Softmax层,将前面各层的权重参数直接赋予DQN模型。
5.根据权利要求4所述的基于深度强化学习的移动机器人视觉跟随方法,其特征在于,步骤四:DQN使用神经网络近似值函数,即神经网络的输入是当前状态值s,输出是预测的价
权 利 要 求 书1/2页2CN 110084307 A