基于强化学习和智能传感器控制的工业机器人实时运动规划
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成熟,机器人变得越来越聪明。
但是,对于有些在人类看来是十分简单、容易的事情,机器人却很难甚至无法完成,因为到目前为止机器人还没有那么
聪明。机器学习的出现给了我们希望,它给了我们一个新的工具,可以让机器人进行学习,尽可能完成复杂的任务。当然,这些也只能算是尽可能地向人类学习,距离真正的“智能”还有很长的距离。而对于机器人来说,
如今,随着科学技术的日益发展和
力量控制和自由度控制。在一个机器人系统中,如果你的控制频率是1赫兹的话,就可以确保它的稳定,因为在系统中总是有一个备份的控制器。其实这是矩阵当中一个新的维度,如果一个控制器发生故障或者出了问题,一般来说是没有备份的,但我们设置了一个备份的控制器,比如,如果视觉控制器不能发挥作用,看不见东西的话,就可以有另外一个备份的视觉控制器开始启用。
一般来说,在机器人系统中出现的问题,可能需要具备很多专业知识才能够得以解决,因为机器人编程是一件非常专业的事情,需要具备专家知识,且至少是博士水平的工程师才可以,成本很高。虽然有些机器人系统是非常强大的,但也存在一定的局限性,因为对公司和行业来说,对这样的系统进行编程是非常昂贵的。因此,我们有了新的想法,那就是利用机器学习,尤其是强化学习。
究。这一研究的初衷是让一个机器人自我学习如何操控物体。当时我们所做的工作非常简单,要让一个机器人学习抓取物体。为了做到这一点,机器人就要学会协调摄像头和抓手。在一个机器人系统中,摄像头是512×512像素,抓手具有两根指头,一开始摄像头会输入视觉图像,然后确定抓取策略,预测抓取策略的成功率,在很短的时间内进行计算,最后选择那个最有可能成功的抓取策略。
为了实现这一目标,我们大概进行了两个月的实验,不是每一次都会成功,但从那些部分成功的实验中,我们还是有很多收获的。在这一过程中,我们一共做了8万次的抓取,对14只机械臂的操作练习结果进行评估,其实规则很简单,当机械臂合并的时候没有东西就是不成功,有东西就是成功。此外,我们还有一个优化的机制,当机器人想抓住一个物体的时候,却会把这件物体放到旁边,然后去抓取另外一件物体,这是因为它做了优化,对成功率进行了预测,它通过神经网络发现这样的移动会使它取得更大的成功。
实际上,针对不同的物体,它会有不同的抓取策略,比如面对透明物体和金属物体时,它的抓取策略是不一样的,而这些都是基于数据做出的最终决策。除此之外,我们还使用一些新的、从来没有见过的物体,对机器人进行训练,和之前使用过的类似物体相比,它的学习速度变得越来越快。
机器学习不是“魔法子弹”,而是一种工具
如果要从学术角度看待这一问题的话,有一点需要强调的是,对于这个系统而言,正常情况下是可以良好运行的,但如果改变
66