深度强化学习大神Pieter Abbeel发表深度强化学习的加速方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

深度强化学习大神Pieter Abbeel发表深度强化学习的加速方法深度强化学习一直以来都以智能体训练时间长、计算力需求大、模型收敛慢等而限制很多人去学习,比如:AlphaZero训练3天的时间等,因此缩短训练周转时间成为一个重要话题。

加州大学伯克利分校教授,Pieter Abbeel最近发表了深度强化学习的加速方法,他从整体上提出了一个加速深度强化学习周转时间的方法,成功的解决了一些问题。

论文地址:https://arxiv/pdf/1803.02811.pdf
最近几年,深度强化学习在各行各业已经有了很成功的应用,但实验的周转时间(turn-around time)仍然是研究和实践中的一个关键瓶颈。

该论文研究如何在现有计算机上优化现有深度RL算法,特别是CPU和GPU的组合。

且作者确认可以调整策略梯度和Q值学习算法以学习使用许多并行模拟器实例。

通过他们进一步发现可以使用比标准尺寸大得多的批量进行训练,而不会对样品复杂性或最终性能产生负面影响。

同时他们利用这些事实来构建一个统一的并行化框架,从而大大加快了两类算法的实验。

所有神经网络计算都使用GPU,加速数据收集和训练。

在使用同步和异步算法的基础上,结果标明在使用整个DGX-1在几分钟内学习Atari游戏中的成功策略。

注:【1】周转时间(turnaround time):训练模型的时间。

【2】. Nvidia DGX-1是Nvidia 生产的服务器和工作站系列,专门用于使用GPGPU加速深度学习应用程序。

这些服务器具有8个GPU,基于带有HBM 2内存的Pascal或V olta 子卡,通过NVLink 网状网络连接。

该产品系列旨在弥合GPU和AI加速器之间的差距,因为该设备具有专门用于深度学习工作负载的特定功能。

最初的基于Pascal的DGX-1提供了170 teraflops的半精度处理,而基于V olta的升级将其提高到960 teraflops。

更多信息,点击查看
背景和相关内容
目前的深度强化学习严重依赖于经验评估,因此turnaround 时间成为一个关键的限制因。

相关文档
最新文档