深度学习DeepNEX方案简述-RTHPC

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
点时无需关闭系统 • 可对每个用户的资源(GPU,CPU,内存)进行单独限制 • 多个预设深度学习框架镜像,用户可根据操作手册的指引,定制自己的容器,并共享给他
人使用 • 实现了丰富的资源监控,包括所有用户创建的应用(只限管理员),每个应用的内存和
CPU 使用情况,每个计算节点的资源使用情况等 • 支持超参数服务器,支持分布式超参数优化 • 支持数据并行分布式深度学习模型训练
DeepNEX 同时提供方便、快捷的 Python 编程环境,Shell 终端来时刻运行训练和调参的 环境。深度学习的编程人员可以在申请资源后,秒级打开窗口进入编程状态,DeepNEX 将深度 学习的系统配置、部署、资源分配完全自动化,可以极大提高深度学习的工作效率。
DeepNEX 支持目前主流的多重深度学习框架,支持自动部署和用户预定义功能。
手工部署 无集成编程环境
虚拟化 基于虚拟机 限制单机(固定 数量)独占 手工分配 不同 环境 同时运行 手工部署 无集成编程环境
Iaas 云 基于虚拟机 不能共享 GPU, 通过 CPU 计算 不支持 不同环境 同时运行 半自动部署 无集成编程环境
3.2 DEEPNEX 的 GPU 调度与共享模式:
1Gb交换机
办公楼
校园网
1Gb交换机
管理模块
管理模块
Leabharlann Baidu
图书馆机房
管理模块
管理网络
DeepNE X0 1
DeepNE X0 2
DeepNE X0 3
FileServer
10G 存储和业务网络
宿舍
3 DEEPNEX 功能:
• DeepNex 是基于容器的深度学习云平台 • 实现了多租户的深度学习云端开发环境 • 实现了容器技术下对 GPU 资源的调度,用户可以选择共享或独占模式。 • 允许在线调节、扩展计算资源。管理员或系统维护人员在修改计算节点模式或添加计算节
1. DeepNex 支持 GPU 共享与独占两种模式。管理员可以便捷的调配每个计算节点是用于 独占 GPU 资源还是共享资源。
2. 用户创建应用时可以选择 GPU 数量,独占或共享。系统会根据 GPU 申请数量给用户分配 GPU。在独占模式下,分配给应用的 GPU 只允许此用户使用;共享模式下,分配给应用 的 GPU 可能会有多个应用同时使用。
4 DEEPNEX 数据并行模型训练:
DeepNEX 支持数据并行训练,集成超参数服务器模块。DeepNEX 数据管理模块可以通过对训 练数据做切分,同时采用多个模型实例,对多个分片的数据并行训练。
DeepNEX 目前支持数据并行中同步模式和异步模式。同步模式中,所有训练程序同时训 练一个批次的训练数据,完成后经过同步,再同时交换参数。参数交换完成后所有的训练程序就 有了共同的新模型作为起点,再训练下一个批次。而异步模式中,训练程序完成一个批次的训练 数据,立即和参数服务器交换参数,不考虑其他训练程序的状态。异步模式中一个训练程序的最 新结果不会立刻体现在其他训练程序中,直到他们进行下次参数交换。
3. 在 GPU 共享模式下,由于可能存在多个用户同时使用相同的 GPU 资源,可能会出现资源 抢占的情况。如果使用 Tensorflow 建议用户自觉调整 GPU 显存的使用模式,这样不会 一次性抢占过多资源。Tensorflow GPU 显存模式的调整请参考: https://www.tensorflow.org/tutorials/using_gpu#allowing_gpu_memory_growth
3.1 DEEPNEX 与 OS 分享、虚拟化及 IAAS 云对比:
应用实例 GPU 数量分配
GPU 调拨方式 运行时环境
软件部署方式 预制的编程环境
DeepNex 基于 PaaS 云 任意数量,可共 享,可独享 自动调拨 不同环境 同时运行 全自动 高度集成窗口 快速编程环境
OS 分配 基于框架 限制单机,可共 享 手工分配 必须相同
DeepNEX 针对超参数服务器,会独立建立一个 Docker 资源。在 GPU 硬件配置不同的 环境中,推荐使用异步模式进行训练。
5 整体项目功能性能列表
深度学习云平台
GPU 硬件支持 无缝扩展 资源调度功能
作业编排调度 运行环境
2 DEEPNEX 网络拓扑
DeepNEX 一般会搭建在数据中心中,集中式的管理所有的数据和资源。DeepNEX 在网络设计 上一般会包含四个网络:管理网络、业务网络、存储网络和计算网络
- 管理网络:建议千兆网络,用于部署、管理硬件,供运维人员使用,可以与业务网络共享 同一交换机。
- 业务网络:建议千兆网络,用于用户访问 DeepNEX Central、上传数据、下载模型等工 作,可以与管理网络共享使用同一个交换机
- 存储网络:建议万兆网络,用于 DeepNEX 中的用户应用访问共享存储使用,可以与计算 网络共享使用同一个交换机。
- 计算网络:建议万兆网络,用于 DeepNEX 中的应用件互相传递信息使用,可以与存储网 络共享使用一个交换机。
数据中心的所有资源军可以通过网络被外界共享,所有的数据都可以不离开数据中心,将 大大提高数据安全性,并可以为单个应用提供远程的编程和训练环境,使得时刻可以使用深度学 习环境成为一件简单的事情,将大大增强深度学习的应用场景。
2017
DeepNEX 方案简述
DEEPNEX 深度学习平台方案介绍
联想集团 & 联想创投集团 | 上海 & 香港
1 DEEPNEX 功能介绍
DeepNEX 是面向深度学习用户,提供易管理、支持多种部署模式、支持超参数自动搜索优化的 深度学习平台。
DeepNEX 是高效的中央资源管理软件,具有以 GPU 为单位对用户的资源进行调度功 能。深度学习用户可以根据需求,通过部署 DeepNEX,在深度学习硬件平台实现进行资源的申 请(包括运行环境、处理器核数、内存、GPU 数量)等功能。DeepNEX 平台通过系统统筹管理 GPU 资源,根据用户的选择自动分配独享的或者共享的 GPU 卡提供给到特定用户。此外,用户 可根据分配到的 GPU 插槽,指定自己需要的运行显存的大小来运行相对应深度学习任务。
相关文档
最新文档