Nvidia GRID 9.0 更新介绍vComputer
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
< 2016
2017
2018
2019
2
NVIDIA vGPU 是如何工作的?
NVIDIA Virtual GPU提供图形和计算负载的加速
仅CPU虚拟化
应用和虚拟机 服务器虚拟化软件 x86服务器
CPU虚拟化+ NVIDIA GPU
虚拟化
应用和虚拟机
NVIDIA Graphics Driver, NVIDIA Quadro Driver, or NVIDIA Compute Driver NVIDIA Virtual GPU
可视化
OPTIX NVEncode NVDecode
QvDWS GRID vPC
GRID vApps
NVIDIA GPU
SYSTEM OEM
CLOUD
13
常见运行计算负载的三种方式
vComputeServer + NGC Ready Containers + Virtualization
NGC 容器运行在裸金属架构
11
全新的授权模式
vComputeServer基于物理GPU个数进行授权
Quadro Virtual Data Center Workstation
vComputeServer
基于vGPU并发用户数进行授权 永久授权 或者 订阅授权
基于物理GPU授权,每授权支持按照最小4GB显存切割
Or
仅订阅授权
(NVIDIA P40, P100, Quadro RTX 6000, RTX 8000,
P6 for blade form factor)
Creative & Technical 知识P型ro工fe作ssi者onal
专业图形用户
普通图形 GRID Virtual PC GRID Virtual Apps
5000
10
适合计算场景vCOMPUTESERVER的GPU
NVIDIA GPU 推荐
CUDA 核心 Tensor 核心 RT 核心 (用于光线追踪场景) 显存 混合精度 (FP16/FP32) 单精度 (FP 32) 双精度(FP 64) NVLink ECC 每虚拟机多GPU支持 # NVLink GPUs/VM
VIRTUAL GPU 9.1介绍 -vCOMPUTESERVER
Jie Zhang – Sr. Solution Architect September 2019
NVIDIA GPU虚拟化技术演变
专业图形 & 普通图 形加速
(GPU切割)
仿真, 渲染
热迁移
多GPU (GPU集合)
光线追踪
AI/DL/HPC 计算负载
16
vCOMPUTESERVER 将 NGC 带入 vSPHERE
Extend your NGC-Ready Systems & NGC Support Services to vSphere
Model Training Scripts
Containers
NGC
Pre-trained Models
T4
2,560 320 48 16 GB GDDR6 64 TFLOPS 8.1 TFLOPS ✔ Up to 16 -
V100 (SXM2)
5,120 640 Up to 32 GB HBM2 125 TFLOPS 15.7 TFLOPS 7.8 TFLOPS ✔ ✔ Up to 16 Up to 8
NVIDIA T4 or M10
(NVIDIA P6 for blade form factor)
专业图形
Quadro Virtual Data Center Workstation
NVIDIA T4 or Quadro RTX 6000, RTX 8000
(NVIDIA P40, P100, V100 P6 for blade form factor)
随取随用 • 简单快速拉取进行并运行应用
便携性 • 跨环境部署、快速从测试环境到生产环境
为什么需要 NGC 容器
面向性能优化 • 基于最新GPU特性的定期更新容器镜像,提供最佳的
性能优化
支持性能的可扩展 • 支持多GPU和多节点的扩展方式
专为企业和高性能计算环境设计 • 支持容器环境 • 支持 VMware vSphere
NVIDIA GPU虚拟化软件
服务器虚拟化软件
NVIDIA GPU
x86服务器
3
NVIDIA vCOMPUTESERVER 介绍
面向计算场景的vGPU版本
NVIDIA GPU 数据中心虚拟化
针对计算负载进行虚拟化 在 AI, DL, Data Science, HPC场景特性的增强 GPU performance with hypervisor management tools, flexibility, and security 支持主流的虚拟化平台 VMware, Red Hat, Nutanix & Citrix1 vComputeServer 按照物理GPU授权,仅订阅方式
GPU 性能 & 可靠性
For Virtualization
热迁移
Only vGPU solution to support live migration
资源最大化利用
Ensure right-size allocation with GPU sharing & aggregation
管理 & 监控
Use vSphere to streamline management of VMs running NGC AI containers on GPUs
验证的服务器 & 企业级支持服务
Performance validated GPU servers for faster rollout & direct access to NVIDIA's experts for support with NGC software
5
数据中心展望
vComputeServer 为数据中心提供了新标准
隔离性 GPU 负载的安全隔离
可管理性
GPU同样也是数据中心 的重要资源
容器支持 实现应用快速部署
灵活调度 白天VDI, 夜间计算任务
6
NVIDIA VCOMPUTESERVER功能介绍
构建专门面向计算加速的数据中心vGPU
vComputeServer新增特性
新增: NGC 容器 + GPU虚拟化
虚拟机 容器 应用1
支持的文件 运行环境
虚拟机 容器 应用2
支持的文件 运文件 运行环境
操作系统1
操作系统2
操作系统3
虚拟化层 主机系统 基础架构-硬件
14
利用NVIDIA NGC 容器 加速你的工作流
为什么需要容器技术
简化部署 • 消除部署复杂性, 节约构建安装的时间
每个虚拟机最大分 配16个GPU (KVM平台)
12
通过VGPU打造虚拟化的数据中心
新增 vComputeServer 全面构建计算加速支持
用户场景
应用程序 & 框架
CUDA-X & NVIDIA SDKs
虚拟化 NVIDIA GPUs & SYSTEMS
Speech
Translate Recommender Healthcare Manufacturing
容器 应用1
支持的文件 运行环境
容器 应用2
支持的文件 运行环境
容器 应用3
支持的文件 运行环境
操作系统 基础架构-硬件
虚拟机 应用1 相关库
操作系统1
虚拟机 应用2 相关库
操作系统2
虚拟机 应用3 相关库
操作系统3
虚拟化层 主机系统 基础架构-硬件
*Gartner. Market Guide for Server Virtualization. April 24, 2019. ID G00350674
3000
9
深度学习推理性能对比
Up to 24X Faster with NVIDIA vComputeServer & T4
vGPU T4
CPU only
0
500
1000
1500
2000
2500
3000
3500
4000
4500
Avg Images per Second
Server Config: 2x Intel Xeon Gold (6140 3.2GHz) [VMware ESXI 6.7 U3, NVIDIA vComputeServer 9.1 RC, NVIDIA T4 (16C profile), Driver 430.43] TensorFlow Resnet-50 V1, NGC 19.01
• 无额外虚拟化成本 • 最大性能 • 固定的工作负载 • 对管理要求不高 • 良好的编排工具
NGC Containers NVIDIA COMPUTE DRIVER
• 安全的用户和负载隔离
• 增强的管理和监控
• 多租户支持
• 混合负载支持
• 最大化资源利用率
• 切片GPU • 灵活的vGPU资源切割
1 Nutanix and Citrix 即将支持, 具体时间需要参考虚拟化厂商的技术路线图
4
进一步扩展VGPU用户场景
用户场景
负载类型
Virtual GPU 软件版本建议
推荐选择GPU
(支持的GPU类型)
人工智能 、深度学习、机器 学习和高性能计算
计算
vComputeServer
NVIDIA V100 or T4
Server Config: 2x Intel Xeon Gold (6140 3.2GHz) [VMware ESXI 6.7 U3, NVIDIA vComputeServer 9.1 RC, NVIDIA V100 (32C profile), Driver 430.18] TensorFlow Resnet-50 V1, NGC 19.01, FP16, BS:256
消费互联网 & 行业应用
Finance
Molecular Simulations
Weather Forecasting
科学类应用
Seismic Mapping
Amber NAMD
+600
Applications
Creative & Technical
Knowledge Workers
专业可视化 & 图形
多vGPU共享单GPU (切割)
多vGPU分配单虚拟机 (集合)
基于NVLink 的P2P支持
ECC & Page Retirement
管理、监控、迁移
NVIDIA NGC (容器)
可配置的 调度器
7
EASE DATA CENTER GPU ADOPTION
vComputeServer 计算负载虚拟化
Use same hypervisor virtualization tools to manager GPU Servers
安全
Hypervisor-based security extends to GPU workloads
多租户
Isolate workloads to securely support multiple users
机器学习
cuDF cuDNcuNML cuGRAPH
深度学习
cuDNN CUTLASS TensorRT
高性能计算
OpenACC cuFFT
CUDA & CORE LIBRARIES - cuBLAS | NCCL
Virtual Compute Server
NVIDIA Virtual GPU Software
8
深度学习训练场景性能对比
Up to 50X Faster with NVIDIA vComputeServer & V100
vGPU Bare Metal CPU 4x V100
2x V100
1x V100
CPU only
0
500
1000
1500
2000
2500
Avg Images per Second
新增: GPU 虚拟化 + 计算
“Hypervisor-based server virtualization is now mature, with 80% to 90% of server workloads running in a virtual machine (VM) for most midsize to large enterprises” *
可以运行在任何环境 • 在 NVIDIA Pascal/Volta/Turing 架构的GPU上运行,
无论是PC,工作站还是服务器 • 从数据中心到边缘节点 • 从私有云部署到混合云 • 支持虚拟化和物理部署模式
15
容器: 简化你的工作流
支持裸金属和vGPU环境部署
NGC 在裸金属架构上
NGC在vGPU环境
Industry Workflows
注册的加速软件库
Accelerate AI to production with 150+ NGC Containers, Pre-trained models, Training scripts and workflows in vSphere
vSphere 在虚拟机内管理 NGC容器