面向AI时代的智能无损数据中心网络方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非结构化数据
依赖AI处理
95%
计算和存储变革提升数据处理效率
网络?
AI
年度新增数据: 8.6 ZB(2015) 180ZB(2025)
语音/视频等 非结构化数据占比
存储
HDD SSD SCM
计算
CPU GPU AI芯 片
2025年一年新增的数据,若存储成1080P的高清视频,全人类花一年时间都看不完。“数据本身不是目的,知识和智慧才是永恒的价值……”
AI Fabric, 面向AI时代的智能无损数据中心网络
AI时代已经开启
邮件
网页
云
社交
视频
86% 华为GIV:企业AI采用率
@2025
AI
人脸识别 无人驾驶 生命科学 智能推荐
聚焦应用,业务弹性伸缩快速部署
聚焦数据,从数据中挖掘智慧实现价值变现
2
AI时代主题高效挖掘数据价值
数字洪水
挑战处理能力
180z
3
分布式架构是AI时代智能化转型的必然
50+ 亿 移动用户
比全球人口增速快两倍
实时快捷 体验
ROADS标准
500 亿 新设备
2020年后所有设备都会智能化
AS-IS 集中式架构
应
应
应
应
用
用
用
用
一
二
三
四
数据库集群 主机集群
大型机/小型机+数据库+集中存储
4
云计算/分布式
高吞吐
3000笔 300,000笔
计算:AI训练效率比思科高27.5% 存储:分布式存储IOPS性能比思科高30.5%
AI业务运行效率
30+%
大带宽,400GE组网演进
带宽:从25GE到400GE均支持 规模:从小规模到大规模全覆盖
最大满足
10000
25/100G服务器组网
Built for AI Era,Powered by AI Tech
高可用
7*8服务 7*24在 线
互联网体验
自助交易,实时到账
TO-BE 分布式架构
应用一
主
主
应用二
主
主
企业总线
应用三
应用四
标准服务器+高速网络+企业总线
分布式业务架构演进对网络诉求的变化
AS-IS 传统以太网
网络诉求低:
• 业务量小:带宽要求不高,GE/10GE接入即可 • 静态时延为主:单进单出,流量模型单一 • 采用TCP/IP,业务系统效率低,且耗费CPU资源
传统以太网丢包对RoCE吞吐率影响大
传统以太网
易丢包,导致RDMA吞吐率急剧下滑
2%丢包
0% RDMA吞吐率
带宽一旦超过25G,RDMA优势明显
1us 30us
1us 30us
8
AI Fabric,智能无损数据中心网络
人脸识别
AI计算平台
自动驾驶
分布式存储
生命科学
智能推荐
HPC平台
AI AI
专用芯片
内 嵌
AI
芯 片
POD1
100G,RDMA
存储集群 9
……
400G
100G,RDMA
iLossless算法
集 成 算 法
PODn
100G,RDMA
存储计算混合集群
+AI
计算集群
全融合,DC内三网合一
网卡:智能RoCE网卡归一 网络:计算,存储和数据网三网合一
总成本TCO
53%
零丢包,加速RDMA通信
RDMA
网络性能已成为AI时代业务的关键瓶颈
天
采集的数据
7
天
训练的时间
周
一次训练
空闲时间
AI时代RDMA的广泛部署,驱动数据中心网络变革
RDMA三大优势,适用AI场景
TCP问题
传统TCP慢启动,吞吐差 3次拷贝,延迟大 流量对CPU的消耗1Hz/bit
RDMA优势
快启动,最大限度带宽使用 1次拷贝,有效降低内核时延 网卡卸载,CPU 0消耗
计算场景
云存储
msus
RDMA支撑E2E时延降低,8xIOPS
性能
全对称分布式
分布式存储
TCPIP RD MA
HDSSD SCM 介质访问时延大幅缩短
6
容量
大数据
GPU
AI
4~10倍
采用RDMA通信效率提升
25G
网络
25G
RDMA
分布式计算
TCPIP RD MA
CPUGPU A I Chip 计算速度大幅增加
<10us E2E时延
10
面向AI时代的数据中心核心交换机,卓越性能
内嵌AI芯片
48*400GE线卡
48x400GE/槽位 768x400GE/框
5X
CloudEngine 16800
11
36x100GE/槽位 576x100GE/框
其他厂商
AI Fabric通过Tolly测试验证,性能全面领先业界
Carsten Rossenhoeve EANTC 联合创始人
Interop金奖
13
AI Fabric智能无损算法演进路线
过去
本地网络性能最高
本地设备级最优策略 0丢包,低时延,高吞吐
实时调整
现在
全局网络性能最高
TO-BE 新一代以太网
网络诉求高:
• 高带宽:需要更高的带宽25G/100G,提升时延的前提 • 动态时延为主:多打一丢包引起的时延(1ms)是静态时延1000倍 • 采用RDMA,效率提升6~8倍,对丢包率的要求提升到十万分之一
关注静态时延
1:1访问,流量模型单一 Client-Server
Client
AI Fabric:0丢包,低时延,高吞吐得到权威认证
AI Fabric
0丢包,低时延,高吞吐
“华为的AI Fabric在HPC场 景,所有的测试模型下均实现了 0丢包,同时计算时间比传统以 太网最高可以缩短44.3%,同时 EANTC发现,在流量模型越复 杂的情况下,优化效率越高,平 均可优化40%。”
AI Fabric,实现0丢包的以太网,100%发挥AI算力
CloudEngine 16800
AI 芯片
计算集群
iLossless智能无损算法
0 丢包
CloudEngine 8850
CloudEngine 6865
100% 吞吐率
CloudEngine 16800
存储集群
CloudEngine 8861
数据计算效率
(每秒AI训练样本数Iteration/s)
Source:国际权威评测机构Tolly Group
数据存储效率
(每秒存储次数IOPS)
+27.5%
478 375
+30.5%
1257
963
思科方案
AI Fabric
计算效率提升可减少昂贵的GPU服务器投资
12
思科方案
AI Fabric
IOPS性能提升,带来云盘收益增加
GE/10G
TCP/IP
传统式业务模型
5
关注动态时延
N:M访问,流量模型复杂 Bcase/Reduce/Gather/Scater/AlltoAll
25G
新一代以太网
25G
RDMA
分布式业务模型
RDMA
网络发展动向:“分布式RDMA”跨越式升级
存储场景