面向AI时代的智能无损数据中心网络方案

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

非结构化数据
依赖AI处理
95%
计算和存储变革提升数据处理效率
网络？
AI
年度新增数据： 8.6 ZB(2015) 180ZB(2025)
语音/视频等非结构化数据占比
存储
HDD SSD SCM
计算
CPU GPU AI芯片
2025年一年新增的数据，若存储成1080P的高清视频，全人类花一年时间都看不完。“数据本身不是目的，知识和智慧才是永恒的价值……”
AI Fabric，面向AI时代的智能无损数据中心网络
AI时代已经开启
邮件
网页
云
社交
视频
86% 华为GIV：企业AI采用率
@2025
AI
人脸识别无人驾驶生命科学智能推荐
聚焦应用，业务弹性伸缩快速部署
聚焦数据，从数据中挖掘智慧实现价值变现
2
AI时代主题高效挖掘数据价值
数字洪水
挑战处理能力
180z
3
分布式架构是AI时代智能化转型的必然
50+ 亿移动用户
比全球人口增速快两倍
实时快捷体验
ROADS标准
500 亿新设备
2020年后所有设备都会智能化
AS-IS 集中式架构
应
应
应
应
用
用
用
用
一
二
三
四
数据库集群主机集群
大型机/小型机+数据库+集中存储
4
云计算/分布式
高吞吐
3000笔 300,000笔
计算：AI训练效率比思科高27.5% 存储：分布式存储IOPS性能比思科高30.5%
AI业务运行效率
30+%
大带宽，400GE组网演进
带宽：从25GE到400GE均支持规模：从小规模到大规模全覆盖
最大满足
10000
25/100G服务器组网
Built for AI Era，Powered by AI Tech
高可用
7*8服务 7*24在线
互联网体验
自助交易，实时到账
TO-BE 分布式架构
应用一
主
主
应用二
主
主
企业总线
应用三
应用四
标准服务器+高速网络+企业总线
分布式业务架构演进对网络诉求的变化
AS-IS 传统以太网
网络诉求低：
• 业务量小：带宽要求不高，GE/10GE接入即可 • 静态时延为主：单进单出，流量模型单一 • 采用TCP/IP，业务系统效率低，且耗费CPU资源
传统以太网丢包对RoCE吞吐率影响大
传统以太网
易丢包，导致RDMA吞吐率急剧下滑
2%丢包
0% RDMA吞吐率
带宽一旦超过25G，RDMA优势明显
1us 30us
1us 30us
8
AI Fabric，智能无损数据中心网络
人脸识别
AI计算平台
自动驾驶
分布式存储
生命科学
智能推荐
HPC平台
AI AI
专用芯片
内嵌
AI
芯片
POD1
100G，RDMA
存储集群 9
……
400G
100G，RDMA
iLossless算法
集成算法
PODn
100G，RDMA
存储计算混合集群
+AI
计算集群
全融合，DC内三网合一
网卡：智能RoCE网卡归一网络：计算，存储和数据网三网合一
总成本TCO
53%
零丢包，加速RDMA通信
RDMA
网络性能已成为AI时代业务的关键瓶颈
天
采集的数据
7
天
训练的时间
周
一次训练
空闲时间
AI时代RDMA的广泛部署，驱动数据中心网络变革
RDMA三大优势，适用AI场景
TCP问题
传统TCP慢启动，吞吐差 3次拷贝，延迟大流量对CPU的消耗1Hz/bit
RDMA优势
快启动，最大限度带宽使用 1次拷贝，有效降低内核时延网卡卸载，CPU 0消耗
计算场景
云存储
msus
RDMA支撑E2E时延降低，8xIOPS
性能
全对称分布式
分布式存储
TCPIP RD MA
HDSSD SCM 介质访问时延大幅缩短
6
容量
大数据
GPU
AI
4~10倍
采用RDMA通信效率提升
25G
网络
25G
RDMA
分布式计算
TCPIP RD MA
CPUGPU A I Chip 计算速度大幅增加
<10us E2E时延
10
面向AI时代的数据中心核心交换机，卓越性能
内嵌AI芯片
48*400GE线卡
48x400GE/槽位 768x400GE/框
5X
CloudEngine 16800
11
36x100GE/槽位 576x100GE/框
其他厂商
AI Fabric通过Tolly测试验证，性能全面领先业界
Carsten Rossenhoeve EANTC 联合创始人
Interop金奖
13
AI Fabric智能无损算法演进路线
过去
本地网络性能最高
本地设备级最优策略 0丢包，低时延，高吞吐
实时调整
现在
全局网络性能最高
TO-BE 新一代以太网
网络诉求高：
• 高带宽：需要更高的带宽25G/100G，提升时延的前提 • 动态时延为主：多打一丢包引起的时延（1ms）是静态时延1000倍 • 采用RDMA，效率提升6~8倍，对丢包率的要求提升到十万分之一
关注静态时延
1:1访问，流量模型单一 Client-Server
Client
AI Fabric：0丢包，低时延，高吞吐得到权威认证
AI Fabric
0丢包，低时延，高吞吐
“华为的AI Fabric在HPC场景，所有的测试模型下均实现了 0丢包，同时计算时间比传统以太网最高可以缩短44.3%，同时 EANTC发现，在流量模型越复杂的情况下，优化效率越高，平均可优化40%。”
AI Fabric，实现0丢包的以太网，100%发挥AI算力
CloudEngine 16800
AI 芯片
计算集群
iLossless智能无损算法
0 丢包
CloudEngine 8850
CloudEngine 6865
100% 吞吐率
CloudEngine 16800
存储集群
CloudEngine 8861
数据计算效率
（每秒AI训练样本数Iteration/s）
Source：国际权威评测机构Tolly Group
数据存储效率
（每秒存储次数IOPS）
+27.5%
478 375
+30.5%
1257
963
思科方案
AI Fabric
计算效率提升可减少昂贵的GPU服务器投资
12
思科方案
AI Fabric
IOPS性能提升，带来云盘收益增加
GE/10G
TCP/IP
传统式业务模型
5
关注动态时延
N：M访问，流量模型复杂 Bcase/Reduce/Gather/Scater/AlltoAll
25G
新一代以太网
25G
RDMA
分布式业务模型
RDMA
网络发展动向：“分布式RDMA”跨越式升级
存储场景