智简云数据中心网络白皮书

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

华为智简
云数据中心网络白皮书
华为智简
云数据中心网络
1引言 (1)
2简介 (2)
2.1理念:从SDN自动化网络,走向自动驾驶网络. (2)
2.2目的:打破商业诉求和网络之间的鸿沟 (3)
3华为智简数据中心网络方案
3.1方案架构. (4)
3.2商业意图层 (4)
3.3数字孪生的网络平台层 (5)
3.3.1 概述. (5)
3.3.2意图引擎 (6)
3.3.3自动化引擎 (7)
3.4网络基础设施层 (7)
4方案五大特征
4.1极简 (8)
4.2 智慧. (8)
4.3 超宽. (8)
4.4 开放. (9)
4.5 安全. (9)
5方案客户价值
5.1网络全自动化,助力业务分钟级上线 (10)
5.2意图闭环验证,保障网络与意图一致性. (10)
5.3提升运营效率,节省网络运营成本. (10)
6演进到智简数据中心网络 (11)
企业数字化转型进入快车道网络需匹配ICT转型节奏
多云协同
·物联网带来的边缘计算,推动着边缘云的快速发展,那么如何实现边缘云与中心云的多云协同、统一部署上升为越来越多企业的主要诉求。

·混合云的兼顾优势使得其往往作为大中型企业客户的首选策略,那么如何实现私有云与运营商公有云的对接协作、自由切换也成为越来越多企业的主要诉求。

极简体验
·数据中心规模飞速扩张,经常需要新建和
扩容数据中心。

以大型互联网公司为例,其
数据中心服务器建设量每年以50%到100%
爆发式的增长,其数据中心网络每2到3年便
面临剧烈改造,急需实现网络新建和扩容极
简自动化。

·数据中心业务需求,从需求提出到网络实
施部署,需要繁琐的流程工单和人工干预,
耗时长且易出错,无法匹配全数字化业务环
境的极速要求。

智能网络
·应用快速上线的需求,要求网络实现秒级
部署,而基于多云、容器云的业务调度以每
天超过200次地频繁进行网络配置变更。


前网络缺乏校验机制,评估业发下发或变更
影响、检查配置正确性等依赖运维人员专业
经验和人工检查。

一个应用上线需要2天甚
至更多时间。

·应用状态关乎客户体验,实时感知应用状
态、自适应优化以及预测性运营是企业提升
竞争力和运营效率的有效路径。

传统网络以
网元为中心,无法实时感知应用状态,也无
法对网络进行动态故障诊断和处理,且没有
提前预防的手段。

1
当今世界,几乎所有的企业都在如火如荼地实施数字化转型。

Gartner的一项调查中,预计到2019年,完成数字化转型的企业比例将达到83%。

数字化转型对社会进步带来深刻的影响,成为经济发展的新引擎。

甚至未来20年,第四次工业革命生产力的增长将是由数字化转型驱动的。

企业所在行业不同,数字化转型举措也有所不同。

但总的来说,数字化转型举措分成三大类:改善客户体验、提升员工生产率和创造新的商业模式。

虽然这些类别可能看起来截然不同,但它们有一个采取行动的共同要素──数据成为企业的核心财富,成功取决于能够比竞争对手抢先一步创造数据、利用数据、从数据分析中获得新的洞察。

现在,计算无处不在、数据驱动一切的AI时代已经到来。

AI时代有以下几个特征:第一,万物互联。

各种各样的物件与网络互联,成为AI成千上万的触角,也让万物更加智能第二,海量数据。

万物互联的结果就会产生海量的数据,AI模型训练需要海量数据。

第三,模型复杂。

AI应用为了提升效率和精度,模型越来越大,算法所需计算资源越来越多。

第四,时效敏感。

AI应用需要大规模的并行计算,要求极速的开发环境和生产上线以及低时延网络。

数据中心作为AI应用的载体,尤其是数据中心网络,承担着AI应用、云、大数据的联接关键作用,面临着新的挑战和更高要求:
可以说,随着数据中心日益增长的规模和复杂性,其网络新建和扩容、业务极速上线和频繁调整、快速排障等的复杂性已经超出
了人工可处理的极限。

网络成为制约加速企业数字化转型的瓶颈,急需匹配ICT转型节奏。

华为智简数据中心网络
2
理念:从SDN自动化网络,走向自动驾驶网络
华为认为未来的数据中心网络必将走向无人值守,是自治自愈的网络、具有生命的网络、能够进行自我学习的网络。

2018年世界移动通信大会上,华为正式发布了IDN(Intent-Driven Network,意图驱动的智简网络)解决方案,通过在物理网络和商业逻辑之间,构建一个数字孪生世界,驱动网络从SDN向超越自动化的完全自治的网络方向演进,实现用户商业价值最大化。

IDN扩展了SDN的价值主张。

对于两者的差异,汽车行业的变化是一个易理解的比喻。

多年前,汽车就已经装载了自动化工具,如纵列泊车辅助和巡航控制,但它仍然需要驾驶员选择驾驶路线、判断驾驶的速度或在某个地点停车是否合法。

也就是说,驾驶员做决定,自动化工具执行指令。

而对于自动驾驶汽车,驾驶员只需要发出基于意图的指令,例如“开车以最短时间送我回家”,然后汽车理解驾驶员的意图,根据路况、限行规则等自动选择最优路线、并自动到达驾驶员居住的小区,但可能不会选择在驾驶员的首选地点进行纵列式停车,因为它知道这天晚上会清理清扫街道,违法车辆将会被拖走。

自动驾驶汽车了解所有规则、实时路况、速度限制及拥塞点等,这些它在执行任务时都会自动考虑到。

与自动驾驶汽车类似,IDN是一种由商业策略驱动的意图而自运行的网络。

例如,对于某金融行业客户,其应用部门需要“扩展购物商城应用,新增纪念币秒杀业务”,而IDN@数据中心(暨智简云数据中心网络)能够理解这一意图,并通过扩展物理/逻辑网络、配置安全策略、配置QoS策略等自动化流程实施,同时通过持续的网络校验确保这一意图准确实现。

事实上,数据中心从SDN网络到自治自愈的网络还需要长期的演进,企业面临的最大问题是商业诉求和网络之间存在着巨大的鸿沟。

华为智简数据中心网络
商业诉求通常由一个或多个业务意图组成。

当前,数
据中心实施一个业务意图需要大量的人工操作,并且需要
业务与网络部门甚至更多领域配合,经过耗费很长时间的
流程,才能够保证业务意图最终落实。

这个过程中,业务
意图首先需要由人工识别和理解,再将其转化为可在网络
中应用的策略。

例如,上述“扩展购物商城应用,新增纪
念币秒杀业务”这一意图,需要由应用管理员、网络管理
员等分解为多个流程、策略和步骤执行。

也就是需要从
“我要什么”转化为“我如何做”。

而这一过程中,保障机制也尤为重要,从“我要什么”转化为“我如何做”并最终执行和落地,网络需要持续的保障措施来确保意图能够被准确执行和始终准确。

保障机制至少涵盖以下几个方面:
在部署之前
部署期间和之后不断验证
包括在部署之前,对于网络的规划、设计或者变更,可通过仿真演练评估是否能够得到意图结果;在部署期间,检查网络的业务资源是否足够等等,以确保是否能够部署成功且有效;在部署之后,通过建模等方式检查业务是否准确运行、是否真正达成意图结果等等。

通过大数据及AI感知
和验证网络以及预测性维护
包括网络和应用的双向智能感知,深层次可
视性,实时监控网络中所承载应用的运行状
态、互访关系等,以验证意图与网络一致
性、同时快速感知和定位故障。

同时通过数
据和模型来标识异常、预测系统性能及故障
等,如光模块故障预测等实例已得到广泛应
用。

通过闭环操作来优化
和自治网络
包括对于已发现的异常和故障、预测性的故
障,能够自动纠正或优化,保障网络在每时
刻与意图的一致性。

华为智简数据中心网络旨在在商业诉求和网络基础设施之间构建一个数字网络世界,打破商业与网络之间的鸿沟。

其核心就是通过建立一个数字世界,将用户的业务意图转换为网络可执行操作的路径,暨将用户的意图语言翻译成网络能够理解的策略和语言,同时通过持续的保障机制确保网络与意图始终对齐。

目的:打破商业诉求和网络之间的鸿沟
华为智简数据中心网络
华为智简数据中心网络
方案架构
商业意图层
商业/ 业务意图
我今天要上线 一个安全的分布式应用
我要扩展我的 应用数据库
网络意图 示例
我要扩容100台 服务器
我要快速升级10GE 网络到25GE 网络, 批量替换交换器和服务器
3
华为智简数据中心网络架构如图3-1所示,包括商业意图、数字孪生的网络平台以及极简超宽的云化网络基础设施。

私有云
公有云
电信云
图3-1 智简云数据中心网络架构
商业意图即企业用户的商业逻辑/决策,随着SDN 向IDN 演进,商业意图层的平台也从SDN 阶段向IDN 阶段逐步演进,可按如下归类:
SDN 阶段多云业务编排系统:包括华为数据中心管理系统ManageOne 、云平台FusionSphere 以及业界主流的云平台 OpenStack 和容器云平台Kubernetes 等。

IDN 阶段意图管理系统:华为开放的商业意图设计/编排平台,用户可声明、定义和定制商业意图。

通过开放基于意图的API ,用户可以利用业务/网络模型、大数据分析、算法等模型自定义其意图。

事实上,关于数据中心的意图,根据当前不同企业、不同行业的组织分工和运营情况,也可归纳为商业/业务意图和网络意图。

华为商业意图平台支持上述两类意图,满足不同客户的多样化诉求,平滑向意图驱动的数据中心自治网络演进。

第三方客户自研或定制系统:可与华为数字孪生的网络平台层对接,从而实现基于意图的网络规划、设计、自动化部署和持续验证、预测性维护等。

VM
VM
NGFW 3rd VAS
智能无损数据中心网络
数据搜集
配置下发
网络基础设施
Digital Twin 网络平台
HUAWEI ManageOne
SDN 阶段多云业务编排 意图 设计编排系统
I DN 阶段意图管理系统
商业意图 Intelligence Engine
Big Data
Analytics Engine
Intent Engine
意图模型
Automation Engine
3rd 意图/业务管理系统
华为智简数据中心网络
意图引擎
主要完成意图理解/转换和意图验证。

自动化引擎
将网络设计和规划变成具体的网络命令,通过标准的接口让网络设备自动化执行。

分析引擎
基于实时遥测等技术,采集分析数据中心网络数据,如上下行速率、延迟、丢包率等,但不涉及用户隐私。

智能引擎
在分析引擎的基础上,通过人工智能等算法和不断升级的经验库,给出风险预测和处理建议。

数字孪生的网络平台是智简数据中心网络的核心大脑,是实现自治网络的关键部件,从商业意图到网络基础设施的落地,需要通过数字孪生的网络平台进行转换和处理。

3.3.1 概述
数字孪生的网络平台包括意图、自动化、分析和智能四大引擎:
四大引擎相互作用,对上接收商业意图,对下通过意图驱动的自动化服务作用于网络基础设施,并实时感知网络状态,建立数字化网络模型,以持续验证网络与意图一致性,及进行预测性维护,从而数据中心网络形成一个完整闭环系统。

同时,意图引擎与自动化引擎形成一个小的闭环系统,应用于数据中心网络部署和调整场景,确保用户意图被正确有效执行。

图3-2 意图引擎与自动化引擎闭环流程 图3-3 数字化网络模型逻辑架构
数字孪生的网络平台通过收集网络数据等,建立数字化网络模型,以持续验证网络与意图一致性及进行预测性维护。

数字孪生的网络平台层
Network
实时监控
配置下发
意图引擎(验证)
影响分析
仿真校验事前检查
自动化引擎
意图翻译
意图设计/编排
意图引擎(转换)
模型抽象
算法和经验库
定位定界
故障定界根因分析
事后
事后验证健康巡检
双向可视 自动感知
可视
事前
事前仿真事前验证
资源监控 历史回放
数据采集
MPV (管理面校验)
CPV (配置面校验)
DPV (数据面校验)
专家经验库
物理模型
逻辑模型
应用模型
专家经验模型
静态配置
动态表项
TOPO
资源信息
3.3.2意图引擎
意图引擎主要完成意图理解和转换以及对意图的验证。

意图理解和转换:识别用户商业意图,并将用户商业意图翻译成网络能够理解的策略及语言。

提供开放的架构,包括易于使用的自定义可
编程界面、可自定义的意图编排模型等,用户可灵活地表述和编排业务意图。

意图验证:通过仿真校验、事前和事后验证、实时分析等技术,模拟网络规划和设计,分析网络配置影响,并持续验证下发配置/策略与用户
业务意图的一致性。

意图理解和转换
如上文所述,AI时代,随着物联网边缘计算等技术的蓬勃发展、数据中心规模的迅速膨胀,企业的业务跨云、跨数据中心部署已成为常态,而涉及多云、多数据中心复杂的调度流程,使得企业新增或变更业务意图非常缓慢。

意图理解和转换模块旨在解决用户这一痛点。

它提供易于使用的自定义可编程界面、可自定义的意图编排模型,支撑一个业务意图的完整表述。

甚至提供智能语音识别系统,用户可直接口头表达业务意图。

而后,业务意图被抽象成为一个个连接,网络能够理解的策略和语言。

由此,多云、多数据中心或者多厂商多类别设备的复杂调度流程不再被感知,用户直接表述业务意图,意图引擎完成识别和自动转换。

从传统以网元为中心的网络演进到以用户为中心的意图网络,是一个需要逐步演进的过程。

面向不同行业、不同场景,用户的业务诉求也呈现多样化形态,意图网络也具备可定制化的特点。

意图验证
意图验证通过仿真校验、事前检查、事后验证、网络实时分析、故障定位和自愈实现的闭环设计,确保用户意图被准确有效执行。

仿真校验:基于特定的场景和配置进行校验,模拟设备上的配置下发和运行,验证设备配置中的一些常见问题,例如,地址冲突,路由环路,路由不可达等。

仿真校验多应用于以下场景:工程师拟在网络中进行大量配置,而对这部分配置下发到设备上所产生的影响无法预估,所以希望能够在准备
阶段提前进行仿真校验和模拟下发。

通过仿真校验,能够发现配置中的常见问题,工程师可进行及时修改和调整,而不会对网络产生影响。

在仿真校验中,使用的关键技术是配置面(CPV)校验,配置面校验会实时地收集网络中设备上的配置信息、网络的拓扑信息,然后结合
本次配置的变更数据进行拓扑模型的建立,进行网络验证。

事前检查:配置下发前,事前检查通过收集网元的资源信息、与待下发配置进行比对,自动确认网络中的剩余资源是否足够,避免因资源不足导致下发失败,其中可以检查的资源包括ACL、路由VRP等。

事后验证:基于用户的意图翻译,验证用户意图在网络设备中执行的最后结果是否满足用户对意图的期望。

事后验证主要应用于以下场景:当用户输入意图、意图经过理解翻译后下发,出于可靠性的考虑,用户也要尝试对自己输入的意图进行验
证。

在这种情况下,用户可以在意图理解的前端界面上输入意图的预期结果,由意图引擎负责将意图实际理解转换的配置和用户的期望进
行比对校验。

在意图一致性验证中,除了配置面校验之外,还使用了数据面(DPV)校验。

数据面校验技术要求实时地从网络中收集设备上的流表信息、
设备拓扑信息,从而进行网络连通性的验证。

网络实时分析:对网络中的设备如告警日志以及KPI信息实时监控,进行健康度的检查。

网络巡检和分析同样主要应用在网络配置和运维阶段,但是与故障定位和自愈不同的是,网络巡检是通过分析网络中的一些有价值的KPI数
据,分析网络的健康度,提前预判网络中的故障。

在网络巡检和分析中,借助BigData+AI的关键技术,首先采集网络中设备上的告警,日志和KPI数据(内存,CPU占用率等),通过这些数据利用AI技术分析网络的健康度,提前预判风险。

故障定位和自愈:在网络运行过程中,自动启动故障的诊断分析,当出现网络故障时,能够快速进行故障的定界和定位分析,缩小故障的范围,快速定位问题,快速进行恢复。

故障定位和自愈主要应用于网络配置和运维阶段,当网络中出现了问题时,工程师必须在其客户可容忍的时间内快速进行排障,定位,纠错,尽一切可能把业务在极短的时间内恢复。

故障定位和自愈中,借助BigData+AI的关键技术,首先将网络中的故障生成故障模式库,然后将故障模式库中的样本提交给AI训练。

在之后的故障触发中,将会通过AI分析输入的故障,提供可能的故障原因,帮助工程师缩小故障范围,快速故障定界。

华为智简数据中心网络
华为智简数据中心网络
Underlay 自动化
对于Underlay 网络,自动化引擎提供极简界面,输入少量必要参数甚至一键式实现网络的初始开局、扩容和设备替换。

Overlay 自动化
对于Overlay 网络,自动化引擎将已设计的逻辑网络模型转化成具体的网络配置,批量自动化下发到网络各个设备上,实现网络秒级发放。

安全策略自动化
自动化引擎调度数据中心网络的安全资源池,实现多种安全策略的灵活编排和调整,显著提升安全策略部署效率。

基础运维自动化
自动化引擎提供路径探测、环路检测、一致性对账等多样化运维手段,可自动对网络进行检查,实时监控网络和快速故障定位。

网络基础设施层
网络设备
物理交换机采用CloudEngine 系列,它是华为面向下一代数据中心的高性能交换机,包括旗舰级核心交换机CloudEngine 12800系 列和业界首款面向AI 时代的数据中心交换机CloudEngine 16800 ,以及高性能的汇聚/接入交换机CloudEngine 8800/7800/6800/5800系列,支持丰富的数据中心和园区业务特性。

虚拟交换机采用CloudEngine 1800V ,它是华为针对企业和行业数据中心虚拟化环境推出的一款智能软件交换机产品。

CloudEngine 1800V 可以运行于KVM 环境下,支持虚拟交换技术,可以提供二层网络智能交换,VXLAN 接入、NSH 等功能。

ÿ
3.3.3 自动化引擎
自动化引擎将网络设计和规划变成具体的网络命令,通过标准的接口让网络设备自动化执行。

自动化引擎实现数据中心网络方方面面的自动化:
自动化引承接意图引擎下发的网络部署策略,意图引擎正是通过驱动自动化引擎来保证自治网络中的网络自动化部署、调整、修正这一环节的实施。

网络基础设备层包括网络中各种物理和虚拟设备组成的底层网络(Underlay Network )、以及在底层网络之上叠加的逻辑网络( Overlay Network )。

在Underlay Network 方面,华为基于开放Ethernet 进行技术创新,创新地打造了下一代智能无损低时延的AI Fabric ,依靠AI 芯片和独特的iLossless 算法,实现RDMA 业务流的零丢包、高吞吐和超低时延,加速AI 时代的计算和存储效率,最终获得专网的性能、以太网的价格,整体ROI 达到45倍。

Underlay network 组成部件如下:
在Overlay Network 方面,目前由自动化引擎构建VxLAN Overlay Network, 来支撑业务的自动化发放和自由迁移。

Overlay Network 支持与BM 、VM 、容器等多形态计算资源自动创建连接,从而满足不同应用的部署诉求和安全合规,保证客户网络平滑演进。

VAS 设备
采用华为NGFW/vNGFW ,为数据中心提供NAT 、VPN 、虚拟化和多种安全特性。

采用领先的LB 设备为数据中心业务提供灵活的负载均衡服务。

通过开放可编程框架实现对接第三方VAS ,包括Checkpoint 等设备纳管。

可配置到第三方VAS 设备的引流,兼容第三方VAS 设备在数据中心使用。

4
极简
极简架构
同一套数据中心网络架构,支持BM、VM、容器等混合部署,实现私有云、公有云等多种云形态的跨DC多云协同,统一资源调度
和自动化业务布放。

智简数据中心网络架构,提供弹性灵活的扩张能力,当前支持4200台Leaf、50000台服务器超大规模网络管控,满足至少五年
的网络演进诉求。

极简操作
用户仅需要表述业务意图,由智简云数据中心网络架构自动转换、自动下发,从网络规划和设计、网络开局和部署、业务发布到
运维和验证,全生命周期实现自动化,从而助力业务分钟级上线。

智慧
智简数据中心网络通过Telemetry 方式进行数据实时监控,收集真实业务流和网络KPI数据,以业务为中心,主动识别80%问题包括应用质量、网络服务和安全合规等相关的十几种典型故障,全景呈现当前活跃和历史发生的故障。

并将应用-网络路径-设备关联分析,结合智能算法和专家经验库提供一键故障自动排查,实现了典型故障秒级自动识别和一键式诊断排除,快速定位到故障点。

智简数据中心网络将机器学习算法结合大数据训练网络行为模型,呈现设备、队列、端口级的动态基线,实现了在服务等级下
降过程中主动监测异常。

另外还可预测光模块等故障风险,转被动运维为主动运维,网络先于业务发现隐患。

目前通过华为IT网络实
践证实,数据中心网络故障率最高可降低68%。

超宽
华为基于开放Ethernet进行技术创新,构建AI Fabric,能够达到保证网络零丢包的效果,同时能够兼顾网络时延和吞吐,在保证网络最大吞吐率的情况下,将网络时延降到最小,来支撑分布式存储和AI/HPC计算,以及实时性的分布式计算,如Ceph存储,Memcached和Spark等。

AI Fabric针对AI训练和分布式存储的效果进行了大量的验证:相对传统的IP网络,AI Fabric有40%的性能提升。

相对InfiniBand 网络,能达到其性能的90%以上,在大规模场景下,拥塞加重的情况下可以超越IB。

华为智简数据中心网络
开放
智简数据中心网络是一个高度开放的架构,提供多层次的开放性和可编程能力,致力于为用户构建完整的开放生态系统。

意图层面开放
智简数据中心网络是一个开放可编程的网络,通过开放基于意图的API ,用户可以利用业务/网络模型、大数据分析、算法等模
型、自定义use case,实现网络规划、设计以及业务的编排。

同时,通过开放Restful接口与业务主流云平台,包括OpenStack 、Kubernetes 等无缝对接,实现业务与网络的协同。

网络平台层面开放
与VMware NSX以及自动化管理运维工具Ansible完美对接,实现对物理、虚拟网络的统一发放,业务编排和自动化运维管理。

网络基础设施层面开放
基于Open API 和OpenFlow 等南向接口,实现与业界领先的应用交付网络厂商和安全解决方案供应商
无缝集成,为数据中心提供全面的安全、负载、均衡、DHCP 等服务。

安全
智简云数据中心网络方案会显著提升网络的安全性与合规性:
·关于安全性与合规性的意图被持续验证,保障网络与意图的持续一致性,达到安全性与合规性的意图目标。

例如,意图验证会验证待下发的安全策略是否与现网已配置运行的安全策略有冲突,评估下发影响。

·大数据实时收集、分析和监控应用间的互访关系,包括整网的应用互访关系图、单个应用互访关系明细、应用与网络对应关系等多维度可视,能够实时报告网络安全性与合规性;同时实时收集和监控异常,及时发现攻击等威胁情况,并通过自动化引擎的安全模块闭环消除威胁或遏制威胁扩散。

·微分段技术提供最细粒度的安全防护,防止遭受安全攻击或病毒感染的范围扩大,使得受影响的范围降到最低,保护核心资产的安全性、可用性。

华为智简云数据中心网络。

相关文档
最新文档