iMaster NCE-FabricInsight智能运维系统解决方案
总部基地智能一体化运维和系统建设方案
总部基地智能一体化运维和系统建设方案随着科技的不断发展和应用,企业的总部基地建设也越来越注重智能化和自动化的运维和系统建设。
本文将介绍一个智能一体化运维和系统建设方案,主要包括以下几个方面内容:一、智能设备和传感器的布置和运用在总部基地建设中,可以通过布置各种智能设备和传感器来实现对各个设备和系统的监控和控制。
比如,可以设置温度传感器、湿度传感器、烟雾传感器等对环境参数进行实时监测,并通过智能系统对其进行分析和处理。
同时,还可以安装摄像头和安全设备,实现对总部基地的安全监控和管理。
二、智能化的运维管理传统的运维管理需要人工巡检和维护,效率低下且容易出错。
而通过智能化运维系统,可以实现对设备和系统的自动监控和维护。
比如,可以使用智能设备和传感器对设备运行状态进行实时监测,并通过智能系统分析,及时发现设备故障或异常情况,并进行报警和处理。
同时,还可以进行故障预警和预测,提前进行维修和保养,降低故障率和维修成本。
三、智能化的系统集成在总部基地建设中,可能涉及到多个不同的系统,如供电系统、给排水系统、通风空调系统、安防系统等。
传统的建设方式通常是各个系统独立运行,缺乏协同和一体化管理。
通过智能化系统集成,可以将不同的系统进行整合,实现系统之间的信息共享和协同运行。
比如,可以将各个系统的数据集中存储和管理,实现对整个总部基地的集中监控和控制。
同时,还可以通过智能化算法和技术,对系统进行优化和调整,提高能源利用效率和系统运行效果。
四、数据分析和决策支持通过智能化的运维和系统建设,可以获取大量的运行数据和信息。
这些数据和信息可以用于运行状态的实时分析和监测,帮助管理团队及时掌握总部基地的运行情况。
同时,还可以通过数据分析和挖掘,发现潜在问题和优化机会,制定相应的决策和措施。
比如,可以通过数据分析发现设备的能耗异常,并进行调整和优化,降低能源消耗和运行成本。
综上所述,智能一体化运维和系统建设方案是总部基地建设中不可或缺的一部分。
云数据中心网络架构与技术(第2版)
12.2.1混合云技术 12.2.2业界主流混合云网络方案 12.2.3华为混合云SDN方案
12.3.1确定性IP网络产生的背景 12.3.2确定性IP网络关键技术 12.3.3确定性IP网络未来展望
13.1迈向智能世界 2030
13.2智能世界2030 对数据中心的要求
13.3智能时代DCN的 诉求:低时延、零丢 包和高吞吐
读书笔记
这是网络工程师在云时代的教科书,如果不了解这些内容,迎接我们的可能就只有被淘汰或者转行。
目录分析
2.1什么是云计算
2.2云计算催生的虚 拟化技术
2.3当SDN邂逅云计 算
2.4超融合数据中心 网络
2.4.1高性能计算需要超融合数据中心网络 2.4.2高性能存储需要超融合数据中心网络
14.4.1简介 14.4.2架构 14.4.3功能特性
14.5.1简介 14.5.2架构 14.5.3功能特性
作者介绍
这是《云数据中心网络架构与技术(第2版)》的读书笔记模板,暂无该书作者的介绍。
精彩摘录
这是《云数据中心网络架构与技术(第2版)》的读书笔记模板,可以替换为自己的精彩内容摘录。
4.3.1运营商企业网络的总体架构 4.3.2运营商业务的发展诉求与数据中心网络的演进 4.3.3运营商云数据中心的目标架构与设计原则
5.2云数据中心Байду номын сангаас 决方案的组件间交
互
5.1云数据中心网 络的业务模型
5.3云数据中心组 件间交互技术解析
5.1.1典型OpenStack业务模型 5.1.2 FusionSphere业务模型 5.1.3 iMaster NCE-Fabric业务模型
7.1 Overlay网络
华为智慧教育解决方案V1
华为智慧教育解决方案01区域一体化智慧教育解决方案02智慧校园解决方案03成功案例目录教育城域面临的挑战区域内学校规模发展设备部署效率低传统运维手段师生体验难保障挑战应用和业务激增带来的部署、策略复 杂性,网络自动化成为普遍需求挑战挑战无线网络逐渐普及,但无法随时随地感知用户体验,成为网络运维最大挑战智慧教学新应用网络带宽遭冲击移动教育网区域 中心 汇聚DDOS办公 和校 园网互联网出口核心xx 区中心沙箱教育业务中心业务中心 区教委XX 学校XX 学校XX 学校xx 县中心业务中心…县教委管理中心管理中心xx 中心业务中心管理中心XX 教育机构市直属学校市教委市教委核心机房SDN 控制器审计态势感知联通智慧超宽教育城域网物理网络整体架构万兆核心,多速率接入,WIFI6覆盖万兆核心,认证和路由功能上收核心;核心做虚拟化,形成统一认证网关。
千兆,多速率交换机提供Wi-Fi 6无线接入 承载 业界独家光电混合缆200m POE 供电 Wi-Fi 6 无线覆盖打造极速Wi-Fi 体验极简一站式管理中心,自动化部署管理全生命周期管理,设备即插即用,策 略自动化部署基于大数据的AI 智能运维每时刻每用户每应用可视快速故障定界及根因分析故障预测优化,AI 动态学习移动教育网区域 中心 汇聚DDOS办公和校园网互联网出口核心xx 区中心业务中心区教委XX 学校XX 学校XX 学校xx 县中心业务中心…县教委管理中心管理中心xx 中心业务中心管理中心市教委核心机房SDN 控制器审计态势感知联通vxlanOverlay /Vxlan整体方案•整体采用cloudcampus 解决方案实现一网多用、自动化业务发放、业务随 行等功能•教委/教育局的核心作为fabric 的border 节点•每个学校的核心作为Fabric 的edge •校园网络接入设备是华为设备的,作为Fabric 的扩展接入点•新建无线网络采用edge 设备作为随 板AC 做有线无线融合教育城域网虚拟网络架构Overlay (虚拟网络层)Underlay (物理网络层)FabricBorderEdgeAccessEdgeAccess虚拟网络1虚拟网络2虚拟网络3由物理网络设备建立的物理拓扑为园区内所有业务提供互联互通能力业务数据转发的基础承载网通过虚拟化技术,构建基于任意物理Underlay 拓扑的 全互联逻辑拓扑在Fabric 上创建业务网络,实现与物理网络解耦在Fabric 上,可以根据业务需求创建多个虚拟网络, 实现业务隔离VxLAN实现不同业务在不同虚拟网络中的安全隔离统一控制器实现VxLAN自动化部署业务随行策略隧道策略下发敏捷交换机兼 VxLAN 网关智能感知和执行:用户/应用/质量/故障; 有线无线用户统一认证/统一策略控制。
iMaster NCE-Fabric数据中心网解决方案及应用
20%
运维精力
网络工程师用于检查和验证网络时间占比70% 因路由变更消耗的时间占比约30% 消耗20%运维精力校验网络连通性、路由配置及变更
典型举例1:【路由配置故障】新配置1条路由,导致原有路由被激活,形成路由环路
设备已有静态路由如下,到达10.200.0.0/21有2条静态路由, 其中,10.17.43.21不可达 ip route-static 10.200.0.0 255.255.248.0 10.17.43.21 ip route-static 10.200.0.0 255.255.248.0 10.17.43.28 现配置1条静态路由如下: ip route-static 10.17.0.0 255.255.0.0 10.17.43.33 新配置的路由使用10.17.43.21可达,下一跳为10.17.43.33,导致形成路由环路
提供数据中心网络全生命生期极简自动化体验 北向抽象网络资源和服务,南向适配不同设备和网络实现
网络E2E自动部署,部署“零”等待
极速网络发放:图形化拖拽式操作,极简业务逻辑,部署效率 是业界3倍
极速容器上线:容器上线10K/min,业界领先性能 多云互联:MDC统一编排,多DC互通自动化
变更风险预评估,配置“零”差错
华为iMaster NCE全新启航(运营商版)
数据中心 NCE-Fabric *
NEW
企业园区 NCE-Campus *
SD-WAN NCE-WAN *
家庭宽带
NCE-FAN
广域传输
NCE-T
广域IP
NCE-IP
跨域
NCE-Super
iMaster NCE-Fabric提供数据中心网络全生命周期管控的极简体验
iMaster NCE-FabricInsight智能运维系统解决方案
降噪 ⚫ 特殊适配: 在节假日等额外
处理数据
输出: ⚫ 数据特征(取值稳定或周期稳定) ⚫ 指标采集周期
功能: ⚫ 周期稳定指标算法:时间序列 分解
⚫ 取值稳定指标算法:Gaussian 回归
⚫ 通过算法构建基线边界 ⚫ 调整基线敏感度
默认周期 1 min 1 min 1 min 1 min 100 ms 30 min 10 s 动态订阅
设备版本 V200R005C00 V200R005C10 V200R005C10 V200R005C00 V200R005C00 V200R005C00 V200R005C00 V200R019C10
Telemetry监控
网络健康度
五层健康度评估模型,直观感知网络质量
运维服务APP
VIP 业务保障
业务
基于网络流分析业务建连情况
Overlay
BD、VNI、VRF资源及运行状态
协议
M-LAG 组状态
OSPF/BGP Peer 连接
网络
网络互连端口状态 端口流量、错包
队列深度 光链路状态
设备
硬件状态:单板/风扇/电源等 容量:ARP/FIB/MAC… CPU/内存负载
网络配置数据 (Running Config)
网络拓扑数据
(物理拓扑/协议链路/Overlay 隧道)
Telemetry机制 – 更实时,更高效
网络Metrics数据
(CPU/MEM/Bandwidth/Buffer)
网络转发表信息 (FIB/ARP)
SYSLOG 数据
(Level 0 – 4)
Telemetry监控
iMaster NCE-FabricInsight单机平台产品方案
iMaster NCE-FabricInsight 产品描述(单机方案)目录1 产品定位和特点 (1)1.1 产品定位 (1)1.2 产品特点 (2)2 产品架构 (3)2.1 逻辑架构 (3)2.2 安全防护 (4)2.3 外部接口 (4)3 应用场景 (6)3.1 网络健康度分析 (6)4 功能特性 (7)4.1 健康度 (7)4.2 验证 (10)4.2.1 意图管理 (10)4.2.2 浏览意图验证结果 (14)4.2.3 网络模型管理 (18)4.2.4 问题上报 (19)4.3 变更对比 (20)4.3.1 快照分析 (20)4.3.2 网络变更 (23)4.4 VM跟踪 (24)4.5 日志分析 (27)4.6 Telemetry (28)4.6.1 Telemetry (28)4.6.1.1 AI Fabric (38)4.6.2 转发表项 (39)4.7 丢包记录 (42)4.8 资源管理 (44)4.9 告警管理 (46)4.10 系统监控 (50)4.11 设备画像 (51)4.12 安全管理 (58)4.13 日志管理 (60)4.14 License管理 (60)4.15 个人设置 (61)4.16 北向SNMP接口 (61)5 部署方案 (63)5.1 限制及约束 (63)5.2 软硬件配置要求 (63)5.3 典型组网 (65)6 遵从的标准和协议 (67)1 产品定位和特点1.1 产品定位随着行业数字化转型的加速进行,越来越多的业务和应用将被部署到数据中心。
同时,大数据、机器学习、分布式、服务化等软件技术的发展,加速了行业数字化转型的步伐,企业数据中心云化的要求越来越迫切,云计算逐渐成为各行各业的基本能力。
如何快速构建一个能够支撑未来业务发展的云化数据中心,成为企业的当务之急,而数据中心网络作为构建云数据中心的基石面临很大的挑战。
传统数据中心网络,已很难支撑云化的要求,SDN应运而生。
IT运维服务智能化升级改造项目实施方案
IT运维服务智能化升级改造项目实施方案第一章项目概述 (2)1.1 项目背景 (2)1.2 项目目标 (2)第二章项目实施准备 (3)2.1 项目团队组建 (3)2.2 资源配置 (4)2.3 实施计划制定 (4)第三章系统现状分析 (4)3.1 系统架构分析 (4)3.1.1 系统概述 (5)3.1.2 系统架构组成 (5)3.1.3 系统架构存在的问题 (5)3.2 运维痛点梳理 (5)3.2.1 故障处理效率低 (5)3.2.2 监控数据不准确 (6)3.2.3 系统维护成本高 (6)3.2.4 系统安全性不足 (6)第四章智能化升级方案设计 (6)4.1 技术选型 (6)4.2 系统架构优化 (6)4.3 功能模块设计 (7)第五章系统开发与部署 (7)5.1 开发环境搭建 (7)5.2 系统开发 (8)5.3 系统部署 (8)第六章数据迁移与集成 (9)6.1 数据迁移策略 (9)6.1.1 数据评估 (9)6.1.2 数据备份 (9)6.1.3 数据清洗 (9)6.1.4 数据迁移路径设计 (9)6.1.5 数据迁移工具选择 (9)6.2 数据集成方案 (9)6.2.1 数据集成框架设计 (10)6.2.2 数据源接入 (10)6.2.3 数据存储 (10)6.2.4 数据处理 (10)6.2.5 数据展示 (10)第七章系统测试与优化 (11)7.1 测试策略制定 (11)7.2 测试执行 (11)7.3 系统优化 (11)第八章培训与推广 (12)8.1 培训计划制定 (12)8.1.1 培训对象 (12)8.1.2 培训内容 (12)8.1.3 培训方式 (12)8.1.4 培训时间 (12)8.2 培训实施 (12)8.2.1 培训准备 (13)8.2.2 培训过程 (13)8.2.3 培训评估 (13)8.3 推广策略 (13)8.3.1 宣传推广 (13)8.3.2 试点推广 (13)8.3.3 全面推广 (13)第九章项目监控与管理 (14)9.1 项目进度监控 (14)9.2 项目风险管理 (14)9.3 项目质量管理 (14)第十章项目验收与总结 (15)10.1 项目验收标准 (15)10.2 项目验收流程 (15)10.3 项目总结与展望 (15)第一章项目概述1.1 项目背景信息技术的快速发展和企业业务需求的不断增长,IT运维服务在保障企业信息系统稳定、安全运行方面发挥着的作用。
iMaster NCE-Fabric产品配置指导
CloudEngine 交换机
服务
卓越运维服务 SDN规划与实施服务
配置原则:高价值业务所需网络,有明确性能SLA价值,每台交换机基于业务需要可选。
Add on
必 配 软 件 包
4
AI Fabric 功能包
(无损以太网功能、AI ECN)
安全功能包
(MACSEC)
高可靠功能包
(金融款型专用)
配置原则:CE交换机、NCE-Fabric/Fabricinsight功能基于解决方案打包简化销售,每台交换机基于场景四选一,必配。
36
NA
3 (商用部署推荐)
1,800 4,000来自53,000 6,000
7
4,200 6,000
• 混合Overlay场景
如需要销售,需要联系DCN项目接口,评估方案可行后方可报价和下单
• iMaster NCE-Fabric支持主、备集群部署,实现异地容灾
• 配置器中已设计选择:单集群还是主备集群,主备部署实现异地容灾,请选择两套(或6个平台管理节点+1个仲裁服务器,其中仲裁节点 没有单独软件报价) 如果项目采用华为FusionSphere云平台,不需单独配置仲载服务器;如果采用第三方云平台或者网络虚拟化方案,需单独配置配置 仲裁服务器
CE纳管license+sns(必选,每框式/盒式交换 机)
iMaster NCE-Fabric 平台软件License+sns (必选,默认3节点)
iMaster NCE-Fabric HW(必选)
CloudEnginee交换机
N1软件包(Management)or 交换机软件
SecoManager
Management(M包)
iMaster NCE-FabricInsight 数据表说明书
DatasheetProduct DescriptionAs technologies such as cloud computing, big data, and artificial intelligence continue to develop and grow in popularity, enterprises are deepening their digital transformation, covering aspects such as office, production, and testing. Traditional data centers can no longer keep pace with development, and cloud-based transformation has become an inevitable trend. However, the current data center cloudification solutions currently available in the industry focus on virtualizing resources, improving resource utilization, automating deployment, and implementing cloud-based strategies, but overlook network management and service operation challenges brought by the growing scale and traffic of data centers. Traditional manual O&M cannot effectively deal with complex application migration policies, unstable service experience quality, difficult fault locating, and large-scale security policy management.Huawei iMaster NCE-FabricInsight — a data center network analyzer — eschews the traditional resource status-based monitoring mode. Instead, it detects network health status in real time and monitors networks from the perspective of applications, helping customers detect exceptions in a timely manner while also ensuring continuous and stable application running.Key ComponentsiMaster NCE-FabricInsight (FabricInsight for short) uses Telemetry to collect network-wide traffic and metrics within seconds, analyzes and displays network data through intelligent big data algorithms, and provides northbound APIs to interconnect with upper-layer application systems.HighlightsNetwork-wide health evaluation●Establishes a network health evaluation system based on the five-layer model, implementing 24/7 real-time networkmonitoring.●Intelligently predicts potential risks such as network reliability deterioration and capacity risks, detecting and resolvingproblems in advance.Minute-level fault locating●Builds the network knowledge graph to proactively identify typical faults within 1 minute, automatically locate them within 3minutes, and rectify them within 5 minutes.●Performs network path analysis based on real service flows and demarcates and locates faults in minutes after they arereported.Full network service openness●Provides full network data service openness, drag-and-drop orchestration, and generation of scenario-specific APIs in one-click mode, ensuring integration with third-party systems in days.●Supports integration with service analysis systems, implementing integrated O&M of applications and networks.Key FeaturesTelemetry-Powered Network Visibility in All ScenariosFabricInsight collects statistics on metrics such as devices, boards, queues, interfaces, and entries through Google Remote Procedure Call (gRPC) and displays the dynamic baseline range of each metric using machine learning algorithms. This enables FabricInsight to quickly detect the time point when a baseline exception occurs and proactively identify issues before they interrupt services. In addition, it automatically associates each abnormal time point with the affected service flows, allowing users to view the flow behavior data that passes through the device at the time point when an exception, such as a connection setup failure, occurs.iMaster NCE-FabricInsight Data SheetComprehensive Network Health EvaluationNetwork health check in traditional O&M is inefficient and cannot accurately reflect the network status in real time because it must be performed manually on devices one by one during off-peak hours. FabricInsight takes a different approach. It performs network-wide modeling based on the knowledge graph, constructs a five-layer evaluation system (device, network, protocol, overlay, and service), and intuitively displays the 24/7 network quality. In addition, it dynamically detects key metrics and proactively identifies potential risks such as reliability deterioration and capacity risks.By providing network health evaluation reports in real time or periodically, FabricInsight helps network administrators gain insights into networks and improve O&M efficiency and service experience quality."1-3-5" TroubleshootingData centers are not only service support centers, but also value creation centers. For 98% of enterprises, they will lose more than US$100,000 per hour if their services are interrupted, which is why customers have zero tolerance for network interruptions. Traditional network O&M is mainly performed manually, making it difficult and time-consuming to locate network faults, and severely affecting service continuity.Leveraging Telemetry, FabricInsight collects data on the management, forwarding, and data planes of the entire network in all scenarios, and detects exceptions within 1 minute. In addition, FabricInsight uses the knowledge graph to automatically identify the root causes of faults and potential risks within 3 minutes and provide effective rectification suggestions. Furthermore, FabricInsight collaborates with Huawei iMaster NCE-Fabric to recommend fault handling plans, enabling typical faults to be quickly rectified within 5 minutes.Network Intent VerificationAs the network infrastructure becomes more complex and the network scale becomes larger, checking whether service changes achieve the desired result is critically important. According to a survey conducted by Dimensional Research, 69% of O&M teams manually check network connectivity, resulting in inefficient and incomplete verification.FabricInsight provides service intent verification on the data plane. In key service assurance scenarios such as service changes, FabricInsight delivers 24/7 automatic verification of whether the network intent meets expectations and identifies full-path connectivity. It also detects service and underlay interconnection exceptions within seconds, automatically analyzes root causes for abnormal paths, and notifies users of promptly handling the exceptions.iMaster NCE-FabricInsight Data SheetNetwork Change VisibilityAs data center networks are subject to frequent network changes, traditional manual O&M faces pressing challenges in terms of detecting thousands of device configuration changes and learning tens of thousands of entries per device.With network snapshot management, FabricInsight supports automatic and manual synchronization of network snapshots from dimensions of device configuration, entry, topology, capacity, and performance. In addition, it automatically analyzes differences before and after changes, and clearly displays the detection results.IP 360 ManagementWhen production systems are migrated to the cloud, the VMM automatically completes VM deployment and migration. However, information such as VM node location, VM migration or offline time, and VM distribution cannot be quickly found, meaning that only passive O&M can be performed on the network side.FabricInsight provides IP 360 analysis to quickly learn the number of online VMs and the distribution of top N switches connected to VMs, helping network administrators effectively plan resources in advance. FabricInsight supports full lifecycle management of VMs on the entire network, displays VM logout, migration, and login records in real time, and provides network-wide IP snapshot analysis. It also compares all IP address changes before and after network changes, and checks whether exceptions such as VM logout occur.Intelligent Analysis of Network-Wide LogsAfter a network fault occurs, a large number of logs are generated and 95% of them are invalid logs. In traditional O&M, the manual check of logs one by one is time-consuming and inefficient.FabricInsight visualizes network-wide log events, including the multi-dimensional trends, distribution statistics, and details from Layer 0 to Layer 4. In addition, more than 200 default rules are preset in the system or user-defined rules can be customized to aggregate and clear abnormal logs, improving log analysis efficiency.Network Path AnalysisOnce a service fault is reported, the network department needs to collaborate with the service department to demarcate and locate the fault. Traditional O&M relies on manual analysis of nodes one by one and cannot identify network forwarding paths.FabricInsight can search for the forwarding path of real TCP service flows on the network in one-click mode based on source and destination IP addresses and identify the status of devices, interfaces, and links along the path to quickly demarcate faults. In addition, it automatically recommends key information for fault locating, performs one-click intelligent diagnosis of possible root causes, and locates root causes of service connectivity and poor-QoE issues in minutes.iMaster NCE-FabricInsight Data SheetIntegrated O&M of Applications and NetworksWith the development of digital transformation, as well as the explosive growth of data, application and network systems are separated. Once a service fault occurs, multiple departments need to collaborate and communicate with each other to locate the fault, which is inefficient and cannot meet the requirements of service innovation and development.To address this problem, networks need to quickly provide data services to applications. In traditional mode, APIs are developed one by one based on hard coding and it takes several months to develop a scenario-specific API.FabricInsight provides full network data service openness and quickly rolls out scenario-specific APIs through drag-and-drop operations, implementing interconnection with upper-layer application systems in days. In addition, FabricInsight can collaborate with Netis Business Performance Center (BPC) to achieve integrated O&M of applications and networks. It also detects service quality deterioration in real time and visualizes application and network paths in an E2E mode to quickly locate faults, implementing collaboration between applications and networks and ensuring stable running of services in a timely manner.Unified Multi-DC and Multi-Cloud Network AnalysisAs the digital transformation accelerates, data centers are evolving from single DC mode to multi-DC multi-cloud mode. Traditionally, multiple tools are used for segment-by-segment O&M, lacking unified inter-DC visualized analysis.FabricInsight provides unified O&M analysis for multi-DC networks from an overall perspective.●Analyzes inter-DC/fabric application access traffic and evaluates network health based on north-south, east-west, andintra-DC traffic.●Performs knowledge graph modeling and analysis on inter-DC networks and identifies inter-DC network issues,demarcating and locating faults within minutes.●Automatically verifies whether inter-DC service access meets expectations before and after changes based on DPV.CompositionThe following table describes the basic and value-added packages of FabricInsight.iMaster NCE-FabricInsight Data SheetiMaster NCE-FabricInsight Data Sheet NetworkingFabricInsight supports the following networks:− Hardware-centralized gateway networking − Hardware-distributed gateway networking − Pure IP (IP fabric) networking − Software SDN network (HCS) −Note: 1. The underlay network is deployed based on IP forwarding.2. IP address overlapping scenarios (for example, multi-tenant and VPC scenarios) are not supported.3. VXLAN mapping is not supported.4. The SVF network is not supported.5.HCS supports only Region Type I-Layer 3 networking.Ordering InformationiMaster NCE-FabricInsight provides a 180-day trial license. T o apply for the trial license, visit the ESDP at /isdp/.iMaster NCE-FabricInsight Data Sheet More InformationFor more information about Huawei iMaster NCE-FabricInsight, visit the following link: Copyright © Huawei Technologies Co., Ltd. 2022. All rights reserved.No part of this document may be reproduced or transmitted in any form or by any means without prior writtenconsent of Huawei Technologies Co., Ltd.Trademarks and Permissionsand other Huawei trademarks are trademarks of Huawei Technologies Co., Ltd.All other trademarks and trade names mentioned in this document are the property of their respective holders.NoticeThe purchased products, services and features are stipulated by the contract made between Huawei and thecustomer. All or part of the products, services and features described in this document may not be within thepurchase scope or the usage scope. Unless otherwise specified in the contract, all statements, information, andrecommendations in this document are provided "AS IS" without warranties, guarantees or representations of anykind, either express or implied.The information in this document is subject to change without notice. Every effort has been made in thepreparation of this document to ensure accuracy of the contents, but all statements, information, andrecommendations in this document do not constitute a warranty of any kind, express or implied. Huawei Technologies Co., Ltd. Address: Huawei Industrial Base Bantian, Longgang Shenzhen 518129 People's Republic of China Website:。
什么是数据中心互联(DCI)?
什么是数据中心互联(DCI)?数据中心互联(DCI)是一种实现多个数据中心之间互联互通的网络解决方案。
数据中心是数字化转型的重要基础设施,随着云计算、大数据、人工智能的兴起,企业数据中心的应用日益广泛。
为满足跨地域运营、用户接入、异地灾备等场景的需求,越来越多的组织和企业在不同地域部署多个数据中心,此时就需要将多个数据中心互联起来。
什么是数据中心?随着产业数字化转型的持续发展,数据成为关键生产要素,而数据中心肩负着数据的计算、存储和转发的重任,是新基建中最关键的数字基础设施。
现代数据中心主要包括以下核心部件:计算系统,包括用于部署业务的通用计算模块和提供超强算力的高性能计算模块等。
存储系统,包括海量存储模块、数据管理引擎、存储专用网络等。
能源系统,包括供电模块、温控模块、IT管理模块等。
数据中心网络,负责联接数据中心内部通用计算、高性能计算和存储模块,它们之间的所有数据交互都要通过数据中心网络实现。
数据中心的构成示意图其中,直接承接用户业务的是通用计算模块,它依赖的物理基本单元是大量的服务器。
如果说服务器是数据中心运转的机体,那么数据中心网络就是数据中心的灵魂。
为什么需要数据中心互联?目前,各类组织和企业的数据中心建设已经很普遍,但是单一的数据中心已经很难适应新时代的业务需求,迫切需要多数据中心互联。
主要体现在以下几个方面。
业务规模快速增长当前,云计算、智能化等新兴业务正在快速发展,相关的应用数量也在迅速增加,而这些应用都强依赖于数据中心。
因此,数据中心所承接的业务规模在迅猛增长,单个数据中心的资源很快就会不足。
受限于数据中心建设的占地和能源供应等因素,单个数据中心不可能无限扩容,当业务规模增长到一定程度时,就需要在同城或异地建设多个数据中心。
此时,多个数据中心之间需要互联起来,协同配合完成业务的支撑。
此外,在经济数字化转型的大背景下,为了实现共同的商业成功,同一行业内以及不同行业的企业之间需要经常进行数据层面的共享、合作,这也要求不同企业的数据中心之间进行互联互通。
智能运维管理系统-需求规格说明书-最新版本
智能运维管理系统V2.0 需求规格说明书修订目录1. 文档介绍 (5)1.1. 文档目的 (5)1.2. 文档范围 (5)1.3. 读者对象 (5)1.4. 参考文档 (5)1.5. 术语与缩写解释 (5)2. 系统概述 (6)2.1. 系统建设目标 (6)2.2. 系统总体结构 (7)2.3. 用户的特点 (7)2.4. 设计和实现上的限制 (8)3. 系统功能性需求 (8)3.1. 双活中心工作运行状态监控模块 (8)3.1.1. 场景描述 (8)3.1.2. 用例分析 (8)3.1.3. 参与者列表 (8)3.2. 专用监控功能模块 (9)3.2.1. 场景描述 (9)3.2.2. 用例分析 (9)3.2.3. 参与者列表 (10)3.3. 故障告警模块 (10)3.3.1. 场景描述 (10)3.3.2. 用例分析 (11)3.3.3. 参与者列表 (11)3.3.4. 用例描述 (11)3.4. 数据配置管理模块 (11)3.4.1. 场景描述 (11)3.4.2. 用例分析 (11)3.4.3. 参与者列表 (12)3.5. 故障切换管理模块 (12)3.5.1. 场景描述 (12)3.5.2. 用例分析 (12)3.5.3. 参与者列表 (13)3.6. 数据接口 (13)3.6.1. 场景描述 (13)3.6.2. 用例分析 (13)3.6.3. 参与者列表 (13)3.7. 故障处理 (13)3.7.1. 场景描述 (13)3.7.2. 用例分析 (13)3.7.3. 参与者列表 (14)4. 系统非功能性需求 (14)4.1. 易用性需求 (14)4.1.1. 方便增加监测设备 (14)4.1.2. 方便删除监测设备 (14)4.1.3. 方便定位故障或者异常设备 (15)4.1.4. 监测设备在启动与停止监测之间方便转换 (15)4.2. 性能、并发性需求 (15)4.2.1. 对性能及并发性的特殊要求 (16)4.3. 扩展性需求 (16)4.3.1. 采集和监控服务器的集群支持 (16)4.3.2. 支持公司AFP 平台的整合 (16)4.3.3. 支持公司单点登录系统的整合 (17)4.3.4. 支持对物联网智能设备的直接监测 (17)4.4. 安全及保密性需求 (18)4.4.1. 敏感数据加密 (18)4.4.2. 敏感操作进行确认 (18)4.5. 可靠性需求 (18)4.5.1. 运行可靠性 (18)4.5.2. 数据可靠性 (19)4.6. 可维护性需求 (19)4.6.1. 监测设备配置优化 (19)4.7. 软硬件环境约束 (20)4.8. 系统备份与恢复要求 (21)4.9. 系统日志 (21)4.10. 其它需求 (21)5. 外部接口说明 (21)5.1. 短信发送接口 (21)5.2. 应用软件服务监测接口 (21)1. 文档介绍1.1. 文档目的在《智能运维管理系统V2.0立项建议书》的基础上对各个功能模块做出详细的需求分析,为项目后续的设计和开发提供依据。
什么是超融合数据中心网络
什么是超融合数据中心网络数据中心网络连接数据中心内部通用计算、存储和高性能计算资源,服务器间的所有数据交互都要经由网络转发。
当前,IT架构、计算和存储技术都在发生重大变革,驱动数据中心网络从原来的多张网络独立部署向全以太化演进。
而传统的以太网无法满足存储和高性能计算的业务需求。
超融合数据中心网络以全无损以太网来构建新型的数据中心网络,使通用计算、存储、高性能计算三大种类业务均能融合部署在一张以太网上,同时实现全生命周期自动化和全网智能运维。
为什么会产生超融合数据数据中心网?现状:数据中心内有三张网络数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务。
每类业务对于网络有不同的诉求,比如:HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常高,要求网络0丢包;通用计算业务规模大,扩展性强,要求网络低成本、易扩展。
由于上述业务对网络的要求不同,当前数据中心内部一般会部署三张不同的网络:由IB(InfiniBand)网络来承载HPC业务由FC(Fiber Channel)网络来承载存储网络由以太网来承载通用计算业务数据中心内的三张网络AI时代的变化1:存储和计算能力大幅提升,网络成为瓶颈企业数字化过程中将产生大量的数据,这些数据正在成为企业核心资产。
通过AI技术从海量数据中挖掘价值成为AI时代不变的主题。
通过AI机器学习利用各种数据辅助实时决策,已经成为企业经营的核心任务之一。
与云计算时代相比,AI时代企业数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理转变。
数据中心正在从云计算时代走向AI时代为了提升海量AI数据处理的效率,存储和计算领域正在发生革命性的变化:存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满足数据的实时存取要求,存储介质时延降低了不止100倍。
为了满足数据高效计算的诉求,业界已经在采用GPU甚至专用的AI芯片,处理数据的能力提升了100倍以上。
iMaster NCE-Campus V300R020C00 彩页
iMaster NCE-Campus产品彩页iMaster NCE-Campus 是华为面向园区网络的新一代自动驾驶网络管理控制系统,是业界首个集管理、控制和分析功能于一体的网络自动化与智能化平台,提供园区网络的全生命周期自动化、基于大数据和AI 的故障智能闭环能力,帮助企业降低OPEX 运维成本,加速企业云化与数字化转型,让网络管理更自动、网络运维更智能。
产品概述随着企业业务的快速发展和园区网络全面数字化转型的推进,园区网络正在朝着无线化,云化,智能化的方向加速发展,BYOD/IOT 物联网、Cloud UC 、Cloud office 、VR 、AR 、直播等创新性的业务大量涌现,海量终端的接入、指数型增长的网络规模、各数字化业务的频繁上线/调整。
在这样的趋势下,网络管理员的数量却没有随之增加,若仍然采用传统的命令行、网管脚本的方式进行管理,网络势必成为业务快速创新的瓶颈,成为企业数字化的绊脚石。
作为园区与分支网络的自动化管理中心,如何为提供加速网络业务的部署效率,提供可靠的SLA 保障,从而提升用户体验,成为新时代下园区网络领域的机遇和挑战。
面向园区与分支网络场景,iMaster NCE-Campus 利用云计算、SDN 、大数据分析技术实现网络自动化和集中化管理,提供传统方案无法提供的数据收集和分析能力,支持集中控制园区用户的访问权限、QoS 、带宽、应用、安全等策略,基于业务驱动提供简单、快速、智能的园区虚拟化发放,基于大数据分析技术提供实时体验可视、智能故障预测等智能运维能力,让网络更自动、更智能地为业务服务。
解决方案描述iMaster NCE-Campus 产品彩页作为园区网络的智能管理运维中心,iMaster NCE-Campus 覆盖大中型园区、SMB 、多分支互联、IP+POL 设备融合组网等全网络场景,其具备如下关键能力:●网络部署自动化:网络部署自动化、虚拟网络业务发放自动化、多分支互联自动化●业务策略自动化:海量用户认证、终端即插即用、多级QoS 层次化调度●智能运维:实时体验可视、智能故障预测、网络预测性调优架构及关键组件/Key ComponentsiMaster NCE-Campus 基于云计算与分布式的架构设计,采用服务化的模块设计、支持分布式部署。
OneAPM智能运维平台解决方案ppt课件
基
础
IT资产库
设
施
虚拟化
层
IaaS
硬件设备
CMDB 虚拟化 网络 主机 机房环境
• 虚拟机数量 • 主机数量 • CPU利用率 • 内存利用率 • 丢包率 • 平均建链时间
• 网络流量 • 磁盘可用容量 • 电源 • 处理器 • 配置项 • ……
ppt课件.
15
全栈IT数据的采集方式
SNMP、IPMI、WMI、SMI-S、JMX、 GlassFish、JDBC、SSH、Telnet等
ppt课件.
20
海量IT数据处理平台
数据 接入
数据 处理
数据 存储
Agent SNMP
ECHO
IPMI
SDK
FLOW
LOG
指标、事件、日志、交易、详情、流量
多
不是不想分析,而是无从下
手
ppt课件.
4
从人工到人工智能
人工运维
AIOps
• 降低系统低效对业务的影响 • 多种分散独立监控工具 • 专业化专家型人才 • 业务系统已经发生了什么? • 被动响应的故障恢复性管理
• 挖掘海量数据的业务价值 • 统一大数据分布式处理技术 • 智能算法与机器学习 • 业务系统将要发生什么? • 主动响应的预防预测性管理
Rsyslog、NXlog、Kafka、 SDK、Restful API等
SFLOW、NETFLOW、IPFIX、SPAN、 RSPAN、ERSPAN等
IT数据
URL、Host、Port、 HTTP 、 RTSP、RTMP等
Java、.Net、PHP、Python、Ruby、 Node.js、Andriod、iOS等
iMaster NCE智能运维平台解决方案
13种Incident
• 线路中断 • 线路劣化 • 单板硬件故障
河南XX 覆盖现网75%故障类型
• 线路信道监控
• 客户侧故障
• 网元通信故障
• 光模块故障告警 • 环境故障,如CPU告警,温度越限
后继版本规划
• 电源故障
• 设备系统故障
Case效果举例:主光路中断,快速定位故障告警(OTN)
双向光纤中断产生439条告警,告警聚合处理后,生成1个Incident
28%
32%
◼同路由光纤 ◼非同路由光纤
◼同路由承载业务 ◼非同路由承载业务
成果1:
• 发现主备保护111组光纤存在同路由
风险(共653组主备保护,核查30组,
27组准确),共承载418条业务
◼同路由站点 ◼非同路由站点
成果2:
• 发现320个站点存在出局同路由隐患
(占全网1153个站点的27.7%)
识别亚健康光纤/OCH,提前预测故障(1小时~1月), 准确率90%
基于OTDR技术,准确定位光纤故障&光纤劣化 的准确位置(需部署eOTDR)
光网健康保障XX客户商用案例
发现
发现亚健康光纤并 且预测未来1天内会 发生故障。
定位
自动触发OTDR探 测发现故障和衰耗 点位置。
① 风险发现: JS操作员发现 华为NCE上报光纤亚健康 告警,1~2天内会存在紧 急风险。
智能Incident管理联合创新试商用成果(XX移动)
告警量:告警压缩率99%,57万->220个
工单量:智能故障助力工单压减35%
现有工单346条
聚合后故障记录 220条
预计故障168条
智能故障聚合 后工单数量有 效下降
iMaster NCE-Campus智简园区网络运维自动化方案
建网全自动,使能Wi-Fi 6的业务 规划自动化 · 建网自动化 · 策略自动化
运维全智能,保障Wi-Fi 6的体验 用户体验可视 · 故障定界 · 网络调优自愈
Wi-Fi 6时代的高品质承载网络
接入全万兆,释放Wi-Fi 6的速度 • Multi-GE交换机 + 高密25GE盒式交换机 + 100G核心,构建Wi-Fi 6超宽通道 • 全无线融合策略管理,高达10K AP,50K用户并发,满足Wi-Fi 6时代海量用户并发接入 • 万人一无根线光园电区混,合百G缆核心CloudEngine 12700E,吞吐57.6Tbps,管理5万无线用户,6倍性能
终端
设备
站点&拓扑
WAN链路
拓扑
IP设备信息
POL
设备操作信息跳转
网络连接情况 不同颜色不同状态 (正常绿色、离线 灰色,告警黄色); 告警闪烁;
POL设备信息
光纤信息
WAN监控
WAN链路
终端
设备
站点&拓扑
WAN链路
WAN应用
WAN拓扑
应用统计
吞吐量
吞吐量 带宽趋势
链路状态
链路状态
拓扑,吞吐量、上下行带宽使用趋势、LQM趋势、延迟,抖动,丢包率趋势等。
报表统计
系统运维
升级结果
查看升级完成情 况,各种状态统 计,取消升级及
重新升级等
云端巡检
设备升级
云端巡检
报表统计
系统运维
巡检报告
集成华为多年数据通信网络巡检专家经验库,可发现网络潜在问题 MSP管理员可对指定租户进行巡检(租户管理员暂不开放此功能) 巡检报告可导出,或邮件通知(最多10个邮箱)
iMaster NCE-FabricInsight V100R019C10 数据中心网络设备运维挑战
service faults occur
experience
• Time-consuming manual fault
locating (several hours on average)
Service experience determines business revenue. Intelligent O&M transformation is the only way out for data center networks.
65%
costs
Standalone node Standalone deployment: all-in-one and economical solution, protecting customer
investments and facilitating business success
Differentiator 4: Compatibility with Both SDN and Non-SDN Networks
Multi-dimensional (device, network, protocol, and overlay) network evaluation system for comprehensive network health check
Real-time or periodic push of 60+ network reports of 10+ types, proactive warnings for anomalies
Data Center Network O&M Challenges
Powered by 5G and AI, a growing number of enterprises embark on digital transformation to seek new business growth. An issue that comes along is the unprecedented complexity on networks. However, the traditional SNMP-based manual O&M mode has problems such as passive response and long fault locating time, and therefore is incapable of intelligent O&M.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络健康度
基于Telemetry技术,满足实时分析诉求
运维服务APP
VIP 业务保障
SNMP 简单统计呈现,人工决策 非结构化数据,编解码效率低
数据 分析
传输 格式
Telemetry方式 数据智能分析,自动化排障 GPB二进制编解码,传输高效
<Pull> 请应答模式,采样间隔大
数据 采集
<Push+gRPC> 一次订阅,持续数据推送
芯片 TCAM 利用率
端口
包数 / 字节数 / 丢包数 / 错包 数 / 广播包数 / 组播包数 / 单 播包数
队列
AI ECN 光模块 丢包行为
Buffer Size
Guaranteed Buffer / Headroom Buffer / PFC反压 帧数 / PFC死锁监控次数 / PFC 死锁恢复次数 / ECN 报文数
人工故障识别 人工抓包定位 人工逐步隔离
故障0容忍
每小时停机损失百万美元
故障发现难
>85%的网络故障业务投诉后才发现
异常流 占
全网流 3.65%
30% 传统运维 可以识别
70% 传统运维 无法识别
故障定位难
一个故障定位平均耗时76min
基于AI的数据中心网络智能运维
SNMP协议 5分钟轮询周期
传统网管
iMaster NCE-FabricInsight,提供DCN的智能运维方案
运维服务APP
网络健康度评估
• 风险评估 • 故障分析 + 闭环联动 • 五层健康评估体系
VIP业务保障
• 业务意图验证 • 数据面建模 • 业务意图管理
运维服务App
• VMTracker • ChangeDiff • LogInsight
基于动态基线智能检测异常,历 史趋势对比呈现,便于网络调优
测量对象 设备 单板 芯片 端口 队列
光模块 丢包行为
表项
测量指标 CPU 利用率/ 内存利用率 CPU 利用率/ 内存利用率 FIB / MAC 表项利用率 TCAM 利用率 收/发包数/ 字节数 / 丢包数/ 错包数 / 广播包数/ 组播包数/ 单播包数 Buffer Size 收/发光功率,电流, 电压, 温度 拥塞丢包感知 FIB / ARP 表项详情
华为iMaster NCE-FabricInsight智能运维系统解决方案
人工主导的传统运维亟待向AI使能的智能运维演进
6.48
2.8
0.09
0.63
1.1
1.6
2.0
媒体 医疗 零售 制造 电信 能源 金融
来源: Network Computing, the Meta Group and Contingency Planning Research
iMaster NCE-FabricInsight
Telemetry 秒级数据采集
网络全场景数据可视
7大维度指标分析+动态基线
以设备为中心 每天巡检2小时
智能化
以业务为中心 全面网络健康度评估
分钟级识别风险 五层评估模型+AI算法
被动响应 依赖人工定位
主动运维 自动化排障
故障1-3-5处理
AI算法+专家经验
网络配置数据
(Running Config)
网络拓扑数据
(物理拓扑/协议链路/Overlay 隧道)
Telemetry机制 – 更实时,更高效
网络Metrics数据
(CPU/MEM/Bandwidth/Buffer)
网络转发表信息
(FIB/ARP)
SYSLOG 数据
(Level 0 – 4)
Telemetry监控
收/发光功率,电流, 电压, 温度
拥塞丢包感知
默认周期
1 min 1 min 1 min
采集频率自动识别 缺失值自动填充 降噪数据: 对极端异常数据
降噪 特殊适配: 在节假日等额外
处理数据
输出: 数据特征(取值稳定或周期稳定) 指标采集周期
功能: 周期稳定指标算法:时间序列 分解
取值稳定指标算法:Gaussian 回归
通过算法构建基线边界 调整基线敏感度
输出: 预测下一采集间隔的基线边界
默认周期 1 min
设备版本 V200R005C00
1 min
V200R005C10
1 min
V200R005C10
1 min
V200R005C00
100 ms 30 min 10 s 动态订阅
V200R005C00 V200R005C00 V200R005C00 V200R019C10
八大维度关键指标实时监控,网络状态尽在掌控
基于Telemetry技术,监控AI ECN关键KPI指标, 覆盖 ECN/PFC/Buffer/Headroom/Deadlock 多个维度
智能无损DCN Telemetry Metrics 集合
测量对象
测量指标
设备 单板
CPU 利用率 / 内存利用率
CPU 利用率 / 内存利用率 FIB / MAC 表项利用率
5 /15 min 分钟级轮询,无法满足业务实时诉求
数据 生成
Near realtime 准实时数据获取
准实时的数据获取能力,是分析器进行数据分析的关键依赖
基于机器学习算法的异常检测
Telemetry监控
网络健康度
运维服务APP
VIP 业务保障
数据集&预处理
构建动态基线
异常检测
输入: 功能:
指标时间序列数据 (val,time)
AI智能数据分析
Telemetry 数据可视化
异常检测
ODAE 数据分析引擎 数据处理框架
FusionInsight 大数据平台 Spark
智能分析框架 Kafka
Druid 引擎 HDFS
流量预测
AI引擎 机器学习算法库
机器学习框架
Telemetry多维数据采集
网络资源数据
(设备/单板/端口/协议/Overlay)
识别指标异常的设备
建立Benchmark,对比基线指标趋势,识别异常指标 丢包行为CE6865-48S8CQ-EI/CE8850-64CQ-EI/CE6857/CE8861/CE8868/CE9860支持
Telemetry监控
网络健康度
智能无损DCN Telemetry指标监控
运维服务APP
VIP 业务保障
功能:
异常数 问题抑制与合并 问题通知
输出: 异常
Telemetry监控
网络健康度
Telemetry 主动监控,网络实时可视
运维服务APP
VIP 业务保障
高效数据采集
基于GRPC主动准实时订阅 , 性能佳,效率高
SNMP Telemetry
丰富数据类型
八大维度数据采集, 常规指标主动管理
直观状态呈现