网络高可用性技术白皮书之一
RoseReplicatorPlus 技术白皮书
2 RoseReplicatorPlus硬件组成
-4RoseReplicatorPlus 技术白皮书 Copyright © Rose Datasystems Inc. All rights reserved.
3 RoseReplicatorPlus软件组成
Administration Tool
Service
RosReRoRoseeseRpRleicepaRplitocloiacsraePtoRtloruPersPpluMlliuscosaDntMoaitrieoPrrmrlouorsnDM(aSiererAmorvgroeicDnne(trS)iveerrvicSec)ripts
-5RoseReplicatorPlus 技术白皮书 Copyright © Rose Datasystems Inc. All rights reserved.
4 RoseReplicatorPlus功能特点
-8RoseReplicatorPlus 技术白皮书 Copyright © Rose Datasystems Inc. All rights reserved.
4 RoseReplicatorPlus功能特点
-9RoseReplicatorPlus 技术白皮书 Copyright © Rose Datasystems Inc. All rights reserved.
4 RoseReplicatorPlus功能特点
- 10 RoseReplicatorPlus 技术白皮书 Copyright © Rose Datasystems Inc. All rights reserved.
5 RoseReplicatorPlus高可用应用模式
Oracle Server 运行中!
SunrunVas尚云平台白皮书-高可扩展性、高可用与灾备部分
SunrunVas尚云多系统云应用集成服务平台白皮书高可扩展性、高可用与灾备部分1尚云是什么?SunrunVas尚云多系统云应用集成服务平台(以下简称尚云),基于应用虚拟化技术,能够帮助企业快速、安全地为任何地点、使用任何设备的用户提供对应用和桌面的细粒度访问,同时对敏感数据的使用和分配进行严密、集中的控制。
尚云平台基于应用虚拟化技术,将政企客户的各类应用界面直接安全、快速地延伸至用户侧的移动终端、便携终端,而不需要做任何终端的适配研发,使用户可以在任何时间、任何地点、任何方式、任何网络下都不间断地、灵活地使用各类应用。
使用尚云平台,用户可以使用任何设备,从任何地点上访问任何应用,而企业的敏感数据也不会离开数据中心。
同时,企业能够以高效、集中的方式管理相关应用,与传统部署方式相比,这种方式可降低复杂性和成本。
2应用虚拟化技术随着企业信息化技术的不断发展,IT硬件和所需应用也大量增加,如何降低IT系统软硬件成本和管理成本、更安全高效地部署应用、快速方便地使用应用、灵活简便地维护应用,成为企业面临的一个难题,应用虚拟化技术应运而生。
虚拟化技术最基本的形式,就是从物理硬件中将逻辑计算资源分离出来。
应用虚拟化即应用软件虚拟化,用户可以通过网络访问应用虚拟化服务器,获得应用软件的虚拟运行环境,无需在本地安装即可直接在虚拟运行环境中运行应用软件。
应用虚拟化技术将应用软件的人机交互逻辑(应用界面、键盘及鼠标的操作、音频输入输出、读卡器、打印输出等)与计算逻辑隔离开来。
具体而言,当用户访问一个虚拟化应用时,用户侧客户端只需将人机交互逻辑通过网络传送到服务器端,服务器运行应用软件的计算逻辑,把变化后的人机交互逻辑回送客户端,从而使用户获得如同运行本地应用软件一样的访问感受和计算结果。
3尚云的系统架构云平台两部分,分为硬件层(物理资源层)、逻辑资源层(物理机虚拟化、存储虚拟化、网络虚拟化等)、云盘服务层(提供分布式云盘服务)、核心服务层(提供应用虚拟化、虚拟通道、视频审计等服务)、网关(提供网络接入服务)、门户(提供管理和使用的WEB界面服务)。
中标麒麟高可用集群软件(龙芯版)V7.0 产品白皮书说明书
中标软件有限公司
目录
目录
目录 ...................................................................................................................................................i 前言 ..................................................................................................................................................v 内容指南 ........................................................................................................................................vii 中标麒麟高可用集群产品介绍....................................................................................................... 9 1 概述 ............................................................................................................................................ 11
第 i 页 / 共 54 页
华为FusionCloud桌面云-系统高可用性技术白皮书
华为FusionCloud 桌面云解决方案5.3 系统高可用性白皮书文档版本01 发布日期 2015-06-23华为技术有限公司版权所有© 华为技术有限公司2015。
保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
商标声明和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。
除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。
除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼邮编:518129网址:客户服务邮箱:support@客户服务电话:4008302118目录1 华为桌面云解决方案............................................................................................................. - 5 -2 系统可用性指标..................................................................................................................... - 5 -3 系统软硬件可靠性................................................................................................................. - 6 -3.1 机柜..................................................................................................................................................... - 6 -3.2 服务器 ................................................................................................................................................. - 7 -3.2.1 内存可靠性................................................................................................................................. - 7 -3.2.2 硬盘可靠性................................................................................................................................. - 7 -3.2.3 支持磁盘在线定时故障检测和预警........................................................................................... - 7 -3.2.4 电源可靠性................................................................................................................................. - 8 -3.2.5 系统监控..................................................................................................................................... - 8 -3.2.6 板载软件可靠性 ......................................................................................................................... - 8 -3.3 存储设备 ............................................................................................................................................. - 8 -3.4 网络设备 ............................................................................................................................................. - 9 -3.4.1 网卡负荷分担............................................................................................................................. - 9 -3.4.2 交换机堆叠............................................................................................................................... - 10 -3.4.3 交换机互连冗余 ....................................................................................................................... - 10 -3.4.4 虚拟路由冗余保护 ................................................................................................................... - 11 -3.4.5 网络分平面通信 ....................................................................................................................... - 11 -3.5 云平台软件........................................................................................................................................ - 11 -3.5.1 管理节点HA ............................................................................................................................ - 11 -3.5.2 管理节点数据备份 ................................................................................................................... - 12 -3.5.3 虚拟机备份............................................................................................................................... - 13 -3.5.4 虚拟机HA ................................................................................................................................ - 13 -3.5.5 虚拟机故障检测和处理............................................................................................................ - 14 -3.5.6 虚拟机热迁移........................................................................................................................... - 15 -3.5.7 存储迁移................................................................................................................................... - 16 -3.5.8 虚拟机负载均衡 ....................................................................................................................... - 16 -3.5.9 黑匣子 ...................................................................................................................................... - 17 -3.5.10 数据一致性保证 ..................................................................................................................... - 17 -3.5.11 健康检查工具及故障信息收集工具 ....................................................................................... - 17 -3.6 FusionAccess桌面接入系统可用性 ................................................................................................... - 17 -3.6.1 FusionAccess服务的高可用性 .................................................................................................. - 17 -3.6.2 桌面接入的高可用性................................................................................................................ - 19 -3.6.3 FusionAccess管理数据备份...................................................................................................... - 20 -3.6.4 上电恢复可靠性设计................................................................................................................ - 20 -4 虚拟机桌面业务可靠性....................................................................................................... - 21 -5 术语表.................................................................................................................................. - 21 -1 华为桌面云解决方案桌面云解决方案的架构组件部署在云计算提供的虚拟机中,对外提供桌面服务,结构图如下图所示。
TongLINKQ8.1技术白皮书__东方通消息中间件
4. TongLINK/Q 体系结构 ........................................................................................................................... 4 4.1. 产品组成 ........................................................................................................................................... 4 4.2. 节点 ................................................................................................................................................... 5 4.3. 监控管理中心 ................................................................................................................................... 6 4.4. 开发接口 ........................................................................................................................................... 6 5. TongLINK/Q 基本功能 ..................................
精选-信息安全-深信服_云安全_等保一体机_技术白皮书
1 前言1.1 等级保护的现状与挑战信息安全等级保护是国家信息安全保障的基本制度、基本策略和基本方法。
开展信息安全等级保护工作是保护信息化发展、维护信息安全的根本保障,是信息安全保障工作中国家意志的体现。
同时等级保护建设是一项体系化的工程,在进行等级保护建设时往往面临建设时间成本和管理成本高、实施复杂、运维管理难等难题。
1.2 深信服等保一体机概述深信服等保一体机解决方案是基于用户在等保建设中的实际需求,推出软件定义、轻量级、快速交付的实用有效的一站式解决方案,不仅能够帮助用户快速有效地完成等级保护建设、通过等保测评,同时通过丰富的安全能力,可帮助用户为各项业务按需提供个性化的安全增值服务。
采用基于标准X86平台打造的等保一体机,无需交付过多专有硬件设备,即可完成等级保护合规交付。
2 深信服等保一体机技术架构2.1 系统整体架构深信服等保一体机架构由两部分组成:一是超融合基础架构,二是一体机管理平台。
在等保一体机架构上,客户可以基于自身安全需求按需构建等级保护安全建设体系。
超融合基础架构以虚拟化技术为核心,利用计算虚拟化、存储虚拟化、网络虚拟化等模块,将计算、存储、网络等虚拟资源融合到一台标准X86服务器中,形成基础架构单元。
并且多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展,形成统一的等保一体机资源池。
一体机管理平台提供对深信服安全组件、第三方安全组件的管理和资源调配能力;通过接口自动化部署组件,降低组网难度,减少上架工作量;借助虚拟化技术的优势,提升用户弹性扩充和按需购买安全的能力,从而提高组织的安全服务运维效率。
2.2 超融合基础架构超融合基础架构主要由计算虚拟化、存储虚拟化、网络虚拟化三部分组成,从而使得等保一体机能够提供给客户按需购买和弹性扩充对应的安全组件。
2.2.1 计算虚拟化传统硬件安全解决方案提供的硬件计算资源一般存在资源不足或者资源冗余的情况。
深信服等保一体机创新性的使用计算资源虚拟化技术,通过通用的x86服务器经过服务器虚拟化模块,呈现标准的安全设备虚拟机。
Juniper 高可用性技术白皮书(HA)
NETSCREEN NSRP典型配置及维护1、NSRP工作原理NSRP(NetScreen Redundant Protocol)是Juniper公司基于VRRP协议规范自行开发的设备冗余协议。
防火墙作为企业核心网络中的关键设备,需要为所有进出网络的信息流提供安全保护,为满足客户不间断业务访问需求,要求防火墙设备必须具备高可靠性,能够在设备、链路及互连设备出现故障的情况下,提供网络访问路径无缝切换。
NSRP冗余协议提供复杂网络环境下的冗余路径保护机制。
NSRP主要功能有:1、在高可用群组成员之间同步配置信息;2、提供活动会话同步功能,以保证发生路径切换情况下不会中断网络连接;3、采用高效的故障切换算法,能够在短短几秒内迅速完成故障检测和状态切换。
NSRP集群两种工作模式:一、Active/Passive模式:通过对一个冗余集群中的两台安全设备进行电缆连接和配置,使其中一台设备作为主用设备,另一台作为备用设备。
主用设备负责处理所有网络信息流,备用设备处于在线备份状态。
主设备将其网络和配置命令及当前会话信息传播到备用设备,备用设备始终保持与主用设备配置信息和会话连接信息的同步,并跟踪主用设备状态,一旦主设备出现故障,备份设备将在极短时间内晋升为主设备并接管信息流处理。
二、Active/Active模式:在NSRP中创建两个虚拟安全设备(VSD) 组,每个组都具有自己的虚拟安全接口(VSI),通过VSI接口与网络进行通信。
设备A充当VSD组1的主设备和VSD 组2的备份设备。
设备B充当VSD组2的主设备和VSD组1的备份设备。
Active/Active模式中两台防火墙同时进行信息流的处理并彼此互为备份。
在双主动模式中不存在任何单一故障点。
NSRP集群技术优势主要体现于:1、消除防火墙及前后端设备单点故障,提供网络高可靠性。
即使在骨干网络中两类核心设备同时出现故障,也能够保证业务安全可靠运行。
2、根据客户网络环境和业务可靠性需要,提供灵活多样的可靠组网方式。
1.0-JGKv2.0-技术白皮书
捷普安全运维管理系统Jump Gatekeeper白皮书Version 2.0西安交大捷普网络科技有限公司2014年1月目录一、运维管理面临的安全风险 (1)1.运维操作复杂度高 (1)2.运维操作不透明 (1)3.误操作给企业带来严重损失 (2)4.IT运维外包给企业带来管理风险 (2)5.法律法规的要求 (2)6.人员流动性给企业带来未知风险 (2)二、运维审计势在必行 (3)1.设备集中统一管理 (3)2.根据策略实现对操作的控制管理 (3)3.实时的操作告警及审计机制 (3)4.符合法律法规 (3)5.易部署、高可用性 (4)三、安全运维管理方案 (5)1.捷普安全运维管理系统简介 (5)2.应用环境 (6)四、系统功能 (7)1.运维事件事前防范 (7)1)完整的身份管理和认证 (7)2)灵活、细粒度的授权 (7)3)后台资源自动登录 (7)2.运维事件事中控制 (8)1)实时监控 (8)2)违规操作实时告警与阻断 (8)3.运维事件事后审计 (9)1)完整记录网络会话过程 (9)2)详尽的会话审计与回放 (9)3)完备的审计报表功能 (9)五、系统部署 (11)六、系统特点 (13)1.全面的运维审计 (13)2.更严格的审计管理 (13)3.高效的处理能力 (13)4.丰富的报表展现 (14)5.完善的系统安全设计 (14)七、产品规格参数 (15)1.参数规格 (15)2.产品功能 (15)一、运维管理面临的安全风险随着IT建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的问题。
由于这是随着计算机信息技术的深入应用而产生的,因此如何进行有效的IT 运维管理,这方面的知识积累和应用技术还刚刚起步。
对这一领域的研究和探索,将具有广阔的发展前景和巨大的现实意义。
大中型企业和机构纷纷建立起庞大而复杂的IT系统,IT系统的运营、维护和管理的风险不断加大。
浪潮 InCIoud Sphere 4.5旗舰版技术白皮书说明书
InCloud Sphere 4.5 旗舰版技术白皮书V1.0浪潮(北京)电子信息产品有限公司2017 年 1 月InCloud Sphere 4.5 旗舰版技术白皮书 V1.0目录1第一章摘要 (5)2第二章InCloud Sphere 产品概述 (6)2.1InCloud Sphere 介绍 (6)2.2InCloud Sphere 架构 (8)3第三章InCloud Sphere 技术原理 (9)3.1InCloud Sphere 系统设计 (9)3.2InCloud Sphere 核心技术 (11)3.2.1CPU 虚拟化 (13)3.2.2内存虚拟化 (15)3.2.3I/O 设备虚拟化 (17)4第四章InCloud Sphere 功能原理 (19)4.1 计算 (19)4.1.1CPU 管理 (19)4.1.2内存管理 (19)4.1.3GPU 管理 (20)4.2 存储 (23)4.2.1 存储I/O (23)4.2.2 快照 (24)4.2.3存储多路径 (25)4.2.4存储读缓存技术 (26)4.3 网络 (26)4.3.1网络虚拟化架构 (26)4.3.2网卡绑定 (29)4.3.3QOS (33)4.4高可用 (33)4.4.1vMotion (33)4.4.2Storage vMotion (36)4.4.3 HA (38)4.5负载均衡 (41)4.6 监控 (44)4.6.1性能收集 (45)4.6.2配置性能图表 (46)4.6.3自动化告警机制 (46)4.7vApp (48)4.8 灾备 (49)4.8.1DR 结构 (49)4.8.2DR 工作原理 (50)4.8.3DR 故障转移 (50)4.8.4备份机制 (51)4.9 容器 (52)4.9.1Docker 介绍 (52)4.9.2InCloud Sphere 旗舰版和Docker (52)4.9.3InCloud Sphere 提供Docker 支持优势 (54)5第五章InCloud Sphere 自动化能力 (56)5.1自动化安装 (56)5.1.1自动化部署架构 (56)5.1.2自动化部署条件 (56)5.1.3自动化部署过程 (57)5.1.4应答文件 (57)5.2自动化更新 (57)5.2.1iCenter 自动检查可用更新 (57)5.2.2Hotfix 自动更新 (58)5.2.3InCloud Sphere Tools 自动更新 (59)5.2.4池滚动升级 (59)6第六章InCloud Sphere 开放性和安全性 (61)6.1XAPI (61)6.1.1XAPI 介绍 (61)6.1.2XAPI 功能 (62)6.1.3XAPI 架构 (62)6.2Introspect API (63)6.2.1Introspect API 介绍 (63)6.2.2虚拟机内存保护 (63)6.2.3预防攻击技术 (63)6.2.4虚拟机无代理保护 (64)6.2.5Direct Inspect API 防病毒架构 (64)6.2.6Direct Inspect API 防病毒的优势 (65)6.3PlugIn (65)6.3.1PlugIn 介绍 (65)6.3.2PlugIn 优势 (66)6.3.3部分PlugIn 插件列表 (66)6.4安全架构 (66)6.5SSR (67)6.5.1SSR 介绍 (67)6.5.2SSR 实现原理 (68)6.5.3SSR 技术架构 (69)6.5.4SSR 主要功能 (70)6.6与OpenStack 集成 (70)6.6.1OpenStack 介绍 (70)6.6.2InCloud Sphere 旗舰版的优势 (70)6.6.3与OpenStack 集成架构图 (71)7第七章总结 (73)8第八章缩略语 (74)1第一章摘要浪潮,着力推动中国“行业云”,致力于成为中国领先的云计算解决方案供应商,业已形成涵盖IaaS、PaaS、SaaS 三个层面的整体解决方案服务能力。
网络IP的高可用性和容灾备份如何实现
网络IP的高可用性和容灾备份如何实现在如今互联网时代,网络IP(Internet Protocol)扮演着至关重要的角色,是连接全球各个设备和网络的核心基础。
对于企业机构和组织来说,网络IP的高可用性和容灾备份是确保业务连续性和稳定性的关键要素。
本文将探讨网络IP的高可用性和容灾备份是如何实现的。
一、冗余设计为确保网络IP的高可用性,冗余设计是必不可少的一项措施。
通常采取以下两种方式:1. 服务器冗余网络IP的高可用性可以通过在不同地理位置设立冗余服务器来实现。
这种方式称为地理冗余,可以防止单点故障带来的影响。
当主服务器发生故障时,备份服务器能够自动接管网络IP的服务,确保业务持续运行。
2. 设备冗余除了服务器冗余外,设备冗余也是实现网络IP高可用性的重要手段。
通过将多个网络设备连接到同一网络IP,当其中一个设备发生故障时,其他设备能够自动接管,从而保证网络的连续性。
二、负载均衡负载均衡是一种将流量均匀分发到多个服务器或设备上的技术。
通过负载均衡的实现,网络IP的高可用性得到进一步提升。
以下是常见的负载均衡实现方式:1. DNS负载均衡通过DNS服务器配置多个网络IP的解析记录,并为这些解析记录分配不同的权重,使得用户请求能够分发到不同的服务器上,从而实现负载均衡。
2. 网络设备负载均衡通过网络设备(如交换机、路由器)配置负载均衡算法,将流量分发到多个服务器或设备上。
常见的负载均衡算法包括轮询、加权轮询、源IP哈希等。
三、故障监控与故障切换为了提高网络IP的高可用性,故障监控和故障切换是非常重要的环节。
它们能够实现故障的及时发现和自动处理,确保业务的连续性。
1. 故障监控通过实时监控网络设备、服务器和网络IP的状态,及时发现故障并采取相应措施。
常见的监控手段包括PING操作、心跳检测、流量监测等。
2. 故障切换在故障发生后,及时切换到备用设备或服务器上,确保服务的连续性。
通过监控系统自动触发切换策略,将流量重新指向备用设备或服务器,减少故障对业务的影响。
计算机网络中的高可用性技术研究
计算机网络中的高可用性技术研究随着计算机与互联网的快速发展,计算机网络已经成为了当今社会的重要基础设施之一。
然而,在网络运行过程中,也会遭遇许多不可预测的故障,如硬件故障、软件故障、安全攻击等等,这些故障都会影响网络的可靠性和稳定性,从而给用户带来极大的不便,甚至会影响业务的正常运行。
因此,在计算机网络中,高可用性技术成为了一项非常重要的研究领域。
一、高可用性技术的概念高可用性技术,英文名为High Availability Technology,是指保证系统或组件在出现故障时,能够尽可能快速地恢复到可正常工作的状态,保障系统或组件的持续可靠性和稳定性。
高可用性技术通常包括硬件冗余、软件容错、容灾备份、负载均衡、自动切换等一系列技术手段。
通过这些技术手段,可以有效地提高计算机网络服务的可用性,降低系统故障对业务造成的影响。
二、高可用性技术的分类1. 硬件冗余技术硬件冗余技术是指在系统设计中,通过增加硬件设备的数量,从而提高系统的可用性。
常见的硬件冗余技术包括RAID磁盘阵列技术、双机热备技术等。
其中,RAID磁盘阵列技术可以通过将多个硬盘组成磁盘阵列,实现数据分布和冗余备份,保障数据的安全性和可用性。
而双机热备技术则通过在两台服务器之间实现数据同步和心跳检测,当其中一台服务器出现故障时,另一台服务器会快速接管服务,从而保证业务平稳运行。
2. 软件容错技术软件容错技术是指在系统设计中,通过增加软件层面的容错机制,提高系统的可用性。
常见的软件容错技术包括冗余数据计算、数据校验、数据恢复等。
其中,冗余数据计算可以通过存储冗余数据来实现故障容错,从而提高系统数据的可用性;而数据恢复则是通过数据备份和数据恢复机制,实现数据在故障时的快速恢复。
3. 容灾备份技术容灾备份技术是指在系统设计中,通过建立备份机房或硬件设施,实现系统的故障转移和数据备份。
常见的容灾备份技术包括灾备数据中心、备份存储设备、灾备网络等。
网络高可用性技术白皮书之一
网络高可用性技术白皮书(一)杭州华三通信技术有限公司目录网络高可用性技术白皮书(一) (1)1. 硬件冗余 (1)1.1 主控冗余 (1)1.2 单板热插拔 (2)1.3 电源风扇冗余 (3)2. 链路捆绑技术 (3)3. 热补丁技术 (3)4. IRF智能弹性架构 (4)4.1 分布式设备管理 (5)4.2 分布式路由 (7)4.3 分布式链路聚合 (8)网络高可用性技术白皮书网络高可用性技术,基本都可以归入容错技术,即在网络出现故障(错误)时,确保网络能快速恢复。
对目前常用的高可用性技术,可以作一个简单的归类:z单个设备上的硬件冗余,如双主控、单板热插拔、电源冗余、风扇冗余等;z链路捆绑,如以太网链路聚合、MP、MFR等;z环网技术,如RPR、RRPP;z STP、Smart Link、Flex Link等二层冗余技术;z冗余网关技术,如VRRP、HSRP、GLBP;z ECMP,浮动静态路由,动态路由快速收敛(如快速hello,iSPF);z不间断转发:NSF/SSO/GR;z MPLS 快速重路由;z快速故障检测技术,如BFD。
1. 硬件冗余这里的硬件冗余指的是单台设备上的硬件冗余,一般有主控冗余、交换网冗余、单板热插拔和电源风扇冗余等,使用冗余部件可以在单个部件可靠性一定的情况下,提高整个设备的可用性。
随着硬件技术的进步,目前很多设备交换网集成在主控板上,所以交换网冗余不单独介绍。
1.1主控冗余在设备只有单主控的情况下,如果主控板故障,重起主控板需要加载映象文件、初始化配置、重新注册业务板,然后重建控制平面和转发平面表项,整个过程在5分钟左右,这个时间实在是太长了,特别对于网络中处于单点故障的节点来说更是如此,因为业务在这个过程中将完全中断。
为了缩短这个时间,主控冗余应运而生。
主控冗余是指设备提供两块主控板,互为备份。
因为主控冗余在控制和转发分离的架构下才能发挥最大的效用,这里先介绍一下控制和转发分离的概念。
网络设计网络高可用性解决方案
该企业采用SDN技术,实现了网络的集中控制和自动化部署,提高了网络的快速响应和 可靠性。
企业C
该企业采用MPLS技术,构建了高可靠的VPN网络,确保了分支机构与总部的通信安全和 稳定性。
金融行业高可用性网络设计案例
银行A
该银行采用了分布式架构,将核 心业务系统分散部署在多个数据 中心,实现了业务的容灾和快速 恢复。
路由器冗余设计
采用主备路由器
主路由器负责数据包的路由,备路由器在主路由器故障时自动接 管,确保网络连通性。
使用路由协议
通过路由协议(如OSPF、BGP等)自动发现和配置备份路由, 减少人工干预。
负载均衡
将流量分散到多个路由器上,提高网络整体性能和可靠性。
交换机冗余设计
堆叠技术
将多台交换机物理连接并逻辑上组成一个整体, 提供更高的带宽和冗余性。
会话保持
通过会话保持机制,确保 用户访问的连续性和稳定 性。
防火墙冗余设计
分布式部署
01
在核心交换机和汇聚交换机上部署防火墙,实现多层防御和冗
余。
防火墙集群
02
通过防火墙集群技术,实现多台防火墙的协同工作,提高防御
能力和可靠性。
安全策略
03
制定严格的安全策略,限制非法访问和恶意攻击,保护网络安
全。
负载均衡算法
加权轮询算法
根据服务器的处理能力,为每个服务器分配不同的权值,根据权值 大小进行轮询,实现负载均衡。
加权随机算法
根据服务器的处理能力,为每个服务器分配不同的权值,根据权值 大小进行随机选择,实现负载均衡。
最少连接算法
根据服务器当前连接数,将新连接分配给连接数最少的服务器,实现 负载均衡。
思科 Catalyst 9800 无线控制器 N+1 高可用性白皮书说明书
High Availability White PaperTable of ContentsIntroduction (3)N+1 High Availability Overview (3)Components Used (4)Difference Between SSO (Stateful Switchover) and N+1 High availability (4)Moving APs between controllers and preserving tags (5)N+1 High Availability Configuration using WebUI (5)Configuration on AP Join Profile (6)CAPWAP Timers (6)Configuration on Access Points (7)N+1 High availability workflow using Cisco DNA Center (8)Image Upgrade with N+1 deployment (8)Licensing (8)IntroductionThis guide provides information on the theory of operation and configuration for the Cisco Catalyst 9800 Wireless Controller as it pertains to N+1 mode of High Availability allowing a single WLC to be used as a backup controller for ‘N’ primary controllers. This solution allows for High availability to be configured for controllers that are geographically on separate L3 network or across the WAN link.N+1 High Availability Overview•The N+1 High Availability architecture provides redundancy for controllers across geographically apart data centers with low cost of deployment.• A single backup controller can be used in order to provide backup for multiple primary WLCs, considering appropriate compatibility in terms of AP mode.•These WLCs are independent of each other and do not share configuration or IP addresses on any of their interfaces. Each of the WLCs needs to be managedseparately and can run a different hardware and a different software version. Notethat if the software version is different between the Primary and secondarycontrollers, the AP will download the software upon joining the secondary controller and result in higher failover time will.•These WLCs can be deployed in different datacenters across the WAN link.•N+1 HA is not stateful, meaning that no state information about APs and clients is shared between controllers and thus the AP’s CAPWAP state machine will berestarted when the primary controller fails.•When a primary WLC resumes operation, the APs fall back from the backup WLC to the primary WLC automatically if the AP fallback option is enabled.•APs with high priority on the Primary always connect first to the Backup controller even if they have to push out low priority APs.•The N+1 HA can be configured in combination with AP SSO where the Primary and/or secondary controllers are their own SSO pair.•It is recommended to have the same configuration in terms of WLANs, profiles, mobility group, policy, RF and site tags as well as AP-to-tag mappings on theprimary, secondary and tertiary controllers to avoid AP flaps and service disruptions when failing over.Components UsedThe information in this document is based on these software and hardware versions: •Catalyst Wireless Controllers 9800-L, 9800-40, 9800-80, 9800-CL, Embedded wireless controller on switch and Embedded Wireless Controller(EWC) on AP9100s. •802.11ax, Wave 2 and Wave 1 802.11ac Access points.•IOS XE Release 16.10 and higher.Difference Between SSO (Stateful Switchover) and N+1 HighavailabilityMoving APs between controllers and preserving tagsThe following should be considered when moving APs between two C9800 wireless controllers for N+1 HA (C9800-1 and C9800-2):●If the AP on C9800-1 doesn’t hold any tag information (the command ap name <AP name>write tag-config was not used)and there is no mapping configured for that AP on C9800-2, the AP will be assigned default tags when moved to C9800-2.●The AP will retain the tag information when moving between the controllers, if both have thesame mapping of AP to tags. This can be done via static configuration, by assigning the AP toa location, or via filters.●The AP will also retain its tag when moved between the two controllers if the tags are savedto the AP (with the write tag-config command) and the tags are defined on both controllers.●If the AP has a saved tag assigned via the write tag-config command and joins a controllerwhere those tags are not present, it will be assigned to the default tags (assuming no other mapping is configured on the controller that the AP is joining).●In all cases, if the AP retains its tag name assignment but the settings within the tag aredifferent on the two controllers, the AP will be configured based on the settings present on the currently joined controller.When moving an AP from an AireOS controller to a C9800 controller, since the AP doesn’t carry any tag information from AireOS, it will be mapped to the default tags; this is true unless a static or dynamic tag pre-assignment has been done on the C9800 controller, as explained above.When configuring N+1 HA,•make sure that the controller has the tags and AP-to-tag mapping defined using static mapping or regular expression mapping based on AP name/location.OR•Use the write tag-config command to save the tags on the AP and define the tags on the secondary controller.N+1 High Availability Configuration using WebUIThere are two ways to configure N+1 High Availability on the Catalyst 9800: Using the AP join Profiles or High Availability configuration individually on the Access point.Configuration on AP Join ProfileUnder Configuration > Tags & Profiles > AP Join, configure the Primary Controller Name and IP and Secondary Controller Name and IP. The Enable Fallback option determines if the APs fall back from the backup WLC to the primary WLC automatically if the Primary becomes available. This is enabled by default. CAPWAP Timers and Retransmit timers are used to customize heartbeat and discovery timeouts as well as the retransmit count and interval to track the AP’s connection to the controller.CAPWAP Timers•In the Heartbeat Timeout field, enter the time (in seconds) to configure the heartbeat timer for all access points. Specifying a small heartbeat interval reduces the amount of time it takes to detect device failure.•In the Discovery Timeout field, enter a value between 1 and 10 seconds (inclusive) to configure the AP discovery request timer.•In the Primary Discovery Timeout field, enter a value between 30 and 3000 seconds (inclusive) to configure the access point primary discovery requesttimer.•In the Primed Join Timeout field, enter a value between 120 and 43200 seconds (inclusive) to configure the access point primed join timeout.•In the Retransmit Timers Count field, enter the number of times that you want the AP to retransmit the request to the device and vice-versa. Validrange is between 3 and 8.•In the Retransmit Timers Interval field, enter the time duration between retransmission of requests. Valid range is between 2 and 5.CLI Commands:WLC(config-ap-profile)#capwap backup ?primary Configures primary Controllersecondary Configures secondary ControllerWLC(config-ap-profile)#capwap fallbackCLIs for CAPWAP Timers:WLC(config-ap-profile)#capwap retransmit ?count Configures AP CAPWAP control packet retransmit countinterval Configures AP CAPWAP control packet retransmit interval WLC(config-ap-profile)#capwap timerWLC(config-ap-profile)#capwap timers ?discovery-timeout Configures AP Discovery Timeoutfast-heartbeat-timeout Configures fast heartbeat timeoutheartbeat-timeout Configures heartbeat timeoutprimary-discovery-timeout Configures primary discovery timeoutprimed-join-timeout Configures primed join timeout Configuration on Access PointsUnder Configuration > Wireless > Access Points, click on the AP. Under the High Availability tab configure Primary, Secondary, Tertiary Controller. AP failover priority determines priority on the access points that connecting to the Primary controller.CLI Commands:WLC#ap name 00f2.8b26.8a30 controller ?primary Configure primary controllersecondary Configure secondary controllertertiary Configure tertiary controllerWLC#ap name 00f2.8b26.8a30 priority ?<1-4> Enter priority numberImage Upgrade with N+1 deploymentZero downtime network upgrade is a challenge for Wireless Networks. The reason is that these networks are made up of a set of interlocked devices, WLCs and a set of APs, which all need to be up to keep the network operational.The advent of Rolling AP Upgrade opens up new possibilities for upgrading the controller code in a network without bringing the network down using an N+1 controller. This can effectively achieve a Zero Downtime network upgrade in a N+1 deployment.The idea here is to upgrade access points in a wireless network in a staggered manner, using the same Rolling AP update infrastructure as described earlier in this document, such that an appropriate number of APs are always up and running in the network and providing RF coverage to clients. For N+1 Rolling AP Upgrade to work seamlessly it is essential that the WLCs be part of the same mobility group and have the same WLAN configuration.This is explained in detail in the Patching guide here:https:///c/dam/en/us/td/docs/wireless/controller/9800/17-1/deployment-guide/c9800-ha-rau-apsp-apdp-issu-rel-17-1.pdfCisco DNA Center Configuration for N+1 High AvailabilityCisco DNA Center supports Primary and Secondary configurations for N+1 HA. The below sequence outlines the workflow to configure N+1 High Availability using Cisco DNA CenterStep 1: Discover both the primary and secondary WLC devices.Check for network connectivity between these devicesStep 2: Create buildings where the access points will be connecting to the primary and secondary controllers. In the example below the two buildings, building-sj and building-cali are created where building-sj will be a Primary managed location for WLC-1 and same will be a Secondary managed location for WLC-2.Building-cali is configured as only a primary managed location for WLC-2.managed by WLC-1Step 4: Provision the Secondary device WLC-2. In this example, WLC-2 is the primary device for building-cali and secondary device for building-sj. So, building-sj APs have Primary as WLC-1 and secondary N+1 as WLC-2Select the building-sj primary managed locationPrimary device has 1 managed primary location.Configure interface and VLANSecondary device has 1 managed primary location as building-caliAnd one secondary managed location as building-sjStep 5: Verify AP Provisioning SummarySecondary device has 1managed primary locationand 1 secondary ManagedlocationConfigure interface andVLANManaged locations ofsecondary device Selecting the floor from primary managed location of building-sjLicensing•With Catalyst 9800 since Smart Licensing is mandatory, only as many licenses as the total number of APs in the network are required.•When APs failover from primary to secondary and tertiary controllers, the smart licensing infrastructure seamless handles the failover since the AP MAC is sent in the entitlement request to the CSSM portal.•N+1 HA is part of DNA Essentials Licensing Tier.•There is no HA-SKU on the Catalyst 9800 wireless controllers.For a more detailed overview on Cisco Licensing, go to /go/licensingguide. Legal InformationTHE SPECIFICATIONS AND INFORMATION REGARDING THE PRODUCTS IN THIS MANUAL ARE SUBJECT TO CHANGE WITHOUT NOTICE. ALL STATEMENTS, INFORMATION, AND RECOMMENDATIONS IN THIS MANUAL ARE BELIEVED TO BE ACCURATE BUT ARE PRESENTED WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED. USERS MUST TAKE FULL RESPONSIBILITY FOR THEIR APPLICATION OF ANY PRODUCTS.THE SOFTWARE LICENSE AND LIMITED WARRANTY FOR THE ACCOMPANYING PRODUCT ARE SET FORTH IN THE INFORMATION PACKET THAT SHIPPED WITH THE PRODUCT AND ARE INCORPORATED HEREIN BY THIS REFERENCE. IF YOU ARE UNABLE TO LOCATE THE SOFTWARE LICENSE OR LIMITED WARRANTY, CONTACT YOUR CISCO REPRESENTATIVE FOR A COPY.The Cisco implementation of TCP header compression is an adaptation of a program developed by the University of California, Berkeley (UCB) as part of UCB’s public domain version of the UNIX operating system. All rights reserved. Copyright © 1981, Regents of the University of California.NOTWITHSTANDING ANY OTHER WARRANTY HEREIN, ALL DOCUMENT FILES AND SOFTWARE OF THESE SUPPLIERS ARE PROVIDED “AS IS” WITH ALL FAULTS. CISCO AND THE ABOVE-NAMED SUPPLIERS DISCLAIM ALL WARRANTIES, EXPRESSED OR IMPLIED, INCLUDING, WITHOUT LIMITATION, THOSE OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT OR ARISING FROM A COURSE OF DEALING, USAGE, OR TRADE PRACTICE.IN NO EVENT SHALL CISCO OR ITS SUPPLIERS BE LIABLE FOR ANY INDIRECT, SPECIAL, CONSEQUENTIAL, OR INCIDENTAL DAMAGES, INCLUDING, WITHOUT LIMITATION, LOST PROFITS OR LOSS OR DAMAGE TO DATA ARISING OUT OF THE USE OR INABILITY TO USE THIS MANUAL, EVEN IF CISCO OR ITS SUPPLIERS HAVE BEENADVISED OF THE POSSIBILITY OF SUCH DAMAGES.Any Internet Protocol (IP) addresses and phone numbers used in this document are not intended to be actual addresses and phone numbers. Any examples, command display output, network topology diagrams, and other figures included in the document are shown for illustrative purposes only. Any use of actual IP addresses or phone numbers in illustrative content is unintentional and coincidental.All printed copies and duplicate soft copies are considered un-Controlled copies and the original on-line version should be referred to for latest version.Cisco has more than 200 offices worldwide. Addresses, phone numbers, and fax numbers are listed on the Cisco website at /go/offices.Cisco TrademarkCisco and the Cisco logo are trademarks or registered trademarks of Cisco and/or its affiliates in the U.S. and other countries. To view a list of Cisco trademarks, go to this URL: /go/trademarks. Third-party trademarks mentioned are the property of their respective owners. The use of the word partner does not imply a partnership relationship between Cisco and any other company. (1110R)Cisco Copyright© 2021 Cisco Systems, Inc. All rights reserved.。
RoseHA-white
RoseHA技术白皮书RoseHA技术白皮书© 2007 Rose Datasystems, Inc版权所有。
所有商标均为相关公司所有。
Rose Datasystems, Inc积极保护其商号、商标、专利、设计、版权及其他知识产权。
除非另有特别指明,任何人均不得以任何形式拷贝、信息高可用性当前,企业的信息化已经非常普遍,众多的企业都建立了计算机网络系统,支持企业的生产、运营和管理工作。
企业最关心的问题之一是如何建立并维持网络的稳定性和运行的持续性,于是,高可用性对于网络显得越来越重要。
事实上,如果一些关键应用一旦停止下来,所造成的损失是难以估计的。
由于网络瘫痪而影响了企业的信誉,致使客户对企业失去信任,所造成的危害是致命的。
另一方面,计算机硬件与软件都不可避免地会发生故障,这些故障有可能给企业带来极大的损失,甚至整个服务的终止,网络的瘫痪。
可见,对一些特别的企业或公司,系统的高可用性显得更为重要。
因此,必须有适当的措施来确保计算机系统提供不间断的服务,以维护系统的可用性。
信息系统的可用性通常在两种情况下会受到影响,一种是系统当机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级,需要安装新的硬件或软件而正常关机。
高可靠性软件必须为这两种情况提供不间断的系统服务。
系统可用性基本类型z通常可用性系统通常可用性系统没有容错功能,也没有特殊的软件来作错误处理,系统的错误检查和恢复完全依靠系统管理员来完成。
z高可用性系统高可用性系统是在冗余的通常可用性系统基础之上,运行高可靠性软件而构成。
高可靠性软件用于自动检测系统的运行状态,在一台服务器出现故障的情况下,自动地设定的服务转到另一台服务器上。
z容错系统容错系统是由专用昂贵的多机系统组成,错误处理能力是计算机硬件和操作系统本身提供。
一般的应用软件也需要修改后方能在上面运行。
高可用性系统的功能z软件故障监测与排除z管理站能够监视各站点的运行情况,能随时或定时报告系统运行状况,故障能及时报告和告警,并有必要的控制手段z实现错误隔离以及主、备份服务器间的服务切换RoseHA的设计目标⑴可靠性:RoseHA是一可靠而又高效的系统。
H3C CAS高可靠性和高可用性技术白皮书
H3C CAS高可靠性和高可用性技术白皮书目录1 技术应用背景 (1)2 H3C实现的技术特色 (2)2.1 H3C CAS云计算管理平台简介 (2)2.2 相关技术基础简介 (3)2.2.1 共享存储 (3)2.2.2 动态迁移 (4)2.3 H3C CAS高可靠性(HA)技术 (5)2.3.1 相关术语 (5)2.3.2 物理服务器主机HA工作原理 (5)2.3.3 虚拟机HA工作原理 (6)2.3.4 技术特色总结 (7)2.4 H3C CAS高可用性技术 (8)2.4.1 动态资源调整 (8)2.4.2 虚拟机资源限额 (10)2.5 应用限制 (11)3 典型组网案例 (12)3.1 组网拓扑 (12)3.2 注意事项 (13)3.2.1 对服务器硬件的要求 (13)3.2.2 整合比(单台服务器上虚拟机数量)的决定因素 (13)4 参考文献 (14)i1 技术应用背景随着虚拟化和云计算浪潮在全球IT行业的兴起,越来越多的企业、行业和运营商纷纷将自身的IT 架构切换到虚拟化环境中。
虚拟化技术对数据中心内未被充分利用的服务器进行整合,极大地降低了客户的一次性投入成本,精简了数据中心物理服务器的数量,同时,减少了供电、制冷、场地和运维人员方面的运营成本。
但是,虚拟化也为IT应用带来了单点故障问题,在未实施虚拟化技术之前,IT管理员往往遵循“根据最坏情况下的工作负载来确定所有服务器的配置”这一策略,即一台高性能物理服务器仅安装一个应用程序。
在这种情况下,即使该物理服务器出现了断电或操作系统崩溃等异常状况,最多只会影响到一个应用的运行,而在虚拟化环境下,每台物理服务器往往运行多个虚拟的应用服务器,因此,虚拟化技术的实施将使IT环境面临的灾难破坏性更严重,尤其对于一些重要的业务入口或接入点(如企业的生产服务器和金融行业的数据库服务器等),即使出现秒级的业务中断,也将遭受灾难性的后果。
在这种应用背景下,如何保证虚拟化环境下业务应用的高可靠性和高可用性,成为急需解决的一个技术问题。
互联网行业中的网络容灾与高可用性解决方案
互联网行业中的网络容灾与高可用性解决方案网络容灾与高可用性是互联网行业中非常重要的概念,有助于确保网络系统的稳定性和持续性运行。
本文将介绍互联网行业中的网络容灾与高可用性解决方案,旨在帮助企业和组织建立强大的网络基础设施。
一、什么是网络容灾与高可用性网络容灾(Network Disaster Recovery,简称NDR)是指在网络系统发生意外故障或灾害时,通过使用备份系统或其他措施,确保网络服务的持续性。
高可用性(High Availability,简称HA)则是指网络系统具备在遭受故障或意外情况下继续提供服务的能力。
网络容灾与高可用性是为了解决网络系统故障和服务中断的问题,保证组织的业务持续运营和数据安全。
在互联网行业中,由于大规模的用户访问和数据传输需求,网络容灾和高可用性显得尤为重要。
二、网络容灾与高可用性的解决方案1. 多机房部署多机房部署是实现网络容灾与高可用性的常见解决方案之一。
通过在不同地理位置建立多个数据中心,实现互联网系统的多地域部署。
当某个数据中心发生故障时,系统可以自动切换到其他数据中心继续提供服务,避免了单点故障。
2. 数据备份与恢复数据备份与恢复是网络容灾的关键步骤。
通过定期备份数据,将数据存储于安全可靠的位置,并确保备份数据与源数据的一致性。
在发生故障时,及时恢复备份数据可以保障业务的正常运行。
3. 负载均衡负载均衡是实现高可用性的重要手段。
通过将网络流量均匀分配到多个服务器上,确保各服务器之间的负载均衡,提高系统的处理能力。
当某个服务器故障时,负载均衡系统可以自动将流量转移到其他正常工作的服务器上,保证服务的连续性。
4. 云服务云服务提供商通常拥有高可用性和容灾设施,可以帮助互联网企业实现网络容灾与高可用性。
通过利用云服务提供商的设施和服务,企业可以将系统部署在云端,享受云端的弹性扩展和故障恢复能力。
5. 监控与警报系统建立高效的监控与警报系统对于保障网络容灾和高可用性至关重要。
构建高可用的互联网网络架构
构建高可用的互联网网络架构互联网的快速发展和广泛应用对网络架构提出了更高的要求,特别是对网络的可用性。
构建高可用的互联网网络架构是确保网络服务的稳定性和可靠性至关重要的一项工作。
本文将介绍构建高可用互联网网络架构的重要性,以及实现高可用性的关键技术和策略。
一、高可用互联网网络架构的重要性高可用互联网网络架构是指在网络设计和实施中,通过合理的规划和部署,以确保网络的连续性和可用性,减少网络故障对用户和业务的影响。
具备高可用性的网络架构可以带来以下优势:1. 提供稳定的网络服务:高可用性的网络架构能够避免网络中断和故障,保证网络服务的连续性,确保用户和业务不受影响。
2. 提高用户满意度:高可用性意味着用户可以随时访问和使用网络服务,不会因为网络故障而导致服务中断或延迟,提升用户满意度和体验。
3. 保护数据安全性:构建高可用的网络架构可以有效防止网络攻击和数据泄露等安全问题,保护用户和业务的数据安全。
4. 支持业务的快速扩展:高可用性的网络架构能够提供弹性和可伸缩的网络资源,支持业务需求的快速扩展和变更。
二、实现高可用性的关键技术和策略1. 冗余和负载均衡技术:冗余和负载均衡技术是实现高可用性的基础。
通过构建多个冗余的网络设备和服务器,以及采用负载均衡技术,可以减少单点故障的影响,保证网络的连续性和可用性。
2. 多线路和云接入:通过使用多条不同运营商的线路,以及利用云服务提供商的接入点,可以提高网络连接的可用性和稳定性。
多线路和云接入可以实现网络的冗余和负载均衡,提高网络服务的连续性和可靠性。
3. 数据备份和容灾机制:定期进行数据备份和建立容灾机制是保障数据安全和高可用性的关键措施。
通过备份关键数据和建立容灾机制,可以提供数据的可靠性和可用性,减少数据丢失和业务中断的风险。
4. 自动化运维和监控系统:自动化运维和监控系统能够实时监测网络设备和服务的运行状态,及时发现和解决潜在问题,提高网络架构的可用性。
网络规划中如何实现网络设备的高可用性(四)
网络规划是一项关键性工作,尤其在今天高度依赖互联网的时代。
而网络设备的高可用性更是网络规划中的一个重要议题。
本文将探讨网络规划中如何实现网络设备的高可用性。
一、高可用性的概念和重要性高可用性是指网络设备能够在长时间运行中保持稳定和可靠的特性。
在网络规划中,高可用性是确保网络系统能够持续正常运行的基础,而不受网络设备故障或其他意外情况的影响。
高可用性的重要性体现在以下几个方面。
首先,高可用性能够保证网络的稳定性和连通性。
网络故障会导致网络中断,影响企业日常的业务流程,甚至会导致业务损失。
因此,确保网络设备的高可用性,能够保证网络的稳定性和连通性,提高业务的可靠性。
其次,高可用性能够提高网络的可管理性和可维护性。
如果网络设备无法正常运行,将会给网络管理员带来巨大的压力和工作负担。
而高可用性的网络设备,能够提供更好的远程管理和故障监测功能,减轻网络管理员的工作负担,提高网络的可管理性和可维护性。
最后,高可用性能够保护网络的安全性。
网络设备的故障可能会导致网络漏洞和安全风险的出现,给企业的机密信息和数据造成威胁。
通过实现网络设备的高可用性,能够提高网络的防护能力,保护企业的信息安全。
二、实现网络设备高可用性的要点1. 设备冗余设备冗余是实现网络设备高可用性的重要手段之一。
通过在关键节点设置冗余设备,当主设备发生故障时,备用设备能够及时接管工作,确保网络的连通性和正常运行。
常见的设备冗余技术包括冗余交换机、冗余路由器等。
2. 故障检测和自动切换及时故障检测和自动切换也是保障网络设备高可用性的关键。
通过使用故障检测技术,例如心跳检测、链路状态检测等,当网络设备发生故障时,系统能够自动检测到并切换到备用设备上。
这样能够大大减少故障停机时间,保障网络的连续运行。
3. 弹性扩展和负载均衡弹性扩展和负载均衡是为了提高网络设备的处理能力和负载均衡,保证网络的可用性和性能。
通过使用负载均衡设备,可以将网络请求分配到多个服务器上,实现并行处理和提高响应速度。
数据中心中高可用性技术的应用
数据中心中高可用性技术的应用
洪嘉捷
【期刊名称】《通讯世界:下半月》
【年(卷),期】2015(000)002
【摘要】高可用性是数据中心的最关键的特性之一,在设备和网络方面有多种高可用性保障技术手段可以选择,本文介绍各种技术的基本原理和应用方式,并提供典型的组网架构以供参考。
【总页数】3页(P1-3)
【作者】洪嘉捷
【作者单位】中睿通信规划设计有限公司,广东广州510610
【正文语种】中文
【中图分类】TP308
【相关文献】
1.电力数据中心高可用性架构关键技术研究
2.在医院信息系统(HIS)中高可用性和存域网(SAN)技术的应用
3.监控系统助力数据中心提高可用性与管理效率——访《数据中心监控系统技术白皮书》主要起草人、深圳共济科技有限公司总工程师易南昌
4.电力数据中心高可用性架构关键技术研究
5.应用虚拟化技术搭建高可用性医院数据中心
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络高可用性技术白皮书(一)杭州华三通信技术有限公司目录网络高可用性技术白皮书(一) (1)1. 硬件冗余 (1)1.1 主控冗余 (1)1.2 单板热插拔 (2)1.3 电源风扇冗余 (3)2. 链路捆绑技术 (3)3. 热补丁技术 (3)4. IRF智能弹性架构 (4)4.1 分布式设备管理 (5)4.2 分布式路由 (7)4.3 分布式链路聚合 (8)网络高可用性技术白皮书网络高可用性技术,基本都可以归入容错技术,即在网络出现故障(错误)时,确保网络能快速恢复。
对目前常用的高可用性技术,可以作一个简单的归类:z单个设备上的硬件冗余,如双主控、单板热插拔、电源冗余、风扇冗余等;z链路捆绑,如以太网链路聚合、MP、MFR等;z环网技术,如RPR、RRPP;z STP、Smart Link、Flex Link等二层冗余技术;z冗余网关技术,如VRRP、HSRP、GLBP;z ECMP,浮动静态路由,动态路由快速收敛(如快速hello,iSPF);z不间断转发:NSF/SSO/GR;z MPLS 快速重路由;z快速故障检测技术,如BFD。
1. 硬件冗余这里的硬件冗余指的是单台设备上的硬件冗余,一般有主控冗余、交换网冗余、单板热插拔和电源风扇冗余等,使用冗余部件可以在单个部件可靠性一定的情况下,提高整个设备的可用性。
随着硬件技术的进步,目前很多设备交换网集成在主控板上,所以交换网冗余不单独介绍。
1.1主控冗余在设备只有单主控的情况下,如果主控板故障,重起主控板需要加载映象文件、初始化配置、重新注册业务板,然后重建控制平面和转发平面表项,整个过程在5分钟左右,这个时间实在是太长了,特别对于网络中处于单点故障的节点来说更是如此,因为业务在这个过程中将完全中断。
为了缩短这个时间,主控冗余应运而生。
主控冗余是指设备提供两块主控板,互为备份。
因为主控冗余在控制和转发分离的架构下才能发挥最大的效用,这里先介绍一下控制和转发分离的概念。
在控制和转发分离的架构中,控制平面负责各种协议,如路由协议(如RIP/OSPF/IS-IS/BGP)、标签分发协议(如LDP/RSVP-TE/BGP)等的处理,形成路由信息表(RIB)和标签信息表(LIB),从其中选择最优者,加上必要的二层信息,形成路由转发信息表(FIB)和标签转发信息表(LFIB),下发到转发平面,转发平面据此实现快速转发。
控制平面的处理在主控板上进行,转发平面的处理既可以在主控板(集中式设备),也可以在业务板(分布式设备)。
一旦实现了控制和转发分离,即使控制平面出现故障,转发平面的转发表项在短时间内可以认为仍然合理,继续转发数据而不会导致问题(如环路),当然,控制平面必须能快速恢复并重新和邻居建立协议会话,收敛后再对转发平面进行检查,对表项作必要更新,删除在新的会话环境下不再正确的转发表项。
在主控冗余的设备上,配备了两块主控板,一块实际起作用,称为Master,另一块备用,称为Slave。
只有Master进行控制平面的处理,并生成转发表项。
Slave上的映像文件虽然也充分启动,配置也从Master实时备份,但Slave不参与控制平面的处理。
不过,Master转发平面的各种表项(如L2/L3转发表项、组播转发表项、标签转发表项),会以实时增量备份和定期完整备份相结合的方式持续备份到Slave上。
虽然Slave上的控制平面对网络状况一无所知,但转发平面确因为和Master进行了同步而基本能反映当时的网络转发状态,随时可以替换Master 承担起转发任务,这就是转发和控制分离带来的效果。
设备实时检测Master是否正常工作,检测手段可以是检测主备板之间的硬件心跳,也可以使用IPC通道或用其他方式进行检测。
一旦发现Master异常,立即启动主备切换,由Slave接管Master的工作,Master和Slave的角色互换。
和单主控相比,双主控的收敛性能要好得多,因为在双主控情况下,Slave已经预先完成映象文件的加载和配置的初始化工作,主备切换时业务板不需要重新注册,二三层接口也不会出现up/down。
另外,因为Slave上已经备份有转发表项,可以立即承担转发任务,在一定程度上可以避免业务中断。
不过,因为新的Master在主备切换前不参与控制平面的处理,在切换后需要重新和邻居进行会话协商,所以虽然保存了完整的转发表项,但只能避免部分流量不中断。
比如,二层业务,以及从本设备往外发送的流量可以不中断;另外,如果和邻居之间配置的是静态路由或静态LSP 的话,邻居也会继续往发生倒换的设备发送流量,流量不中断。
但如果和邻居之间是动态路由协议或动态标签分发协议,和邻居之间的流量是会中断的,这是因为控制平面会话重置的情况下,邻居的控制平面会重新计算,选择它认为合适的路径。
以OSPF协议为例,新Master在发出的Hello报文中没有原来邻居的RID,会导致邻居把OSPF会话状态重置,并把和发生切换的设备相关的LSA删除,导致路由重新计算,如果有其他可选路径的话,流量会绕开发生主备切换的设备,如果没有可选路径,则需要等待OSPF重新收敛,在重新收敛之前,邻居是不会把流量发给发生主备切换的设备的。
下面分析一下主备切换的收敛时间。
主备切换的前提条件,是检测到Master故障。
在Master 故障但没有被检测到的时间内,会导致报文丢失。
其次,主备切换期间也会丢一部分报文。
最后,主备切换完成后,设备需要和和邻居重建协议会话,这也需要一定时间。
总的来说,主备切换的收敛时间为:Master故障检测时间+切换时间+信令收敛时间。
1.2单板热插拔单板热插拔,是指在设备正常运行时,在线插拔单板,而不影响其他单板的业务。
一般的中高端机架式设备,均支持单板热插拔。
单板热插拔功能包括:z往机框中新增单板不影响已经在用单板z可在线更换单板,即拔出单板换一块新单板(或老板重新插入)时,新单板能继承原来的配置,并且不影响其他单板的工作。
z对于分布式设备,在添加或插拔单板时,FIB表能同步到单板。
单板热插拔和跨板的链路捆绑技术相结合,一定程度上提供了单板间的1:N备份功能。
单板热插拔的收敛时间不好衡量,就以配置继承和生效为例,收敛时间和配置的类型及配置的多少有极大的关系。
如果和链路捆绑结合,收敛时间还和链路捆帮的收敛时间相关。
1.3电源风扇冗余为了保证设备电源收入的稳定,中高端设备一般提供双路电源输入,当一路输入出现故障时,能自动切换到另一路,不影响设备功能。
另外,中高端设备一般通过多个电源模块供电,采取1:N备份方式,一个电源模块为其他N个提供备份,在拔出某一个电源模块时,其他模块能提供足够电源功率。
风扇作为散热的重要手段,中高端设备也提供风扇冗余,一般提供多个风扇框,可以在线更换其中的风扇框,不影响产品功能。
电源和风扇的切换和更换不应该影响产品的转发功能,可以认为其收敛时间为0。
2. 链路捆绑技术链路捆绑,就是把多个属性相同的物理链路捆绑在一起,逻辑上当成一个链路。
链路捆绑能带来以下好处:z能提供更高的链路带宽z流量可在各个链路间实现负载分担z链路间互为备份,可提高可用性。
另外,跨单板、跨设备的链路捆绑事实上提供了一定程度的单板、设备间的互为备份功能,较大的提高了网络的可用性。
常见的链路捆绑有:以太网链路聚合,多链路PPP,多链路帧中继等。
因为链路捆绑相对比较简单,这里不展开叙述。
3. 热补丁技术1.热补丁原理补丁是计算机软件系统和软件工程学中的一个术语,一般是为了对系统中的某些错误进行修正而发布的独立的软件单元。
它能够在不影响系统正常运行的情况下完成对系统错误的修正,也就是对系统进行动态升级。
基本原理就是在系统中保留一段内存空间,将新的函数实体以补丁文件的方式加载其中,根据要被替换函数的入口地址找到被替换函数的第一条执行指令,将其改为一条跳转指令,跳转地址为新函数的入口地址;这样当其他函数要调用被替换函数时,CPU根据跳转指令就会执行新的函数实体。
2.热补丁状态转换各厂商实现热补丁的基本原理大体相同,但具体实现上有一定差别,下边以H3C公司热补丁技术为例简单介绍状态机转换和各状态的作用。
补丁存在四种状态:z空闲(IDLE):初始状态,补丁没有被加载z去激活(DEACTIVE):补丁已经加载,但未被激活z激活(ACTIVE):补丁处于试运行状态z运行(RUNNING):补丁处于正式运行状态激活态与运行态的最大区别在于系统重启后,激活态的补丁转换为去激活态,不再发挥作用,而运行态的补丁在系统重启后仍然保持为运行态,继续发挥作用。
补丁的激活态主要是提供一个缓冲带,以防止因为补丁错误而导致系统连续运行故障。
补丁的状态只有在用户命令的干预下才会发生切换,命令与补丁状态的切换关系如下图所示图1 命令行与补丁状态切换对应关系4. IRF智能弹性架构IRF(Intelligent Resilient Framework),即智能弹性架构,是创新性建设网络核心的新技术。
它将帮助用户设计和实施高可用性、高可扩展性的千兆以太网核心和汇聚主干。
运用IRF技术可以将多台三层交换机互联在一起形成一个逻辑交换实体,称为一个fabric,fabric内每一个交换机称为一个unit。
从管理和配置的角度看,一个fabric看起来就像一台交换设备;从性能角度看,分布式交换架构中的每台交换机都能针对其端口上的第二层/第三层流量通信业务制定本地转发决策。
图2IRF智能弹性架构示意图和传统的堆叠技术相比,IRF是一种更为增强的堆叠技术,在多方面进行了创新或增强,除了可以做到扩展端口、统一管理之外,IRF在高可靠性、冗余备份方面比传统堆叠有了很大提高。
IRF技术可以容许全局范围内的跨设备链路聚合,提供了全面的链路级保护。
同时,IRF技术实现了跨设备的三层路由冗余,可以支持多种单播路由协议、组播路由协议的分布式处理,真正实现了多种路由协议的热备份技术,这些方面都是传统堆叠技术难以做到的。
此外,IRF技术实现了二层协议在fabric内分布式运行,提高了堆叠内unit的利用率和可靠性,减少了设备间的协议依赖关系。
具体来说,IRF主要包括3方面的技术实现:DDM(分布式设备管理)、DDR(分布式路由)、DLA(分布式链路聚合)4.1分布式设备管理从外界看来,整个fabric是一台整体设备,用户可以通过CONSOLE、SNMP、TELNET、WEB等多种方式来管理整个fabric。
图3 整个fabric当成一台设备管理IRF技术最多可以连接8台设备组成一个fabric,无论是管理特性、还是转发特性,在用户看来,fabric就像是一台设备在运行。
既然多台设备堆叠当成一台设备运行,就要解决堆叠设备间配置不相同的问题。