双活数据中心与灾备解决方案-技术部分

合集下载

双活数据中心技术架构解决方案

内存库集群部署主要有HA模式，双活模式，线性拆分和分布式集群四种模式。
HA模式线性拆分模式
双活模式分布式集群模式
数据层双活技术比较
物理库内存库
技术种类
技术特征
数据一致性
双活读写
数据延迟
可维护性
可靠性
适用模式
基于数据逻 DSG、gg、辑复制软件 shareplex等
逻辑错误会导致不一致，无法稽核
支持支持
较差较差
支持异构
成本较低
支持异构
较高
组网复杂，可靠性差，数据同步性能差
基于存储卷镜像（存储自身虚拟化
HDS GAD Huawei OceanStor V3
RPO=0
支持
较好 RTO=0
不支持
组网简单，维护
较低
方便，但技术较
新，实用经验少
基亍存储HA机制
IBM powerHA HyperSwap 、日立的 HAM
1、故障下需要定位+决策+ 切换流程，超过0.5小时 2、劢态资源管理技术，容灾资源闲置
3、 SRDF、PPRC等技术
传统方案：“主备”模式或“互备”双中心模式
两个中心平时均可承担业务，同时对外服务，坏掉任何一方丌影响。
“双活并行处理”模式，做到准0切换
双活应用架构
接入层：借劣DNS、全局负载均衡等技术实现双活接入和智能路由，流量调配
− DNS、全局负载均衡等 − 智能路由，流量调配
− 数据层连接自劢重连
− Ebus服务总线，分布式集群架构
数据层
数据库层技术改造
− 如Oracle extend rac − 分布式内存库

双活数据中心及灾备解决方案技术部分

requirements and their environment
NSX利用层叠网络实现双活数据中心
站点A
三层网络
站点A 边界网关
上联网络A
VM1
VM 2
vCenter Server
分布式逻辑路由器
逻辑交换机A 172.16.10.0/24
VM
4
逻辑交换机B
172.16.20.0/24
数据存储1
which also aligns with vMotion using Enterprise Plus
• vMSC enables disaster avoidance and basic Disaster Recovery (without the orchestration or testing
• VMotion an数d S据to保ra护ge VMotion
• 高效的数据备份与恢复 • 可通过运行计划与脚本实现自动化操作
灾难恢复
• 基于虚拟化层的异步复制 • 基于硬件设备的同异步复制 • 自动化应用切换管理 • 城域集群
方案特点
• 与应用程序和操作系统无关 • 与硬件设备无关 • 完善的保护 • 简单，经济
9
Fault Tolerance vs. High Availability
• Fault tolerance
– Ability to recover from component loss – Example: Hard drive failure
• High avail percentage in one year 99 99.9 99.99 99.999 “five nines”
Downtime in one year 3.65 days 8.76 hours 52 minutes 5 minutes

双活灾备方案

双活灾备方案方案一双活灾备方案在当今数字化高速发展的时代，数据和业务的连续性成为了企业生存和发展的关键。

时不时出现的自然灾害、硬件故障、人为失误等，都可能给企业带来致命的打击。

这就是我们制定双活灾备方案的背景，目的很简单，就是要确保在各种“幺蛾子”出现时，企业能够稳如泰山，业务不中断，数据不丢失。

其意义嘛，那可大了去了，不仅能保护企业的“钱袋子”，还能保住企业的声誉和客户的信任，不然一旦出问题，那可真是“凉凉”了。

咱们先定个小目标，方案实施后，在遇到灾难事件时，业务恢复时间要控制在 30 分钟以内，数据丢失量不超过 10 分钟的数据，系统可用性要达到 99.99%以上。

来看看现状，内部情况是咱们的业务系统越来越复杂，数据量也与日俱增，现有的备份手段有点跟不上节奏啦。

外部呢，竞争对手们都在加强灾备能力，市场对企业的服务连续性要求越来越高，客户可不会容忍咱们动不动就“掉链子”。

具体方案内容如下：首先，搭建双活数据中心，实现数据实时同步。

这就像是给数据找了两个“家”，一个“家”出问题，另一个“家”立马顶上。

然后，优化网络架构，确保数据传输的高效稳定，别让数据在“路上”堵着。

还有，建立完善的监控和预警系统，让咱们能提前发现问题，别等出了事才傻眼。

风险评估与应对这一块，可能会出现网络延迟导致数据同步不及时，那咱就多弄几条备用网络线路呗。

要是数据中心出现故障，得有快速切换的应急预案，平时多演练，关键时刻才不慌。

效果评估方面，用业务恢复时间、数据丢失量、系统可用性这些指标来衡量。

每季度进行一次评估，通过模拟灾难事件来测试方案的有效性。

怎么样，这方案是不是还挺靠谱？方案二双活灾备方案哎呀，如今这世界变化快，各种意外情况防不胜防。

要是企业因为没做好灾备，一下子业务中断、数据丢失，那可真是哭都没地方哭去。

所以咱得搞个双活灾备方案，这就是背景啦。

目的就是让企业在灾难面前也能昂首挺胸，继续赚钱，意义嘛，那就是给企业穿上一层“金钟罩铁布衫”，让它不怕风吹雨打。

双活数据中心项目解决方案

实时同步主备数据中心的数据，确保数据一致性。
灾难恢复计划
制定应对灾难事件的策略和流程，确保业务连续性。
数据同步机制
数据实时同步
通过数据同步引擎，实现主备数据中心数据实时同步。
数据校验
定期对数据进行校验，确保数据一致性和完整性。
数据备份
定期备份数据，以应对意外数据丢失或损坏的情况。
03
实施步骤与计划
双活数据中心项目解决方案
汇报人： 202X-01-08
目录
• 项目背景介绍 • 双活数据中心架构设计 • 实施步骤与计划 • 效益分析 • 技术风险与应对措施 • 项目成功要素与建议
01
项目背景介绍
业务需求
实现跨地域的数据同步和备份
01
双活数据中心能够满足业务在多个地域的需求，保证数据实时
同步，避免单点故障。
1 2 3
数据同步延迟
双活数据中心要求数据实时同步，但网络延迟、系统负载等因素可能导致数据同步出现延迟，影响业务连续性。
数据冲突
在双活数据中心中，由于数据实时同步，可能导致数据冲突，如两个数据中心同时更新同一数据项。
数据完整性问题
数据传输过程中可能出现数据丢失、损坏等情况，影响数据完整性。
网络稳定性挑战
网络设备故障
双活数据中心依赖于高可靠性的网络设备，任何设备的故障都可能导致数据传输中断。
网络带宽限制
双活数据中心需要大量数据传输，如果网络带宽不足，可能影响数据同步速度和业务连续性。
网络延迟与抖动
网络延迟和抖动可能导致数据同步延迟和业务性能下降。
高可用性保障
负载均衡
通过负载均衡技术，将业务流量分散到两个数据中心，确保任一数据中心故障时，业务仍能正常运行。

“两地三中心”和“双活”简介--容灾技术方案

“两地三中⼼”和“双活”简介--容灾技术⽅案当前市场上常见的容灾模式可分为同城容灾、异地容灾、双活数据中⼼、两地三中⼼⼏种。

1、同城容灾同城容灾是在同城或相近区域内（ ≤ 200K M ）建⽴两个数据中⼼ : ⼀个为数据中⼼，负责⽇常⽣产运⾏ ; 另⼀个为灾难备份中⼼，负责在灾难发⽣后的应⽤系统运⾏。

同城灾难备份的数据中⼼与灾难备份中⼼的距离⽐较近，通信线路质量较好，⽐较容易实现数据的同步复制，保证⾼度的数据完整性和数据零丢失。

同城灾难备份⼀般⽤于防范⽕灾、建筑物破坏、供电故障、计算机系统及⼈为破坏引起的灾难。

2、异地容灾异地容灾主备中⼼之间的距离较远（＞ 200KM ) ，因此⼀般采⽤异步镜像，会有少量的数据丢失。

异地灾难备份不仅可以防范⽕灾、建筑物破坏等可能遇到的风险隐患，还能够防范战争、地震、⽔灾等风险。

由于同城灾难备份和异地灾难备份各有所长，为达到最理想的防灾效果，数据中⼼应考虑采⽤同城和异地各建⽴⼀个灾难备份中⼼的⽅式解决。

本地容灾是指在本地机房建⽴容灾系统，⽇常情况下可同时分担业务及管理系统的运⾏，并可切换运⾏；灾难情况下可在基本不丢失数据的情况下进⾏灾备应急切换，保持业务连续运⾏。

与异地灾备模式相⽐较，本地双中⼼具有投资成本低、建设速度快、运维管理相对简单、可靠性更⾼等优点；异地灾备中⼼是指在异地建⽴⼀个备份的灾备中⼼，⽤于双中⼼的数据备份，当双中⼼出现⾃然灾害等原因⽽发⽣故障时，异地灾备中⼼可以⽤备份数据进⾏业务的恢复。

本地机房的容灾主要是⽤于防范⽣产服务器发⽣的故障，异地灾备中⼼⽤于防范⼤规模区域性灾难。

本地机房的容灾由于其与⽣产中⼼处于同⼀个机房，可通过局域⽹进⾏连接，因此数据复制和应⽤切换⽐较容易实现，可实现⽣产与灾备服务器之间数据的实时复制和应⽤的快速切换。

异地灾备中⼼由于其与⽣产中⼼不在同⼀机房，灾备端与⽣产端连接的⽹络线路带宽和质量存在⼀定的限制，应⽤系统的切换也需要⼀定的时间，因此异地灾备中⼼可以实现在业务限定的时间内进⾏恢复和可容忍丢失范围内的数据恢复。

数据双活解决方案

数据双活解决方案
《数据双活解决方案：实现高可用性和容灾备份》
数据双活是指在两个地理位置的数据中心之间实时同步数据，实现高可用性和容灾备份的解决方案。

在当今信息化时代，数据是企业最重要的资产之一，因此如何保障数据的安全和稳定运行成为了企业亟需解决的问题。

数据双活解决方案应运而生，为企业提供了一种可靠的数据保障机制。

数据双活解决方案采用了多种技术手段来确保数据的高可用性和容灾备份。

首先，通过实时数据同步技术，可以确保在两个地理位置的数据中心之间进行数据备份和同步，实现了数据的实时同步和共享。

其次，采用了负载均衡和故障转移技术，可以在一个数据中心发生故障时，自动切换至另一个数据中心，确保系统的稳定运行。

另外，数据双活解决方案还提供了数据的自动备份和恢复功能，确保了数据的安全性和可靠性。

数据双活解决方案在保障数据安全和稳定运行方面具有明显的优势。

首先，它可以实现数据的实时同步和共享，保证了数据的实时性和一致性。

其次，采用了负载均衡和故障转移技术，可以自动切换至备用数据中心，确保了系统的稳定运行。

此外，数据双活解决方案还提供了数据的自动备份和恢复功能，确保了数据的安全性和可靠性。

综上所述，数据双活解决方案在实现高可用性和容灾备份方面具有明显的优势，是企业保障数据安全和稳定运行的重要手段。

随着信息化程度的不断提高，数据双活解决方案将会得到更广泛的应用，为企业的发展提供可靠的数据保障。

Oracle双活数据中心及灾备解决方案

各种维护工作会影响到整张表不能使用
只需要访问数据所在分区即可
各种维护工作以分区为单位进行，其他分区仍可访问
24
数据压缩
• 不同的压缩级别
• 在表空间，表和分区级可具体指定压缩级别
• 典型压缩比率从 3:1到 50:1
• 压缩由实际数据决定 • 压缩规则基于数据冗余
• 主要好处是节省开销
• 节省 TB级的存储而不影响性能或功能
34
容灾关键要素
周天时分秒
秒分时天周
数据恢复时间点
应用恢复时间
• 数据恢复时间点(RPO)
故障时间
应用恢复时间（RTO）
• RPO (Recovery Point Objective): • 以数据为出发点 • 能够容忍的数据丢失量
RTO (Recovery Time Objective): 以应用为出发点
灾备系统不仅仅要考虑主备切换，也需要考虑备主切换
容灾系统不仅仅需要考虑当前需求，同时要考虑将来3-5年或者更长时间需求
3636
备份及灾难恢复的主流模式
• 基于存储的数据块或文件复制
• 存储镜像复制 • 操作系统卷复制 • SAN网络复制
整合
战术层面: 技术
虚拟化
业务持续性
高性能
信息安全 IT集中管理
27
高效的管理平台
集中管理数据遮蔽
集中监控
事件管理数据
配置变更管理
策略业务服务与
SLA管理
性能诊断与优化
ORACLE
28
企业管理器 EM12C—真正的IT中心
性能
可管理性
安全性
集成的技术体系
可靠性支持
29

银行双活容灾建设方案技术手册-分析篇

银行双活容灾建设方案技术手册——分析篇目录1、双活数据中心的驱动力 (3)2、定义符合自己的双活模式 (4)3、实现双活需要考虑的关键因素 (14)随着全球IT产业的飞速发展，金融行业的IT建设逐步成为主导金融企业业务发展的核心驱动力，基于金融行业IT系统建设的各种行业标准以及监管标准也相应提高。

IT系统架构的扩展性、灵活性以及容灾能力就成为衡量企业IT建设很重要的标准。

本手册以某银行同城双数据中心建设过程为背景，详细从系统架构集成、资源云化、存储整合以及数据容灾等多个关键方面阐述其规划思路以及建设过程，旨在为同业在此类项目规划和建设过程中提供一些启示和帮助。

1、双活数据中心的驱动力近年来，随着互联网金融的快速发展，金融企业数据中心建设面临着新的挑战。

那就是对RTO和RPO的极限追求。

从而也就诞生了近年来的热点话题——双活数据中心建设。

那么我们为什么要建设双活数据中心，它能给我们带来什么样的价值？什么样的数据中心架构叫做双活数据中心？如何认识适合自己业务模式的双活模式？建设阶段我们应该以什么样的原则来指导我们的建设工作？具体的建设思路以及具体的建设方案应该如何把握？基于这些问题，本文将进行深入研究并展开探讨。

从科技工作层面来讲，其实双活数据中心并不是一个行业标准或者规范。

行业的标准是对RTO和RPO约束，银监局和中国人民银行对商业银行业最严格的要求标准是5级容灾标准，RPO=15分钟，RTO=30分钟。

而根据国际标准share78，六级容灾标准是RPO=0，RTO=分钟级；七级容灾标准是RPO=0，RTO近似为0。

双活的概念也就由此而来，为了达到国际最高标准。

那么决策是否建设双活数据中心的依据也就在于此，首先确定自己企业合适的目标，是不是要必须追求7级标准？是不是所有业务都必须追求这个目标？如果不是，那么首先要对企业业务进行细分并详细规划每一个业务的容灾目标。

这将决定要不要建设双活数据中心以及建设什么样的双活数据中心。

下一代双活数据中心解决方案

2
2
3
3
1
4
镜像
镜像卷
镜像数据盘
差异位图盘
数据中心1 阵列
VIS集群
主机
数据中心2 阵列
跨数据中心网络设计
交换机
交换机
Fiber Transmission
支持的应用
Oracle RAC
VMware
业务双活访问，负载均衡，资源合理利用数据不丢失透明应用切换，业务不中断
实现负载均衡，资源合理利用数据不丢失虚拟机自动迁移，业务自动切换
方案特点
数据就近访问业务自动负载均衡平滑演进两地三中心
方案亮点
业务双活访问接管和兼容各品牌设备设备统一管理
7x24小时业务连续运行RPO=0、RTO ≈ 0维护过程业务不中断
广东东莞长安医院双活数中心解决方案案例
存储品牌多，利用率低，维护及管理复杂无存储高可用方案，数据丢失风险高
采用华为双活数据中心解决方案，提供跨站点高可用平台光纤直连保证链路带宽和时延核心业务系统HIS、PACS均双活部署
华为解决方案
数据不丢失，业务不中断业务双活访问，提高生产效率异构利旧，保护已有设备投资设备统一管理，便捷运维，减少维护成本
客户价值
客户挑战
谢谢！
下一代双活数据中心解决方案
背景与挑战
容灾标准： SHARE 78国际标准
1
2
3
4
5
6
7
容灾等级
双活数据中心方案架构
业务双活访问，资源充分利用业务不中断，数据零丢失易扩展，可平滑升级为两地三中心方案存储统一管理，管理与维护成本低
方案特点
方案关键技术
镜像卷技术
基于应用的快照技术

xxxx双活容灾数据中心解决方案

承载办公类系统
OA系统网站集群人事系统 …
承载核心业务系统
场景
需求
技术方案
方案说明
备注
统一标准化架构、高性能、高可靠性、易
DMZ区资源扩容
采用超融合企业级云方案构建
扩展、统一管理、灵活调配
核心业务实现双中心双活 RPO=0,RTO=0
GSLB（全局负载均衡）+SLB（服务器 1、方案一：分应用主备模式
负载均衡）
2、方案二：应用双活
1、方案一：适用于非1：1建设的业务，前期规划需要明确 2、方案二：适用于1：1建设的业务，备中心资源要求高
超融合一体机云操作系统
稳定安全Biblioteka 高性能计算存储
网络
安全
关键技术1——基于超融合架构的企业级云平台（完善的软件定义数据中心技术）
仅需2类物理设备
深信服智能交换机
深信服超融合标准X86服务器
替代5大硬件基础设施
智能云管理平台 aCMP
（替代传统人工运维）
多租户、编排、运维、审批...
软件定义安全 aSEC
灾备软件
技术能力
建设原则
通过对用户需求的了解，结合信息中心业务特点，方案主要遵循以下原则进行设计：
高性能：充分考虑容灾系统的处理能力，具有长足的发展能力，以适应未来灾备技术的发展。
高可靠性：灾备系统是为了进一步增强关键业务数据的抵御灾难能力，所以在灾备系统设计阶段需要充分考虑其自身的稳定性和可靠性，从而保障关键数据能够持续、稳定的传送到异地灾备中心。当出现任何问题时都能够通过灾备数据得以恢复。
核心业务实现跨数据中心HA 多副本，采用超融合集群延伸解决方案数据保存多个副本，解决数据单点损坏问逻辑错误难以避免，需综合一

双活数据中心容灾解决方案

双活数据中心容灾解决方案为什么要讲双活数据中心？从应用系统和系统保护来说，分这么几个角度：首先做容灾，第一个要考虑的是主备，上图左侧是最早出现的主备模式，一般是在两个中心建互备系统，比如我在B中心，容灾系统在另外一个地方，这种模式比较容易切换。

假如A中心出问题了，就绑定在B中心，或者是把数据复制到B中心，容灾资源是闲置着，承担着容灾的任务。

另外真的出问题了，我得需要一个定位，因为并不能确认它是否确实不能用了，所以，要确保这个业务完整，数据也不丢，定的时间加上切换流程，至少得0.5小时，甚至更长，甚至一两天，这样导致弊端很多。

后来为了节约资源，发展到现在双中心互备，A中心一部分做生产，B中心也一部分做生产，在原来的储备方式上做了一个改进，优点是因为这两个中心都有生产业务运行，可通过资源共享技术节省资源。

但仅仅是计算源，对于存储来说，由于这个存储空间必须要保证完整来做，所以没有办法充分利用起来，还是闲置状态。

针对这种问题，我们现在又有了双活并行模式，同一个系统，两个中心都可以承担业务，同时对外服务，坏掉任何一方不影响。

这是非常理想的一种状态，今天主要讲的是要实现这种架构或部分实现，需要哪些技术，需要做哪些工作，只是简单的讲，不一定很深入，也希望能够和大家一起沟通交流，看有没有更好更优的方案。

我主要从应用到基础设施的角度来讲。

因为从整个应用架构来看，咱们有一些业务可能是有接入层，下面是应用逻辑，后面包括还有一些接口，再下面是数据层，再下面是基础架构，有可能有存储和网络，这么几层，每一层都会有相应的双活实现技术。

例如应用层可能有各种集群，数据层可能有一边同时可读写，或一边只能读等。

再如基础架构层，在网络上对稳定性和带宽吞吐性能要求更高，甚至需要打通跨中心的大二层网络，存储方面则需改变一主一备的读写机制，实现同时可读写。

下面从这五个方面展开谈，一个是数据层，二是存储层，三是接入/应用层，四是虚拟化/云平台；五是技术关键点。

弱电安防--双活数据中心与灾备解决方案

双活数据中心与灾备解决方案多数据中心的建设需要投入大量资金，其项目周很长，涉及的范围也比较大。

从技术上来说，要实现真正意义上的双活，就要求网络、应用、数据库和存储都要双活。

就现阶段来看，大多数客户的多数据中心建设还达不到完全的双活要求，主流的建设目标是实现应用双活。

目前客户建设多数据中心的模型可以归纳为以下几种：1.单纯的数据容灾：正常情况下只有主数据中心投入运行，备数据中心处于待命状态。

发生灾难时，灾备数据中心可以短时间内恢复业务并投入运行，减轻灾难带来的损失。

这种模式只能解决业务连续性的需求，但用户无法就近快速接入。

灾备中心建设的投资巨大且运维成本高昂，正常情况下灾备中心不对外服务，资源利用率偏低，造成了巨大的浪费。

数据容灾2.构建业务连续性：两个数据中心（同城/异地）的应用都处于活动状态，都有业务对外提供服务且互为备份。

但出于技术成熟度、成本等因素考虑，数据库采用主备方式部署，数据库读写操作都在主中心进行，灾备中心进行数据同步。

发生灾难时，数据中心间的数据库可以快速切换，避免业务中断。

双活数据中心可充分盘活企业闲置资源，保证业务的连续性，帮助用户接入最优节点，提高用户访问体验。

构建业务连续性3.提升业务服务能力：多个数据中心同时对外提供服务且互为备份，各中心的数据库可同时处理应用的读写请求，网络、存储、应用和数据库全部实现多活。

各数据中心独立运营，用户流量可被智能调度，形成灵活、弹性和可扩展的面向服务的业务架构。

提升业务服务能力数据中心业务连续性解决方案的几种主要应用场景同城双活：站点级双活(可支持应用级双活)，整合距离相对较近的两个数据中心中的计算、存储和网络资源，实现高度灵活的负载分配，结合数据中心内部的高可用机制，为业务连续性提供最高级别保障。

特点：1、跨数据中心实现高可用性与负载平衡，支持各种应用2、管理简便，成本较高3、数据零丢失，无单一故障点，可靠性高，可最大化业务在线时间4、距离有限，可实现城域级别的应用迁移与灾难避免/灾难恢复异地灾备在不限距离的两个数据中心之间构建备份关系，可抵御较大范围的灾难性事件对业务的影响。

双活数据中心与灾备解决方案技术部分

requirements and their environment
NSX利用层叠网络实现双活数据中心
站点A
三层网络
站点A 边界网关
上联网络A
VM1
VM 2
vCenter Server
分布式逻辑路由器
逻辑交换机A 172.16.10.0/24
VM
4
逻辑交换机B
172.16.20.0/24
数据存储1
workload & IP mobility without the need to stretch VLANs
▪ Local egress is supported, however it does add complexity ▪ The appropriate deployment model will depend on customer
infrastructure failures • Fully automated response
11
长距离vMotion
功能简介
• Targeting cross-continental distances –up to 100 ms RTTs • Maintain standard vMotion guarantees • Leader in VM flexibility
capabilities of SRM)
• Loss of either NSX Components or the Datacenter Interconnect will results in a fallback to data plane
based learning using existing network state. Therefore there is no outage to data forwarding and without vCenter Server, there are no VM provisioning or migration operations

双活数据中心与灾备解决方案

不可靠?源自主机?主机?
存储
存储
?
?
?
基础设施
?
网络
?
每年一次DR测试
每应用成本超过1万
4
业务连续性解决方案的三大要点
高可用
同城
异地
灾难恢复
数据保护
5
虚拟化极大地简化了业务连续性解决方案
封装
• 所有与系统相关的信息都存储在文件中 • 可以通过数据保护来保护整个系统
硬件无关
• 可靠地将虚拟机恢复到任何硬件 • 主站点与容灾站点可以采用非对等设计 • 标准化的虚拟硬件消除了兼容性问题
• 主要收益
– 实现了业务异地在线容灾备份，确保
• 解决方案
– 广东电信公司异地组建的容灾数据中心利用VMware虚拟化软件建立
在各种灾难损害发生后，依然能够最大限度地保障提供正常应用服务。
– 方便地实现异地虚拟机备份与容灾，
各个业务虚拟机，并通过VMware Site Recovery Manager实现生产站点与恢复站点之间的业务切换。
服务器服务器
阵列复制
• VMware相关产品与服务
– vSphere Ent+ – VSAN – vCenter Site Recovery Manager
15
异地(同城)灾备解决方案——多种映射关系
主备式切换
双活切换
双向切换
双活数据中心
Production
Production
Production Site 1
vCenter Server
Site Recovery Manager
• 需求条件
– 同城二层网络，异地三层网络；
– 同城存储同步双写，异地异步复制；

NSX-T-Multisite灾备与双活数据中心解决方案

Compute can be extended between Sites ANDPrimary Site Active for North/South "Blue" Apps
S SLB Server Pool
NSX-TManager Cluster
蓝色系统网络和网段上的VM，以DC1为主， DC2为备
故障分析
22
1. 出口线路sw（图中未画出），L3router，SLB，FW单机故障或相关link fault，会导致路由，STP 重收敛（速度很快1s以下）硬件设备的主备切换，一般3秒即可完成。SLB和FW等session都有保持，前端用户无任何感知双机均故障的情况B/S应用（no N+M）：出口L3router全故障，DC2 gslb会判断DC1的slb的VS全部失效，更改dns条目，新连接会到DC2的VIP处理；老的连接（dns cache）会timeout ，重连，内网用户会60秒或几分钟中断；SLB双故障，同样C/S应用和B/S（在SLB N+M模式，或者是SLB RHI模式）：实际就是一个动态路由切换过程。当双L3或双SLB故障，DC1的路由全消失，DC2的SLB的high cost RHI for VIPs会生效，相关的 subnet网段的high cost routes也会生效，结果就是用户的流量会吸到DC2去。（详请看NOTE）
NSX-T Multisite灾备与双活数据中心
解决方案
" 建设双数据中心的方法
5
双活中心的物理架构模型物理架构的搭建是第一步
内网用户端
仲裁点的选择
数据中心一
数据中心二
FW
6
双活项目需要考虑的方面
应用双活方案，非常庞大，层次很多。这里仅简单地从 infrastructure这个层面来讨论主要分为：网络层应用层（计算，VM等），负载均衡数据库层，每家DB都有相应方案和要求存储（data）层： RAID，磁盘同步等方案

2023-数据中心灾备双活新架构方案-1

数据中心灾备双活新架构方案在现代社会中，数据的重要性愈加明显，各种数据都已成为企业和机构日常运营的核心。

因此，如何保障数据安全，防止数据灾难成为企业和机构的首要任务之一。

针对这一问题，数据中心灾备双活新架构方案被广泛应用。

一、备份数据中心建设备份数据中心是为了确保在主数据中心遭遇电力故障、网络故障、自然灾害等不可控因素而引发数据中心瘫痪时，备用数据中心能够及时地接替主数据中心的任务，减少服务中断时间和数据损失。

同时，备份数据中心应同步更新，保证备份数据中心中的数据与主数据中心数据保持一致。

二、双活架构的实现双活架构是指将数据中心分为主、备两个节点，两个节点之间同步更新数据，确保数据的一致性。

如果主节点数据中心遭遇故障，备节点数据中心能够接替主节点的任务，继续为用户提供服务。

实现双活架构需要一定的数据同步技术支持，如同步更新、数据复制等。

三、网络架构的支持数据中心灾备双活新架构方案的实现，离不开网络架构的支持。

在双活架构中，需要部署两个节点的网络设备，确保主、备节点的数据能够高速传输和同步更新。

如何设计网络结构，如何为数据传输提供高可靠的支持，需要大量的网络技术和专业知识。

四、应急响应机制数据中心灾备双活新架构建设过程中，制定应急响应机制也非常重要。

灾难发生时，如何及时发现故障，如何快速响应和恢复数据中心的运营，是值得优先考虑的问题。

制定应急响应机制，能够有效避免发生意外事件对数据中心造成的损失。

总之，数据中心灾备双活新架构方案是保障企业数据安全不可或缺的关键建设之一。

企业需要在架构的设计、网络的建设、应急机制的制定等方面投入足够的资源和精力，确保数据中心的安全和运营的稳定。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. VXLAN with Stretched Clusters (vSphere Metro Storage Cluster) 2. VXLAN with Separate Clusters 3. L2 VPN
All solutions provide L2 extension over an L3 network, enabling
VMware ESXi VMware ESXi VMware ESXi
Site B
VMware ESXi
Components run in a Site A and are protected by vSphere HA
• They are automatically restarted at Site B in the
X
Downtime in one year
Uptime percentage in one year
99
99.9 99.99 99.999 “five nines”
3.65 days
8.76 hours 52 minutes 5 minutes
10
支持多vCPU的容错技术
Overview
Instantaneous Failover
6
计算资源设计
Making an Application Service Highly Available
• vSphere HA • vSphere App HA
8
vSphere App HA
Protect off-the-shelf apps
VMware vFabric™ tc Server
站点A
物理二层 (裸光纤) 逻辑二层层叠网络 / VPN 二层网络
站点B
二层网络
VM VM VM
二层分段
扩展的二层网络 (二层内容在数据中心互连链路上传递)
VM VM VM
二层分段
15
NSX vSphere Multi-Site Use Cases
NSX for vSphere supports 3 different Multi-Site Deployment Models
• In an NSX deployment Management, Edge and
Stretched Management Cluster
Workload clusters are all stretched
• Under normal conditions all Management
Site A
逻辑交换机B 172.16.20.0/24
VM5
双活存储 vSphere城域存储集群பைடு நூலகம்
数据存储1
数据存储2 17
VMware NSX Multi-Site Single VC, Stretched Cluster
Solution Detail
• Requires a supported vSphere Metro Storage Cluster configuration • In a vMSC deployment, storage is Active/Active and spans both sites. Examples of Active/Active storage
11
长距离vMotion
功能简介
• Targeting cross-continental distances –up to 100 ms RTTs • Maintain standard vMotion guarantees • Leader in VM flexibility
Benefits
• Permanent migrations between data centers • Disaster avoidance (DA)
which also aligns with vMotion using Enterprise Plus
• vMSC enables disaster avoidance and basic Disaster Recovery (without the orchestration or testing
组件
服务器
存储
数据
站点
5
双活数据中心总体架构
站点A 延伸的vSphere集群站点B
双活存储集群
> 200 km
• • • •
行为与单个vSphere相同延伸距离最大200KM，通常小于50KM 通过VMware HA与vMotion实现自动的DR保护需要双活存储集群，如EMC的vPlex，NetApp的MetroCluster等
requirements and their environment
NSX利用层叠网络实现双活数据中心
三层网络站点A 站点B
vCenter Server
站点A 边界网关上联网络A 上联网络B
站点B 边界网关
分布式逻辑路由器
VM1 VM 2 VM3
逻辑交换机A 172.16.10.0/24
VM 4
• Protect with vSphere HA
– vCenter and DB VM restart priority set to High – Enable guest OS and App monitoring – App HA can protect SQL Server database
workload & IP mobility without the need to stretch VLANs
Local egress is supported, however it does add complexity The appropriate deployment model will depend on customer
方案特点
• 与应用程序和操作系统无关 • 与硬件设备无关 • 完善的保护 • 简单，经济
资源池
vSphere vSphere vSphere vSphere
资源池
vSphere
本地高可用
• 应用感知的高可用性 • 关键应用零停机保护 • 在线迁移虚拟机，动态调配计算与存储资源 • VMotion and Storage VMotion 数据保护 • 高效的数据备份与恢复 • 可通过运行计划与脚本实现自动化操作
Policy-based
9
Fault Tolerance vs. High Availability
• Fault tolerance
– Ability to recover from component loss – Example: Hard drive failure
• High availability
4 vCPU Secondary
Fast Checkpointing
4 vCPU Primary
Benefits vSphere • Protect mission-critical, high-performance applications regardless of OS • Continuous availability: zero downtime, zero data loss for infrastructure failures • Fully automated response
Cluster Configuration
vCenter Server
Site A
VMware ESXi VMware ESXi
Site B
VMware ESXi
• vMSC enables stretched clusters across two
VMware ESXi
physical sites
Stretched Edge Cluster
Site A
VMware ESXi VMware ESXi VMware ESXi
Site B
VMware ESXi
event of a site outage. The management network is not stretched and must be enabled on Site B as part of the recovery run book
• DR/DA testing
• Multi-site load balancing • Follow the sun
vSphere 6.0支持跨三层网络和跨vCenter Server的vMotions
12
vCenter Availability
• Run vCenter Server application in a VM • Run vCenter Server database in a VM • Run both in same VM?
• NSX and vMSC are complimentary technologies that fit a sweet spot for NSX (Single vCenter Server)
VMware NSX Multi-Site Single VC, Stretched Cluster
•
灾难恢复
基于虚拟化层的异步复制 • 基于硬件设备的同异步复制 • 自动化应用切换管理 • 城域集群
3
议程
1
2
同城双活技术方案
异地灾备技术方案
4
双活数据中心在各个级别上全面保障可用性
Storage vMotion， Storage DRS
Metro Cluster vMotion&DRS HA & FT 硬件热添加多网卡绑定存储多路径 Data Replication