VCS、VVR容灾技术建议书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章第一章 容灾系统容灾系统简介简介
简介 1.1. 什么是容灾系统
当今的世界,正在跨入信息时代,数据和信息逐渐成为各行各业的业务基础和命脉。
当企业因为信息化带来快捷的服务决策和方便管理时,也必须面对着数据丢失的危险。
容灾系统,对于IT 而言,就是为计算机信息系统提供的一个能应付各种灾难的环境。
当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾),甚至,一个更加完善的容灾系统,还能提供不间断的应用服务(应用容灾)。
可以说,容灾系统是数据存储备份的最高层次。
1.2. 为什么要为什么要建设容灾系统建设容灾系统
随着信息技术的发展,企业或机构越来越依赖于IT 系统来保证其在业界的竞争力,企业或机构在享受信息技术带来的高效率、高服务的优势的同时,其业务运作也更加依赖于IT 系统的稳定运行,所以一旦发生IT 系统停止运行,那么关键业务系统将受到严重影响。
关键业务系统的高可靠性和高可用性已成为企业或机构关注的重点。
对企业或机构来说,如果发生数据丢失,轻则影响业务的开展以及客户满意度,重则会使整个企业的生产瘫痪。
有研究显示,企业在遭受灾难之后,如果无法在14天内恢复数据,有75%的公司业务会完全停顿,43%的公司再也无法重新开业,有20%的企业在两年之内被迫宣告破产。
造成这些损失的原因不仅仅是火灾、水灾、地震等自然灾害,还有诸如战争、蓄意破坏、严重误操作等人为因素。
如何才能保证尽量减少企业数据的丢失、将危险与灾难的损失降低到最小程度呢?这就需要建立容灾系统,包括数据级容灾以及应用级容灾。
容灾系统的核心就在于使用各种技术和管理手段将灾难带来的损失降到最低,在实践中主要表现为两个方面:一是保证企业数据的安全,即保障生产数据在灾难发生时不会丢失;二是更高级别的保证业务的连续性,即保
障整个生产业务在灾难发生时不会中断业务运行。
容灾系统与备份系统的区别
1.3.容灾系统与备份系统的区别
•容灾和备份的目的不同
容灾和备份的目的不同
容灾系统的目的在于保证生产系统数据以及业务的连续性,即当生产系统发生故障时,仍然能够保证数据的完整性以及业务可以继续提供服务,以使系统不致停顿。
而备份技术的目的与此并不相同,备份是侧重于数据的安全性和记录过程,其目的在于预防系统数据中的逻辑错误和历史数据保存。
•备份是
数据保护的基础
备份是数据保护的基础
数据保护的基础
备份是指为防止生产系统出现操作失误或生产系统故障导致数据丢失,而将全系统或部分数据集合从应用主机的硬盘或阵列定期存放到其它的存储介质的过程。
备份是数据高可用的最后一道防线,它保存了生产数据的一个或者多个完整的副本,其目的是为了生产系统数据崩溃时能够恢复数据。
•容灾
容灾是保障业务连续的基石
是保障业务连续的基石
是保障业务连续的基石
那么建设了备份系统,是否就不需要容灾系统?这还要看业务部门对RTO(恢复所需的时间指标)/RPO(能够恢复到的最新状态)指标的期望值,如果允许1TB的数据库RTO=8小时,RPO=1天,那备份系统就能满足要求。
同时,备份的目的在于可以预防系统数据中的逻辑错误和历史数据保存。
只能够满足数据丢失、数据破坏时的数据恢复目的,而不能提供实时的业务接管功能。
因此容灾系统对于某些关键业务而言也是必不可少的。
人们谈及容灾往往是针对当生产站点的业务系统不能正常工作时,其业务可由容灾站点接替这些业务,保持业务的连续性,能够提供很好的RTO和RPO指标。
同时远程容灾站点具备应付各种灾难,特别是区域性与毁灭性灾难的能力,具备较为完善的数据保护与灾难恢复功能,保证灾难降临时数据的完整性及业务的连续性,并在最短时间内恢复业务系统的正常运行,将损失降到最小。
•容灾不能替换备份
容灾不能替换备份
容灾系统会完整地把生产站点的任何变化复制到容灾站点,包括一些误操作等不想让它复制的工作,比如不小心把生产站点数据库系统的某个表删除了,同时容灾站点的表也会被
完整地删除。
如果是同步容灾,那么容灾站点在同一时间就删除了;如果是异步容灾,那容灾端在数据异步复制的间隔内就会被删除。
这时就需要从备份系统中取出最新备份,来恢复被错误删除的信息。
因此容灾系统的建设不能替代备份系统的建设。
1.4.容灾系统的实现方式
容灾系统的实现方式
IT系统构成的不同使容灾的实现方式也有很大的差异,各类手段在适合系统的程度上主要取决于系统本身的组成和建设要求。
比如,IT系统是关键的应用,要求容灾系统不仅仅是数据复制到容灾站点,而且要求生产站点一旦发生故障,容灾站点立刻可以接管所有的生产应用,那么这种情况下要求的技术手段就极为严格,需要相当慎重的选择。
目前主流的容灾方式分为三大类:基于主机的容灾、基于存储系统的容灾和基于虚拟化网关的容灾
•基于主机的容灾技术
基于主机的容灾技术
基于主机的容灾技术,简单地说,就是通过安装在服务器的数据复制软件,或是应用程序提供的数据复制、灾难恢复工具(如数据库的相关工具),利用TCP/IP网络连接远端的容灾站点的服务器,实现异地数据复制。
其中最为成熟的和应用最广泛的就是Veritas Volume Replicator(VVR)软件。
主机型远程容灾的优点是在数据的复制是建立在应用主机之上的,用户不需更换太多现有的系统架构,也不用担心后端存储系统的兼容性问题,并且可以满足用户的不同数据保护要求,提供多种不同数据保护模式,可实现要求最苛刻的应用级的容灾。
•基于存储系统的容灾技术
基于存储系统的容灾技术
基于存储系统的容灾技术,顾名思义是基于存储系统(磁盘阵列、NAS)的模式。
通过存储系统内置的增值功能,通过IP网络或DWDM、光纤通道等传输界面连结,将数据以同步或异步的方式复制到远端。
目前各个主流存储厂商均可以提供这种容灾技术。
与主机型远程容灾相比,存储系统型远程容灾的优点就是将数据与运行分开,对主机系统的运行资源影响比较小。
另外,由于运行机制大多是利用镜像来复制数据,并借助高速缓冲存储器加速I/O存取,两端的数据差异时间点比较小,加上存储系统本身具备一定的容错能力,使之具有一定的运行性能和可靠性。
而存储系统型远程容灾最大的限制就在于其昂贵的构造成本。
由于用户必须在本地端和
灾备端分别配置两套相同的存储系统,不仅采购成本高,而且还要受制于单一的设备厂商,未来的扩展性势必缺乏弹性。
此外,光纤通道存储系统如果要构造远程容灾,必须在本地端和灾备端各安装一台FC-to-IP转接器,再加上网络带宽成本,整体费用投入定会令人咋舌。
另外,存储型容灾方式对于数据库的一致性容灾存在很大的缺陷。
在多点到一点的容灾架构上存在不适用性。
•基于虚拟化网关的容灾技术
基于虚拟化网关的容灾技术
虚拟化网关容灾技术,是在前端应用服务器与后端存储系统之间的存储区域网络(SAN),加入一层存储网关,这个网关和我们所了解的网络网关不同,以华为赛门铁克方案为例,它的VIS 虚拟化网关,前端连接服务器主机,后端连接存储设备。
它的角色就好像是存储网络中的交通警察,所有的I/O都交由它来控制管理,不仅可以实现本地存储系统的应用而且可以实现异地数据的复制。
虚拟化容灾的优点是功能强大。
由于数据复制是通过存储网关来执行,它对主机的性能影响十分低。
另外,通过存储网关的虚拟化技术,可以整合前端异构平台的服务器和后端不同品牌的存储设备。
综上所述,这三种容灾方式各有千秋,用户需要根据自身的IT系统的特性,选择适合自己的容灾方式 。
第二章 Volume Replicator容灾解决方案第二章
Symantec为广泛的IT平台提供了一个完整的容灾解决方案—Storage Foundation DR,该方案是基于主机的容灾方案,它降低了容灾技术的复杂度,并为容灾系统的搭建提供一个可接受的成本。
对于一个容灾系统而言,最重要的事情包括两点:
将企业关键在线数据复制到异地的容灾中心,并在这个过程中保证数据的实时性和正确性,在数据已复制的基础上,建立广域的群集系统,以便在灾难发生时能快速地让灾备中心系统接管信息服务,保障IT系统的不间断运行
Symantec通过2个软件模块完成容灾系统的自动切换:
Volume Replicator负责底层存储的数据复制
Global Cluster Option For Cluster Server负责将应用系统在广域网上切换到容灾节点。
的功能
2.1.Volume Replicator的功能
V ERITAS Volume Replicator(简称VVR)是Storage Foundation企业级管理软件中用于帮助客户实现远距离异地数据复制的功能模块。
VVR复制基于卷(逻辑磁盘)进行。
复制的数据可以是数据库中的数据(文件方式或裸设备方式)和关键业务系统中的文件。
VVR与Storage Foundation完全集成在一起。
用Storage Foundation管理界面和命令统一配置管理,同时客户也可以使用WEB方式进行管理;由于VVR仅仅将Volume上每次I/O变化的实际数据实时复制到远程节点,所以在网络线路上传输的数据量相对较少,对带宽的需求也不是很高。
数据复制的能够以同步/异步自适应模式进行工作,即在网络延时情况较好、数据能够及时复制时,工作在同步方式,完全保证两边数据的一致性;当网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主节点的I/O性能。
数据复制根据实际情况,自行在两种工作模式之间切换。
如果数据复制的线路带宽有限,出于保证本地服务器读写性能的考虑,可以将复制工作模式定义为异步,也是VVR 默认的工作模式。
由于VVR的数据复制严格按照I/O的修改顺序进行,所以,无论在同步还是异步工作方式下,能够保证数据的完整性。
对于数据库系统,该复制机制能够保证灾备节点的数据库中数据与主节点一致在灾难
发生时正常启动并提供服务。
当某些严重意外情况发生后,后备节点会变成新的主节点,称为角色转换(Takeove)。
当原来的主节点在灾难后恢复正常,需要进行数据反向同步和角色转换。
脱机处理。
通过使用VVR的In-Band Control(IBC)消息、Snapshot、以及Volume Manager(VxVM)的FastResync(简称FR,即快速同步)功能,可以实现数据的脱机处理。
脱机处理主要指对后备节点种的数据进行处理,例如进行备份、打印报表、数据仓库处理等。
脱机处理由打破后备节点的镜像卷、对镜像数据进行处理、重镜像等几个过程组成。
2.2.Global Cluster Option的功能
的功能
为了满足当今7×24全天候生产系统的高可用(HA)需求,必须在广泛的区域提供正常运行时间保障。
当前,关键业务的运行对应用和存储可用性的需求大幅度增长。
与此同时,业务环境要求降低成本。
这些因素使提供最强劲的可用性水平和减少业务成本与管理开销的需求更加有增无减。
关键应用和服务需要以前瞻方式进行管理,以保证一个或许多站点的连续可用性。
如果数据中心的任何地方出现停机,进而导致应用或服务无法使用,用户将认为是数据不能使用。
由此,公司将会在客户满意度、员工生产率和企业收入诸方面蒙受损失。
因此,显而易见,公司需要一种灵活、可伸缩、易于安装和配置的可用性管理解决方案。
Global Cluster Option(简称GCO)可以称为Cluster’s Cluster(集群的集群)。
它负责对多个不同地点的多达32个集群系统进行监控和管理,在发生严重灾难时,进行多个数据中心之间的切换(即应用的远程切换)。
Global Cluster Option作为群集系统灾难恢复功能是一种扩展产品,旨在集成集群与复制技术,从而最大限度地减少计划内和计划外停机时间。
该选项以远程站点作为数据复制的目标,实现站点和/或应用移植。
Global Cluster Option通过整合集群故障克服和复制,成为需求完整的灾难恢复解决方案公司的一种关键部件
的整合
2.3.Global Cluster Option与Cluster Server的整合
VERITAS Cluster Server(简称VCS)是用于本地容灾的集群软件,支持多达32个节点的应用级切换,保证本地业务系统的软硬件高可用性。
VCS以其出色的可靠性和易管理性闻名。
在容灾环境中:
VCS负责监控和管理硬件系统和操作系统,当出现故障时进行切换。
通过数据库代理(Agent)监控和管理数据库系统,当出现故障时进行切换。
通过API或脚本编写针对性客户化应用代理,监控和管理应用系统,当出现故障时进行切换。
通过Replicator 代理程序监控和管理数据复制过程,当主服务器数据复制发生故障时,自动将数据复制工作切换到后备服务器,保证数据复制过程的连续性。
这点对于容灾系统非常重要。
这充分说明VERITAS提供的是完整的容灾解决方案。
主节点和备份节点的VCS集群系统都在Global Cluster Option的统一监控和管理下,从而实现集群系统间的远程应用切换。
配置VERITAS Global Cluster Option,就能够在全球范围管理组织机构的高可用环境。
使用Global Cluster Option的灾难恢复选项,可以查看和管理数据复制。
决方案优势
的整合解决方案优势
2.4.Storage Foundation DR的整合解
决方案优势
Volume Replicator作为独立于硬件平台的数据复制技术,可以有效降低企业的存储设备采购成本,客户可以根据自身的存储实际需求采购合适的存储设备,而不必为了数据复制的原因购买超过自身需求的昂贵高端阵列,而且该技术允许用户在现有系统的基础上,逐步投资容灾系统,企业信息管理者可以依托Symantec的领先技术,合理规划企业信息系统的可持续发展
Global Cluster Option是一种基于整合在Cluster Server内的管理解决方案,允许IT人员通过中央控制台,管理地理上分散部署的数据和应用可用性。
管理员可以通过单一位置,查看和管理其分布式VERITAS Cluster Server集群。
对于拥有2个或更多服务器集群的任何企业,统一管理有利于减少管理成本
强化监控与管理
强化监控与管理
通过单一控制台,监控和管理各种操作系统的大量集群,处理所有集群和运行于集群的
应用状态。
数据复制技术的支持
数据复制技术的支持
通过整合故障克服与复制,VERITAS Global Cluster Option的灾难恢复选项能够实现真正的灾难恢复。
为了满足当今24×7全天候电子商务的高可用需求,须在全球范围保障系统的正常运行时间。
VERITAS Global Cluster Manager通过把应用组、集群或站点从一个地区移至另一个地区,保障整个站点免受无法预见灾难所带来的破坏。
领先复制技术支持
领先复制技术支持
VERITAS Global Cluster Option的灾难恢复选项监控和管理为实现灾难恢复而向远程站点执行的数据恢复。
该选项支持基于软件或硬件的复制,其中包括VERITAS Volume Replicator和EMC Symmetrix Remote Data Facility (SRDF)以及HDS的TrueCopy和IBM 的PPRC等
管理移植
管理移植
采用本地或全局方式把站点资源移至备用站点,就可以完全避免为升级和维护执行计划内停机。
可用性产品实现无缝集成
与VERITAS可用性产品实现无缝集成
允许完全以基于Web的方式,访问全球性IT高可用基础架构。
而且,只要点击一个按钮,就能够与VERITAS Cluster Server以及Volume Replicator实现无缝集成。
全天候支持
全天候支持
使用VERITAS Cluster Manager的灾难恢复选项,全球性企业就可以通过在不同地区移植应用程序,保证支持与数据基础架构以贴近用户的方式,连续不断地运行。
异构平台与存储支持
异构平台与存储支持
允许实现全方位故障克服,并通过单一控制台监控所有集群。
采用VERITAS高可用解决方案,客户在如何配置其高可用基础架构方面拥有的选择,将超过其它任何竞争性高可用产品。
Global Cluster Option通过单一图形用户界面,提供集群的强劲管理功能,即能够管理所有集群,无论它们使用哪种平台或部署于什么地方。
只要在设备环境内安装并运行Cluster Server或VERITAS其它可用性产品,就可以通过Global Cluster Option管理整个可用性环境。
通过把数据和应用的可用性管理整合于一个集中式控制台,以及为IT员工解决可用性问题提供一个独立软件平台,将会减少管理器与服务器的比例,无论他们位于哪
里或使用哪种操作系统与硬件
第三章第三章 整体容灾方案设计整体容灾方案设计
3.1. xx 单位单位现网网络结构现网网络结构现网网络结构
(xx 单位现网结构介绍)
3.2. xx 单位需求分析单位需求分析
在xx 以往的业务系统中,仅考虑本地容灾,即通过集群的双机系统(Cluster 或HA)对业务应用提供保护,在一台服务器的软硬件发生故障时,将整个业务切换到后备服务器上。
该方法很大程度上避免了服务器的单点故障,提高了整个业务系统的可用性。
但是,随着xxx 业务系统的发展,随着竞争的不断加剧,在一些重要的系统中,客户已经不满足于简单的本地保护。
越来越多的客户提出了要求更高的系统可用性,要求实现真正的异地容灾保护。
因为一旦出现异常情况,如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。
因此,xxx 要求业务系统可以在发生上述灾难时快速恢复,将损失降到最低点。
全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。
3.3. xx 单位容灾系统建设目标
建设本容灾系统的目的是为xx 单位系统建立一个全面的、整体的容灾方案,最大限度地保证业务系统工作的连续性、可靠性。
3.4. xx 单位容灾系统设计
举例:为方便论述,本节模拟地点A 和B,A 地有一套建立在VCS 节点集群上的两个业
务系统SQL Server 和Exchange,以B 地点的系统作为A 地点的备份。
软件配置软件配置::
2×Storage Foundation HA/DR, Windows, Enterprise Edition,v5.0 Licenses; (一套安装在生产中心的操作系统为Windows 2003企业版的A 地服务器上面,一套安装在容灾中心的B 地服务器上面)
2×Storage Foundation HA/DR, Windows, Standard Edition,v5.0 Licenses; (两套全部安装在生产中心操作系统为Windows 标准版的A 地服务器上面)
2×Volume Replicator Option, Windows, Enterprise Edition,v5.0 Licenses; (一套安装在生产中心的操作系统为Windows 2003企业版的A 地服务器上面,一套安装在容灾中心的B 地服务器上面,开启数据远程复制功能)
2×Volume Replicator Option, Windows, Standard Edition,v5.0 Licenses;
(两套全部安装在生产中心操作系统为Windows 标准版的A 地服务器上面,开启数据远程复制功能)
软件介绍
软件介绍: 一、 Storage Foundation HA/DR 中的VERITAS Volume Manager(简称VxVM) 将在物理磁
盘上建立多个或一个逻辑卷(Volume)。
以裸设备的方式使用卷,或在卷上建立文件
系统。
将数据(特别是需要进行远程复制的相关文件系统、数据库)存放在卷上。
由于数据复制是基于卷的,所以,VxVM是进行复制的基础。
二、 Storage Foundation HA/DR 可选的VERITAS Volume Replicator(简称VVR) Option
负责远程数据复制。
VVR复制基于Volume进行。
复制的数据可以是数据库中的数据(文件方式或裸设备方式)和文件。
1)VVR与VxVM完全集成在一起。
用VxVM管理界面和命令统一配置管理;由于VVR
仅仅将Volume上每次I/O的实际数据实时复制到远程节点,所以在网络线路
上传输的数据量很少,对带宽的需求也很小。
;
2)将各个业务系统中需要进行远程复制的多个或一个卷定义为一个Replicated
Volume Group(简称RVG);
3)在Site A定义一条RLINK,指向Site B;在Site B也定义一条指向Site A
的RLINK。
RLINK是单向的;需要进行复制的两个系统各定义一个指向对方的
RLINK;每个RVG定义一个RLINK。
4)Storage Replicator Log(简称SRL)是VVR中的重要部件。
将数据复制各方的
某个卷定义为一个SRL。
需要复制的数据首先要写入SRL,然后传到异地。
VVR
通过SRL保证数据复制严格按照写顺序进行,这在异步工作方式下非常重要。
当网络中断或异地系统出现故障时,本地数据将记录在SRL中,等系统恢复正
常时再将SRL中的数据按照先进先出的顺序传送到异地。
当SRL满后,VVR将
通过Data Chang Map(简称DCM)记录变化过的数据块的块号。
VVR数据流程如下图所示:
5)Data Change Map(简称DCM)与主节点的RVG相关,它其中的内容是位图信息,
记录某一时间点后修改过的数据块位置。
DCM在正常情况下不使用,在SRL满后记录变化的数据块的块号,当恢复正常复制后,等SRL中的数据传送完后,将DCM中记录的块传送到异地。
灾难恢复后的反向复制也用到DCM。
6)数据复制的工作模式缺省为同步/异步自适应,即在网络延时情况较好、数据
能够及时复制时,工作在同步方式,完全保证两边数据的一致性;当网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主节点的I/O性能。
数据复制根据实际情况,自行在两种工作模式之间切换。
如果数据复制的线路带宽有限,出于保证本地服务器读写性能的考虑,可以将复制工作模式定义为异步。
由于VVR的数据复制严格按照I/O的修改顺序进行,所以,无论在同步还是异步工作方式下,都能保证数据的完整性。
对于数据库系统,该复制机制能够保证灾备节点的数据库在灾难发生时正常启动并提供服务。
7)后备节点的完全同步,即所谓的”建立基线”。
在主节点往后备节点正常复制
数据前,必须逐块逐块地将主节点中需要复制的数据拷贝到后备节点,也就是说,将双方的RVG进行同步。
后备节点的完全同步分为两种情况,一是复制时。