私有云数据中心容灾方案

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

私有云数据中心应用容灾再思考

云计算的核心是将IT转变成服务，实现资源共享、节约总的成本。重要业务的IT 服务SLA定义中高可用性是最关键的。企业在向虚拟化和私有云转变过程中面临着业务连续性的挑战。在向云过渡中，企业不可能忽略目前已有的基础架构，虚拟化可能会是一步一步实现的，像一级甚至二级应用都非常小心地试探虚拟化。这导致更加严重的异构环境的存在。你的私有云数据中心可能是物理机、各种虚机、UNIX、LINUX、WINDOWS 的混合体，一个重要业务的不同部分可能运行在不同的平台上，甚至需要在物理和虚拟平台之间切换，在这种情况下，我们设计支持业务连续性的高可用性及容灾体系面临哪些挑战呢？

数据中心级的可视化管理：

你如果不充分了解应用运行的每个部件、以及他们之间的依赖关系，那么你很难保证它的高可用性。例如你不知道一个数据库上面运行的是那些业务，如果数据库失败了，你怎么能在最短的时间里恢复整个业务？你如果不了解容灾中心环境的状态，不知道备用机是否有准备好，怎么保证应用切换的成功？你如果不能了解整体存储池资源的使用情况，怎么能及时避免或排除因资源耗尽或性能瓶颈给高SLA应用带来的影响？所以数据中心级面向应用的整体可视化管理是我们需要考虑的。

自动化的、面向整体应用的切换流程：

虽然传统数据中心在这一块也面临困难，但是私有云环境却加剧了自动化需求，因为云的核心之一就是工作流。在目前还没有完全虚拟化的情形下，一个业务每一层应用可能部署在不同的服务器上，甚至多个业务之间还存在着依赖关系。如何统一地管理业务的高可用性？如何在发生灾难时将其快速地切换到容灾中心？你会感觉难于实现。即使传统的数据中心也面临挑战。

当灾难发生时，如果还靠传统的、依赖人工根据预先制定的流程文档一步一步操作，如何保证SLA? 现实中很多企业也开发了一些具备工作流的工具，但是由于业务变化频繁，工具的维护变得复杂甚至不可能。

我们需要将文档记载的流程变成工作流，并在管理员指令下自动化完成恢复操作。不能忽略的容灾测试：

容灾测试是业务连续性计划的核心部分，有研究表明做DR测试的企业比例一直没有上升，结果很多人对他们的DR没有多少信心。之所以不愿意测试，是因为测试涉及到生产业务停顿申请、工作地点移动、还可能停下手头急迫的项目、员工加班等事情，成本很高的。

但是既然我们提供云服务，我们就不能冒风险，我们是一定要保证我们承诺的灾难恢复的。也就是一定要保证容灾中心需要时可以接管应用。

应该考虑提供在线容灾测试功能的软件。让你可以采用一个生产数据的拷贝（快照）进行恢复测试，既不中断生产，也不误操作数据，或者引起重启生产应用带来的风险。

这种自动化的切换意味着测试是在正常工作时间做的，不需要加班。这种测试还有一个好处，它在生产峰值时运行，重现真实灾难时的负载情况。配置管理工具也可以帮助确认容灾中心服务器配置与生产中心一致，因为服务器会随着时间的推移打补丁、或改变应用依赖关系。

利用新技术降低成本：

传统的企业容灾架构中容灾中心往往被定义成成本中心，因为业务连续性定义灾难时关键业务需要快速恢复，容灾中心大部分时间处于闲置状态。为了改善投资回报，实现容灾中心更多价值，一种方法是采用服务器部署软件。容灾中心的服务器平时可以用于测试、质量保证、甚至运行一些不那么重要的业务。如果灾难发生，主数据中心停机，管理员可以采用部署软件自动重新部署服务器资源以匹配生产环境。

而今天虚拟化可以帮助我们进一步降低成本。可以考虑哪些可以降级恢复的应用，目前在生产中心它们的某些部分可能还在物理机上运行，但是灾难恢复时允许性能有所下降，这是就可以在容灾中心将其置于虚机上。虚机技术同样降低容灾测试成本。

并用多种恢复技术满足不同的服务级别

一个企业私有云数据中心还有部分服务可以采用数据备份和恢复技术来满足灾难恢复需求。数据备份和恢复成本较低，管理简单，而最新的de-dep技术、复制技术、恢复技术都大大缩减了数据恢复时间和复杂性，在辅以部署软件及虚机技术，可以建立一个成本非常低的实用的容灾方案。

赛门铁克的解决方案

赛门铁克最新的Storage Foundation HA6.0和NetBackup7.1提供灵活的私有云数据中心容灾解决方案。再辅以Altiris快速部署软件以及服务器虚拟化软件，可以大大降低容灾成本。

VCS可以在所有物理及虚拟服务器平台上提供应用级高可用性，例如在典型的三层架构应用环境中，可以配成数据库、应用服务器、及Web服务器三个集群分别监控三个应用并根据自动化策略或人工指令做本地及远程自动切换操作。

而新的统一运行管理器VERITAS Operation Manager可以统一管理分布在一个或多个数据中心的多个集群的工作状况、依赖关系、及切换变化。这样你就可以在一个面板上了解整个业务的运行情况。更重要的是，VOM可以统一自动化切换整个业务到容灾中心！这种强大的功能既可以支持灾难后的快速业务接管，还支持平时的自动化容灾演练。

VOM不仅统一管理应用层面的健壮性和依赖关系，还可视化地管理数据中心的存储，让你从整个资源池的角度、全方位地管理存储资源。充分了解有什么级别的存储，容量情况，数据增长趋势，哪些应用增长更快，哪些应用在使用哪些阵列，对应哪些磁盘；每个应用的存取路经是否健康（I/O性能？多路径中有了故障?），文件的使用频率，有多少重复的文件存在等等。

一些不特别重要的业务往往数据库服务器是活的，而运行在LINUX 或WINDOWS 应用服务器和网页服务器平时可做它用。灾难发生或者测试时，采用Altiris 快速部署，并立即上线运行。 NetBackup7.1不仅是整个数据中心高可用性的底线，而且可以实现那些RPO 和RTO 要求一般的应用容灾。NBU5200一体备份机更是实现容灾的最佳解决方案。 VMware APP 1APP2APP3VERITAS Cluster Server

VMware

APP 1APP2APP3

VERITAS Cluster Server 在线数据复制

VERITAS Operation Manager

AppHA

AppHA NetBackup 5200

NetBackup 5200备份数据复制(AIR)AppHA+VMwareHA : 虚机环境应用HA VCS : 其他虚机和物理机上应用HA NBU5200:数据备份，并在消重后复制到容灾中心VOM ：管理所有数据中心的存储及应用，并负责容灾测试和灾难后快速业务恢复

Altiris ：

服务器管理及快速部署，对

于没有在线备份的应用，测试或

灾难恢复时快速部署操作系统及

软件环境生产中心容灾中心