最新容灾技术-灾难恢复演练还差最后一步

合集下载

容灾备份的容灾演练与应急响应计划(十)

容灾备份的容灾演练与应急响应计划(十)

容灾备份的容灾演练与应急响应计划一、容灾备份的重要性随着信息技术的快速发展,数据在我们的生活和工作中占据着越来越重要的地位。

然而,由于各种意外事件的发生,如自然灾害、黑客攻击等,这些数据的安全性面临着很大的威胁。

为了保护数据的安全,容灾备份成为一种非常重要的手段。

二、容灾备份的定义与原理容灾备份是指将关键数据存储在备份设备中,一旦主系统遭受故障或被破坏,可以通过备份设备来进行数据的恢复。

容灾备份需要将数据进行定期的备份,并确保备份数据的完整性和可用性。

容灾备份的原理是通过将数据备份到不同的地理位置或不同的设备上,以降低系统单点故障的风险。

当主系统发生故障时,可以在备份设备上快速恢复数据,保证业务的连续性。

三、容灾演练的意义为了保证容灾备份的有效性,容灾演练成为必不可少的环节。

容灾演练是通过模拟实际发生故障的情形来验证备份系统的可靠性和恢复能力,以及应急响应计划的有效性。

容灾演练能够发现备份系统中的潜在问题,并及时采取纠正措施,以提高备份系统的可靠性。

同时,容灾演练还可以训练人员应对突发事件的能力,提高应急响应的效率。

四、容灾演练的步骤与注意事项容灾演练应该包括预演、实施和评估三个阶段。

预演阶段是事先制定好演练计划,并与相关人员进行沟通和准备。

实施阶段是模拟真实故障事件的发生,并根据预定方案进行应对和恢复。

评估阶段是对演练过程进行总结和评估,以发现问题并改进。

在进行容灾演练时,需要注意以下几点。

首先,要制定详细的演练计划,并明确参与人员的职责和任务。

其次,演练过程要模拟真实情况,尽量贴近实际发生故障的场景,以达到真实性和可靠性。

此外,要根据演练过程中出现的问题进行整改和完善,确保容灾备份系统的可靠性和有效性。

五、应急响应计划的制定与执行应急响应计划是针对各类突发事件制定的,旨在保障人员的安全和业务的连续性。

应急响应计划包括预警、应对、恢复和总结等环节。

在制定应急响应计划时,需要考虑到不同类型事件的特点和可能的影响,制定相应的处理流程和方案。

容灾备份的容灾演练与应急响应计划

容灾备份的容灾演练与应急响应计划

容灾备份的容灾演练与应急响应计划在一个充满风险和不确定性的世界中,灾难随时可能降临。

对于企业和组织来说,如何应对和应急响应已经成为一项重要的任务。

正因如此,容灾备份的容灾演练与应急响应计划变得至关重要。

首先,容灾备份的容灾演练是确保整个系统或企业运转正常的一项关键工作。

在容灾备份中,通过模拟各种可能发生的灾难情况,可以更好地识别系统漏洞,发现问题的根源,并采取相应措施来提高系统的安全性和可靠性。

在灾难发生时,可靠的容灾备份系统可以快速恢复故障,并在短时间内使业务正常运行,最大限度地降低了公司的损失。

其次,应急响应计划是应对突发事件的一种策略。

根据组织的实际情况,制定合理的应急响应计划可以在紧急情况下迅速采取有效措施,并对应急事件产生的影响进行判断和应对,从而减少损失和风险。

应急响应计划包括组织和指挥团队进行相关培训,确保人员能够熟练掌握应急响应流程和操作技巧。

然而,仅仅有容灾备份的演练和应急响应计划还不够。

首先,演练应包含具体的灾难场景,以便能够真实模拟灾难发生时的应对情况。

例如,在容灾备份的演练中,可以模拟服务器故障、数据库崩溃等情况,观察备份系统的恢复速度和效果。

其次,应急响应计划应该是一个动态的过程,需要根据实际情况进行不断的修正和完善。

因为灾难的形式和规模都是无法预测的,只有站在实践中不断地总结经验教训,才能逐步提高应对效果。

在容灾备份的容灾演练和应急响应计划的过程中,有几个关键因素需要特别注意。

首先,要确定合理且完整的演练方案和应急响应流程。

这不仅包括明确每个人的任务和职责,还需要将各种应急情况的处理方式纳入整个流程中。

其次,需要充分培训和训练演练的参与人员,使其能够熟练掌握操作技能和相关知识。

再次,应建立健全的沟通机制和协调机构,确保各个环节的信息和指令能够及时传达和执行。

容灾备份的容灾演练和应急响应计划是一个系统工程,需要全体员工及时参与和配合。

企业和组织不仅要有合适的技术手段和工具,还需要建立一种全员参与的安全文化氛围。

制定灾难应对和恢复计划

制定灾难应对和恢复计划

制定灾难应对和恢复计划灾难是不可预测的,但是我们可以制定灾难应对和恢复计划来减少损失、保护人民的生命和财产。

灾难应对和恢复计划是一项关键的管理工具,可以帮助我们组织和协调应对灾难的行动,加快恢复过程,让我们的社区更加安全和强大。

首先,灾难应对和恢复计划需要基于详尽的风险评估。

我们需要了解可能发生的各种灾害类型,如地震、洪水、火灾等,以及它们可能对我们的社区造成的影响。

通过评估灾害的潜在影响,我们可以制定相应的预防和应对策略,以降低损失和增加生存的可能性。

其次,灾难应对和恢复计划需要明确责任和职责。

在灾难发生时,每个人都需要清楚自己的职责以及如何行动。

这涉及到建立一个有效的指挥和控制中心,协调各个部门和机构的行动,确保资源的合理调配和信息的及时流动。

同时,我们还需要培训和演练,以确保每个人都熟悉应对程序,并能够迅速而有效地行动。

第三,灾难应对和恢复计划还需要包括预警和沟通机制。

及时的预警可以帮助我们采取必要的措施来保护生命和财产。

因此,我们需要建立有效的预警系统,确保信息能够及时传达给公众,让人们有足够的时间来做好准备。

此外,我们还需要建立灾后沟通渠道,与受灾群众保持联系,提供支持和帮助,以便他们能够快速恢复生活。

灾难应对和恢复计划还需要考虑社区的特殊需求和弱势群体的保护。

这包括老年人、儿童、残障人士等特殊群体的需求和保护。

我们需要制定相应的措施,确保他们可以得到足够的关注和支持,避免他们在灾难中遭受更大的伤害。

最后,灾难应对和恢复计划需要持续地进行评估和改进。

灾害的性质和规模可能会不断变化,因此我们需要定期检查和更新我们的计划,以适应新的挑战和变化。

我们还需要与其他机构和社区进行合作,分享经验和最佳实践,提高整个地区的应对和恢复能力。

总之,制定灾难应对和恢复计划是确保社区安全和人民生命财产不受损失的关键。

通过基于风险评估的策略、明确的责任和职责、有效的预警和沟通机制、特殊需求的保护以及持续的评估和改进,我们可以更好地应对灾难,保护人民的利益,实现社区的可持续发展。

云计算平台的容灾演练和灾备演练方法

云计算平台的容灾演练和灾备演练方法

云计算平台的容灾演练和灾备演练方法近年来,云计算平台在各行各业中的应用越来越广泛,因其具备高灵活性、高可扩展性和高可靠性等优势受到了广泛的青睐。

然而,任何技术都不是完美的,云计算平台也难免会遭遇各种灾难性的事故,如系统崩溃、数据丢失以及网络安全问题等。

为了降低这些问题带来的损失,容灾演练和灾备演练成为了云计算平台管理中的重要环节。

容灾演练是指模拟云计算平台遇到灾害时进行的演练活动,旨在检验和验证灾害中数据和功能的恢复能力。

容灾演练的方法有多种,其中一个常见的方法是“暗灾演练”。

这种方法下,对平台运行的一段时间内进行偷盗、摧毁或删除等行为,以模拟真实灾害环境。

通过这种方式,可以发现和诊断灾害模式,及时修复和改进云平台的弱点。

另一个常见的容灾演练方法是“明灾演练”。

这种方法下,通过控制台正常操作模拟直接性故障,检验平台是否可以及时响应和成功运行。

比如,可以模拟断电、停机维护或网络故障等状况。

通过这种方式,可以检验系统在真实环境下的可用性和稳定性,提前排除潜在问题。

总的来说,容灾演练的关键在于模拟真实的灾害环境,通过不同方法去验证和发现系统的问题,从而提高整个云计算平台的鲁棒性和容错性。

与容灾演练相对应的是灾备演练,后者主要关注的是云平台中数据备份和恢复的能力。

灾备演练的目的是通过模拟数据损失和恢复过程,验证备份策略和数据恢复的可靠性。

对于云平台而言,灾备演练的方法主要有两个,分别是“磁盘克隆备份”和“在线备份”。

磁盘克隆备份是指在进行灾备演练时,将云平台的硬盘克隆到备份设备中。

通过这种方式,可以模拟数据丢失的情况,并通过备份设备将数据恢复到云平台中,验证备份和恢复的过程。

这种方法需要保证备份设备的完整性和可靠性,同时也需要一定的设备和资源投入。

在线备份则是指在实时环境中,将云平台的数据备份到远程机房或云存储中,以保证数据的安全性和可靠性。

通过这种方式,可以模拟远程灾难的情况,并通过在线备份的数据恢复到主平台中,验证数据备份和恢复的效果。

灾难恢复应急预案

灾难恢复应急预案

物资储备与调配
物资储备
根据可能发生的灾难类型,储备 必要的应急物资,如食品、水、 医疗用品、避寒避雨物资等。
物资调配
建立高效的物资调配机制,确保 在灾难发生后能够迅速将储备物 资运送到受灾地区。
应急救援力量建设
救援队伍建设
建立专业的应急救援队伍,包括消防、医疗、搜救等专业人员,并进行定期培 训和演练。
持续集成与持续交付(CI/CD)在灾备中…
CI/CD方法论应用于灾备领域,能够加速灾难恢复计划的迭代和优化 。
灾难恢复即服务(DRaaS)的兴起
作为一种新兴的灾备模式,DRaaS能够提供灵活、高效、经济实惠的 灾备解决方案。
02
灾难风险评估与识别
潜在灾难类型
自然灾害
如地震、洪水、台风、火 灾等。
演练效果评估与改进
评估标准制定
制定评估标准和指标体系,确保评估的客观 性和准确性。
评估结果分析
对评估结果进行分析和总结,找出问题和不 足。
评估方法选择
选择合适的评估方法,如问卷调查、专家评 审等。
改进措施制定
根据评估结果,制定改进措施和计划,进一 步提高应急预案的实用性和有效性。
07
预案评估与更新
维护组织声誉
有效的灾难恢复计划有助 于维护组织声誉,提高客 户和利益相关者的信任度 。
灾难恢复计划的演进与趋势
从传统灾备向云端灾备的演进
随着云计算技术的普及,越来越多的组织将关键业务数据和应用迁移 至云端,云端灾备成为一种趋势。
人工智能与机器学习在灾备中的应用
人工智能和机器学习技术为灾备领域带来了新的解决方案,能够自动 化监控和预测潜在风险。
目标
确保关键业务运营的连续性,减少灾 难对组织运营的负面影响,以及在灾 难发生后尽快恢复正常运营状态。

新型灾难恢复技术CDP技术

新型灾难恢复技术CDP技术

新型灾难恢复技术CDP技术新型灾难恢复技术CDP技术通常的灾难恢复技术包括数据的备份、复制、应用的远程集群等。

目前,一种新的灾难恢复技术----持续数据保护(ContinuousDataProtection,CDP)开始进入应用成熟期。

过去几年来,所有主要的厂商都开始进入CDP市场,从而推动CDP成为主流技术。

如今,市场上已经有很多CDP厂商,比如Atempo、BakBone、DataCore、EMC、FalconStor、IBM、InMage等等,浪潮也在新推出的海量存储平台中,融合了CDP的功能,帮助用户实现对数据的高效保护。

如何给CDP下个准确的定义呢?SNIA数据保护论坛(DMF)的持续数据保护特别兴趣小组(CDPSIG)是这样定义CDP的:“持续数据保护是一套方法,它可以捕获或跟踪数据的变化,并将其独立存放在生产数据之外,以确保数据可以恢复到过去的任意时间点。

持续数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的恢复粒度,实现几乎无限多的恢复时间点。

”传统的数据保护解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性和对生产系统的影响等问题。

实际上,传统数据保护技术中采用的是对“单一时间点(SinglePoint-In-Time)”的数据拷贝进行管理的模式,而CDP可以实现对“任意时间点(AnyPoint-In-Time)”的数据访问,因此可以大大提高数据恢复点目标(RPO)。

由于用户的备份策略通常是设定在每天的固定时刻启动备份任务,因此备份技术实现的数据保护间隔一般为24小时,导致用户会面临数据丢失多达24小时的风险;而采用快照技术,无论是基于文件系统的快照还是基于数据卷的快照,根据快照执行的间隔,一般可以将数据的丢失量风险降低到小时级;最新的CDP技术由于采用了更精细的数据保护方法,能够实现将数据丢失量降低到秒级。

另外一种在数据容灾中常见的数据保护技术是复制技术,它可以通过与生产数据的同步获得数据的最新状态,但其无法规避有人为的逻辑错误或病毒攻击所造成的数据丢失。

灾难恢复计划执行与演练效果

灾难恢复计划执行与演练效果

灾难恢复计划执行与演练效果灾难恢复计划执行与演练效果是保障国家和人民生命财产安全的重要工作。

在灾难发生后,及时有效的恢复计划执行和演练,可以最大程度减少灾害带来的损失,保障社会稳定和经济发展。

本文将主要从灾难恢复计划的执行过程、演练方法和效果等方面进行探讨,以期提高灾难应对能力,确保国家安全。

一、灾难恢复计划的执行过程灾难恢复计划的执行过程是指在灾害发生后,相关部门按照预先制定的计划,迅速组织力量,采取有效措施,全面展开抢险救灾和灾后恢复工作的整个过程。

执行过程的关键是及时性、协调性和执行力。

在执行过程中,需要各相关部门精诚协作,密切配合,确保各项工作有条不紊地展开。

只有具备良好的执行过程,才能更好地保障人民群众的生命财产安全,减少灾害带来的损失。

二、灾难恢复计划的演练方法为了提高灾难恢复计划的执行效率,各级政府和相关部门经常开展灾难恢复计划的演练。

演练是检验和提高灾难恢复计划执行能力的有效手段。

演练方法多样,包括桌面演练、模拟演练和实地演练等。

桌面演练是通过会议、座谈等形式,讨论和研究灾难恢复计划的实施方案,检验计划的完整性和可行性;模拟演练是在模拟环境下,对灾难恢复计划进行真实性模拟,以检验各部门职责和应急流程;实地演练是在现场开展,模拟真实灾害情况,全面检验灾难恢复计划的执行能力。

通过这些演练方法,可以及时发现灾难恢复计划的不足之处,加以改进,保障灾难发生时的应对能力。

三、灾难恢复计划演练效果灾难恢复计划的演练效果直接关系到灾难发生时的应对能力。

通过不断的演练,可以大大提高灾难恢复计划的执行效率和质量。

首先,演练能够增强各相关部门的紧急应对能力,增加其协调配合的默契程度,提高应对突发事件的能力。

其次,演练可以及时发现灾难恢复计划的不足和漏洞,及时加以改进和完善,进一步提高应急响应效果。

再次,演练可以提高灾难应对的效率,降低灾害带来的损失,保障人民群众的生命财产安全。

综上所述,灾难恢复计划执行与演练效果至关重要。

数据中心容灾演习方案

数据中心容灾演习方案

XXXXXXXXXX 数据中心容灾演习方案信息部20XX年XX月版本记录目录一、容灾演习目的 (4)二、容灾演习条件 (4)三、容灾演习团队与分工 (4)四、容灾演习范围 (5)五、风险评估 (6)六、演习网络拓扑图 (6)七、演习流程 (7)八、演习详细计划 (7)九、数据中心网络演习方案 (7)十、生产管理系统演习方按 (7)十一、域、DNS、打印服务器演习方案 (8)十二、数据库演习方案 (8)十三、演习服务器防火墙IP表 (8)一、容灾演习目的为保证XX数据中心个系统的灾难恢复步骤和灾难恢复流程是可靠有效的,因此必须经常进行灾难恢复的演习,通过每一次的演习提高灾难恢复人员灾难恢复的能力,完善其流程,并记录演习的结果。

灾难恢复人员的培训和灾难演习密切相关,培训中的问题在演习过程中都能表现出来,并加以改进。

灾难演习必须被很小心的执行,而且必须是整个系统范围的,有一个清晰定义的全面的灾难演习程序。

启用XX灾备中心,将参演应用系统顺利快速地切换到灾备中心,保证各办公室、营业厅、变电站的办公业务的正常运作。

根据演习结果从而做好多方面的处理措施,准备抢修器材和设备配件,安排抢修人员现场进行处理等。

二、容灾演习条件数据中心网络崩溃,全网无法访问数据中心内的应用服务器,严重影响各办公室、营业厅、变电站的办公业务。

在此情况下,启动XX灾备中心。

三、容灾演习团队与分工参演单位:XXX息技术有限公司XX公司XXXXX分公司XXXX四、容灾演习范围1.容灾演习时间:•日期:20XX年0X月XX日-20日•演习人员报到时间: XX日23:00•灾难恢复演习时间:24:00 –次日6:00 2.本次预演灾难模拟场景演习范围: 信息数据中心崩溃3.演习内容:•数据中心网络网络崩溃•数据库HP4切换到XX灾备中心HP6•域、DNS、打印机等灾备服务器测试•生产管理系统灾难恢复测试五、风险评估参演所有人员实施前做好实施方案,由多方进行审核,通过后按照方案的步骤进行实施。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2011 年 10 月 26 日灾难恢复演练达不到标准作者:Rachel A. Dines面向基础设施和运营部门专业人员面向基础设施和运营部门专业人员目录松懈的演练计划会破坏 DR 准备工作如何达到应有的演练水平:改进 DR 演练计划的十点提示建议站在起跑线上?不要着急。

已经在比赛途中?加快速度。

补充材料注释和资源Forrester 采访了包括 Deloitte、EMC、Forsythe Solutions Group、HP、IBM、Recovery Point Systems、Steve Goldman Associates 和 SunGard 在内的 8 家供应商公司及《财富》500 强企业中的 12 位最终用户。

相关研究文献“Wake-Up Call: You Aren’t Ready For A Disaster”(警钟:您尚未做好应对灾难的准备)2011 年 2 月 9 日2011 年 10 月 26 日灾难恢复演练达不到标准赶快通过用于提高演练水平的十点提示达到应有的演练水平吧!作者:Rachel A. Dines共同作者:Stephanie Balaouras 和 Jessica McKee2378© 2011 Forrester Research, Inc. 保留所有权利。

Forrester、Forrester Wave、RoleView、Technographics、TechRankings 和 Total EconomicImpact 是 Forrester Research, Inc. 的商标,所有其他商标均为其各自所有者的财产。

未经书面许可不得以任何形式复制或共享此内容。

灾难恢复演练达不到标准面向基础设施和运营部门专业人员2松懈的演练计划会破坏 DR 准备工作如今,企业 DR 准备工作仍然不足。

1 大多数情况下,造成这一问题的原因并不是 DR 体系结构缺乏先进技术,而是缺乏演练 DR 计划的正规流程和严谨方案。

尽管大多数企业声称他们每年至少执行一次 DR 计划的完整演练,但一些非正式的证据表明,这些演练中的大部分都不够全面和彻底;企业往往仅演练部分计划或对一小组应用程序进行演练(请参见图 1)。

IBM 业务连续性和恢复服务 (IBM BCRS) 每年代表客户执行成千上万次业务连续性和 DR (BC/DR) 演练,这证实了以下趋势:“最近,越来越多的客户只执行组件测试,而不是同时测试 BC 和 DR 。

我们鼓励客户利用完整的企业测试。

”与我们交流的许多企业都知道他们需要改进其 DR 演练计划,但是却面临着缺乏高层管理人员支持、员工资源有限及害怕中断业务流程等阻碍。

疏于执行 DR 演练计划会带来哪些风险?企业如果不经常彻底演练其计划,那么在宣布和执行具体计划时遭遇失败和/或无法充分实现业务预期恢复目标的风险就会增加。

未能实现目标可能会使企业蒙受价值高达数千美元甚至数百万美元的收入损失、客户损失和市场份额损失,同时还可能使声誉受损或遭受罚款。

图 1 大约有半数公司每年仅进行一次完整测试ǖForrester Research, Inc.59450Đ Ǜđ5%18%47%23%8%4%14%50%22%10%փփ2007 DŽ ǖ250 Dž2010 *DŽ ǖ200 Dž ǖDŽ Ljӥ Բ փ 100%DžǖForrester/ĐDisaster Recovery đDŽĖ ėDžLj2007 10 LjĐGlobal Disaster Recovery Preparedness Online Survey đDŽ Ԣ Dž* ǖForrester/ĐDisaster Recovery đDŽĖ ėDžLj2010 11 LjĐ Global Disaster Recovery Preparedness Online Survey đDŽ Ԣ Dž3灾难恢复演练达不到标准面向基础设施和运营部门专业人员如何达到应有的演练水平:改进 DR 演练计划的十点提示2011 年春,在 Forrester 对 2,741 名 IT 和业务决策者进行的调查中,超过 60% 的受访者认为提高 BC/DR 能力是未来 12 个月的高优先事务或关键优先事务。

2然而,这些决策者同时表示他们计划在同一时期内在 BC/DR 方面投入的 IT 资本和运营预算只有 6.6%,此数字在过去的几年中一直相当稳定。

3如何使用固定的预算显著改进 DR 准备工作呢?在不投入前期资本的情况下可以采取的最有效的措施是改进 DR 演练计划。

DR 演练并非一次性活动;成熟的计划会将 DR 演练作为一项常抓不懈的工作(请参见图 2)。

此外,Forrester 和权威的 DR 专业人士还提供了以下 10 种用于改进 DR 演练计划的最佳做法:1. 提前制定具体的演练目标。

为了演练而演练纯属浪费时间。

在执行任何演练之前,确保提前设定了清晰具体的目标,这有助于促使演练最终取得成功。

目标可以很简单,例如,“验证我们规定的恢复时间和恢复点目标”。

可以围绕培训定位其他目标,例如,“使数据库管理员熟悉恢复 Oracle 的计划。

”2. 让企业利益相关者参与进来。

企业所有者在 DR 演练中发挥着至关重要的作用,您需要让他们参与从演练开始到所有服务恢复完毕的整个过程。

企业利益相关者应验证是否成功恢复了服务。

这样做有两个好处:既可以确保您正确地恢复了业务流程及其所有关键组件,又可以确保企业利益相关者在实际正式声明的灾难期间知道该对恢复地点的恢复能力和表现作何期待。

3. 轮换员工职责。

运行技术 DR 测试时,撰写 DR 计划的人员不得执行测试,因为实际灾难发生时此人很可能不在现场。

一些受访公司甚至让对某一系统不甚了解的员工来执行这些测试,例如,让系统管理员运行数据库 DR 测试。

Pasha Group 的技术分析人员Karla Upton 说:“我们的目标是能够执行 DR 计划并将这项工作交给拥有系统管理员技能的任何员工来做,他们应该能够执行恢复。

”DR 演练的一个重要次级效益是培训;在演练过程中委派员工担任新角色,实质上就是为不同领域的员工提供交叉培训。

4. 为演练定义具体的风险场景。

许多企业在没有具体场景的情况下执行 DR 演练,他们告诉响应团队将数据中心看作“信息技术管理场所”。

但是,定义具体的 DR 测试风险场景很重要,这主要有两个原因:1) 能够为响应团队提供需要对其作出反应的更逼真的状况;2) 不同的场景要求 IT 人员采取不同的措施。

例如,对于主要数据中心来说,短时间断电的 DR 计划与长时间断电的 DR 计划是不同的,前者仅需要恢复作业,后者则需要进行故障转移(最终需要进行故障恢复),而这与针对仅有部分 IT 基础设施出现故障的情况制定的 DR 计划又有所不同。

5. 与 BC 团队共同执行演练。

Forrester 在调研中发现,许多 BC 和 DR 团队都各自单独执行所有演练,并且在执行演练时往往无法进行沟通。

因为 DR 团队很可能非常频繁地运行技术操练,所以没有必要与 BC 共同执行所有演练;不过,每年至少应该与相应的BC 人员合作一次,同时执行完整的企业 BC 和 DR 演练。

如果数据中心与公司总部处4灾难恢复演练达不到标准面向基础设施和运营部门专业人员于同一位置,这一点尤为重要:HP 业务恢复服务全球营销经理 George Ferguson 说:“如果数据中心与办公大楼位于同一位置,那么我们建议客户同时执行 BC 和 DR 演练。

”6. 变换演练类型,从技术测试到预排演练,各种类型都要涉及到。

IT 领域的一个常见误解是:对于 DR 演练,预排演练和桌面演练无关紧要。

的确,这些类型的演练不会测试故障转移的技术功能,但它们对于培训、提高意识和准备工作却至关重要(请参见图 3)。

受访者告诉我们,大多数时候,演练都没有按计划执行,在演练过程中常常会出现沟通和员工对其自身角色的了解方面的问题。

非技术演练(如预排演练和桌面演练)有助于确保更顺利地完成这些过程。

Genzyme 的 DR 分析人员 Marius Wierzbicki 告诉我们:“执行技术预排演练时,我们会让每位恢复工作负责人向同事说明他们各自的操作步骤以便进行充分的沟通。

”7. 确保每年至少对所有 IT 基础设施同时测试一次。

由于 IT 系统本身具有快速变化的特性,组织每年必须至少对整个公司的 DR 计划运行一次完整测试。

如果两次测试之间相隔一年以上的时间,IT 环境和人员方面很可能会发生大量变化,比如,您需要让新员工熟悉整个组织的情况以加快 DR 计划的执行。

一些比较先进的公司每年运行完整 DR 测试的次数多达四次。

在两次完整测试之间,大多数公司执行组件测试的频率有所不同,具体频率取决于系统的关键程度及环境的变化速度。

8. 确定核心 DR 响应团队的成员。

我们必须承认,参与 DR 演练可能会面临巨大压力(如在时间和资源有限的情况下长时间工作的压力,经常在晚上和周末加班的压力),员工会以不同的方式应对这些压力。

尽管 DR 演练或测试可能会带来巨大压力,但实际正式声明的灾难或许更糟糕,因此,在选择负责 IT 恢复工作的核心响应团队时,一定要选择那些在压力极大(和睡眠不足)的情况下仍能够工作的员工。

在演练或测试过程中,找出那些能够保持沉着冷静的员工。

BC/DR 和危机管理方面国际公认的专家和顾问Steve Goldman 博士告诉我们:“在演练过程中,您会发现哪些人员无法承受实际灾难所带来的压力。

”9. 从错误中吸取经验。

执行 DR 演练的关键是在受控环境中找到潜在的恢复障碍。

如果在演练和测试过程中未出现问题,很可能说明您为查找付出的努力不够、测试不够全面或者设计的恢复场景过于简单。

4完成演练和测试并确定问题领域后,应利用获得的知识更新计划并创建最佳实践文档。

一家大型电子产品制造商的 IT 主管Frank Miraglia 告诉我们:“测试结束后,我们会编辑所有记录并整理成一份测试后报告,该报告将包括有关何人承担何种角色以及遇到的所有问题的信息。

在报告的末尾,我们会提供一些建议和意见以及注意事项,用于改进测试。

我们将这些文档放在方便查阅的地方,作为知识指南供大家参考。

”5灾难恢复演练达不到标准面向基础设施和运营部门专业人员10. 向利益相关者报告结果。

如果您的组织最近在改进准备工作方面进行了大量投资,高层管理人员和其他企业利益相关者很可能想知道投资回报率是多少,您准备好了吗?定期及时地报告演练和测试结果可以让高层管理人员和企业领导者知悉您的 DR 计划。

请记住,结果不是简单的通过或失败,而应详细说明恢复过程中运行良好的方面及需要改进的领域。

一家大型金融服务公司的一位高级 BC/DR 管理人员告诉我们:“我们报告 BC/DR 演练的各个方面,其中包括演练质量、组件出现故障的可能性以及组织面临的风险。

相关文档
最新文档