灾难恢复计划.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
损失减少企业灾难恢复计划七步曲
正如现实生活中其它事物的不可预料性一样,企业很难预先知道其网络、数据中心运作过程中何时会受到威胁。
但减轻灾难的后果并不是一个轻松的过程。下面笔者给出可以帮助企业提供实用指南并实现高效的业务连续性和灾难恢复计划的七个步骤:
第一步:承认灾难的可能性
业务连续性及灾难恢复的第一步是承认自己的单位会碰到可以损害企业发展的现实性威胁。如果企业没有在一个高级的层次上采取这一步,其它的步骤就免谈。
第二步:列表并分类企业面临的威胁
企业及其社会环境的性质能够影响一个单位所面临的威胁类型。在列示了威胁之后,单位应当根据这些威胁对不同系统的可能影响对其分类。应当在灾难的响应成本和可容忍的“宕机时间”之间实现平衡,可容忍的“宕机时间”越少,则企业就需要越多的成本来创建恰当的响应。比如,一些系统必须在几分钟或几秒内实现功能恢复,还有一些系统可容忍的“宕机时间”为几小时,还有其它系统即使“宕机时间”多达几天也不会产生严重的后果。
第三步:概要描述单位的业务连续性和灾难恢复技术的基础结构
业务连续性和灾难恢复技术基础结构的关键技术要素由以下几部分组成:关键数据中心、一个可以备份主要数据中心资源的远程站点、高带宽的网络连接等部分组成。在整个数据中心,业务连续性和灾难恢复的最佳策略都要遵循所有要素成分都保持冗余性的观点。在生产性和备份数据设施中都应当运行多台主机和服务器。如果一个生产性系统的一个组件碰到了一个问题,此系统组件就立即将其功能转移给本地的备份系统,这可以作为对付灾难的第一道防线。
在业务连续性和灾难恢复策略中,最关键的要素之一就是电源。根据调查,电力故障是最为常见的也是可预防的中断性故障。
不管企业的网络带宽多么大,如果一个粗心大意的施工人员偶然弄断了光纤,其作用也就寿终正寝了。网络的连接不但要足够,还要在一个更宽广的WAN
技术范围内遵循不同的途径,避免业务限于停顿。
第四步:清查单位的IT资产
一旦单位已经草拟了其业务连续性和灾难恢复基础结构的拓扑,下一步就是要制定IT资产的一个精确而详细的目录。这就使得单位能够理解需要保护的资源和业务过程。
现在有不少业务管理工具有助于制定和维护IT资源的精确目录。这些工具的厂商都提供了一些依靠软件代理来优化IT基础结构的工具模块,并可将硬件和软件资产的细节及其配置参数存储到配置管理数据库中(CMDB)。
第五步:设置服务水平期望并定义意外事故策略
配置管理数据库中(CMDB)不但存储着单位软件和硬件资产的细节信息,还包含着服务水平的约定要求信息,这些约定要求可以定义正常运行时间及这些资源的恢复参数。回想前面的第二步,高级管理部门对服务水平期望作出要求是很重要的,因为这些能够决定在某次故障中的5分钟内或5小时之内某种特定的资产是否必须启动和运行。这种决定可以直接影响高级管理部门日后会寻求支持的业务连续性和灾难恢复的成本支出。
根据对IT资产及配置和服务水平约定的清晰理解,单位就可以定义意外事故的应对策略。这些策略必须得到主管人员的支持,因而需要将IT资产的性能直接与企业需求联系起来。为了形成这种重要的联系,单位需要执行业务影响分析来充实系统需求、过程、系统交互关系的细节。主管人员必须理解系统瘫痪的后果,以便于支持意外事故的应对策略。
第六步:制定一个业务连续性和灾难恢复的计划
意外事故的应对计划应当直接根据意外事故的应对策略,详细表述不同部门和个人的角色和责任,以保持技术系统的可用性,并阐明紧急情况下恢复IT 系统的过程。意外事故的应对计划的关键元素还包括资源需求、培训需要、培训练习和测试的频率、维护时间表、数据库备份的时间表等。
意外事故的应对计划的阶段包括以下几个方面,一是灾难降临时的通知过程,二是应急团队动员后的恢复过程,三是回归正常运作过程。
第七步:测试业务连续性和灾难恢复计划
在定制了正式的策略和过程之后,最为重要然而却最容易被忽略的一个方面是灾难恢复计划。企业必须从一开始就测试其计划的完整性和有效性,然后再在运作过程中重新测试,以确保对IT基础结构和业务过程的日后改变不会产生策略改变的需要。
此外,单位应当创建测试平台,以精确地反映日常的业务条件,以使演练可以模拟真实的条件。
在当今复杂的条件下,要让企业防御每一种灾难事故确实有点儿困难。但是,在无法预料的事情发生后,如果企业采用了恰当的技术、清晰的服务水平期望、实用的恢复策略,再通过灾难恢复计划和严格的测试方法,单位就可以将灾难对业务的影响降至最低。
企业业务连续性和灾难恢复规划实施企业部署了全面的灾难恢复规划,而不到10%的中小企业拥有危机管理、应急措施、业务重组和业务恢复计划。
对于中小企业来说,部署灾难恢复计划是十分重要的。根据Gartner调查显示,五分之二的企业在五年内都经历过至少一次严重灾难。此外,灾难的发生频率比我们想象中的还要高,因为大约80%的应用程序停工是人为的或者进程出错造成的,而不是因为灾难或者技术故障。
设置一个停机时间限制
当我们在部署灾难恢复计划时,最开始的目标应该是确定恢复点目标和恢复时间目标。灾难恢复点目标(RPO)指明了可以允许的数据丢失范围,而恢复时间目标(RTO)则是应用程序可以允许的停工时间范围,即根据可承受的最长停电时间来确定。
如果灾难真的发生了,那么你的公司可以承受多长时间呢?一个小时?一天?还是一个星期?那些需要立即恢复运行的公司必须投入更多的资金来进行灾难恢复部署,而那些几天内仍然可以继续运行的公司则可以投入较少的资金。同样来说,较高的灾难恢复点目标相对来说更加昂贵,但是中小企业必须权衡预防性支出与重要数据丢失带来的潜在高额费用之间的关系。认真确定灾难恢复点
目标和恢复时间目标能够帮助你合理分配资源,而不会浪费成本。
如果你的公司对于确定灾难恢复点目标和恢复时间目标,那么就可以使用业务影响分析(BIA)。业务影响分析方法依据的基本假设条件就是,公司的每一个因素都依赖于任何其他因素的持续运行,但是有些因素比其他因素要更加重要。业务影响分析优先考虑了关键任务数据和系统,它能够帮助公司在考虑灾难性事件时将资源进行合理分配。BIA可以让IT经理和中小企业业主清楚地看到,如果他们不部署灾难恢复计划,他们将可能损失的成本价值。
建立灾难恢复计划
当确定了RPO和RTO之后,你就可以正式建立灾难恢复计划了。当你在建立灾难恢复计划时,要牢记以下这些最佳做法:
要让公司所有的利益相关者参与进来,而不只是IT部门。举例来说,人力资源部在对员工进行灾难恢复计划培训以及计划沟通中时将发挥重要的作用,所以人力资源部应该参与进来;首席执行官和其他高级管理人员对于保证灾难恢复计划的资金和公司性购买方面是必不可少的角色;如果你的公司场所是租赁的,那么物业管理也应该了解你的计划;此外,最好还要告知当地的执法部门你所要实施的计划。将所有的利益相关者参与到规划和部署中是十分重要的。
防止数据仓库的产生:也许你会认为将文件保存到桌面是很方便的事情,但是这却是个不好的习惯。员工的个人电脑硬盘通常没有得到IT部门的备份支持,所以最好部署一个中央服务器来解决这种令人头疼的问题,让所有的员工能够规范地使用电脑。
优先备份:确定需要保存的数据以及保存时间,然后执行存储策略来优先备份关键数据和应用程序,首先要备份最关键的部分。
现场备份和非现场备份:我们现在拥有各种备份技术,从在线备份服务到磁盘和磁带解决方案等。在考虑选择何种备份服务时,最好选择既可以进行现场备份又可以进行非现场备份的备份服务,那样当你的主要业务场所无法使用时也可以对数据和应用程序进行备份。举例来说,有了磁盘镜像,至少会有两个硬盘同时进行复制和存储数据,那么,如果其中有一个磁盘出现故障,系统就可以自动切换至另一台磁盘,不管这两个磁盘在同一数据中心或是分布在不同城市,这样就可以减少数据和服务的损失。
确保远程访问:数据保存期限和网络访问同样重要。如果实体办公室不能避