业务连续性与灾难恢复计划
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
业务连续性与灾难恢复计划
1. 业务连续性计划
包括灾难恢复计划:用来恢复不可用的设备,包括重新再新的地点安装操作系统作业计划:恢复发生的同时业务单位应所进行的作业
重建计划:用来将运营恢复正常,无论是旧设备修复还是采购新设备
业务连续性计划的第一步要进行风险与业务影响分析(BIA),它可以揭示每一种风险
可能对业务造成的损失,风险要首先被确定,然后再进行业务影响分析。
一个好的BCP,应当综合考虑关键信息系统处理设施和终端
用户的业务功能两方面的内容。
BCP按其生命周期分为以下几个阶段:
, 业务不间断和灾难恢复计划的创建
BCP意外管理:微小事件,小事件,大事件,重大事件
小、大和重大事件应该被记录、分类、跟踪直到被纠正或解决。
事件的变化可以是突然的,一个大事件可以迅速的消失了,也可以演变成为重大
的事件
, 业务影响分析(BIA)
执行BIA有许多方法,比较流行问卷调查法、拜访关键用户、把IT人员和终端
用户召集在一起,讨论得到结论,确定各种级别的中断对业务的影响程度。
在BIA中应该注意以下问题:
a) 组织的主要业务流程是什么
一个流程是否是关键流程,取决于运行时间和运行模式。
b) 与组织关键业务流程相关的关键信息资源是什么
可能存在于以下几个方面:接受客户支付的系统、生产系统、支付员工工资系统、成品分发系统。
c) 关键恢复时间周期是多长
, 运行分类和重要性分析
分类一般包括:
关键的:可忍耐的时间为几个小时到一天
重要的:通常一天到五天
敏感的:允许一周以上
不敏感的:对业务流程没有什么影响,几乎没有什么恢复成本。
恢复战略的参数:
a) 恢复点目标(RPO):通过业务运行中断的情况下可接受的数据损失来决定,
指出了最早可接受的数据恢复时间点。例如,如果业务流程在灾难发生前最多能忍受4个小时的数据损失,那么,在灾难发生前,最近的可用备份在时间上不超过四个小时就可以了。
b) 恢复时间目标(RTO):要通过业务运行中断的情况下可接受的停机时间来决
定,它指明了灾难发生后必须对业务进行恢复的最早时间点。
c) 中断时间窗(Interruption window):组织可以等待的自失效点时刻到关键服
务/应用恢复的时刻。该时间窗之后,如果未能恢复运转的损失会越来越大。
d) 服务实现目标(SDO,Service Delivery Objective):直到正常的生产系统恢复
运转,由替代流程/程序实现的服务水平 e) 最大可容忍损耗(Maximum tolerable outages):组织使用替代方式支持生产
处理的最长时间。超过了这个时间会出现各种问题,尤其是当替代SDO低于正常的SDO时,信息的更新不及时会造成无法管理的后果。
恢复策略(将作为组织进一步开发详细的BCP的基础)最有效的行动:
a) 恢复的同时,去除威胁来源
b) 最小化灾难发生的可能性
c) 最小化灾难的影响
恢复策略的选择基于下列因素:
a) 业务流程及支持此流程的应用系统的重要性 b) 成本(恢复成本不应该大于停机成本)
c) 组织要求的恢复时间
d) 安全
对于大型主机系统和重要网络设施的运行而言,可供选择的恢复类型如下:
a) 热站:提供机房、网络、主机、操作系统、数据库、通讯等各方面的全部配
置,一般几个小时就可以使业务系统恢复运行。 b) 温站:只提供部分设备,通常没有主机,只提供网络连接和一些外部设备。
使用温站要基于如下前提:计算机很容易获得,并可以快速安装使用。安装计算机和其他缺少的设备可能需要几天时间,但是一旦所需组建安装完毕,温站可以在几个小时内提供服务。
c) 冷站:为降低成本,冷站只提供基本环境,如电线,空调,场地等。故障恢
复时间会比较长,可能需要几周。
d) 冗余信息处理设施:组织自己配备的、专用的恢复站点。前提是两套系统的
软硬件不能存在兼容性与可用性问题。主要形式有:
(一) 建立可单独运行的热站方式
(二) 与其他组织签订互惠协议,使双方应用系统互为备份。 e) 移动站点:一种特别设计的拖车式计算设备,可以快速的转移到业务部门或到恢复站点。如果在附近区域没有其他恢复设备,移动站点可以作为非常有效的、能取代主系统的恢复站点使用,而且成本很低,适用于具有多个业务部门的组织。
f) 组织之间签订互惠协议:指具有相同设备与应用系统的两个组织或多个组织
之间互相为对方建立备份的方法。优点是成本低;在热站不可用的情况下,这可能是唯一选择;缺点是缺乏约束力,经常无法执行;由于设备配置上存在差异,需要对应用程序进行修改才能运行;当系统的负载和配置变化时,一般不能及时通知对方,使协议实际无法执行。
, 制定业务连续性计划和灾难恢复计划
对通讯网络进行保护的方法如下
a) 冗余
(一) 规划通讯能力时留有富余,比如设计双路电缆
(二) 在路由器之间提供多条路径
(三) 动态路由协议,例如开放路径最短协议(OSPF)和增强内部网关路由协
议(EIGRP)
(四) 提供容错设施,以避免路由器交换机和防火墙的单点故障
(五) 把网络设备的配置信息拷贝出来保存,通过TFTP协议,以备恢复时使
用。
b) 替换式通讯线路:通过一个替换线路来传送信息的方法。比如许多电信运营
商都部署了双向光纤环路以增加容错能力,即把两路光纤安装在不同的线缆盒里,信息在两路光纤中以不同的方式传输,一旦一个环路中断,网络可正常运行。
c) 分集式通讯线路:分集式电缆应当处于不同的电缆护套中,而且不能铺设在
同一管道,应当有不同的物理路径,以避免同样的灾难事件。 d) 分集式长途网络系统:许多提供恢复服务的供应商利用T1线路在多个长途
运营商之间建立分集式长途网络连接,以保证某一电信运营商的线路出现故障后,不会影响长途网络连接的畅通
e) 最后一公里的电路保护:
f) 语音恢复:许多服务行业日常需要通过电话进行联系,应当为语音通讯建立
冗余连接或替换式通讯线路
廉价冗余磁盘阵列
当软件的RAID0和RAID1性能较好,而硬件的RAID3,5,6运行更快。硬件的RAID2很耗费资源,因此很少使用。其他级别或者采购成本高或者升级费用高。
保险事物:需要保险的信息系统有以下各方面