#灾难恢复:从理论到实践 中国惠普有限公司业务持续管理服务经理 牛林海
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5级
定性描述 严重影响 较严重影响 一般影响 较小影响 可以忽略
9
2020/5/22
业务影响分析(Business Impact Analysis)
重要性
业务中断
投诉
营联 业机 系指 统令
系 统
用户透支
计 费ห้องสมุดไป่ตู้
不能即时回收资金
采
帐结
集 系
务算 系系
管理水平下降
统
统统
统系
计统
系管
统理
核心业务
10 2020/5/22
155天 31天 05以 原 3天 天 以 0内 因 天 以 以 内说 以内 内明 内
x※xxxx※ xx※ ※ ※ x
30原 天因 以说 内明
xxxxxx※xx
原因说明
xxxxxxxx
识别系统中断对业务的影响以确定RTO
识别数据丢失对业务的影响确定RPO
识别系统架构,系统特点 了解同其他系统依赖关系 了解系统中断时的IT应急手段等等
运行维护
风险因素 业务关键性
分析 业务架构 IT现状分析
容灾技术分析
恢复时间 RTO
恢复数据点 RPO
IT应用 恢复策略
方案选择 方案设计 方案实施
灾备组织 结构
响应和决策 流程
技术恢复 步骤
测试演练 计划
演练 培训
3
2020/5/22
组织的业务所面临的风险-RA
高
自然灾害-火灾,水灾,恶劣天气
人为灾害-恐怖行动,恶意破坏
缺少高层管理人员的参与 • 75%的公司未制定重要员工的培训策略 • 90%的公司没有针对全体雇员的 “业务连续性计划”
“我们有一项计划…… ” 计划与现实之间的差距 (META
GROUP - 美国) 2007年3月20日星
142 2期0二20/5/22
演练计划和测试
• 为测试演练而模拟的故障或灾难的设计 • 在系统整体测试演练之前,选择一个小系统(如某
务访
识 管谈
别 理业
业 部务
务 门人
、
员
技
、
术
关
、
键
管
用
理
户
、
、
用
业
户
的
灾 难 恢
经访 理谈 、
IT ( IT
复
人
需 主员
求 管项
目
识别系统功能,业务流程同IT的关系,用户数量、分布、关键时段 了解业务应急处理方案是否明确,可支持业务多久,以及方案的局限性
定量经济损失 定性业务影响 监管法律法规
风险对业务的影响-BIA:量化分析影响
收入: 直接损失、补偿金、损失的 未来收入、款项损失和投资 损失
生产效率: 雇员人数 x 受影响员工数 x 停工时间 x 需要补回的时间 =? 声誉损失: 客户、竞争对手获得优势、 供应商、金融市场、业务合 作伙伴
财务业绩: 收入确认、现金流、信用等 级、股票价格、违规罚款
个业务量比较小的系统)作为独立的测试模块,检 验恢复流程的正确性 • 开发系统整体演练的测试计划 • 召开演练前的沟通会议 • 建立测试小组,观察测试过程及提出建议 • 演练后的总结,汇报演示及修正提高工作
15 2020/5/22
灾难恢复流程演示
灾难发生 数据备份 状况监测 切换操作
启动灾难恢复操作
安全破坏-电脑黑客 服务中断攻击 病毒攻击 内部安全/欺诈
影响
低 低
4
2020/5/22
软件故障
硬件故障
电源/网络故障
计划内停工
应用程序故障
频率
高
风险分析(RA) 数据中心风险分析的计算方法
资产识别
资产价值分析
影响程度
脆弱识别
脆弱性的程度
可能性
风险权重
威胁识别
威胁的频率
威胁程度
某机房主要风险指标评级
灾难恢复: 从理论到实践
牛林海 业务连续管理服务经理 2009/10/29
业务连续管理
业务连续管理
业务连续规划
业务与办公环 境连续管理
IT 连续管理
2
2020/5/22
业务策略 Business Strategy
业务流程 Business Process
信息 Information
应用服务 Application Services
对企业的 直接影响
对企业的 间接影响
对客户感知造成的影响,包括客户服务质量、客户满意度、客户 忠诚度的下降。
对公司造成的财务影响,包括对收入造成的损失,为解决问题增 加的成本等方面的影响。
对公司造成的非财务影响,包括对企业信誉、市场竞争力、业务 开展、连带的客户诉讼等方面的影响。
关键 业务
非关 键业 务
• 与主站点处于同一地理区域。主站点和备用站点一般 距离在数十公里以内,可实现同步数据复制,但面临 同一区域性灾难风险
灾难风险管理策略
区域性灾难
• 异地 non-regional
• 与主站点处于不同地理区域。主站点和备用站点一般 距离在数百公里以上,不会同时遭受与生产中心同一 区域性灾难风险
异地灾备
中断时间 无 / 可轻 微明 显严 重非常严
228中4天 小 5228中 断 小 4天 天 小 以 时 15228断 小 时 时 54天 天 小 以 以 时 内 以 天 小 时 时 以 以 时 间 以 内 内 以 以 时 内 间 以 内 内 以 内 内 内 以内 内 无 忽 内无 忽 ※ ※ 略 /忽 ※ ※ 可 略 /※ ※ 略 可 轻 影※ 轻 影 响 微 影 ※响 ※ 微 明 影 响明 影 响 显 影 ※※ 响 显 严 影 响严 影 响 影 重※ 响 重 响 非 重非 重 影 重 常影 常 影 响 严响 严 响
灾备策略要素
策略分析
灾难恢复预案 运行维护支持
技术支持
备用基础设施布局
等级划分
备用网络系统 备用数据处理系统
数据备份系统
等级标准依据《GB/T 20988-2007信息 安全技术 信息系统灾难恢复规范》信息安全标准化技术委员会组织制定、国家标准化管理委员会审查批准发布,2007 12 2020/5/22
应用基础架构 Application Infrastructure
核心基础架构 Core Infrastructure
基础架构 Infrastructure
生命 周期
管理和控制
Management & Control
灾难恢复建设过程
灾难风险评估(RA) 业务影响分析(BIA)
恢复技术方案设计 DRP开发
8
2020/5/22
多方调研分析技术 部门、业务部门、 管理部门的恢复需 求
参考系统之间依赖 关系
参考信息整合和发 展需求
综合分析评定 RTO、RPO、恢复资源需求
业务等级区分原则
业务等级区分原则
对客户的 影响
从该业务中断对客户和企业这两 个方面造成的负面影响程度将业 务分类为关键业务和非关键业务
• 数据中心风险
高可用设计 冗余设计 完善管理 制度
机房内事件
--系统单点故障、机房电源系统故障、广域网故障、机 房漏水、空调系统故障、存储阵列等关键设备硬件故 障、人为恶意破坏、软件逻辑错误、信息安全故障等
•
因人为错误、技术故障等局限于数据中心内部的风险 术语来源:
6造成信202息0/5系/22统中断《G服B/T务20,988通-20过07信加息强安本全技地术的信息技系统术灾和难恢管复理规范》
灾备中心规划策略
• 活站点(Active site) • 是支持系统需求的规模适当的办公场所,具有完整和实时信息的完全
的冗余恢复站点,其与主站点在所有的技术层面上基本是一致的,系 统平时处于7X24活动状态。由于在主站点和恢复站点同时处理和存储 数据所以这些站点提供了最高的可用性。 • 热站点(Hot site) • 是支持系统需求的规模适当的办公场所,配置了所需的系统硬件、软 件、提供支持的基础设施和支持人员。热站点通常24小时有人值守。 接到应急计划启动的通知时热站点人员就可以立即开始准备系统的切 换和接管。 • 温站点(Warm site) • 装备有部分设备,包含一些或全部系统硬件、软件、电信和电源。温 站点被维持于随时准备接收被重新部署系统的运行状态。这种站点在 接收系统和恢复人员之前需要进行准备。在很多情况下,温站点做为 另一个系统或功能的正常运行设施,在应急计划启动时,遭受中断的 系统临时占用了正常运行系统的设施。 • 冷站点(Cold site) • 通常具有充足的机房基础设施(电源、电信连接和环境控制)和支持IT 系统基础设施。空间可能配有活动地板和其它适合IT运行的属性。站点 13 不2包020/含5/22IT设备并且通常也不包含办公自动化设备如电话、传真机或复印
5
2020/5/22
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
电源故 障,短时
间停电
空调故障 停机
广域网中 断
核心网络 设备故障
长时间停 电
地震(5 级或更
高)
外部火灾
可能性
5
4
4
4
2
3
3
威胁程度
3
3
2
2
3
2
2
影响程度
3
3
4
4
5
5
5
可能性 威胁程度 影响程度
灾难风险管理策略
• 同城 regional
16 2020/5/22
应急响应与决策
宣布启动灾 难恢复计划
业务检查
交付使用
切换有代价 通常不轻易启动灾难恢复计划。宣布 灾难发生就意味着不再是正常的业务 模式。启动灾难恢复计划意味着承担 额外的费用,不便的操作,降级的服 务, 以及切换和回切后的数据准备.
惠普业务连续管理服务资历
• 惠普全球服务 • 一流的硬件容错和数据复制技术 • 在全球拥有5000名能够随时提供支持的专家 • 在38个国家设有54个恢复中心 • 提供全天候高可用性支持服务和设施监控 • 成功进行了500多次调配和2000次测试演练 • 基于广泛的客户体验和行业最佳实践制订的高效方法 • 停机时间不到行业平均停机时间的1/8,平均每年节约260万美元 • 最庞大的认证顾问队伍 - CSSIP、DRII、BCI • 灵活的协作合同
− 是指由于该业务中断,将会对企业运营(包括直接和间接的 影响)和客户感知造成严重或较严重影响的业务及其所依赖的业
务。如缴费开机业务。
业务影响级别 1级 2级
3级
– 是指由于该业务中断,将会对企业运营(包括直接和间接的影响)
4级
和客户感知产生一般或较小影响或基本没有影响的业务。如综合 结算、合作伙伴管理等业务。
口疏散的事件。
同城灾备
• 例如:地震、大型公共卫生事件、恐怖袭击、区域性 通信网故障、区域性电网故障等
机房/园区级灾难
-- 建筑物外部火灾、建筑物内部火灾、机房内部火 灾、长时间停电等 -- 机房电源系统故障、广域网故障、机房漏水、空 调系统故障、存储阵列等关键设备硬件故障
• 机房/园区级灾难
• 建筑物外部火灾、建筑物内部火灾、机房内部火灾、 长时间停电等,例如 机房电源系统故障、广域网故 障、机房漏水、空调系统故障、存储阵列等关键设备 硬件故障
没有行动的计划是做梦 没有计划的行动是噩梦!
• 60%的计划无法使业务恢复到正常运行的状态 • 50%的计划无法解决通讯中断和网络中断的问题 • 67%的公司未支付任何款项用于灾难恢复测试 • 34%的公司不具备数据备份系统 • 35%的公司没有制定应对媒体的相关策略 • 34%的公司无法确定数据恢复的优先顺序 • 75%的恢复配置无法与生产配置保持同步 • 65%的参与调查者表示,实际的计划制订活动
7
2020/5/22
上百万美元 影响(美元) 几十亿美元
指数级增长
分钟
耗时
财务业绩
声誉损失 生产效率/雇员
直接财务损失/ 客户损失
连续增长 天
宕机造成的间接影响更加严重,无法预测
业务影响分析(BIA )
BIA是在风险分析的基础上,分析业务功能依赖的重要信息系统资源、评估特定灾难场景 下各种信息系统中断产生的经济损失和非财务因素影响
--造成所在地区或有紧密联系的邻近地区的交通、电讯、 能源及其它关键基础设施受到严重破坏,或大规模人口
疏散的事件。
--例如:地震、大型公共卫生事件、恐怖袭击、区域性 通信网故障、区域性电网故障等
• 区域性灾难 regional disaster
• 造成所在地区或有紧密联系的邻近地区的交通、电讯、
能源及其它关键基础设施受到严重破坏,或大规模人
灾难恢复策略/计划的制定
RA&BIA
灾难恢复需求:
✓ 业务和管理需求 ✓ 灾备风险管控范围 ✓ 灾难的恢复场景 ✓ 业务恢复优先级 ✓ 业务替代方式 ✓ RTO&RPO ✓…
灾难恢复策略分析
分析内容:
✓ RA&BIA ✓ 灾备中心拓扑结构
需求分析 ✓ 系统部署结构及分工
✓ 各包的灾难恢复等级 ✓ 组织团队运维模式 ✓ 资源需求和建设模式 ✓ 灾难切换策略 ✓ 总体策略实现路径 ✓…
RTO/RPO的定义
备份点
RTO
灾难发生点
系统灾备中心
回切完成 系统回切
恢复运行
不可用或性能降低
时间线
备份 周期
最近的 一次备 份点
RPO
事件发 现和通 知
紧急状 态运作 恢复操 和决策 作
11 2020/5/22
不可用或
通常不轻易启动灾难性恢能复降计低划。宣布
灾难发生就意味着不再是正常的业务
模式。启动灾难恢复计划意味着承担 额临行外时状的运态费用,不回便切的操作,降级的服 务。决策时间有动时作就会长达2-4小时