业务持续性和灾难恢复

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据库恢复小组 负责人
数据库 管理员
电信小组 负责人
服务器恢复小组 负责人
电子邮件 管理员 服务器支持 技术人员 应用服务器 管理员 服务器支持 技术人员
广域网工程师
SQL管理员
资深系统工程师 电信 技术人员 电信 技术人员
支持技术人员
数据库分析
帮助台技术人员
3.4 测试和维护
文档检查 并行系统测试 远程操作测试 切换到镜像站点或备份站点
开发 持续性计划
•文档恢复 战略
计划测试、 培训和演 练
•开发测试 目标 •开发成功 准则 •文档所学 教训 •综合至计 划中 •培训人员
计划维护
•审阅和更 新计划 •同内部/ 外部组织 机构合作 •控制奋发 •文档变更
持续性计划内容
支持信息
•介绍 •运行操作的概念
通告/启动阶段
•通告流程 •损害评估 •计划启动
(硬盘,主机,阵列,磁带)
数据逻辑错误 人为误操作 病毒,黑客攻击 自然灾难(水,火,风,雷击) 恐怖袭击(电网,大厦等)
3 数据保护的挑战
每一个新的应用数据量逞指数级增长
应用7x24xforever 高可用要求 异构计算平台 快速恢复
管理成本
4 灾难恢复解决方案
实时应用容灾
Solutions
实时数据容灾
技术
•硬件故障 •数据残缺 •电信故障 •电力故障 。
恢复点目标-RPO/恢复时间目标-RTO


小时 分



小时 日

恢复点
恢复时间
• 恢复点目标 (RPO) – 应用必须恢复以重开始业务交易的时间点 • 恢复时间目标 (RTO) – 需要恢复应用数据所需的最长时间
2 威胁源
设备故障 入侵 火灾 水灾 自然灾害 潮湿 电磁干扰 敌意行为 技术故障
持续性计划实施流程
开发 持续性计划 策略
•标识现存 要求 •标识相关 计划和程 序 •得到高层 管理支持
进行 业务影响 分析
•标识关键 IT资源 •标识中断 影响和允 许的中断 时间 •开发恢复 优先级
标识 预防性的 安全控制
•实现控制 •维护控制
开发 恢复战略
•标识方法 •集成至系 统体系结 构中

一人
五十万元以下
一天
影响极小
2

二人
五十万元以上 一百万元以下
一周
轻度损害
3

三人以上
一百万元以上
二周
严重损害
发生概率评估标准范例
评估标准*
发生概率等级
情况发生可能性 病例发生间隔日数
1

20天以上
2

11 - 20天
3

1 - 10天
风险等级矩阵
严重性 发生概率
低度
中度
高度
1 低
2
3
1
1
2
3
业务发生中断。。。
故障、灾难 业务中断
回滚和 重装载 数据库 再同步
紧急响应
恢复操作系统
恢复的时间
资源 在行动
重定位备份
BCP开发与实施
1 BCP目标
目标是在正常运作中断时帮助企业业务继续运作 阶段 1 ) 中断前 2 ) 中断中 3 ) 中断后
持续性计划同风险管理关系
持续性计划 风险管理 安全措施实现 紧急事件 持续性计划执行
• 应用软件小组 • 安全小组 • 应急作业小组
开发备份策略
1 信息系统现状
Servers
Disk
Tape
• • • • • • • • •
台式计算机和便携系统(笔记本和手持计算机) 服务器 网站 局域网 广域网 分布系统 大型机系统 特定系统和平台 。。。。。。
2 数据的风险
存放数据的设备故障
DRP开发与实施
1 DRP开发
1)应急响应行动列表 2)电话号码 3)备份策略 4)有助于预防灾难的程序 5)可用的资源列表 6)计划实施指导 7)计划范围
2 DRP计划测试
1)检查表 2)结构化排练 3)模拟测试 4)并行测试 5)全中断测试
3 DR角色和职责
• • • • • 应急行动小组 损失评估小组 应急管理小组 异地存储小组 系统软件小组 • • • • • • • • 网络恢复小组 通讯小组 运输安置小组 用户硬件小组 数据准备及记录小组 管理支持小组 补给小组 调度小组
计划开发
•综合业务影响分析的发现 •文档记录恢复战略
恢复阶段
•恢复行动的结果 •恢复流程
重构阶段
•恢复原站点 •测试系统 •结束操作
计划附录
•联系人列表 •系统要求 •至关重要的记录
持续性计划内容 呼叫树实例
持续性计划 协调人 后备持续性计划 协调人
网络恢复小组 负责人
网络操作系统 管理员 支持技术人员
3 制定业务连续性计划
• 主要包括: - 定义计划范围 - 业务影响评估 - 开发计划 - 实施计划
3.1 计划范围与初始阶段
具体包括: 1)组织计划团队:BCP委员 会 2)顾问服务 3)确定计划范围
3.2 BIA业务影响评估
帮助业务部门了解中断事件对业务带来的影响 BIA通常需要首先进行风险评估
系统
Unix, NT 服务器 Database 主机服务器 专用伙伴系统 CRM 系统, 电信链路 PBX, 语音信箱,电信链 路 PC 终端,邮件服务器, 电信链路 NT 或 Unix 服务器
恢复时间目标(RTO)
0 0 0 0 6-12小时 6-12小时 24-48小时
电子邮件系统
后台办公系统
员工邮件记录

务代理人、在家上班、重要数据之备份)? 10. 当关键性员工因感染 SARS 无法作业,机构是否发生业务中断?
3.3 BCP开发计划
• • • • 应急响应 返回正常操作 预防性措施 恢复
3.4 实施BCP计划 • 批准和实施 • 持续性计划实施方法论
6.2
主要存储设备
• 目前市场上的存储产品主要有磁盘阵列、磁带机与磁 带库、光盘库等,其中磁带设备以其技术成熟、价格 低廉、产品线齐全、使用方便等优点占据了存储市场 的重要地位。

2
2
4
6wk.baidu.com

3
3
6
9
业务影响分析
• 应考虑以下几方面:
金额的影响:如果不采取相应的措施,则组织的经 济损失是多少? 客户的影响:如果发生业务中断,则组织会损失多 少市场占有率 法律的影响:组织是否遵从法律的要求? 内部依赖关系的影响:中断的业务是否会其他领域 的关键业务?
高可用级别系统评估
功能
柜台客户服务或代理/券 商网站 核心处理系统 连接至核心数据资源(如 市场数据) 呼叫中心 员工电话和联系工具 员工终端和LAN&WAN 员工文件的存放
0.1.2 无法提供原料、设 评估机构内原料的安全 备零件导致机构无法正 库存(或减低库存)。 常运作时。 经销商 0.2.1 无法与机构继续合 作并终止合约。
客户端 0.3.1客户因sars导致撤 单。
严重性评估标准范例
评估标准* 严重性 等级
情况发生 严重程度
感染人数
财务损失
停工天数
机构形象
1
持续性计划同风险管理关系
潜在风险
自然
•火灾 •飓风 •洪水 •台风 。 。
标识的风险 自然
•火灾 •飓风 •洪水 •台风 。 。
残余的风险 自然
•火灾 •飓风 •洪水 •台风 。 。
安全控制
•管理控制 •运行维护控制 •技术控制 。 。 。
持续性计划 范围
•飓风 •操作员错误 •硬件故障 •数据残缺 。 。

温站(Warm Sites)


热站(Hot Sites)


移动站(Mobile Sites)

是带有满足系统需求的特定电信和IT设备的客户量身定做的自包含、可传送的站点。它们 可以通过商业厂商租用。此设施通常包含在拖车尾部并可以开往和]设置于所需的后备地点。 在绝大多数情况下,在绝大多数情况下,要成为一个可行的恢复方案,移动站的设计应预 先同厂商联系,并在双方间签订一个服务级别协议(SLA)。这是必要的,因为配置移动 站所需的时间可能较长,如果没有预先的协调,将移动站送达的时间可能会超过系统允许 的中断时间。 是包含全部、实时信息镜像的冗余设施。镜像站点同主站点在技术方面是完全相同的。因 为数据的处理和存储在主站和后备站同时进行,这种站点提供了最高级别的可用性。这种 站点通常是由组织机构自己设计、建设、操作维护和维持。
整 可 能 发 生 3. 体 之情况 环 境
位、供货商等)? 4. 如果机构因 SARS 中断业务, 机构是否有后备方案(如建立第二业务
中心、生产外移、外包、策略联盟、并购)? 对 机 构 内 5. 部 之 情 况 6. 进 行 风 险 7. 评估 等)? 8. 关 键 性 员 9. 工辨识 机构是否针对 SARS 进行关键性员工之办识?关键性员工为何? 如果关键性员工因感染 SARS 无法作业, 机构是否有替代方案(如职 机构是否针对高危害情况进行机构内风险分析? 机构是否针对 SARS 建立不同风险之管理等级? 机构是否针对 SARS 进行机构外风险分析(如供应链、 客户、 承揽商
BIA目的:
1) 2) 3) 关键程度排序 中断时间评估 资源需求确认
3.2 BIA业务影响评估
BIA四个步骤: 1) 采集需要的评估信息 2) BIA结果和建议 3) 分析信息 4) 进行风险评估
SARS为例的BIA 单 位 可能发生的情况 后备方案
上游厂 0.1.1 无法与机构继续合 建立机构内原料、设备 商 作并终止合约。 或零件供货商的清单。
ERP/总帐/人事系统
24-48小时
24-48小时
应对SARS的业务影响分析
不 评估对象 评估事项 是 否 适 用 机 构 1. 2. 机构是否针对 SARS 拟定各种可能发生之情况(Scenario)? 机构是否针对 SARS 拟定各种高危害情况? 机构是否针对 SARS 建立沟通对象(员工、主管机关、客户、医疗单 结果说明/ 现行措施
信息安全管理 业务持续性和灾难恢复
目录
• 持续性计划/灾难恢复概述 • BCP开发与实施 • DRP开发与实施 • 开发备份策略
业务持续性和灾难恢复管理介绍
交流的主题
风险,灾难,故障------中断!!
9/11
直接和间接的损失
间接损失
公众声誉 新闻头条
直接损失
数据丢失、设备损坏 人员伤害。。。

•阴谋破坏 •恶意代码 •操作员错误 •。 •。
人 风险评估
•阴谋破坏 •阴谋破坏 •恶意代码 •操作员错误 •操作员错误 •。 •。

•阴谋破坏 •恶意代码 •操作员错误 •操作员错误 •。 •。
技术
•硬件故障 •数据残缺 •电信故障 •电力故障 。
技术
•硬件故障 •数据残缺 •电信故障 •电力故障 。

镜像站(Mirrored Sites)

6 备份与存储技术
1) 数据备份 2) 主要存储设备 3) 存储优化设计 4) 存储保护设计 5) 远程数据备份与恢复技术 6) 数据库备份 7) 系统的备份 8) 灾难备份解决方案的级别 9) 备份中心的建设 10) 高可用系统
6.1
数据备份
首先,并不是说所有网 络系统都需要安装灾难 防护系统,只有对不可 中断(一般中断时间不 可超过24小时)的关键 业务才有必要进行灾难 的预防; 其次,灾难防护系统也 不是说一定要防止所有 灾难--这是很难做到的, 应该对可能的灾难进行 恰当的分析,正确考虑 投入和产生效果。
后备站点选择比较
站点
冷站
费用
低 无
硬件设备

电信

设置时间


位置
固定
温站
热站

中/高
部分
完全
部分/完全
完全
固定
固定
移动站
镜像站


随相关情况而定
完全
随相关情况而定
完全
随相关情况而定

不固定
固定
后备站点类型和定义

冷站(Cold Sites)
– 通常包含用于支持IT系统的足够空间和基础设施(电力,电信连接和环境控制)。此空间 应有抬升地板和其他用于IT操作的设施。此站点并不包含IT设备并且通常不包含办公自动 化设备,例如:电话、传真机或复印机。组织机构使用冷站负责提供和安装必要的设备和 通信能力。 是有部分装备的包含部分或所有系统硬件、软件、电信和电源的办公空间。温站维持于一 个运行维护状态以接受重定位的系统。此站点在接受系统和恢复人员前需要进行一些准备。 在很多情况下,温站用作其他系统或功能的正常操作设施,当持续性计划启动事件发生后, 其正常行动将临时替换以容纳被中断的系统。 是有足够空间大小以支持系统要求和配备了必要的系统硬件、支持基础设施和支持人员的 办公空间。热站通常配备了1周7天、每天24小时24*7的人员。热战人员在接到持续性计划 启动通知后,开始立即准备系统的到达。
低成本 可管理磁带容灾
5 后备站点考虑 • • • “足够”远
– – 同主站有多远? 后备站所拥有的资源?
站点战略(热站、温站、冷站、移动站、镜像站) 考虑
– – – – – – – 通信情况 电力供应 气候区域 同其他站点的本地关系(例如:机场) 地理边界 远程客户 远程员工
• •
持续性计划顾问现场检查 ……
相关文档
最新文档