灾备-综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2014-3-11
21
NEL-DBR
灾备
--概念
灾难备份,简称灾备,就是指利用技术、管理 手段以及相关资源确保关键数据、关键数据处 理系统和关键业务在灾难发生后可以恢复的过 程 灾备的目的就是确保关键业务持续运行以及减 少非计划宕机时间
2014-3-11
22
NEL-DBR
灾备
--概念
广义灾备
6
2014年3月11日8时53分
NEL-DBR
需要灾备
--案例3
2003年8月,美国、加拿大多个城市均发生停电事故,这 次美国历史上最大的停电事故所造成的经济损失每天可 能多达300亿美元。
7
2014年3月11日8时53分
NEL-DBR
需要灾备
--案例4
2008年初,罕见冰雪灾害给中国电网造成了有史以来最严重 的破坏:全国范围电网停运的电力线路共36740条、变电站共 2016座、110-500千伏线路因冰塔倾倒8381基。这次冰灾不 仅给国民经济造成了巨大的损失,达1510亿元,而且给社会 造成了极大的紊乱,如交通出行、居民的生活等。 8
--信息系统后果
数据灾难:灾难造成数据不能正常使用
–数据失真:数据内容发生错误
–数据部分丧失:部分数据不能使用
–数据完全被毁:整个数据系统无法继续使用
系统灾难:运行的信息系统无法继续使用
–系统失灵:系统仍运行、但行为错误
–系统瘫痪:系统完全停止工作 –系统恶变:系统仍运行,运行结果随机甚至完全相反
2014-3-11 23
NEL-DBR
相关概念
生产中心:正常情况下,企业信息系统运行所在地(包 括运行所需的机房、存储设备、网络设备、主机设备、 软件等) 容灾中心:为了减少灾难给企业造成的损失而建设的一 套生产中心的同级克隆或降级克隆,在灾难发生后,接 管生产中心的业务,保证业务的连续性 容灾外包:指单位选择外部专业技术与服务资源替代内 部资源来承担容灾系统的规划、建设、运营、管理和维 护
Gartner(著名IT咨询服务提供商)数据表明,40%企业不能 在灾难发生后恢复运营,剩下60%中有33%在两年内倒闭
18
2014-3-11
NEL-DBR
需要灾备
业务
--后果
每小时停机损失
百度文库
证券经济类
645万美元
信用卡销售授权
260万美元 9万美元
航班预售
ATM服务 ……
1.5万美元 ……
突发事件造成的行业服务损失情况 数据来源:Strategic Research Corporation
系统级容灾
应用级容灾
NEL-DBR
灾备
--性能指标
恢复时间目标RTO(Recovery Time Object) 恢复点目标 RPO(Recovery Point Object) 该指标是容灾恢复的时间指标: -其含义从广义上来说,是从灾难发生造成业务中 恢复点:宕机后数据开始恢复的时间点。 降级操作目标 DOO(Degraded Operations Object) 断,直到使业务能够得以继续所需要的时间。 恢复点指标 RPO:指当灾难发生后,系统和数据必 宕机恢复后到第二次故障或灾难的时间 网络恢复目标 NRO(Network Recovery Object) -通常RTO越短意味着容灾能力越高。 须恢复到的时间点要求。 网络恢复的时间
灾备技术
姚文斌
灾备技术国家工程实验室 北京邮电大学计算机学院
National Engineering Laboratory for Disaster Backup and Recovery, Beijing University of Posts and Telecommunications
2014年3月11日8时53分
2014-3-11
35
NEL-DBR
灾备技术的历史
-衍生
2014-3-11
计算机系统故障分类
36
NEL-DBR
灾备技术的历史
-衍生
19
2014-3-11
NEL-DBR
需要灾备
信息系统灾难就在我们身边 并非遥不可及!
信息系统周围潜伏了无数的灾
难,随时会损坏甚至摧毁信息
系统!
信息系统一旦被灾难毁坏,会对 人民生活、国家政治和国
家经济造成无法估计的影响!
20
2014-3-11
NEL-DBR
灾备基础
灾备的基本概念 信息系统与灾备 灾备的性能指标 灾备的体系结构
从严格意义上说,灾备应该称为灾难备份与恢复 (disaster backup and recovery) –灾难前的备份
不仅仅是数据信息的备份和日志,更重要的还包括信息系统 构建过程中容灾体系结构的设计、提前制定的灾难应急预案 与恢复计划等
–灾难后的恢复
应急服务系统或者备份系统的业务接管、 数据/系统/服务迁移过程中的安全管理、 系统灾难损失评估等
11
2014年3月11日8时53分
NEL-DBR
需要灾备
--原因2
人为灾难发生机率大、危害具有潜伏性和突变性、表现形式多种 多样 人为灾难 人为灾难造成的直接后果包括丢失或泄漏重要数据信息 、性 能降低乃至丧失系统服务功能 、软件系统崩溃或者硬件设 –偶然故障(人为失误、非授权操作等)
备损坏 –Byzantine故障(恶意操作、病毒入侵等)
2014年3月11日8时53分
NEL-DBR
需要灾备
--案例5
2011年日本强烈地震引发的海啸,并造成了核电站泄漏。 已确认造成15773名丧生,并且福岛等三县居民半数人 核辐射水平超标。并且核辐射遍布全球。
9
2014年3月11日8时53分
NEL-DBR
需要灾备
据统计(2007年),在过去的10年中,全球每年受到各 种各样自然灾难(包括地震、水灾、龙卷风等)的影响 的人数大约是2.5亿。
信息系统周围潜伏了无数的灾
难,随时会损坏甚至摧毁信息
系统!
15
2014-3-11
NEL-DBR
需要容灾
--整体表现
有形资产灾难
–硬件系统的损毁
–软件系统的崩溃
–企业生产的中断
无形资产灾难
–数据信息的丢失
–系统服务的中止 –企业信誉的受损
2014年3月11日8时53分
16
NEL-DBR
需要容灾
灾备技术的历史
-衍生
容错计算 容错是指在存在故障的情况下,计算机系统不失效,
仍然能够提供系统服务的特性 容错技术在计算机系统中的应用可以追溯到第一台计算 机系统ENIAC
• 由于ENIAC采用了18800个真空管,而受工艺限制、硬件的 故障率是平均每15分钟就会烧掉一个真空管,因此,该系 统中大量的采用了基于冗余的容错技术来保证系统的可用 性 • 因此,如果没有容错技术,也就不会有了第一台成功的现 代的电子计算机
1
NEL-DBR
主要内容
引言 灾备基础 灾备应用举例 系统灾备的一点思考
2014年3月11日8时53分
2
NEL-DBR
引言
为什么需要灾备?
什么是信息系统灾备?
2014年3月11日8时53分
3
NEL-DBR
需要灾备
信息系统灾难案例 信息系统灾难原因 信息系统灾难后果
2014年3月11日8时53分
信息系统灾难就在我们身边 并非遥不可及!
10
2014年3月11日8时53分
NEL-DBR
需要灾备
--原因1
-自然灾难会造成灾难区域被完全孤立隔离、信息设备损毁严重、 自然灾难 人员伤亡严重。 -自然灾难所产生的直接后果就是 本地数据信息难以获取或保 -天灾 全、本地系统难以在短时间内恢复或重建、灾难对信息系 -人祸 统的影响和范围难以控制。 -自然灾难虽然很可怕,但是据统计仅占灾难3%。
NEL-DBR
灾备
--信息系统与灾备
信息系统的核心结构图
2014-3-11 26
NEL-DBR
灾备
--信息系统与灾备
灾难备份与恢复是信息系统的 信息数据 依赖 基本要求。 信息系统 灾难备份与恢复是信息化社会 社会 数据丢失 一个不可缺少 的基础安全设施。 损失 业务中断
27
2014-3-11
NEL-DBR
相距10~200km内 可抵御火灾、停电、建筑物倒塌等局部性灾难 相距200km以外 可抵御地震、洪水、海啸等大范围灾难
近距离容灾
跨地域远距离容灾
NEL-DBR
容灾
按容灾系统的应用分类 数据级容灾
--分类
数据同步或异步复制到容灾中心 投资少VS业务恢复时间长
保证业务数据、系统数据、网络通信系统 业务恢复时间短 保护整个业务流程 实现技术要求高,难度大,投资多
17
2014-3-11
NEL-DBR
需要容灾
--后果
9.11事件一年后,重返世贸大厦的企业由原先的350家减少到 150家,200家企业由于重要信息系统破坏及关键数据丢失而 永远倒闭消失 2003年AT&T无线对Siebel CRM软件升级中出现问题,把原 本估计一个周末的项目拖延为六个星期,直接导致企业损失1 亿多美元 据互联网数据中心(Internet Data Center,IDC)调查,在 20世纪最后10年中,美国发生过灾难的公司中,55%的公司 当即倒闭,剩下45%中由于信息数据丢失,29%的公司在两 年内倒闭,能生存下来的仅占16%
人为灾难中偶然故障约占32%,Byzantine故障约占7%
机密资料
12
2014年3月11日8时53分
NEL-DBR
需要灾备
--原因3
技术灾难
–设备故障(硬件损坏、电力中断等) 设备灾难主要是以硬件器件的损伤为 –典型特征;设计故障则主要来自人为的 设计故障(软/硬件设计故障等)
考虑不周或逻辑错误,设计错误是其典 型特征,采用相异性的冗余设计方法才 有可能从根本上解决这类问题。 -技术灾难会造成信息、数据的损害或 丢失。 -这一类故障数量占到灾难中的58%。
13
2014年3月11日8时53分
NEL-DBR
需要灾备
--原因
客观原因
– 天灾无法控制 – 人祸不可避免 – 信息系统存在生存期
主观原因
– 信息系统技术本身存在缺陷 – 信息系统缺乏灾难防护能力
14
2014年3月11日8时53分
NEL-DBR
需要灾备
信息系统灾难就在我们身边 并非遥不可及!
灾备技术的历史
-衍生
容错计算
容灾是容错计算中专门专注于对灾难事件处理的相关 技术,是容错计算中一个重要的研究方向。
到目前为止,容灾所用到的相关技术仍然没有脱离开 容错的基本技术和方法 容灾技术就是目前耳熟能详的广义灾备技术。
灾备技术从容错计算中衍生
2014-3-11 33
NEL-DBR
国际上一直对容错计算比较重视:容错专委也是IEEE和
ACM协会中具有最老资格专业技术委员会之一
34
2014-3-11
NEL-DBR
灾备技术的历史
-衍生
容错技术是提高系统可靠性的有效手段,通过自动 监测、自动甄别-隔离-排除等技术手段,保证系统 完成预期的目标。一般来说,整个过程不需要用户 干预,对用户透明 除功能子系统外,容错系统通常还包括 –故障检测子系统 –备份子系统 –系统恢复与重构子系统
NEL-DBR
相关概念
容灾规划:指为了减少灾难对业务信息系统的关键业务 流程造成的影响而采取的一系列的行为 容灾演练:指用于训练人员和提高灾难恢复能力的活动 ,包括桌面演练、模拟演练、操作演练和演习等。 应急响应计划:指为了应对紧急事件,详细说明在灾难 之前、之中和之后应当采取行动的路线图。
RPO 对应着灾难造成的数据丢失。 -如果RPO=0,相当于没有任何数据丢失 -否则,就需要进行业务恢复处理,修复数据丢失
2014-3-11
31
NEL-DBR
灾 备 技 术 的 发 展
灾 备 技 术 的 提 出
灾 备 技 术 的 衍 生
灾 备 技 术 的 历 史
32
2014-3-11
NEL-DBR
灾备
--体系结构
在信息领域,灾备系统可以理解为是以存 储系统作为基本支撑系统、以网络作为 基本传输手段、以容错软硬件技术为 直接技术手段、以管理技术为重要辅助 手段的综合系统。
灾备系统结构简图
2014-3-11 28
NEL-DBR
容灾
--分类
按生产中心和容灾中心的距离分类 本地容灾
生产中心与容灾中心在同一建筑物内 可抵御软件故障、硬件故障等本地灾难
4
NEL-DBR
需要灾备
--案例1
911事件发生中,世贸中心1200家企业的信息化系统 (其中不乏摩根士丹利这样的巨型跨国公司的信息中心) 全部损毁,本地数据全部丢失。
5
2014年3月11日8时53分
NEL-DBR
需要灾备
--案例2
2002年7月23日,北京首都国际机场离港系统出现故 障停机1小时,60个航班和约6000名旅客被延迟。