数据中心容灾备份解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2级 备用场地支持
1级 基本支持
应用级容灾 数据级容灾方案+容灾应用软件
数据级容灾方案 异地备份方案
备份方案 备份方案
容灾设计模式:同步、异步相结合
可用性
高
热备份
双活
同步容灾:有距离限制
低
暖备份
2
高
1
4
3
冷备份
低
资源利用率
RPO:0s,两个镜像完全相同
异步容灾:无距离限制
3
1
2
4
RPO:从30min到数小时,定期更新 目标
CIO想什么
风险分析 Risk Analyze
机房内事件
x • 系统单点故障、机房电源系统故障、广域网故障、机 房漏水、空调系统故障、存储阵列关键设备故障、人 为破坏、软件逻辑错误、信息安全故障等
建筑物灾难
• 建筑物外部火灾、建筑物内部火灾、机房内部火灾、 长时间停电、光缆中断等
区域性灾难
• 机房所在区域或有紧密联系的地区交通、电讯、能源 及其它关键基础设施遭到严重破坏,或大规模人口疏 散的事件
生产力损失 员工数 x 影响 x 小时 x 恢复额外工作 = ?
名誉损失: 客户, 竞争对手的获益, 供应商, 资本市场, 业 务合作伙伴
财务业绩损失: 营业额的确认, 现金流, 信用评级, 股价, 违规 罚款
$万
$ I影响
$ 上亿
指数型增加
分
时间
财务业绩损失 名誉损失 生产力损失
直接收入损失
直线型增加 天
预定时间调配数据,通信线路和网络设备 备用场地管理制度 设备及网络紧急供货协议
每周至少做一次完全数据备份 制定介质存取、验证和转储的管理制度 完整测试和演练的灾难恢复计划
企业关注灾备的主要问题
领导想什么
我们企业对信息化依赖性如何?如果企业关键业务中断会带来什么样的损失? 寻求什么样的合作伙伴支撑,有效保障业务的连续性? 如何平衡投入和产出?需要投入多少资金?哪种容灾建设模式最适合我们企业? 目前的IT支撑团队的能力能否支撑未来容灾建设和维护?该怎么样调整组织架构匹配业务发展需求?
RTO (Recovery Time Objective):
以应用为出发点
能够容忍的应用系统恢复时间 段
生产中心 RPO
容灾中心 丢失数据量
生产中心 应用服务
容灾中心 RTO
切换时间
灾备系统建设的国际标准
根据SHARE 78国际组织提出的标准,可以将系统容灾的级别划分为如下7级。
费
远程灾备中心
没有BCP的情况
返回正常
最小生产能力目标 可容忍的最小 生产能力
时间
引入BCP后的情况
目录
1 灾备建设意义 2 灾备设计方法 3 华为灾备解决方案 4 华为的优势 5 成功案例
容灾建设等级对标分析
6级
数据零丢失和 远程集群支持
5级
Biblioteka Baidu
实时数据传输 及完整设备支持
4级
电子传输及 完整设备支持
3级
电子传输和 部分设备支持
容灾和备份
备份:备份是容灾的基础,通常指在数据中心 内,将全部或部分数据集合从应用主机的硬盘 或阵列复制到其它的存储介质的过程。
DC1
MA
MA
iDA
iDA
SAN
Production Center
CS MA
Backup & Archive Server
VTL/NAS
PTL Backup Center
APP APP
OS APP OS OS
物理机
DB APP
FC SAN VIS
用
Tier 7 – 接近0或0数据丢失,远程数据镜像,且业务环境可高自动化系统接管
Tier 6 – 接近0或0数据丢失,远程数据镜像保证数据的完整性和一致性
Tier 5 – 软件级,两地间两阶段提交(交易完整性)
可用的备份中心
Tier 4 – 批量/在线数据库镜像或日志传输
Tier 3 – 电子链接传输
灾备模式
EDC
两地三中心
双活容灾 异地备份 异地容灾 本地备份
RDC
远程集中容灾
远程集中备份
本地备份
MDC 集中备份
至EDC 集中备份
至RDC 冷备
同城/异地数据中心灾备建设方案(两地
三中心)
生产中心
同城灾备中心
Internet IP WAN
异地灾备中心
虚拟机
APP APP
OS APP OS OS
识别关键业务功能和应用系统 识别应用系统之间的相互关联和支持关系 确定当在预定的时间内无法正常运行时,
对关键业务造成的损失及影响(定性和定 量); 确定灾难恢复和业务连续需求(RTO和RPO
);
识别关键的服务时间段和可容忍的性能下 降程度
直接收入损失: 直接损失, 补偿金, 未 来营业额, 账单损失 和投资损失
0.7%
小概率的自然灾害造成的巨大损失不可忽视!
灾备系统建设必要性—数据丢失意味什么
• IDC统计:美国在2000年以前的十年间发生过灾难的公司中,有55%当时倒闭,剩下的45%中,因为数据 丢失,有29%也在两年之内倒闭,生存下来的仅占16%;
• 美国明尼苏达大学的研究表明:在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%在两到三 年后退出市场。而随着企业对数据处理依赖程度的递增,此比例还有上升的趋势。
业务中断对企业影响重大
企业业务如果缺乏业务连续性,关键业务中断对企业影响重大:直接收入损失、生产 力损失、名誉损失和财务业绩损失。
灾难备份也是国家政策法规的要求
美国 《萨班斯法案》 中国中办 《国家信息化领导小组关于加强信息安全保障工作的意见》 中国人民银行 《关于加强银行数据集中安全工作的指导意见》 银监会《银行业金融机构信息系统风险管理指引》《商业银行操作风险管理指引》 证监会《证券公司集中交易安全管理技术指引》 保监会《保险业信息系统灾难恢复管理指引》
容灾:容灾系统是指在相隔较远的异地,建立 两套或多套功能相同的IT系统,互相之间可以
DC1
AOPASOPPASOPPSP
进行健康状态监视和功能切换,当一处系统因
意外(如火灾、地震等)停止工作时,整个应用
系统可以切换到另一处,使得该系统功能可以
继续正常工作。
HA Cluster Mirror
DC2
AOPASOPPASOPPSP
UNIVERSITY
阵列复制 区域数据中心 (RDC)
镜像
RDC1
Media (VTL/NAS/Storage)
RDC2
Media (VTL/NAS/Storage)
RDC3(VTL/NMAeSd/Siatorage)
备份软件
分支机构 Branch
(Micro-DC)
MDC1
MDC2 MDC3 MDC4 MDC5 MDC6 MDC7
了9倍
中国近年灾难的影响
2007年8月国务院办公厅印发的《国家综合减灾“十一五”规划》中指出,据估计我国近年来各类灾情综合直接损失已 高达8%的GDP(大多数发达国家只是千分之几)
自然灾害的种类是多种多样的,洪涝、台风、干旱等每年给国家带来2000亿元左右的经济损失 --国家减灾委 受汶川地震影响,整个银行业净损失约在50亿~130亿人民币, 没有灾备中心的城商行影响很大,08年银行业净利润下滑
一般意义上,容灾指的是不在同一机房的数据或应用系统备份,备份指的是本地的数据或系 统备份。通常说的灾备是将容灾与备份结合,即本地备份结合远程数据复制实现完善的数据保护 。
灾备建设 刻不容缓
数据集中化,风险加剧
以运营商、政府、金融、电力等行业为主的各行业逐步建立大型数据中心完成数据集 中处理,数据的集中也意味着风险的加剧,提高企业的抗风险能力,已成为急需考虑 和解决的问题。
容灾模式 双活 热备份 暖备份 冷备份
可靠性方案 集群+负载均衡 集群(cluster) 人工干预 人工强干预
灾备恢复 自动 自动 手动 手动
数据备份需求 实时同步复制(<100KM) 实时同步复制(<100KM) 异步复制(>100KM) 同上
容灾备份解决方案框架
政府行业
国际 标准
国内 标准
6-7级 6级
数据中心容灾备份解决方案
目录
1 灾备建设意义 2 灾备设计方法 3 华为灾备解决方案 4 华为的优势 5 成功案例
灾备系统建设必要性—灾害无处不在
来自国际权威机构瑞士 在保险的统计数据
全球在2004年因自然灾害和人为事故造成的直接损失达到1230亿美元 全球2005年共发生约400起巨灾,损失超过2300亿美元 2006年,自然灾害和人为灾难造成的损失低于长期趋势,直接损失480亿美元 在世界范围内与20世纪60年代相比,到了20世纪90年代,世界上可统计的自然灾害发生率增长了3倍,其经济损失增长
容灾 选型
链路 设计
演练 切换
服务 交付
评估 优化
匹配客户业务和发展策略,提供从战略咨询、容灾规划、业务实施到持续运营管理的专业服务。
华为容灾备份特点
灾备整合优化
-存储虚拟化(VIS和云管理 智能协同
-数据复制、数据传输、业 务迁移与网络/安全的协同
集中灾备管理和调度
-数据中心统一管理和监控 -灾备统一调度、维护
匹配IT变革的 新灾备模式
-双活数据中心,业务双活 -云数据中心灾备,资源复 用,安全可靠
居安思危、思则有备 - 华为数据中心灾备
业务连续性支撑
-整体灾备体系建设 -业务持续运营和优化
灾备数据中心应用场景
灾备技术
企业数据中心
热迁移
(EDC)
数据库 复制
同城
UNIVERSITY
UNIVERSITY
异地
目录
1 灾备建设意义 2 灾备设计方法 3 华为灾备解决方案 4 华为的优势 5 成功案例
灾备关键指标
周天时 分秒
秒分 时 天周
数据恢复时间点
应用恢复时间
故障时间
数据恢复时间点(RPO)
应用恢复时间(RTO)
RPO (Recovery Point Objective): 以数据为出发点 能够容忍的数据丢失量
1小时值多少钱 — 摘自互联网
业务 经纪业务运营 信用卡授权 付费收看 居家购物(TV) 目录销售 预定航班 电子标务销售 ATM费用
行业 金融 金融 媒体 零售 零售 交通 媒体 金融
停机1小时的损失 645万美元 260万美元 15万美元 11.3万美元 9万美元 9万美元 6.9万美元 1.45万美元
时间点备份 15Min 1~4Hr 4~8Hr 8~12Hr 12~16hr 24Hr
Tier 2 – PTAM+热备站点 Tier 1 – PTAM
Days Weeks
RTO
灾备系统建设的国内标准
6级
数据零丢失和 远程集群支持
实现远程数据实时备份,实现零丢失 应用软件可以实现实时无缝切换 远程集群系统的实时监控和自动切换能力
当前企业的IT环境?总数据量有多少,每天会新增多少数据? 我们企业的风险来自于哪些方面?如何规避风险? 业务中断带来的直接经济损失、名誉损失是多少? 对RTO、RPO的需求?哪种容灾建设模式最适合我们企业? 如何构建端到端完整有效的数据保护机制,提升数据可靠性的同时,提升企业的运营效率? 怎样实现绿色高效、节能减排等方面的统一规划以匹配国家战略?
5级
实时数据传输 及完整设备支持
实现远程数据复制技术 备用网络也具备自动或集中切换能力
4级
电子传输及 完整设备支持
3级
电子传输和 部分设备支持
2级 备用场地支持
1级 基本支持
配置所需要的全部数据和通讯线路及网络设备,并处于就绪状态 7*24 运行;更高的技术支持和运维管理
配置部分数据,通信线路和网络设备 每天实现多次的数据电子传输 备用场地配置专职的运行管理人员
金融行业
交通行业
云计算模式
应用级容灾
云双活容灾
能源行业
教育行业
医疗行业
物理机模式
应用级容灾 同城应用级容灾 广域网应用级容灾
4-5级 4-5级
3级
3级
1-2级 1-2级
数据级容灾
云主备容灾
CDP容灾
备份
虚拟机备份
数据级容灾
数据库容灾
阵列复制容灾
虚拟化存储容灾
备份
备份软件备份
一体化备份
……
咨询服务
合作 交付
• 例如:地震、大规模卫生事件、恐怖袭击、电网故障
高可用 冗余设 备,本 地备份
同城 灾备
异地 灾备
RA的目的是针 对当前核心业务 流程,系统环境 和所存在的潜力 风险确定可恢复 能力等级
降低风险的方案 可恢复能力级别
的有效方案
业务影响分析
BIA(业务影响分析)是用以分析当不可 预见的故障或灾害发生时,对关键业务 经济上和业务操作造成的影响的分析方 法和流程.
风险和投资平衡
根据系统重要程度采取不同的恢复策略,平衡风险损失和系统建设投资
投入/ 运维成本
可接受的 停机时间
业绩 损失
投入多 数据丢失少
平衡点
投入少 业绩损失大
投资
恢复时间
允许的投资
业务连续性管理(BCM)的效果
灾难发生
事前
事中
事后
生 100% 产 能 力
BCP的效果 恢复
恢复时 可容忍的最大 间目标 中断时间