云计算大数据中心容灾备份项目设计方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

云计算大数据中心容灾备份项目
设计方案
XXX科技有限公司
2023年XX月XX日
目录
一概述 (3)
二建设目标 (3)
三建设内容 (4)
四规划设计 (4)
4.1 政务云灾备架构规划设计 (6)
4.2 部署方案设计 (7)
4.3 灾备服务等级设计 (8)
五解决方案 (10)
5.1 数据库备份 (10)
5.2 业务文件备份 (10)
5.3 业务应用操作系统备份 (10)
5.4 虚拟化平台备份 (11)
5.5 数据压缩 (11)
5.6 全局源端重复数据删除 (11)
5.7 断点续传 (12)
5.8 备份数据有效性验证 (12)
5.9 备份空间测算 (12)
5.10 备份策略规划 (13)
5.11 灾备数据恢复服务 (13)
5.11.1 虚拟机自动异机恢复 (14)
5.11.2 文件丢失与误删 (14)
5.11.3 数据库故障 (14)
5.11.4 服务器系统故障 (14)
一概述
随着信息化建设逐步深入,依托云计算,大数据,人工智能等新技术的新一代云中心在统筹利用信息化资源,统筹管理和节约国家信息化支出方面,已经取得了很大的成效,从全国范围来看,各委办局业务上云已经初具规模,各地市云平台建设渐入佳境。

但是,地震、水灾、火灾等天灾突如其来;错误操作、人为破坏、恐怖袭击等人祸防不胜防;设备失效、软件错误、通讯中断、病毒木马等技术风险无处不在。

在各级政府越来越依赖信息系统安全运行的今天,一旦业务中断、数据丢失,可能造成的是致命威胁。

甚至导致政府正常运转和对外服务中断。

数据显示,40%的政府机关平均 3 年就会遇到一次意外威胁,云计算大数据中心作为今后政府行业信息化运行的平台,没有一个健全的灾备体系来应对这些事故隐患,造成的后果是无法用金钱来衡量的。

为贯彻中共中央国家政务信息化工程建设规划,国家信息化领导小组《关于加强信息安全保障工作的意见》和国务院《关于加快推进互联网+政务服务工作的指导意见》的精神,结合XXX云计算大数据中心的建设规划,将统筹规划和建设云灾备中心,以可以满足日益增长的云业务系统灾备需求,有效应对信息安全事件频发的严峻形势,而且能够避免政府信息化建设投资分散和重复建设,实现基础设施、信息资源、技术人力资源的共享,确保信息化公共基础设施建设的科学、有序发展。

XXX云计算大数据中心是XXX智慧城市的核心,数据的安全是整个系统的关键所在,数据的容灾备份是整个系统的安全保护的重要环节。

本次将以两地三中心为最终的数据安全建设目标,分步部署,分期实施,逐步扩展的方式进行建设,在第一期将建设数据的本地容灾备份体系,保证数据的安全。

二建设目标
云计算大数据中心灾备系统建设是一个复杂的工程,既要满足当前灾备建设的需要,又要规划未来云计算大数据中心灾备系统的升级和发展。

云计算大数据中心灾备系统的建设,主要是为了实现,当云计算大数据中心业务数据发生错误或丢失时可以快速,准确的恢复数据,同时将关键业务的数据丢失风险降到最低。

总体目标体现如下:
1.关键业务应用系统RTO 小于等于30 分钟;RPO 小于等于4 小时;
2.非关键业务应用系统RTO 小于等于2 小时;RPO 小于等于24 小时;
三建设内容
云计算大数据中心灾备系统是涉及多个层面的系统工程,按照建设目标要求,主要完成以下建设任务:
1、标准、规范体系:研究制定灾难备份相关技术标准、管理规范,形成标准规范体系,是系统工程科学实施的重要前提。

根据国际、国家在容灾备份方面的现有标准规范,结合我省实际情况,开展灾难备份业务标准规范的地方化建设。

主要包括容灾备份业务管理标准、操作标准、业务实施标准等。

2、基础设施:基础设施建设是系统工程建设的基础。

主要包括:对现有机房规划和建设,为本地灾备系统的实施进行部署规划;在后期升级改造中,依托电子政务外网和通信运营公司的光纤资源,组建灾备系统基础网络,提供多种网络接入方式;按照技术方案,对容灾备份硬件设备进行系统集成,建成高速、海量的灾备存储池,提供多种介质备份手段。

3、灾备系统:灾备建设是云计算大数据中心系统工程的核心环节。

建设统一的灾备业务管理平台,对外能提供多种等级的灾备服务,对内能实施高效、集中的管理。

主要包括:数据备份、数据恢复、灾备演练、基础设施集中监控、灾备网络管理等。

4、信息安全保障体系:信息安全保障体系建设是系统工程正常运行的重要保障。

本项目将通过物理安全、网络安全、数据安全、管理安全等几方面技术手段和管理措施的实施,结合信息安全测评的技术规范和手段,确保云计算大数据中心灾备系统的安全运行。

四规划设计
政务云灾备规划设计分为3个部分:政务云平台中各委办局业务数据本地备份、异地灾备中心建设、专业的灾备运营服务建设。

2014年中央网信息办颁布的《关于加强党政部门云计算服务网络安全管理的意见》中,明确提到政务云上数据“安全管理责任不变,数据归属关系不变、安全管理标准不变、敏感信息不出镜。

明确党政部门始终是网络安全的最终责任人”的建设要求,政务云上业务数据安全是必须得到保障的。

从数据安全角度可考虑,生产数据必须三个副本以上,才能达到99.8%以上安全性,未来政务云灾备数据平台构成三副本备份体系,是最终灾备建设的一个重要目标。

政务云灾备服务将作为SaaS云服务模式对外服务,服务对象不仅仅是政务云平台数据,也可以对各委办局未上云业务提供集中灾备服务,在设计中我们将考虑不同等级备份数据彼此独立,空间不共享和数据不混杂的要求,确保满足等级保护三级的规范要求。

同时在灾备云平台上实现多租户管理,实现计量计费的功能,为汇总和分摊政务云资源开销提供数据依据。

政务云灾备中心建设,集中是第一步,存储资源池,计算资源池,应用资源池与备份资源池,实现平台构建之后。

实现了各委办局业务的集中,访问,资源的集约化,平台业务的安全性保障。

但数据中心级灾难还是无法避免,一旦生产数据中心出现风险将有可能引起连锁“骨牌效应。

所以,灾备中心必须独立于生产中心,不能依附在生产中心之上,否则灾后重建就无从谈起。

异地灾备中心除了实现数据远程备份,还需要保证重大灾难事故后,在异地能临时接管
政务云平台,短时间内实现对外服务。

所以日常的灾备演练将作为运维工作的重点。

政务云灾备中心不是一个简单的数据备份产品的堆栈。

由于数据量大,涉及到的设备较多,所需要的运维能力远远大于设备的本身的功能特点。

随着数据量的加大,未来备份存储柜的数量也会呈几何倍数的增长。

运营能力的重要性不言而喻,此时所需要的是一个能够基于全局进行整体调度,协调各备份资源,通过统一的界面划分不同的备份子资源池,应对数量庞大的备份资源类别与安全服务级别(SLA)的要求,并且能够进行实时查看备份的实现效果。

为政务云整体安全提供有效的报表分析,运维能力分析与风险分析。

4.1政务云灾备架构规划设计
本次政务云灾备中心的设计基于对业务平台及其数据的保护为基本要求,方案采用最新一代灾备平台实现对所有业务平台及数据的备份保护机制,针对本次政务云项目的政务外网和互联网数据中心进行数据备份保护,政务外网和互联网数据中心之间在灾备资源方面,为了满足三级等保要求,采用链路,平台及备份介质资源池互相隔离模式部署。

同时将政务外网和互联网数据中心灾备数据集中备份到异地灾备中心。

由于项目涉及到多个备份主模块,在备份运维管理监控方面,采用统一的备份云管理平台进行备份任务运行状况监管,备份资源平台统一管理等功能特性。

项目的灾备体系建设思路整体以云灾备模式建设,可提供自助式申请备份资源,进行对多地多台备份服务器的计算资源、介质资源、任务运行状况、审计报告、统计报表分析等运营。

通过集中管理分散的备份设备,提升IT管理员工作效率,保证高效率的运维管理。

方案配置:在数据中心部署灾备云管平台,将分支机构统一部署的系列设备,接入统一管理,为每个分支机构分配一个或多个区域管理员,负责区域内的运维管理。

IT管理员可实时监控设备和资源的运行状态,根据突发情况快速制定应急方案。

灾备云架构设计:
➢用户层:基于ALL-in-Web 统一管理框架,进行系统配置、资源分配、用户分配、查看报表、查看监控Dashboard等,实现对中心和分支机构的统一监管。

➢业务层:灾备云管理系统定期采集备份设备信息,监控系统运行情况,对异常情况及时预警。

➢数据层:管理各自备份业务的执行,业务执行情况上报灾备云管理平台。

4.2部署方案设计
本次方案设计在整体云平台设计方面采用国产云平台部署,实现政务外网和互联网数据中心业务的业务平台级高可用,通过定时备份对业务系统及业务数据进行数据保护,达到数据出错或丢失时可以实现业务数据恢复,具体拓扑如下图:
如上图所示,解决方案中的政务外网和互联网数据中心分别部署国产云平台,通过网络与安全设备实现政务外网和互联网数据中心的业务隔离。

为了防止数据出现人为误删除、逻辑错误、物理故障及自然灾害等问题,在政务外网和互联网网段内分别部署灾备节点,根据政务外网业务及互联网业务的数据量情况取决部署的节点数量。

本次项目灾备存储空间按照政务外网600TB,互联网300TB进行规划设计。

整个灾备云服务区域分别部署于政务外网和互联网数据中心内,并部署独立于业务系统的云平台,在数据中心中专门开辟的一个区域,包含了灾备数据保护的基础设施和实现灾备过程的相关组件,用于各委办局的灾备平台管理、备份、恢复和数据副本的保留;为了便于管理与统一的灾备平台运维监控,采用灾备云管理平台实现对政务外网和互联网数据中心内的所有灾备节点进行统一管理,包含实现对灾备平台的计算资源、存储资源、备份任务执行监控,备份任务执行结果等信息的统一运营。

整个灾备云服务区域除了对本地业务系统及数据异地灾备中心容灾外,还可以用户平时的灾难演练、数据迁移、业务切割提供有效的保障措施。

4.3灾备服务等级设计
灾备云中心服务等级设计充分考虑灾备中心以及生产中心设计两个方面,符合相关法规要求。

同时按照系统分级,分别完成一般业务系统、重要业务系统以及核心业务系统灾备分
析,并实现不同层级的保护。

最终实现介质级、数据级以及应用级容灾,并可通过灾备管理系统统一监管,满足运维要求。

重要业务系统实现异地数据级灾备,核心业务系统实现应用级灾备。

同时,对于数据存储及容灾业务本次将预留扩展能力,明确业务类型和服务方式,由业务使用单位提出申请,依据申请情况展开建设。

针对本项目中市政务云核心业务系统实现业务恢复的容灾备份需求,在灾备平台建设资源池,支撑实现应用系统的应用接管功能;按照现有核心业务系统的规模和业务类型,配置服务器,重点进行业务连续性保护,考虑业务负载,配合实现高性能备份存储,以保证输入输出(IO)能力、吞吐能力的合理支撑,且后续可继续平滑扩展。

五解决方案
5.1数据库备份
政务云的信息系统中的数据可分为结构化数据和非结构化数据,其中在数据库方面有Oracle数据库、SQL数据库,国产数据库等,对于这些常见的数据库,根据其存放的数据重要性和承载的前端业务系统的重要程度,需要考虑创建合理、合适的备份策略。

通过灾备平台,支持常见数据库的在线的全自动备份,备份时无需停止数据库服务,不会中断业务系统。

以Oracle数据库为例,建议采用如下备份保护策略:
根据数据量情况,建议可采用全备份+增量备份+差异备份的方式,每周五/周六(访问空闲时)晚上进行一次全备份,每天晚上进行一次增量备份,每4小时进行一次差异备份;
如果数据库变化频繁,在考虑网络压力、主机负载的情况下,可适当地对差异备份周期进行调整;
视数据重要程度配置数据保留周期,建议至少保留一个月。

创建Oracle备份作业时,可通过Oracle备份接口,以库为单位,进行有选择的备份:5.2业务文件备份
灾备平台需支持对各类非结构化数据(如Office文档、图片、音视频文件、各类附件、系统日志、应用程序日志、安全日志等)进行在线备份,并支持对打开的文件进行备份;可根据文件的变化情况和数据量大小,创建合适的备份策略。

倘若数据量不大,且变化频繁,建议每天晚上进行全备份;
倘若数据量较大,可采用全备份+增量备份备份的方式,每周五/周六晚上进行一次全备份,每天晚上进行一次增量备份;
如果数据变化很少,基本可以考虑每月全备份一次即可;
视数据重要程度配置数据保留周期,建议至少保留一个月。

5.3业务应用操作系统备份
灾备平台支持Windows和Linux的操作系统在线备份,可在操作系统运行时执行备份任
务,无需进入DOS环境下备份。

备份时不影响系统的运行,无需中断业务系统。

对于操作系统来说,由于其变化较少,建议在业务系统配置、测试完毕并正式上线运行时进行一次全备份,然后创建备份计划,每月至少全备份一次;并且在操作系统发生变化时(如安装操作系统补丁、数据库补丁、应用程序补丁、安装新的应用程序等),变化前手工发起一次全备份,以防止安装补丁等情况导致系统故障的现象;变化发生后若系统正常运行,再手工发起一次全备份,以创建最新的系统还原时间点。

5.4虚拟化平台备份
灾备平台为用户提供全面且有针对性的虚拟化平台保护方案,帮助用户解决如下虚拟化备份和恢复难题:支持保护的虚拟化平台包括:
•VMware虚拟化平台
•Hyper-V,Hyper-V故障转移集群
•Huawei FusionSphere虚拟化平台
•H3C CAS虚拟化平台
•云宏虚拟化平台
针对FusionSphere的保护主要是针对其虚拟化平台FusionCompute的保护。

其备份和恢复特点如下:
➢其备份内容为虚拟机磁盘文件和虚拟机配置信息。

➢支持无代理备份方式,无需在虚拟机中安装客户端,即可通过代理客户端使FusionSphere虚拟化平台与AnyBackup管理控制台连接,进行网络通信。

➢支持的备份类型包括完全备份和增量备份。

➢支持CBT备份,只备份虚拟机磁盘的变更数据,提高备份效率。

➢FusionSphere定时备份的备份粒度和恢复粒度为虚拟机,其恢复方式为浏览恢复。

➢FusionSphere虚拟机的恢复位置支持恢复至指定位置,包括原虚拟化平台或其他虚拟化平台。

➢支持恢复后的虚拟机保留原虚拟机名称,或者重命名所恢复的虚拟机。

5.5数据压缩
在进行本地备份时,进行对备份的数据进行压缩,从而减少需要传输的数据量;5.6全局源端重复数据删除
首先通过各数据中心内部的灾备,对本地的备份数据进行源端去重,从而减少需要传输
的数据量;然后在传输到灾备平台中的备份介质中,同时政务外网和互联网数据中心将数据远程复制传输至异地灾备中心,确保在多地数据中心中的重复数据只备份一次,最大程度上减少备份数据量,有效地节省带宽,并提高数据复制效率;
5.7断点续传
在进行数据远程复制时,当发生网络中断,可通过断点续传功能,在网络恢复正常后可自动基于上一次断点处进行续传增量传输数据,确保已传输/复制过的数据,无需再重复传输/复制,从而可确保一个较稳定的复制效率。

5.8备份数据有效性验证
备份的目的就是为了恢复,因此,定期验证备份数据是否有效非常的重要。

爱灾备平台针对不同的数据类型,均支持备份数据的有效性验证:
文件数据:可以采用完整恢复或者部分恢复的方式,将数据恢复到某台服务器的指定位置,验证数据是否有效即可。

服务器整机:可准备一台服务器或者PC机,将备份的操作系统直接恢复到服务器或者PC机上,恢复完毕后验证即可。

数据库:可准备一台服务器或者PC机,将备份的操作系统直接恢复到服务器或者PC机上,恢复完成后再将备份的数据库恢复,完成后进行验证即可。

5.9备份空间测算
做数据备份空间测算时,首先需要明确的是:如果对系统数据安全性要求在99%以上,除生产系统数据外至少需要两个副本才能有效保障。

对于政务云数据中心来说,容灾等级至少应达到3级以上,即数据中心应存有3 份备份数据(其中一份在生产环境),存放于2种不同介质,并有1份副本自动通过网络传输存放于异地环境。

从而达到容灾3级数据保护要求标准,RTO约为12-24小时,RPO小于24小时。

本项目因一期阶段建设目标是先完成本地备份,因此可以采用以下公式进行备份容量空间的规划测算:C=[(Q1+Q2*d)*m*(1+I)]*(1+u)
其中:Q1是系统中的总数据量,Q2是每日数据改变量,d是增量备份的天数,m是备份空间计划使用周期。

i为数据增长量,u是因磁盘坏道与其他不可预知因素带来的空间损失,约为30%。

本次项目Q1=130T,接每天做增备,每周一次全备,备份计划使用周期1个月计算,C=[(100+10*6)*1*(1+0.2)]*(1+0.3)=249.5T; 可以得出本地备份规划空间至少需要提供250T 磁盘空间。

5.10备份策略规划
灾备管理平台提供数据保存副本策略设置,通过设置单个任务中备份数据副本的最大保存数量,控制备份数据的存储总量。

当备份的完全副本总数超过指定的最大完全副本保存数量时,最新的完全副本将自动覆盖最早的完全副本,从而实现数据的循环删除。

一个完全副本包含的备份数据为:一次完全备份数据,以及基于此完全备份的所有增量备份数据。

系统自动在完成最新一次的完全副本备份后,删除最早的完全副本。

以最大保留2个完全副本为例,其循环备份删除策略运行原理如下:
5.11灾备数据恢复服务
结合操作系统、数据库以及文件的备份,针对不同的数据逻辑性故障,灾备平台,可提供灵活丰富的恢复方案:
5.11.1虚拟机自动异机恢复
灾备平台会根据备份任务的自动恢复计划定时执行恢复。

结合国产云平台实现虚拟机的自动恢复。

具体如下:
灾备平台解析恢复参数,并发送给备份任务对应的内置Client。

然后Client调用国产云平台的接口创建一个与虚拟机系统盘相同大小的云硬盘。

Client调用存储服务的接口找到对云硬盘对应的LUN存储,并将其挂载到本地,并去除备份的数据写入到LUN中,后Client卸载存储,调用国产云平台的接口在数据中心,中心灾备域中指定租户下创建虚拟机(从云硬盘创建)。

然后在通过client恢复其他磁盘数据,之后将云硬盘挂载至虚拟机实现虚拟机自动恢复。

5.11.2文件丢失与误删
灾备平台支持单文件的恢复粒度,当发生文件故障、损坏、误删除时,当源文件发生丢失或者误删除时,可以直接浏览之前的备份时间点进行恢复,直接恢复指定的文件、目录即可,并具备详细的文件覆盖选项;可提供原位置恢复、重定向恢复和异机恢复等多种灵活的恢复方式,可为平时的灾难恢复演练提供测试的平台。

5.11.3数据库故障
灾备平台可根据数据库的故障情况,选择合适的恢复方式。

当数据库发生故障时,可以直接浏览之前的备份时间点,将业务库恢复至指定的位置,从而快速恢复应用。

对于Oracle数据库,在进行恢复时,可根据实际的故障情况,选择需要恢复的库,以实现精准的恢复,从而有效节省恢复时间:
5.11.4服务器系统故障
对于Windows和Linux环境来说,当某业务服务器主机发生操作系统故障或硬件故障时,可在原机器或其他服务器/PC上,通过恢复光盘引导启动,配置网络连接,验证了备份容灾系统的用户名/口令后,可浏览到之前的操作系统备份集,找到合适的恢复点后,进行
联网恢复。

容灾平台可支持原机恢复以及异机恢复,并可将服务器操作系统恢复至虚拟机或者不带RAID环境的PC机上,实现与硬件无关的恢复功能,提高恢复的便利性,在生产服务器硬件发生故障时,可通过异机恢复功能,快速恢复/部署应用系统运行环境,进一步提高业务的连续性,同时避免了重新部署操作系统并安装配置业务系统所带来的时间浪费,也避免配置不当所带来的二次损失。

相关文档
最新文档