备份及容灾策略描述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、备份、容灾系统建设的目的及概述
备份及容灾系统建设的目的是为了防止在异常事故下的数据丢失,一旦运行的数据发生问题,如何从备份介质中恢复出最近的数据,在最严重的事故发生时(如数据中心灾难)如何保护重要生产数据不丢失,是我们真正关心的问题。
我们不希望灾难发生,也不希望任何故障出现。然而灾难的出现往往是突然的、预先不可知的。所以我们应有一套应付各种灾难情况下的灾难恢复解决方案,以备不时之需。我们归纳出以下有可能会出现的几种情况,并提出了相应的解决措施。
✓情况一:主机数据磁盘故障(非系统盘)
✓情况二:主机物理损坏
✓情况三:系统盘物理损坏
✓情况四:操作系统不能启动
✓情况五:磁盘上数据损坏(如由于人为失误、病毒或黑客攻击)
✓情况六:整个数据中心灾难
解决措施:
✧情况一:主机数据磁盘故障(非系统盘)
若数据盘使用了RAID1、RAID5、RAID0+1等技术,则应该可直接热替换
硬盘;
若数据盘已不能访问,则需先修好物理盘,然后从备份介质恢复数据。
✧情况二:主机物理损坏
维修主机;
✧情况三:系统盘物理损坏
替换系统盘;
重新安装装操作系统(需要重新进行配置,恢复时间长),安装备份客
户端软件,通过集中备份系统恢复丢失数据;
通过集中备份系统的操作系统恢复功能恢复全部操作系统;
✧情况四:操作系统不能启动
通过集中备份系统的操作系统恢复功能恢复全部操作系统;
✧情况五:磁盘上数据损坏(如由于人为失误、病毒或黑客攻击)
通过集中备份系统的备份介质上进行数据恢复数据;
✧情况六:数据中心灾难
所谓数据中心灾难,是指一些特殊情况发生时,数据中心的主机系统的存放在磁盘上的数据,以及备份带库中的备份介质上的数据均遭损坏。此时,若没有很好的容灾解决方法,就可能导致严重的后果。
方法一备份数据的异地保护:通过该方法,可生成一个备份内容的多个备份拷贝,其中一份拷贝远程存放。在数据中心对所有生产数据集中备份后,本地保留一份备份介质的同时,可将备份数据通过人工或电子的方式传送到远程的保险库或备份服务器中保存起来。一旦灾难发生,即使本地磁带库中的备份介质完全损坏,还可用远程保存的备份数据在本地或远程进行数据恢复,这种方法免去了日复一日的向远端搬运备份介质,在数据存放速率和恢复速率以及节省人工方面都要先进很多。本方法优点是无需软、硬件投资,可以迅速部署,适合对灾备要求等级小于4的系统;本方法缺点是,异地保护的数据只有前一日营业终了后备份的数据,在真正灾难发生时,可能会有超过8小时以上的数据丢失,不适合重要的联机交易生产数据及灾备要求等级大于4的系统。
方法二建立远程的数据灾备中心:重要生产数据通过存储设备内置的远程复制软件-PPRC提供的对等远程实时复制功能,实时的将生产数据复制到容灾中心存储中。一旦灾难发生,即使本地磁盘阵列完全损坏,待主机系统修复完成后,可以通过容灾中心的磁盘阵列回切,主机重新认盘来找回灾难发生前数据;同时,也可以在容灾中心架设主机系统,识别所有磁盘,在容灾中心启动业务系统以对外提供业务访问能力,待生产中心完全恢复后,将数据传送回生产中心,此时容灾完成,应用系统切回生产中心。该方法优点是保证重要数据可以实时或近似实时的复制到容灾中心磁盘阵列上,适合灾备等级要求为4以上的重要生产系统,缺点是需要一定的软硬件投资。
综上所述,我们决定结合使用方法一和方法二,对现有各应用系统划分等级,核心的征管业务系统数据选用方法二,对征管数据进行实时远程复制,保证核心数据不丢失。同时,对除征管系统以外其他重要应用系统(如财务管理、个税管理)进行如方法一所述的备份数据异地保护。
无论采用何种方法来进行数据容灾,一个运行良好的本地集中备份系统是关键,只有当所有数据在本地得到了很好的保护,才能够避免因数据库、服务器、人工误操作等各种错误导致的数据丢失,数据容灾系统是对本地集中备份系统的必要扩充。
二、本地备份系统容量的计算
◆磁带库容量的计算
在本系统中采用当前性能价格比高的LTO Ultrium 3磁带,它的非压缩容量可以达到400G,压缩的比率是2:1,所以压缩后每盒磁带的容量可达到800G。数据的备份类型分为全备份、差量备份和累计增量备份,正常情况下,每个需要备份的数据源至少要有1个全备份和多个增量备份的拷贝。根据目前数据备份的一般规律,备份容量系数为2.5。按照这种计算方法,磁带库的容量计算如下:
采用非压缩的方法计算:
通过测算,当数据完全集中后,全备份总数据量约500G,每天增量数据最大约1G,以3个月为一个磁带使用周期,每月做一次全备份,每周末做一次累计增量备份,每天做一次增量备份,总备份数据量约为500G×3 + 3G*4*3 + 0.5G*6*4*3 = 1644G左右;根据数据备份的一般规律,通常备份系数为
2.5,那么所需的磁带总容量应1644*2.5=4110G,需400G磁带至少11盘,
再加上日常对数据库表的逻辑备份、操作系统备份、应用数据备份的需要,目前配置支持20盘磁带以上槽位的磁带库(8T),留有适当余地。
◆备份窗口的计算
当前的性能价格比较好的LTO Ultrium 3的磁带机,LTO Ultrium 3的
磁带机非压缩的读写速度可以达到80MB/每秒,压缩后的读写速度可达到160MB/每秒。如果按照一次全备份,磁带驱动器备份时间计算如下:
采用非压缩的方法计算(理论值):
LTO Ultrium 3的磁带机非压缩的读写速度80MB/每秒,实际上按70%——56MB/每秒的速度来计算,双驱动器每月一次500GB数据的全备份则为500×1024÷56÷2=4572秒=77分钟=1.3小时,每天的增量备份所需时间为1000MB÷56÷2=10秒。
可以看出,经过理论值计算,系统内全备份的备份窗口应在2个小时以内,完全可以满足我中心重要系统每日增量备份、每周全备对备份时间要求。 备份数据传输能力的计算与分析
若考虑实现本地备份数据的异地保护,则必须通过生产中心与异地容灾中心的广域网链路传送数据。通过测算,当前全备份总数据量约500G,每天增量数据最大约1G。当前系统能够提供的数据中心到灾备中心的链路带宽为12Mbps,按照实际上70%——8.4Mbps的有效传输速度来计算,要完成每天1G增量数据的实时数据复制,则需要1G×1024×8÷8.4=975秒=17分钟。
但是如果假定对操作系统、应用数据进行一次全备,总数据量为500G,并要求对备份数据进行异地保护,则需要500G×1024×8÷8.4=487620秒=8127分钟=136小时,这样的时间显然无法忍受。所以我们建议首先对重要的业务系统进行划分,已进行基于磁盘阵列远程数据复制的征管数据库数据无需再做备份数据异地保护,同时,其他重要系统(公文、人事、税收执法、网上申报、内外网网站、货运税控、个税管理),如果数据不频繁变动的业务数据库系统可以采用离线介质异地保存的方式完成备份数据异地保护,非数据库系统可以采用永久增量备份策略延长全备周期,这样计算下来,业务数据异地保护也可以在规定时间内完成。当然,必须每日通过备份软件自动生成灾难恢复流程,检验异地备份数据是否完整,必要时可以制定内部流程,定期将异地备份数据调回本地检验完整性。同时,面对数据日益增加的问题,可以考虑在3-5年后增加生产中心至容灾中心链路带宽,保证重要数据能够在本地集中备份并自动网络传输到异地进行数据保护。