数据容灾系统及相关技术RTO和RPO
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 容灾相关概念
2.1 容灾定义
容灾(Disaster Tolerance),就是在灾难发生时,在保证应用系统的数据尽量少丢失的情况下,维持系统业务的连续运行。
和容灾比较容易混淆的概念有容错和灾难恢复。容错是指在计算机系统软硬件发生故障时,保证系统能继续运行的能力,主要通过硬件冗余和错误检查等技术来实现;容灾是通过系统冗余、灾难检测和系统迁移等技术来实现。灾难恢复是指灾难发生后,系统恢复正常运行的能力;而容灾指灾难发生时保持系统不间断运行的能力。
1.2 容灾分类
容灾可以区分为离线式容灾(冷容灾)和在线容灾(热容灾)两种类型。
离线式容灾主要依靠备份技术来实现。首先通过备份软件将数据备份到磁带上,然后将磁带异地保存、管理。数据的备份过程可以实现自动化管理,整个方案的部署和管理比较简单,投资较少。缺点在于:系统的数据恢复较慢,备份窗口内的数据丢失严重,实时性差。对RTO (Recovery Time Objective)和RPO(Recovery Point Objective)要求较低的用户可以选择这种方式。
在线式容灾中,源数据中心和灾备中心同时工作。数据在写入源数据中心的同时,实时地被复制传送到灾备中心。在此基础上,可以在应用层进行集群管理,当生产中心遭受灾难、出现故障时,可由灾备中心自动接管并继续提供服务。应用层的管理一般由专门的软件来实现,可以代替管理员实现自动管理。在线容灾可以实现数据的实时复制,因此,数据恢复的RTO和RPO 都可以满足用户的高要求。因此,数据重要性很高的用户都应选择这种方式,比如金融行业的用户等。实现这种方式的容灾需要很高的投入。
容灾备份系统按照灾难防御程度的不同,可分为数据容灾和应用容灾。数据容灾是对应用系统数据按照一定的策略进行异地容灾备份,当灾难发生时,应用系统暂时无法正常运行,必须花费一定时间从灾备中心恢复应用关键数据至本地系统以保证业务的连续性和数据的完整性,因为异地容灾备份系统只保存了灾难发生前应用系统的备份数据,因此数据容灾可能会产生部分数据丢失。应用容灾是在异地建立一个与本地应用系统相同的备份应用系统,两个系统同步运行,当灾难发生时,异地系统会迅速接管本地系统继续业务的运行,不需要中断业务,这样使得应用系统使用者察觉不到灾难的发生。应用容灾比数据容灾防御灾难破坏能力要强,它能够更好地保持业务的连续性和数据的完整性,而数据容灾会出现业务的暂时中断,需要花费一定的时间后才能重新维持业务的连续性,并且可能产生部分数据的丢失。
1.3 容灾等级
数据容灾备份是通过在异地建立和维护一个存储备份系统,利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。
根据对灾难的容忍能力、系统恢复所用的时间及数据丢失的程度,数据容灾备份系统可以分为七个等级。
第0级:本地数据容灾。即只能在本地进行数据备份,数据本地保存。当灾难发生时,只有很低的灾难恢复能力,而且无法保证业务的连续性。
第1级:本地应用容灾。当因磁盘损坏等灾难发生时,系统能够迅速切换,保证业务的连续性。
第2级:异地数据冷备份。将本地关键数据进行备份,并送往异地保存。当灾难发生时,对系统关键数据进行恢复。该级别的数据备份成本低,但存储介质难管理,当灾难出现时,损失的数据量大。
第3级:异地异步数据容灾。在异地建立一个数据备份站点,通过网络采用异步方式进行数据备份。当灾难发生时,利用备份站点的数据进行恢复。它与第2级别的灾难容忍程度相同,但它采用网络进行数据复制,两站点数据同步程度高。
第4级:异地同步数据容灾。在异地建立一个数据备份站点,通过网络以同步方式进行数据备份。当灾难发生时,数据丢失量比第3级小,但与第3级存在同样的问题,就是数据恢复速度慢,无法保证业务连续性。
第5级:异地异步应用容灾。在异地建立一个与源应用系统完全相同的备用系统,并采用异步的方式进行数据同步。当灾难发生时,备用系统接替源问题系统继续工作,但会存在少了数据丢失。
第6级:异地同步应用容灾。在异地建立一个与源应用系统完全相同的备用系统,并采用同步方式进行数据复制。当灾难发生时,备用系统完全接替源问题系统进行工作,并且可以实现数据零丢失。
1.4 容灾技术指标
从技术上看,衡量容灾系统有三个主要指标:RPO、RTO和备份窗口(BACKUP WINDOW)[8-9]。
1、RPO(Recovery Point Objective),即数据恢复点目标。主要指的是业务系统所能容忍的数据丢失量,在同步数据复制方式下,RPO等于数据传输时延的时间;在异步数据复制方式下,RPO基本为异步传输数据排队的时间。
2、RTO(Recovery Time Objective),即恢复时间目标。主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。RTO 描述了恢复过程需要花费的时间。例如:假设在时间点t1启动恢复过程并且在时间点t2完成恢复,那么RTO就等于t2-t1。RTO值越小,代表容灾系统的数据恢复能力越强。
RPO针对的是数据丢失,而RTO针对的是服务丢失,二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。RPO与RTO越小,系统的可用性就越高,当然用户需要的投资也越大。目前,国际上通用的容灾系统的评审标准为Share78:
(1) 备份/恢复的范围;
(2) 灾难恢复计划的状态;
(3) 业务中心与容灾中心之间的距离;
(4) 业务中心与容灾中心之间如何相互连接;
(5) 数据是怎样在两个中心之间传送的;
(6) 允许有多少数据被丢失;
(7) 怎样保证更新的数据在容灾中心被更新;
(8) 容灾中心可以开始容灾进程的能力。
Share78只是建立容灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标。建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,所以,容灾中心的设计指标主要与容灾系统的数据恢复能力有关。
3、BACKUP WINDOWS,即备份窗口。一个备份窗口指的是在不严重影响使用待备份数据的应用程序的情况下,完成一次给定备份的时间间隔,由需要备份数据的总量和处理数据的服务架构的速度来决定。为了保证备份数据的一致性,在备份过程中数据不能被更改,所以在某些情况下,备份窗口是数据和应用不可用的间隔时间。
2. 容灾系统关键技术
容灾备份系统常用的技术包括镜像技术、快照技术、连续数据保护技术和重复数据删除技术等。
2.1 镜像技术
镜像(Mirroring)是数据冗余的一种形式,是将一个磁盘上的数据在另一个或多个磁盘系统上生成完全相同的数据副本的过程。它分为主镜像系统和从镜像系统。根据两系统所处地理位置的不同分为本地镜像和远程镜像。本地镜像的主从镜像系统处于一个局域网中,远程镜像的主从镜像系统通过城域网或广域网相连。
本地镜像的一个明显缺陷是当地震、火灾等灾难发生时,主从镜像系统都会遭到破坏,起不到容灾的目的。远程镜像避免了这个缺陷,是容灾备份的核心技术。远程镜像又分为同步远程镜像和异步远程镜像。同步远程镜像是将本地数据以完全同步的方式复制到异地镜像系统中,每一次本地I/O都需要等待远程复制结束后才能释放;异步远程镜像则是本地I/O操作由本地系统确认,然后再向远程系统更新数据。同步远程镜像的优点是灾难发生时数据丢失率为零,保证了数据的绝对安全,缺点是本地系统的性能受异地镜像系统影响。异步远程镜像则在灾难发生时会有很小的数据丢失而导致主从镜像系统数据不一致,但是它减少了异地镜像系统对本地系统性能的影响,加快了数据处理能力。远程镜像系统的成本要高于本地镜像,但RPO和RTO性能要优于本地镜像,因此,企业或机构可以根据具体需求选择合适的解决方案。
2.2 快照技术
SNIA(存储网络行业协会)对快照(Snapshot)的定义是:关于特定数据集合的一个完全可用拷贝,该数据集包含源数据在拷贝点的静态映像,是数据再现的一个副本或者复制。快照实际上是建立了数据的目录表,保存了源数据在存储设备上的数据指针,作用是提供在线备份和恢复服务,用户可以访问快照数据而不影响应用系统对元数据的正常操作,灾难发生时可以将数据恢复到快照产生的时间点。
快照分为全拷贝快照和差分快照两大类。全拷贝快照是对整个数据集的复制(类似于全量备份概念),具体实现方法有分离镜像(Splitting a mirror)技术;差分快照只对上次快照之后改变的数据复制(类似于差量备份概念),具体实现方法包括写即复制(CoW)、写即重定向(RoW)和随处写(WA)等。写即复制(CoW: Copy on Write)指写操作发生时,首先读出写操作将要覆盖地址的当前数据至专门的空间并为这些数据建立索引,然后执行写操作,因此当前磁盘的写路径受拷贝影响。写即重定向(RoW: Redirect on Write)指当执行写操作时,源磁盘