大数据容灾备份技术挑战和增量备份解决方案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract
Big data has become the focus of the social attention, it will raise a new competition in science and technology and comprehensive national strength, especially in the disaster recovery and backup data. Therefore, based on the analysis of the current industrial status and the requirements about big data disaster recovery and backup, the advantage and disadvantage of several typical technology solutions were discussed, then a better incremental backup data recovery solution was proposed. This solution can support minute RPO, and meet current requirements about the disaster recovery and backup data.
RPO 1天 至7天 1天 至7天 数小时至1天 数小时至1天 0~30 min 0
下,可以 选用累计备 份 的 方 式。若数 据量 更 新 很频 繁,更 新 量 又很 大,那么备 份周 期后几次的累计备份数 据量就很大,这时 使用累计备 份就 不太 经济,可以考虑 增量 备 份或 者 增量 备 份 和累计 备 份相结 合 的 方 式,也可以考虑缩短备份周期。
(2)LAN-base 备份是专门使用一台 服务器作为备份管理服务器,通 过备份管 理服务器 实施系统的专用备份操作。优点
2015033-3
源自文库
图 1 常见备份系统架构
STUDY 研究
是投资经济、磁带库共享、集中备份管理; 缺 点 是网络 传 输压力大,对备 份 数 据量 大 / 备 份 频 率 高的场 景不适 用。
在设 计容灾 系统时,容灾要达 到什么 样的目标 和层 次,需要用一些定 量的指标 来衡 量,这 就是灾 难恢 复能力指标,具 体 介绍如下。
RTO(recovery time object,恢复时 间目标):指信息系统 从 灾 难状态 恢 复 到 可运行状态所需要的时间,用来衡 量容灾 系统的业务 恢 复能 力。
(3)LAN-free备份是将 备份 设备连 接到SAN(storage area network,存储区 域网络)上,数 据无 须通 过 局域网而 直 接 进 行 备 份,局 域 网 只 承 担 各 服 务 器 之 间 的 通信 任 务,实 现了控制流与 数 据 流分离。优 点是 数 据备份 统一管 理、备份 速度快、网 络 传输压力小、磁 带库资源共享;缺 点是 恢 复 操 作 繁 琐、实 施 复 杂、投 资 较 高,不适 用于少 量 文件 备 份 场 景。
(4)Server-free备份不需要在服务器 中缓存 数 据,显著减 少对主机CPU占用, 采 用 N D M P(网 络 数 据 管 理 协 议)应 用 是 实 现 方 式 之一。优 点 是 数 据 备 份 和 恢 复时间短、网络 传输压力小、便于 统一 管 理 和 备 份 资 源 共 享,但 由 于 需 要 特 定 的 备 份 应 用 软 件 进 行 管 理,需 要 考 虑 厂 商 的兼容性问题,实 施 起 来比较 复 杂,成本 也较高。
(2)主 元 数 据 节 点(P r i m a r y NameNode)与备元 数 据节点(St a ndby N a m e N o d e)之 间 通 过 网 络 文 件 系 统 (n e t w o r k f i l e s y s t e m,N F S)来 共 享 F s E d i t s 、F s I m a g e文 件,这 样 主 备 Na meNo de 之 间 就 拥 有了一 致 的目录 树 和 block信息。DataNode向两个NameNode上 报块 信息,辅以虚 拟 I P 地 址,可以较 好地 达 到主备NameNode快速热切换的目的。
由此可见,数据是企业最宝贵的资产, 是 企业 生存的基 础,也是 企业核心竞争力 的 重要 组 成部 分,一旦丢 失,其 产生的后 果可能是灾 难性的,甚至会引发社会 性问 题,所以大 数 据的安 全、备 份 和容灾 就 显 得尤为重要。
2 大数据容灾备份
2.1 容灾备份现状
容灾备份系统的目的在于保证 系统数
BIG DATA RESEARCH 大数据
大数据容灾备份技术挑战 和增量备份解决方案
罗圣美1,2,李 明1,叶郁文1 1. 中兴通讯股份有限公司 南京 210012;2. 清华大学计算机科学与技术系 北京 100084
摘要
大 数 据已 成 为当前社 会 各界关 注 的 焦 点,是 当前 世 界各 国 新一 轮 的 科 技 竞 争和 综合 国力 较 量 的 重 点,必 须 做 好大 数 据 的 容 灾 备 份工作。为此,在 分析 大 数 据 容 灾 备 份 现 状 的 基 础 上,结 合 行业 对 大 数 据 容 灾 备 份 需 求,讨论了几 种 典 型 的 技 术 解 决 方 案 及 其优 缺 点,提 出了一 种 基 于HDFS 的 增量 数 据 备 份 恢 复 方 案,具备 分 钟 级RP O 的系 统 远 程 备 份 特 性,可以较 好地 解决目前大 数 据 容 灾 备 份项目建设 规 划 面 临的实 际 需 求。
某 行业 灾 难 恢 复等级 对应的 能 力指 标 见表1。
数据的备份策略一般分为全量备份 (full backup)、差异备份(differential b a c k u p)和 增 量 备 份(i n c r e m e n t a l backup)。
全 量备 份:间隔一段时间就 对整 个系 统进行全面备份,包括系统和数据。
2.2 大数据容灾备份特征与挑战
大数据同过去的海量数据有所区 别,其 4V 特 征(vo lu me、va r i et y、va lue、 velo city)体 现了量 大、多样、密度低、速 度 快的特点,采用磁带复制方式不现实。
传 统备 份产品不适 用于大 数 据 领 域。 传 统备 份产品 大 多 基 于主 机 、网 络 或 者 磁 阵,都是单 机备 份系统,而云存 储 现 有的 数 据多副本 和EC技 术应用都只能保证单 数据中心内的数据可靠性,不提 供 数据备 份能力。
近 些 年来 飓 风、地 震、海 啸、火 灾等 自然灾害频 发,电 脑病 毒 泛滥、黑 客 攻击 猖獗等日益严重的互联网危 机,已让无数 企 业 遭受了数 据 丢 失 所带 来 的 沉 重 打击。 多个研究机构提供的数据 表明,公司数据 丢失将对公司带来严重 影响,甚至导致公 司 倒 闭。来自I D C的 统计 数 据显 示,19 9 0 2 0 0 0 年发 生灾 难 导 致 数 据 丢 失 的 公司生 存下来的仅有16%,美国明尼苏达大学 研 究报告显 示,发生数 据丢失的公司如果无 法 快 速恢 复 数 据,近3/4的公司业务将 停 顿,近 2/5的公司将 倒闭[1]。
RPO(recovery point time,恢复点 时间):指业务系统 所允许的在灾 难 过 程 中的最大数 据量丢失,用来衡 量容灾系统 的数据冗余备份能力。
NRO(network recovery object,网 络 恢 复时间目标):指在灾 难发 生 后网络 恢 复或切换 到灾备中心的时间,通常网络 要先于应用恢复 才有意义,但应用恢复 后 才能提供业务访问。
据可靠和服务的在 线性,即当主用系统发 生故障时,仍能 提 供 数 据和服务,保证 系统 业务不受影响。
灾备 领域国际和国内都制定了相关标 准,国际 标准中SHARE78 具 有 较大 影响 力,针对灾难恢复定义了Tier-0至Tier6/7 共7个层次。
我国的国家 标准GB20 9 8 8-20 07-T 《信息安 全技 术信息 系 统 灾 难 恢 复 规 范》 对容灾备份 进行了标准化[2],与SHARE78 的 7个层 次 具备对应关 系,并进 一 步 细 化了 具体要求。
(1)借助分布式块复制设备(distributed replicated block device,DRBD)、心跳服 务(he a r tbe at)H A 组件 实 现 主备 切换。使 用DRBD实现两台物理机器之间块设备的同 步,即通 过网络 实 现 ra id1,辅以 he a r tbe at H A实 现两台机 器 动态角色切换,对外 使 用 虚拟IP地址来统一配置。
关键词 大 数 据;备 份;恢 复;业 务 连 续 性 doi: 10.11959/j.issn.2096-0271.2015033
Challenge and Solution of Big Data Backup and Recovery
Luo Shengmei1,2, Li Ming1, Ye Yuwen1 1. ZTE Corporation, Nanjing 210012, China; 2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
备份系统结构一般包括DAS-base 备 份、LAN-ba s e 备 份、LAN-free 备 份 和 Server-free备份,如图1所示。
(1)DAS-base 备 份 是利用服务 器自 带的磁 带 机 或备 份 硬 盘 手工 进行 数 据 备 份。优点是 维 护简单,数 据 传输 速 度快; 缺 点 是可 管 理 的 存 储 设 备 较 少,对 大 数 据量备份场景或者实时数据备份场景不 适 用。
差异备 份:针对前一次完 全备 份后发 生变化的所有信息进行备份。
2015033-2
BIG DATA RESEARCH 大数据
增量备 份:针对 前一次备 份后所有发 生变化的信息进行备份,增量备份方 式备 份的数 据量 最小,但恢复时要利用全备份 的 数 据,并叠 加以前的增量备 份,数 据 恢 复时间也最长。
Key words
big data, backup, recovery, service continuity 2015033-1
STUDY 研究
1 引言
随着移动互联网信息技术的演进和社会 的发展,人类在生产和生活中会产生更多、 更复杂的数据。据 IDC 报告显示,2020 年全 球企业数据总量将从目前的 1.2 ZB 增加到 35 ZB。从一般意义上讲,这种量级和复杂度 的数据,业界称为大数据。大数据是人类社 会重要的信息资产,在科技发展和生活生产 中起到非常重要的作用,已成为当前社会各 界关注的焦点,是当前世界各国新一轮的科 技竞争和综合国力较量的重要体现。
无 论哪种备份 策略,在一个备份周期 内都首先要进行 一次完 全备份,然后再选 择 进行增量备份或者累计备份。通常在数 据 更 新不太 频 繁 且 数 据量不太 大 的情况
表 1 RTO/RPO 与灾难恢复能力等级的关系 [2]
灾难恢复能力等级 1 2 3 4 5 6
RTO 2天以上 24 h以上 12 h以上 数小时至2天 数 分 钟至 2 天 数分钟
HDFS的数 据节点(DataNode)采用 多副本、纠删码(erasure coding,EC)等 高可用(high availability,HA)技术,可 以提 供 数 据高 可靠性。HDFS的主从和单 个元数 据节点(NameNode)设 计方 式使
得元 数 据 节点 成 为单点 故 障,H DF S 的H A 发展经历了3个过程。
相关文档
最新文档