重复数据删除技术分析及其对存储系统性能的影响

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BAILuo
(teAd n t t no ai i adtl io o  ̄ l et B in 0 8 6 Sa mi s a o f doFl n e s ncn o ne e ig10 6 ) t iri R m evi c r, j
Ab t a t hs p p r fe s s o a a d - u l a in tc n l g n h s tc n l g mp c n s s m e o ma c ft e sr c :T i a e o u e n d t e d p i t e h o o y a d t i e h oo i a to y t c o y e p r r n e o h f p r e o e m e . a t sc n e d i Ke r s aa d — u l ain ; e e td t a n se i f e c n co s; h e t y wo d :d t e d p i t c o r p a aa we k e s s; n u n i g f t r t r a l a
1 有 关重 复数 据删 除
定 义 :一种数据 缩减技 术 ,通 常用于基 于磁盘 的备份 系 统 ,也就是 减少存储系统 中使用 的存 储容量 。它 的工 作方式 是 在某个 时间周期 内查 找不 同文件 中不 同位 置的重 复可变 大 小 数据块 。备份数据从数 据重复删 除技术 的获益极 大 ,用户 可以实现 1 0比 1至 5 0比 1的缩减 比。重 复数据删 除技术 可

电脑 编 程 技 巧 与维 护
所 有的数据 。如果要删 除那些重复 的数据 ,就 必须保证 那些 数 据是没有被 损害 的,也 就是这些数 据必须是 完好 的。如果 数 据在被读 出的时候损坏 了 ,而存储 在磁盘上 的数据却 是好 的 ,那 么在进行 数据对 比时会发生什 么现象 ,再 次读取 的时 候 ,可能得 到正确的数据 。但 是数据被 写入磁 盘时 日期 出现 了错误 ,还能不 能读取这些 些文件 ,这 就是个 问题 了。下面 的两个案例 ,就是 针对这种现象进行的解剖和分析 。 案例一 ,受损 的数据读取 如果从 磁盘读取数 据 ,并 且这些数据 由于一些 原 因损 坏 了 ,然 后开始将受 损 的数据应 用于新数据 ,可能会 遇到一个 特别大 问题 。当再 一次从磁盘 中读 取数据 ,进行重 复数据 删 除 的时候 ,它可 能就不 同了。如果将读取 的数据 与新数据进 行 比较 ,内存 中的数 据可能是 已经损坏 的 ,所 以找到 的一样 的数据在 下一次被读 取时都将变成 其他 的数据 。所 以 ,从受 损数据 中读 取到 的任 何数据都有 可能被错误 地对 比 ,以至 于
该版本 与 已存储 的版本 的之 间的不 同之处 ,然 后为不 同的数
的售价是多么便宜 ,网民们最后还是需要 主存储 的。
4 重复数 据 删除 的弱点
美 国几位业 内人士去年发表 了一些关 于数据损坏 的文章 , 其 中的一些内容值 得参考和学习。 如果 重复数据删 除的硬件 或者软件 损坏 了 ,可能会 失去
统 ,但是归档这个 程序不一定 能消失 ,而是说作 为独立 存储
系 统 的归档 可 能会 消失 。假 如 网 民们 可 以在一 个 系 统上 存 2P 0 B的数据 ,那 么为什么不这么做 。所 以说 ,不管 磁盘归档
它采用 内嵌在备 份数据 中的文件系统 的数据识 别文件 ,并且 和其数 据存储库 中的其他版 本逐 字节 地进行 比较 ,从 中找到
以使用户在 不同站点之 间进 行经济高 效 的备份 数据 复制 。备 份数据设备 总是 占用 着大量 的储存 空间 ,为 了解决这 个问题 , 从 中节 省更多 空 间 ,重 复删除技 术便 成 了人 们关 注 的焦 点 。
采 用重复删 除技术可 以将存 储的数据 缩减 为原来 的二 十分 之

从而节 约出更多 的备份 空间 ,还 可 以使磁 盘上 的备份数
据保 存 的时 间更 久 ,同时还 能节约离 线存储 时所需 的大量带
宽。
起 源 :当系统备 份程序 在 网络 中多次从 同一 目录下备份 相 同的文件 ,或者从多个地 址链接处 备份相 同的文件 时 ,重 复 的数据在临时区域进行备份 ,最后产生所谓 的重 复数据 。
变 得 没有 办法 读 取 。
提供类 似 的产 品。在选 购产 品时 ,要考虑 的 因素还 有狠 多 ,
但是这个问题是优先考虑的因素。当在提 出这个 问题的时候 , 厂商们可 能会 说这是属 于用户 自己的问题 ,这种 回答是不 负 责任 的,也 是不能被接 受的 。厂商们 应该直 面这个 问题 ,不
基 于散 列 的方法 ,飞康 、昆腾 的 D I X 系列 设备都 是采用 S A 1 MD 5等类 似 的算 法将这些 进行备份 的数据 截断成 H 一、 一
块 ,同时为 每个 数据块生成 一个散列 。新数据 块 的散 列与备 份设 备上散列 索引 中的一个 散列相 同的时候 ,表 明该 数据 已 经备 份 ,设备将 不再更新这 个散列 ,从而说 明在这个 新位置 上也存有这个数据。 基于 内容识别 的重复删除 ,宗 旨是 识别记录 的数据格 式 。
分数 据存放在 固态驱动器 上。造成这样 现象 的原因就是 存储 系统 会跟据用 户 自定义 的 自动分层参数 自动将数 据在存 储层
之 间移动 ,这样 的做法能 带来 系统 的高性能化 ,同时还 能控
制成 本 。但是类 似于这种类 型存储 系统 对系统 的归档 和备份
是有 很大 的影 响的。业 内人 士认为归档 有可能退 出互联 网系
器上 运行点运行 的存储管 理软件来控制 ,数据 的重复数 据删
除方 式可能是 在线式 的,还有 可能是后 处理方式 。数据 可能
被压 缩 ,但 是还有 可能不被 压缩 。这样做 的结果就 是 2 0 B 0T
的存储 系统实 际可能存储 2P 0 B的实际数据 ,而且只有一小部
2 重复 数据 删除 的方 法
收稿 日期 :2 1一 1 1 0 2O— 1
据创建 一个增量 的文件 。根 据实践表 明 ,这种 方法可 以避免 散列 冲突 。重要 的一点 ,这 种方法需 要使用支 持 的备 份和应 用设备 ,以便于设备 可以提取其 中的数据。 Dl e t eh o ge 使用的技术 ,其过程是基于散列 的产 ign cn l i i T o s 品那样 将数据截 断成块 ,同时采用 自有的算法 判断数 据块是
能 回避 。
5 删 除重 复数据 的影 响 因素
重 复数据删除 已经 成为 了最近存储 备份领 域 的一 个重要 因素。业 内人 士关 于这项技 术有很多不 同的命 名 ,比如容量
优 化 、公 共分 流 、数 据缩减 、公 共分 流。不论 是 怎 么命 名 , 重 复数据删 除都诠 释着 只备 份经过更 改的数据 。和其 他新技 术 一样 ,重复数据 删除也带来 了很多 问题 ,当今 市场 上应用 重 复数据删除技术 的产 品的区别主要在 于实行 重复数 据删除 的地 点与文件被分 割片段 的大小和组成 。在购买 之前 必须弄 清楚这些产 品的区别所在 。S m ne 在 P y atc c、笔记本 和服务器 上利用 软件代理来 压缩所需要 的数据 ,使 用这种 方式将 文件
关键词 :重复数据删除 ; 重复数据 弱点 ; 影响 因素 ; 威胁
Da a De t dup ia i n Te hno o y Ana y i nd isEfe to Pe f r a c lc to c lg l ssa t f c n r o m n e
o t r g y t m fS o a e S se
DTB S N FR AINM NG M N A AAE DI 0 M T AA E ET A N O
数据库与信息管理
重复数据删除技术分析及其对存储系统性 能的影 响
拜 路
( 国家广播 电影电视 总局监管 中心 ,北京 10 6 ) 0 86 摘 要 :重点分析 了重复数据删除技术和这种技 术对 系统性能影响等有关方面的问题 。
比较小 的片断要更 多的指示器 ,但是这样 就延缓 了备份 的时
间 。还 有一点 ,比较 小 的片断通 常意味着 压缩 比率要 比较大 的片段 更好 。影响重 复数据删 除性能 的因素还有 很多 ,比如 压缩字节级 的还是块级的 ;压缩技术 的种类 以及价格等因素。
案例二 ,受损数据重复数据 假如数据从 一开始就出错 ,并且在磁盘上就 已经损坏 了 , 该 怎么处理 ,这个 问题 与上一个案 例十分相似 。在这个 案例 里 ,重复数 据是在 内存 中创建 的 ,是没有损坏 ,但是磁 盘上 的数据却是 已经损坏 的。 也 就是说 ,用一个没有损 坏的重复 数据建立 了数据 ,可是 一旦从磁盘 中读取 出了数据 ,数 据就 被损坏 了 ,不过这样 的情 况也有好 的一面 ,从 磁盘重新 读取 数据到 内存 ,数据就变 成一样 的了 ,所 以这个 问题不 是十分

应用 程序 和数 据 中心来说 可能不存在 问题 了。对 于 日益 完善 的重 复数据删 除技术 ,会 给网民们带来 什么影 响呢 ,部 分业
内人 士认为它会 给数据 的备份 和归档带 来很大 的影响 。一些 业 内人 士假设分 析 :假如 一个人 购买 了一个存 储解 决 方案 , 它有几个机架的固态存储 ,有几个机架的 1 . 5万转 S S驱动器 A 和许多个机架的 S T A A存储 ,所有的存储都 由一个在存储控制
6 结语
重复数据删除技术的在存储技术 中有着 不容小视的作用 ,
并且还将 不断扩展该技 术 的应用 范围 ,应 该相信 ,这种技 术
在 时下 最热 门的 “ 色存储 ”中一定发会 发挥着 特别重要 作 绿 用 。以往Leabharlann Baidu,数据 中心总是在不 断生产重复 数据 ,从磁盘镜 像 到远程 复制等 ,现 在随着企业数 据成指数 级增长 ,重复数 据 删 除已经成为 了当今 最热 门的存储 技术 。重复数 据删 除技 术 降低 了存 储效率 ,节 约 了储存成 本。 由此 可见 ,重复数 据有 两方 面的 内容 ,既 可以分开来看 ,也可 以共 同来 看 。重 复删
分 割 为 不 同大 小 和 不 同 结 构 的 片 段 。这 种 方 法 需 要 特 别 强 大
如果这些数 据 由于某 种原 因被 重新读取 ,并且读 取 的数 据是正 确 的话 ,那 么往 后 的数 据都会 是正 确 的。除此 之外 , 就会发生无 法恢复 的情 况 ,数据将 会丢失很 多 。更 让人担心 的是 ,一部 分数 据肯是 好 的 ,而另一 部分数 据可 能是 坏 的 , 如果要想 区分 ,要进行 大量 的、繁 琐 的、非 常细致 的检查筛
否 与其他 的数 据相似 ,最 后与相似块 中 的数据 进行逐字 节 的
比较 ,从而来判断该数据块有没有被系统备份。
3 删 除重 复数据 的威 胁
重复数据删除技术 刚刚 出现 时并 没有受到 网民们 的重视 , 很 多业 内人 士认 为重复数 据删除技术没 有必要存 在 ,因为它
可能会对镶嵌 在主存储 上的部分核 心应用带来风险或是影 响。 可是 ,现在发 现重复数据 删除技术所带 来 的延 迟性对 于许多
选一作 。 L
的处理 功率 ,而且 部署起来 有些 难度 。S m ne y at c利用在 备份 服务器 后端 的设备来 运行相关 的软件 。业 内人 士曾经指 出这 种方法 只是减少 了所 需要 的存储 容量 ,而并不是 直接解 决带 宽 的相关 问题 。还有一个重要 的因素是 文件 片段的大小不 同 ,
相关文档
最新文档