重复数据删除的三种算法

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

厂商采纳的执行重复数据删除的基本方法有三种与及各种的优缺点。

第一种是基于散列（hash）的方法，Data Domain、飞康、昆腾的DXi 系列设备都是采用SHA-1, MD-5 等类似的算法将这些进行备份的数据流断成块并且为每个数据块生成一个散列（hash）。如果新数据块的散列（hash）与备份设备上散列索引中的一个散列匹配，表明该数据已经被备份，设备只更新它的表，以说明在这个新位置上也存在该数据。

基于散列（hash）的方法存在内置的可扩展性问题。为了快速识别一个数据块是否已经被备份，这种基于散列（hash）的方法会在内存中拥有散列（hash）索引。当被备份的数据块数量增加时，该索引也随之增长。一旦索引增长超过了设备在内存中保存它所支持的容量，性能会急速下降，同时磁盘搜索会比内存搜索更慢。因此，目前大部分基于散列（hash）的系统都是独立的，可以保持存储数据所需的内存量与磁盘空间量的平衡，这样，散列（hash）表就永远不会变得太大。

第二种方法是基于内容识别的重复删除，这种方法主要是识别记录的数据格式。它采用内嵌在备份数据中的文件系统的元数据识别文件；然后与其数据存储库中的其它版本进行逐字节地比较，找到该版本与第一个已存储的版本的不同之处并为这些不同的数据创建一个增量文件。这种方法可以避免散列（hash）冲突（请参阅下面的“不要惧怕冲突”），但是需要使用支持的备份应用设备以便设备可以提取元数据。

ExaGrid Systems的InfiniteFiler就是一个基于内容识别的重复删除设备，当备份数据时，它采用CommVault Galaxy 和Symantec Backup Exec 等通用的备份应用技术从源系统中识别文件。完成备份后，它找出已经被多次备份的文件，生成增量文件（deltas）。多个 InfiniteFilers合成一个网格，支持高达30 TB的备份数据。采用重复删除方法的ExaGrid在存储一个1GB的 .PST文件类的新信息时表现优异，但它不能为多个不同的文件消除重复的数据，例如在四个.PST文件具有相同的附件的情况下。

Sepaton 的用于它的VTL 的DeltaStor也采用内容识别方法，但是它将新文件既与相同位置上的以前的文件版本进行比较，同时也与从其它位置上备份的文件版本进行比较，因此它能够消除所有位置上的重复数据。

第三种方法是Diligent Technologies用于其ProtecTier VTL的技术，它像基于散列（hash）的产品那样将数据分成块，并且采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较，以判断该数据块是否已经被备份。