重复数据删除PPT-谭玉娟

合集下载

重复数据删除技术详解(一)

重复数据删除技术详解（一）在之前的文章“备份系统中的常见功能特性”中简单介绍了下重复数据删除的概念，本文就重复数据删除（也叫数据去重）技术进行深入讲解。

概述重复数据删除（后文简称“重删”）是灾备系统中非常重要的一项能力，它通过删除数据集中的重复数据达到缩减数据量的效果，以此满足日益增长的数据存储需求。

重复数据删除技术在灾备系统中应用十分广泛，当然这项技术本身也不仅仅用于灾备系统，同样应用于存储系统、数据传输和同步、论文查重等场景。

其带来的主要优势包括：•降低数据存储量，节省空间。

•降低网络数据传输量，节省带宽。

•提升存储效率。

•减小备份窗口。

重删基本原理重删的基本原理是通过某种算法计算出数据集中的某部分数据的hash值，以此hash值作为此部分数据的唯一标识（因此也称作指纹）。

当某两部分数据的hash值（指纹）相同时，我们就认为这两部分数据是一致的。

注意：需要尽量确保hash值的唯一性，避免hash值碰撞（即2个不同数据的hash值一致）。

一些厂商为了避免此种情况，可能会采用2种hash算法来确保数据的唯一性。

某些场景下，为了提升效率，还会同时使用强hash和弱hash。

弱hash的计算速度快，但碰撞率高，用于快速找到不同的数据块；强hash的计算速度慢，但碰撞率低（约等于0）。

当2个数据块的弱hash值相同时，会再进行一次强hash值的校验，以此确定数据块内容是否一致。

因为需要对数据进行指纹计算和存储，所以使用重删技术都会需要用到指纹库。

除了指纹库之外，其实还需要记录原数据与实际存储数据之间的映射关系，此种关系一般称为索引信息，有的也叫做元数据信息，元数据信息本文中就不做过多介绍了。

那么如何衡量重复数据删除技术的好坏呢？主要通过两个指标：重复数据删除率和性能。

其中，重复数据删除率（后面简称“重删率”）很大一部分情况下依赖于数据自身的特征。

一般来讲，有固定格式、变化频率低的数据重删率高。

此外，数据量越大，重删率越高；数据切片越小，重删率越高。

重复数据删除技术详解手册(升级版)

重复数据删除技术重复数据删除技术当前，不管是权威机构，还是众厂商，都非常看好重复删除技术。

重复数据删除通过有效地减少数据，消除备份成为降低数据存储成本的重要技术，成为大家关注的焦点。

然而，重复数据删除是否可以在你的存储设备下工作？你如何在海量的数据中应用重复数据删除技术？本专题深入探讨重复数据删除技术，针对各种重复数据删除产中提出评估建议。

为什么需要重复数据删除？随着企业的数据量不断增长，大量的重复数据给存储带来严峻的挑战。

重复数据删除带来了多种好处。

存储量减少，从而降低了存储成本。

这意味着只需更少的磁盘和更低频率的磁盘采购。

更少的数据同时也意味着备份更小。

•重复数据删除迅猛发展•如何通过重复数据删除降低存储成本什么是重复数据删除？重复数据删除，也被称为智能数据压缩或单一实例存储。

它是一种可以减小数据存储需求的手段。

本系列文章将介绍重复数据删除是如何工作的，重复数据删除技术的基本原则和具体实现等相关问题，并列举一些该技术在实际应用中的例子。

•重复数据删除是如何工作的？•确保重复数据删除的高可用性•重复数据删除技术如何缓解存储需求重复数据删除有哪些产品？重复数据删除还是一个新的市场，不同的厂商为客户提供了不同的产品，这也使得实现重复数据删除的方式变得多样化，而客户面临的则是困难的抉择。

让我们来看一下不同的重复数据删除产品及如何评估基于硬件的重复数据删除产品。

•重复数据删除产品一览•如何评估基于硬件的重复数据删除产品•如何评估基于软件的重复数据删除产品重复数据删除技术比较重复数据删除和其他技术有很多相似点和不同点，在这一系列中我们将深入探讨CAS 和重复数据删除，讨论它们的用途并总结这两种技术的优缺点；介绍压缩、重复数据删除和加密的区别，比较和对照in-band(带内)和out-of-band(带外)两种重复数据删除方式，以及它们各自存在的利弊。

•CAS和重复数据删除：归档双雄•压缩、重复数据删除和加密的区别•重复数据删除in-band VS out-of-band重复数据删除迅猛发展存储经理们已经意识到了重复数据删除技术的诸多优点。

关于“重复数据删除”技术，你还需要知道这些

关于“重复数据删除”技术，你还需要知道这些展开全文重复数据删除(De-duplication)，简称“去重”，是主流的存储技术之一，通过对比校验技术删除存储设备上重复的数据，只保留其中一份，从而消除冗余数据，优化存储设备的物理空间，从而满足日益增长的数据存储需求。

经过近些年的发展，重复数据删除技术已经很成熟，本文整理了部分知识，有助于大家进一步了解重复数据删除。

一、重复数据删除技术的价值虽然存储介质的价格已经非常廉价，但若能在有限的存储介质上实现更高的存储效率，何乐而不为呢？此外，重复数据删除技术最大的一个收益点是能降低备份大数据量时对各资源的消耗和依赖。

巨量数据的备份不论对生产系统还是备份系统都是一个不小的冲击，况且随着系统的发展，备份系统越来越大，备份的数据越来越多，备份的计划与安排越来越受制于备份数据量的规模。

重复数据删除技术提供了一个物美价廉的解决方案，更提高了整个系统的效率。

也许在很多不太关注重复数据删除技术的工程师心中，重复数据还是那个效率低、成本高的空壳子，但实际上重复数据删除技术早已发展到了一个新的高度。

借个人实施经历中一个真实的案例，看看现如今的重复数据删除技术的性能：一台Windows虚拟机存储着490 GB（有效数据）非结构化文件（文件主要为word/Excel/PPT/PDF 等），日变化量大约15 GB/DAY,虚拟机的配置为2 * 2.8 GHz CPU，8 GB内存，千兆网卡。

部署了一套源端、在线、基于CPU-内存的重复数据删除备份（重复数据删除设备并非物理机而是虚拟机），所有配置均采用默认配置、不作定制优化。

首次备份耗时35 min，消重效率87%，消重时CPU消耗上涨5%，内存占用小于200MB，网络负载约3 MB/S左右。

第二次备份耗时19min，消重效率98%，CPU、内存消耗与首次备份差不多，但网络负载明显下降，偶尔占用1~2MB/S。

（@Li Fei 某保险公司系统架构师）二、主流的几种重复数据删除技术重复数据删除已经不是一个新的话题了，如今各个厂商的存储或备份产品都有这项功能。

重复数据删除的工作原理

重复数据删除的工作原理作者：杨涛就在几年前，一提起备份大家就自然而然地想到磁带，但是在数据量爆炸式增长的今天，磁带技术由于其性能以及可靠性方面的固有缺陷变得越来越不能满足不断变化的业务需求，加之磁盘设备价格的下降，所以有越来越多的用户采用磁盘备份的解决方案。

但这在解决了性能和可靠性问题的同时又引入了新的问题——磁盘不能够象磁盘那样离线保存，不可能无限制的扩充容量，而用户数据增长的趋势却是无限的，并且由于其不能离线保存也导致了远程容灾数据的传送需要占用大量的带宽，这些都在经济上给用户造成了极大的压力。

那么有没有办法来缓解甚至解决这种磁盘容量的有限性和数据增长的无限性造成的矛盾呢？答案是“重复数据删除（Data de-duplication）”技术。

“重复数据删除”也称为“单实例存储（Single Instance Repository，简称SIR）”或者容量优化（Capacity Optimization），顾名思义，其根本作用是消减存储中的重复数据，以使任何一份数据只保存一份实例，达到充分利用存储空间的目的。

它是近年存储领域涌现出来的一门新兴技术，各大竞争厂商都生成其重复删除比可以达到1:20 左右甚至更高，被专家誉为是一种“将会改写存储行业的经济规则”的技术。

然而在实际和用户的接触中，大多数用户对该技术还存在许多疑问，诸如：“和增量备份有何区别”、“会不会造成数据损害”、“会不会影响备份性能”等等。

所以，在这里我们就详细探讨一下重复数据删除的工作原理。

首先，“重复数据删除”和“增量备份”是完全不同的概念。

“增量备份”是指只备份变化的文件；“重复数据删除”则是指只备份不重复的数据。

举个简单的例子说明它们的区别：比如有一个文件型数据库Access的文件finance..mdb ，如果向该库中新插入了几笔记录，那么则意味着该文件发生了变动。

当采用增量备份时会检查该文件的标志位，并将该文件整个重新备份；而如果使用“重复数据删除”技术，则只会备份新插入记录的数据。

一种提高重复数据删除备份系统恢复性能的数据布局方法[发明专利]

专利名称：一种提高重复数据删除备份系统恢复性能的数据布局方法
专利类型：发明专利
发明人：谭玉娟,文舰,晏志超
申请号：CN201610351498.5
申请日：20160525
公开号：CN106066818A
公开日：
20161102
专利内容由知识产权出版社提供
摘要：本发明提出一种基于数据块存储地址的数据布局方法，用于提高重复数据删除备份系统的恢复性能。

该方法充分考虑每个数据块的具体存储位置，并结合磁盘的带宽和寻道时间，在备份时计算数据的恢复速度，若恢复速度满足用户需求，则认为对应的数据不是数据碎片，反之则是数据碎片。

与已有方法不同的是，该方法是一种基于数据块存储地址的数据布局方法，碎片识别时使用更加细粒度的碎片识别方式，能精确定位每一个碎片。

通过这种方法，可以获得比其他方法更高的重删率和数据恢复性能。

申请人：重庆大学
地址：400044 重庆市沙坪坝区沙正街174号
国籍：CN
更多信息请下载全文后查看。

PPT2013怎么清空幻灯片操作记录图文教程

PPT2013怎么清空幻灯片操作记录图文教程
在平时工作中，有可能经常会打开一些涉密或隐私文档，而一般的都会将这些文档加密或者存在在某个隐蔽的文件夹里，以免被别人偷看。

下面小编就教你PPT2013清空幻灯片操作记录的方法。

PPT2013清空幻灯片操作记录教程
1、鼠标左键双击计算机桌面PowerPoint 2013演示文稿程序图标，将其打开运行。

在打开的PowerPoint 2013程序窗口，点击“空白演示文稿”选项，新建一个空白PowerPoint演示文稿。

如图所示;
2、在打开的PowerPoint演示文稿窗口中，点击左上角的“文件”命令选项。

如图所示;
3、在打开的“文件”命令窗口中，点击“选项”命令选项。

如图所示;
4、点击“选项”命令选项后，这个时候会打开PowerPoint选项对话窗口。

如图所示;
5、在打开的PowerPoint选项对话窗口中，将选项卡切换到“高级”选项卡栏。

如图所示;
6、在“高级”选项卡的右侧窗口中，找到“显示”分组中的“显示此数目的取消固定的“最近的文件夹”(F)”选项，此项在默认的情况下为数目“5”。

如图所示;
7、我们将此项数目更改为“0”，然后再点击“确定”按钮关闭PowerPoint 2013选项对话窗口。

如图所示;
8、返回到PowerPoint演示文稿窗口，我们再点击“文件”--“打开”--“计算机”命令选项，在窗口中我们可以看到在“最近访问的文件夹”中已经没有使用过的记录在这里显示。

如图所示;。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Data Deduplication (重复数据删除)谭玉娟华中科技大学Data DeduplicationMotivation Background Research Topic Use Cases How to Use ？Motivation (1)Global StorageIDC: 3/4Motivation (2)Backup SystemMotivation(3)Data transfer bottleneckBackup p 1 TB data to Amazon S3The average bandwidth measured is 800KB/s1 × 1012Bytes⎛ 800 ⎜ ⎝× 1013Bytessecond⎞ ⎟ ⎠= 1,250,000secondsmore than 14 days unacceptable backup window2003-2008: Wide area: 2.7xComputing 16x disk storage: 10xMotivation (4)Motivation (5)Dedup Background Whole file Deduplicationfoo01101010….. ….110010101bar01101010 01101010…..….110010101 110010101Dedup Background Fixed Chunk Deduplicationfoo01101010….. ….110010101 …11101111111bar01101010…..….110010101 … 110010101Dedup BackgroundFixed Chunk…Insert Data…V i bl Si Variable Sized d Ch Chunk k…Insert Data…Dedup Background Rabin Figerprintingfoo00100000….. 1 01101011….. 00100000…..110101 101010 010100bar01101011….. 01101010…..The Deduplication SpaceAlgorithm Parameters CostDeduplication effectivenessWhole-fileLowLowestSeeksFixed Chunk Chunk SizeCPU Complexity SeeksMiddleRabin fingerprintsAverage Chunk SizeMore CPU More Complexity p yHighestDeduplication VS Compression DeduplicationLossless compression Granularity: File-level, Chunk-level Large scale storage system y compression p technology gy SystemCon entional lossless compression ConventionalGranularity: Byte-level Small datasets General data compression technologyImplementation(1)Client-Side: used for saving bandwdithDeduplicationBackup stream after deduplicationApplication ServerStorage g deviceImplementation(2)Target-Side: used for saving StorageDeduplicationBackup stream before deduplicationApplication ServerStorage deviceDeduplication ProcessDeduplication ProcessChunking Indexing Index lookupLink data generationCommit new data chunkUpdate index tableResearch—磁盘瓶颈没有足够RAM 空间存放所有数据块的索引信息，大部分的索引信息必须存放在磁盘上。

8TB 数据 20GB 索引. 800TB 数据 ,2TB 2TB 索引.T l Too large!! !!在重复数据块查找的过程中索引的查询会带来大在重复数据块查找的过程中，索引的查询会带来大量的磁盘访问，引来了重复数据删除过程中的磁盘瓶颈问题。

瓶颈问题Research—可靠性文件 1 文件 2 文件 3数据块 1数据块 2数据块 3数据块 4数据块 5数据块 6可靠性Research—读性能文件 1 文件 2 文件 3数据块 1数据块 2数据块 3数据块 4数据块 5数据块 6读性能研究热点—能耗问题文件 1 文件 2 文件 3数据块 1数据块 2数据块 3数据块 4数据块 5数据块 6能耗问题实例系统—VentiVenti是一个数据归档存储系统。

它首次将重复数据删除应用于备份归档系统中。

复数据删除应用于备份归档系统中特点：特点使用固定长度分块使用write-once写策略使用缓冲提高吞吐率使用缓冲提高吞率实例系统—Venti索引表备份归档系统—VentiVenti原型系统方框图通过使用缓冲，系统吞吐率从5.6MB/s 提升到6.4MB /s左右备份归档系统—DDFSDDFS是Data Domain公司开发的重复数据删除文件系统。

用于基于磁盘的备份存储系统中。

主要关注如何提高重复数据删除的吞吐率，使备份速度能达到100MB/s以上. 采用如下三种技术：Summary Vector Stream-Informed segment layout (SISL) Locality Preserved Caching (LPC)实例系统—DDFS实例系统—DDFS实例系统—DDFS实例系统—DDFS实例系统—DDFS磁盘访问次数的减少通过使用Summary Vector 和 LPC，磁盘I/O次数减少了99%实例系统—DDFS吞吐率单数据流达到113MB/s，四数据流达到四数据流达到217MB/SWhy study deduplication?$0.046 $0 046 per GB pImproved sequential bandwidth Reduced per-byte cost9ms per seekPerformance Impacts Data WritesThe comparison of fingerprints Disk bottleneckData ReadsDe-linearizing data placement Random disk seeksData ReliabilityWhen do we exploit duplicates? It DependsHow much can you get back from deduping? How does fragmenting files affect performance? f ? How often will you access the data?Trade off (Trading away the sequentiality for spacesavings)Embarrassingly compressibleBackups virtual desktops Backups,General purpose datasets?Pi Primary St Storage system? t ?A Study of Practical Deduplication FAST11’s Best Paper Dt Dtasets t857 desktop computers (file systems) 162 terabytes Over 4 weeksAnalysisRedundancy in File Contents MetadataWhat is the relative deduplication rate of the algorithms? Dedup p by y method and chunk size18%-20%10%-11%How does the number of file systems influence deduplication? Dedup by file system count42% 39% 20%What if I was doing full weekly backups? Backup dedup over 4 weeks82%74%67%Deduplication RateLive File SystemThe Whole file deduplication and sparseness can remove 75% of the space savings by Rabin fingerprints. fingerprintsBackup imagesThe Whole file deduplication can remove 87% of the space savings by Rabin fingerprints.Which of these types deduplicate e well? Whole-file duplicatesWhat files make up p the 20% difference between whole file dedup and sparse file as compared to more aggressive file, deduplication?Where does fine granularity help?What types of files take up disk space? Disk consumption by file typeConclusion The whole-file deduplication together with sparseness is a highly efficient means of lowering storage consumption, even in a b k scenario. backup i The whole-file deduplication approaches the effectiveness of conventional deduplication at a much lower cost in performance and complexity.Reading ListAvoiding the Disk Bottleneck in the Data Domain Deduplication File System. In FAST 2008 conference. Cumulus Filesystem y Backup p to the Cloud. In FAST 2009 conference. HYDRAstor A Scalable Secondary Storage. In FAST 2009 conference. Sparse Indexing Large Scale, Inline Deduplication Using Sampling and Locality. In FAST 2009 conference Bimodal Content Defined Chunking for Backup Streams. In FAST 2010 conference. IO Deduplication Utilizing Content Similarity to Improve IO Performance. In FAST 2010 conference A Study of Practical Deduplication. In FAST 2011 conference Tradeoffs in Scalable Data Routing for Deduplication Clusters. In FAST 2011 conference Decentralized Deduplication in SAN Cluster File Systems. In USENIX ATC 2009 conference ChunkStash Speeding up Inline Storage Deduplication using Flash Memory. In USENIX ATC 2010 conference f Extreme Binning Scalable, Parallel Deduplication for Chunk-based File. In MASCOTS 2009 conference. Providing High Reliability in a Minimum Redundancy Archival Storage System System. In MASCOTS 2006 conference.Any Question ?Thanks ☺。