Simpana V10 重复数据删除(20130718)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Store 2
MediaAgent-2 (Primary)
DDB and Data Mover Role
Store 3
MediaAgent-3 (Primary)
DDB and Data Mover Role
Store 4
MediaAgent-4 (Primary)
DDB and Data Mover Role
Files
Content Alignment
具有内容感知的数据块传输
Databases
Content Alignment
Images
Content Alignment
Meta-data, tags, indexes
Segment – instance (hash)
Skip
Skip
Skip
1
• • • •
• 算法保证同一HASH值会到同一 DDB中比对
1
4
2
DataMover
MediaAgent-1 (Primary)
DDB and Data Mover Role
2
5
DataMover
MediaAgent-2 (Primary)
DDB and Data Mover Role
5
3
如果数据已经存在,在所选择的分区中更新 DDB,在MA访问的装载路径上更新元数据 如果数据是新的,在所选择的分区DDB中插 入签名,数据写入MA能存取的装载路径
F
In
Week 1
In
In
In
In
SF In
Week 2
MA
DDB
DASH FULL
快速创建整合全备
Minutes of processing
Eliminate Read
Update Reference counts Write Synth Full Metadata
SF
将磁盘读降到最低,省略数据重组和再次去重 更新DDB索引信息,在磁盘上只写元数据 大大加快合成全备的生成时间,从几个小时缩 短到几分钟
重复数据删除方案
2013年7月
目录
重复数据删除基本知识
CommVault 重复数据删除技术
Simpana 10 第四代重复数据删除技术 方案设计及最佳实践
竞争分析
2
为什么要进行重复数据删除
不同计算机中, 有许多完全相同 的文件,特别在 虚拟机中有80% 以上重复数据。
当进行集中数据备 份和归档时,重复 的数据块会导致存 储费用快速上升, 同时也会占用数据 传输带宽。
高性能
2节点并行重删网格能支持存储180-240TB的唯一数据,备份速度 能达到4-5TB/小时,容量和性能是V9中单个重删节点的2倍。
高可靠
内置的故障切换能力能够使备份作业不间断,网格中即使有一个节 点不可用,剩余的节点可以继续工作接管备份。故障节点在后台自 动修复,然后加入网格继续工作。
耗时长、MA资源消耗大 只有新的数据才写到磁盘上 合成全备会比常规的全备慢50%左右
10 – 12 hrs processing
Read and Rehydrate Rehash
MA
DDB
Update Reference counts Write Synth Full Metadata
SF
DDB-G1
50 Mount Paths 2-8TB
Storage Policy
Storage Policy
Storage Policy
Copy
Retention GDP
Copy
Retention GDP
Copy
Retention GDP
Block Size
Compression
DDB MA MA MA
Global Dedupe Store
13
去重到磁带-SILO
数据段映射到磁 盘上的备份/归 档数据块
1st 2nd nth
2
• 检查 DDB • 对数据段编目 • 数据写入磁盘
DDB
写入到磁盘
Write Link Link
5
• 优化复制,创建容 灾副本 • 支持去重到磁带
DASH COPY
* 支持源 端和目标 端去重-可在客户 端或MA端 进行压缩/ 哈希对比/ 加密
Remote Copy 1
DDB-1
Retain 5 days
DDB-2
MA Linux
DC Copy 2
高性能: 适用于快速网络环境的读优化模 式和基于窄带宽WAN环境 的网络优化模式, 使得各 种环境都能高效传输数据。 完整的拷贝管理选项: 独立的拷贝保留时间、 拷贝选择规则、作业过期控制、数据校验
480 TB 10 TB/hr*
240 TB 5 TB/hr*
90 TB 2 TB/hr*
120 TB 2.5 TB/hr*
15 TB
30 TB
v7
v8
v9
v9 SSD
v10 2 nodes
v10 SP4 4 nodes
v11 16 nodes
并行去重
重新定义企业级去重规模
为满足大规模去重需求,把一组DDB及存储组合成一个集合,分段对齐,来获得最佳性能。 这样做的优势是能线性增加去重规模,对企业级去重或全局去重设计至关重要。
大规模
在低性能环境,可以结合多个重删节点提供高的重删容量。 如介 质服务器部署在云中,由于低的IPOS存储性能,每个重删节点容 纳的数据量不大,但多个节点通过并行全局重删可以实现更大的重 删规模。所以并行重删既可用于企业级环境也适用于云环境。
18
并行去重是如何工作的
1
2
客户端根据GridStor 存储策略选择 DataMover (MA), 发送数据到MA DataMover使用内部算法来选择哪个分区来 执行签名查找。如果所选的分区在其他MA上, 就通过网络上进行查找。
跨文件、备份集 跨客户端、备份代理
目录
重复数据删除基本知识
CommVault 重复数据删除技术
Simpana 10 第四代重复数据删除技术 方案设计及最佳实践
竞争分析
8
CommVault重复数据删除构架
支持备份和归档数据
Check-Level 1 (optional) 客户端使用本地去重缓 存SSDB判断数据块的 唯一性 SSDB Client Systems
Retain 30 days
Cloud / Recovery Site
平台无关性: 可在不同的操作系统之间复 制
Deep Copy 3
DDB-3
Retain 365days
11
“在任何拷贝之间仅传输变 化的数据块”
DASH FULL
去重感知的合成全备
“标准合成全备”
读取, 重组数据和再次去重
10
DASH 拷贝
随处移动去重数据块
描述 优势
使用DASH的方式能够更少的传输和处理已备 份数据,使得能够更快的创建去重拷贝。
高健壮性: 带宽控制、基于作业的复制,健 壮的网络选项,hppts安全传输协议,自动 重起,多流和报告
影响小: 不需要数据重组,快速的异步拷贝 变化数据块
MA
Windows
DDB
9
DDB(重复数据删除数据库,Deduplication DataBase)
重复数据删除数据库存放着所有的数据块的hash签名,每 一个存储策略拷贝都已一个自己的DDB。全局重复数据删 除存储策略关联多个存储策略,共用一个相同的DDB 每一个DDB定义了一个独立的去重域 DDB 采用C-Tree数据库, 不影响性能的情况下最多可保 存7.5亿条记录
metadata File data stream blocks
Compressed
重复数据删除
跨文件消除冗余的重复数据块 每个相同的数据块只存储一次, 后续的块以指针指向之前的物 理数据块 “去重比”= (数据量) / (在磁 盘上占用的空间). 不是最主要 需要考虑的因素
7
Week1 Week2 Week3
备注: CommVault同时支持源端和目标端去重;支持在线处理方式,也支持后处理 方式(先备份到非去重拷贝,再辅助拷贝启用去重)
源端
传送的都是数据块
目标端
6
压缩与去重
压缩和重复数据删除都属于数据缩减技术
数据压缩
针对单个文件 采用空值压缩或缩短高频数据 表示值来缩小数据 15-20% CPU 开销 去重的补充手段
目标端
5
目标端“去重”
当数据从“源端”传输到“目标端”的过程中,把数据块 传送到目标端,在目标端进行去重操作。
优点:不占用源端的资源 缺点:不能节省传输带宽
在目标端有两种处理方式:
在线处理方式(In-Line):在数据块存储之前进行去重处理,优点是占用存储空间较少, 缺点是要影响数据传输性能。 后处理方式(Post-Processing):先把数据块存储在缓存中,等系统空闲时再进行去重 处理。优点是不影响数据传输性能,缺点是需要额外的存储空间。
DDB-G1
50 Mount Paths 2TB
DDB-G2
50 Mount Paths 2TB
DDB-G3
50 Mount Paths 2TB
DDB-G4
50 Mount Paths 2TB
120TB
17
120TB
120TB
120TB
并行重删的优势
PB级
并行重删提供PB级数据备份到普通磁盘的能力,随着并行重删网 格中的节点增加可以线性的提升处理速度和数据容量。
全局并行存储 – 下一代网格存储:480TB Store 1
分区 1
Store 2
分区 2
Store 3
分区 3
Store 4
分区 4
容量、吞吐率、并发性倍增,同时能把多个存储整合到一个全局的逻辑存储池中
Store 1
MediaAgent-1 (Primary)
DDB and Data Mover Role
检查DDB, 确保数据段 的唯一性
仅写入新 的数据段
开放的 磁盘库
• 与MA连接的本地磁盘
3
• IP共享NAS,多个MA之间可进行错
误却换和负载均衡
• SAN共享磁盘存储
• • • •
相同的数据段越多 = 去重比越高 通过增加访问路径就能方便增加容量 介质库报告和报警简化管理操作 磁盘阀值管理策略控制数据老化 (最少使用的老化)
SILO 是将重复数据删除池里的数据 保持去重格式复制到磁带上,而不用
SILO to Tape
将老数据保持去重格式从磁盘复制到磁带做长 期保留—节约磁带空间 老数据从磁盘上过期,为新的备份释放出空 间—节约磁盘空间 – – SILO不适合短期的数据保留(几周) SILO 不适合恢复速度要求高的数据
在服务器应用 中有大量完全 相同的数据块
在连续的全备份 数据中,有 70%-90%的重 复数据
在归档文件中, 也有大量的数据 块是相同的
3
如何进行重复数据删除
节省大量 磁盘空间!
原数据集合
重复数 据删除 的过程
4
重复数据删除
逻辑视图
物理存储
对需要存储的数据,以块为单位进行哈希比对,对已经存储的数据块不再进行存储, 只是用索引来记录该数据块;对没有存储的新数据块,进行物理存储,再用索引记录, 这样相同的数据块物理上只存储一次。通过索引,可以看到完整的数据逻辑视图,而 实际上物理存储的数据却很少。
源端“去重”
当数据从“源端”传输到“目标端”的过程中,在源端先对被 传输的数据块进行哈希比对,如果该数据块先前已经被传输过 ,只需要传输哈希索引值;如果该数据块先前没有被传输过, 就传输该数据块,并记录该数据块的哈希值。
优点:可节约传输带宽 缺点:要占用源端资源进行去重处理
源端
传送的是新数据块 和老数据块的索引
将数据重组还原为完整的物理格式再
写入磁带。这就意味着磁带和磁盘上 保留的数据量一样,磁带和磁盘备份
介质有相同的去重比。
14
目录
重复数据删除基本知识
CommVault 重复数据删除技术
Simpana 10 第四代重复数据删除技术 方案设计及最佳实践
竞争分析
15
重复数据删除能力进一步提升
单个重删存储池容量和性能特性成本提高
F 12
In
Week 1
In
In
In
In SF In
Week 2
wk.baidu.com
全局重复数据删除
全局去重存储策略:多个存储策略拷贝共享同一个DDB(全局 = 多个存储策略拷贝)
全局去重存储策略
多个不同存储策略的去重拷 贝使用相同的去重池作为备 份目标,使用相同的DDB、 磁盘库和去重属性,但保留 周期可以不一样 同一个全局去重存储策略可 以关联独立存储策略的主拷 贝和次级拷贝
读取数据 压缩* 哈希比对* 加密*
4
MA
向MA传送数据
Check-Level 2 使用MA的DDB查找去重索引
MA
• 直接访问恢复 • 不需要读哈希表 • 支持GridStor备用访问路径
存储策略:
全局存储保留
Archive File / Offsets Mount path(s)
主副本: 存储在磁盘上,保留#天和周期 CV 目录 (索引)