重复数据删除技术-UDSAFE
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于时间的重复项扫描 从若干个备份拷贝中去除重复项 空间节省率随者时间的推移而提 高 每次备份结束运行Deduplication 重复项扫描 节省可见空间率: 20:1甚至更多
Volume Deduplication
Original Data Volume Duplicates Identified And Removed Actual Storage Consumed
NearStore
NearStore
© 2008 NetApp. All rights reserved.
NetApp Confidential -- Do Not Distribute
24
A-SIS Deduplication 使用举例 #2: 归档文件
A-SIS Deduplication: 当数据变化量超过20%时自动运 行
FC/IP SAN -orCIFS/NFS
Volume SnapMirror (VSM)
NetApp Confidential -- Do Not Distribute
2
NetApp Deduplication History
NetApp Deduplication for FAS:
以前的名称 “A-SIS deduplication” Supports R200, FAS2000, FAS3000, FAS3100 and FAS6000 注:最小支持版本 7.2.4
一个NearStore系统上同时8个dedup进程 – 在已有8个dedup进程运行的情况下
手工发起的新进程会失败 自动计划执行的进程会进入排队队列等待
一个Flexvol上同时1个dedup进程
© 2008 NetApp. All rights reserved.
NetApp Confidential -- Do Not Distribute
业界第一个普遍意义的重复数据删除技术 到2008年5月,已经安装了~6,600 个许可
– 系统总容量约 185PB – 平均空间节省达 30%
© 2008 NetApp. All rights reserved.
NetApp Confidential -- Do Not Distribute
Enabled OR
Status Progress
Active 30MB Verified
/vol/vol5
Enabled
Active
10% Merged
© 2008 NetApp. All rights reserved.
NetApp Confidential -- Do Not Distribute
排序
Path /vol/vol5
State Enabled
Status Progress Active 25 MB Searched
重复删除
Path
State
Status Progress
/vol/vol5
Enabled
Active
40MB (20%) done
核验
Path
/vol/vol5
State
最小化的开销
– 写开销 <10% – 读开销 0% – 容量开销 1-3%
Data Ontap 7.2.4以后在任意有 NearStore 授权的 FAS 和 R200 的存储上免费提供
© 2008 NetApp. All rights reserved. NetApp Confidential -- Do Not Distribute 6
卷的重复项扫描 在单一的卷中去除重复的数据 适用于归档和压力不大的主存储 系统 Deduplication周期性地基于变化 进行重复项扫描 节省体现为全卷的百分比
© 2008 NetApp. All rights reserved.
NetApp Confidential -- Do Not Distribute
19
A-SIS 应用场景
应用场景
1. 2. 3. 4. 5. 实时性要求不高的主存储应用 数据库 dump 其他归档应用 QSM 归档 分级存储迁移
每个场景的三种部署:
1. NearStore Only 2. NearStore + 磁带备份 3. NearStore + VSM DR
© 2008 NetApp. All rights reserved. NetApp Confidential -- Do Not Distribute 20
SATA – Based Systems RAID-DP
Primary (FC) Primary & NearStore (SATA) Dedupe Space Savings “Other” Space Savings
A-SIS Deduplication Upcoming Features
© 2008 NetApp. All rights reserved.
All V-Series
© 2008 NetApp. All rights reserved.
NetApp Confidential -- Do Not Distribute
4
为什么需要 Deduplication for FAS? 降低存储成本
FC – Based Systems
$/GBeffective
17
A-SIS Deduplication: 命令
授权激活
– license add <a_sis>
启动
– sis on <vol>
重复项处理已存在的数据
– sis start -s <vol>
规划何时进行 deduplicate 或是手动
– sis config [-s schedule] <vol> – sis start <vol>
3
支持Deduplication的FAS系统
FAS 3100 Series NetApp Deduplication
FAS6040 FAS6080
FAS3070 FAS3040
Before
After
FAS3020
FAS2050 FAS2020
New in ONTAP 7.3
NetApp Deduplication for V-Series
© 2008 NetApp. All rights reserved.
NetApp Confidential -- Do Not Distribute
22
用户举例
外科手术器材制造厂
– 归档文件数据
– 38% 空间节省
全球性的投资管理公司
– 复制 VMware 镜像
– 88% 空间节省
全球性的石油和天然气公司
NearStore Site B, e.g. 容灾站点
NetApp Confidential -- Do Not Distribute 21
Site A, e.g. 数据中心
© 2008 NetApp. All rights reserved.
Deduplication + Replication: Volume SnapMirror (VSM)
E-mail Server ERP/ECM Server
3rd Party Applications: i.e. Zantaz, Overtone, Kazeon, etc
DR Site
A-SIS deduplication
Volume SnapMirror (VSM) De-duped image is mirrored-
7
Deduplication “数据块级” 重复项合并
原始数 据文件 重复数据 块确认 重复数据 块移除
(在字节级校验后)
对于应用和用户来 说文件没有任 何变化
应用透明的重复项合并 显著的容量节省:
– 备份数据 – 归档数据 – 访问压力不大的主数据
© 2008 NetApp. All rights reserved. NetApp Confidential -- Do Not Distribute 8
实现的技术:WAFL 数据块共享
Deduplication 在 WAFL 文件系统树中实现数据块共享 一个单独的数据块可被索引 256 次
INODE 1
INODE 2
IND
IND
IND
IND
DATA
DATA
DATA
DATA
© 2008 NetApp. All rights reserved.
Leabharlann Baidu
检查状态
– sis status [-l] <vol>
检查节省的空间!
– df –s <vol>
© 2008 NetApp. All rights reserved. NetApp Confidential -- Do Not Distribute 18
运行模式
按预设时间与计划运行 命令行手工启动运行 当检测到有写入20%以上的新数据时自动运行 当SnapVault 基准传输完成时
在主数据中心和二级中心提高物理存储的效率 操作平滑、透明 网络利用率 – 降低数据传输总量
A-SIS 优化存储 A-SIS 优化存储
A-SIS deduplication
A-SIS deduplication
网络效率 降低网络传输的数据总量
VSM
Site A, e.g. 远程办公室 Site B, e.g. 中心站点
NetApp Confidential -- Do Not Distribute
5
Deduplication for FAS
高级单一实例存储
– 数据块级重复识别
卷级操作 – 支持任何协议
– CIFS/NFS, FCP/iSCSI, FTP, HTTP, NDMP
应用透明
– Content Agnostic
Deduplication + Replication: Qtree SnapMirror (QSM)
在二级中心提高物理存储的效率 操作平滑、透明 对主存储无任何负载影响
NetApp 生产存储 A-SIS 优化存储
异构存储产品
A-SIS deduplication
V-Series
QSM
NetApp Confidential -- Do Not Distribute
9
Deduplication: “sis status” 进度信息和阶段
Filer> sis status
收集
Path /vol/vol5
State Enabled
Status Progress Active 25 MB Scanned
Volume SnapMirror (VSM) De-duped image is mirrored-
Volume SnapMirror (VSM)
Saves network bandwidth and storage space on both NearStore units
Primary Storage NetApp or 3rd Party
Tag line, tag line
NetApp 重复数据删除技术
吴立湘 技术顾问
议题
What’s dedupe? And Dedupe on FAS
– 原理和特性 – 配置要求 – 典型场景应用详解
Dedupe On VTL 竞争分析
– EMC Avamar – EMC VTL
© 2008 NetApp. All rights reserved.
– 用户文件
– 35% 空间节省
试验计量厂商
– 每天的数据库备份
– 98% 空间节省
© 2008 NetApp. All rights reserved. NetApp Confidential -- Do Not Distribute 23
A-SIS Deduplication 使用举例 #1: 备份数据
两种方式从Deduplication for FAS中获益
Time-Based Deduplication
Backup 1 Backup 2 Backup 3 Backup 4
Original Data Deduplicated Data New Data
Actual Storage Consumed
E-mail Server ERP/ECM Server DB Server
A-SIS Deduplication: 每次全备份后执行
3rd Party Applications: i.e. NetBackup, Commvault, Legato, TSM, etc
DR Site
SAN/NAS
A-SIS deduplication