30问解读飞康SIR重复数据删除技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专家:30问解读飞康SIR重复数据删除技术
/server/ 2007年03月21日11:24 来源:存储在线作者:DoSTOR 字号:小 | 大
【文章摘要】SIR,即单实例存储 (Single Instance Repository),是飞康公司在虚拟磁带库 (VirtualTape Library, VTL)技术的重复数据删除扩展。具备SIR 性能的 VTL 会对磁带库中的数据进行分析并创建一个仅包含唯一数据的单一实例的存储库,该过程即是“重复数据删除”。重复数据之前占用的空间可释放出来并用于其他用途。存储库会像其它关键存储一样通过镜像和复制实施保护。内置的同步镜像功能,可用于预防本地磁盘故障。IPStor 的复制功能也可用于存储库,但在没有VTL的情况下,存储库内容毫无意义,因此可用 VTL 的复制选项代之进行存储库的复制,以实现集中管理和灾难恢复。
1. 什么是 SIR?
SIR,即单实例存储 (Single Instance Repository),是飞康公司在虚拟磁带库 (VirtualTape Library, VTL)技术的重复数据删除扩展。具备SIR性能的VTL 会对磁带库中的数据进行分析并创建一个仅包含唯一数据的单一实例的存储库,该过程即是“重复数据删除”。重复数据之前占用的空间可释放出来并用于其他用途。
2.如果只有单一实例,如何保护我的数据?
存储库会像其它关键存储一样通过镜像和复制实施保护。内置的同步镜像功能,可用于预防本地磁盘故障。IPStor 的复制功能也可用于存储库,但在没有VTL的情况下,存储库内容毫无意义,因此可用 VTL 的复制选项代之进行存储库的复制,以实现集中管理和灾难恢复。
3.SIR 是否会导致备份作业变慢?
不会,当备份作业完全写入虚拟磁带后,才会进行重复数据删除操作。具备SIR性能的 VTL 的重复数据删除对备份性能毫无影响。
4.SIR可以节省多少空间?节省的存储空间如何处理?
存储量节省幅度直接取决于数据本身以及用于保护数据的备份策略。一般而言,数据备份越频繁且保留时间越长,使数据保持在线状态所需存储空间的节省幅度就越大。部分计划处理程序会使用一个分析工具来计算特定环境中的实际重复数据量。
带库中释放出的空间通常用于创建附加的虚拟磁带,使更多数据保持更长时间在线,以在更长的时间内提供更快的恢复速度。
5.市场中有的产品宣称缩减比率达到 300 比 1,飞康SIR的缩减比率是多少?
不论其他公司的宣传数据如何,任何重复数据删除过程中的缩减量完全取决于单个数据和备份策略。我们也曾遇到缩减比率达到 1000 比 1 的重复数据删除案例,但我们不会将它作为真实的代表案例来宣传。对于一般的企业数据和备份策略,我们认为 30 比 1 更符合实际情况,但具体缩减比率会因公司而异。
6.出于安全考虑,目录保存在哪里?
与 VTL 目录一样,SIR 目录保存在自己的 LUN 上。两者都可以使用同步镜像来保护,以预防本地磁盘故障。由于VTL 的复制选项可对所有 SIR 内容和元数据进行复制,因此可用于集中管理和灾难恢复。
7.VTL 如何知道何时进行重复数据删除?
重复数据删除策略与复制策略一样是在 VTL 中设置的。可以为整个库、库中的磁带组、甚至针对单个磁带设置,触发重复数据删除的策略。可以根据一天中的时间、卸载后时间、复制前时间、剩余库容量、创建后保留时间长度等标准来设置策略。
8.如果磁带正在进行重复数据删除时有人需要使用该磁带,怎么办?
请求使用某个磁带时,会暂停重复数据删除处理。使用完毕并卸载虚拟磁带后,SIR 会决定继续还是重新启动重复数据删除。
9.如果写入到已删除重复数据的虚拟磁带会怎样?
具备SIR性能的 VTL 不会更改虚拟磁带的可访问性。可以像平时一样,对这些磁带进行访问、重新写入或添加。重复数据删除是独立进行的。
10.重复数据删除对复制有何影响?
由于 SIR 是 VTL 的扩展,所以 VTL 中的复制策略可以保持不变。由于只复制唯一数据,所以具备SIR性能的 VTL 复制效率更高,极大的减少降低了提供灾难恢复时对带宽的需求。
当被复制到中央站点的虚拟索引磁带所指向的数据块尚不存在于中央存储库中时,何时复制新的数据块?当中央 VTL SIR 发现存在新的唯一数据块时,中央 SIR 会立即从远程存储库中读取并存储这些新块。
11.重复数据删除有多快?
在我们的测试的配备双核处理器和充足 RAM的服务器系统上,其重复数据删除加上贮存的处理速度高达每节点 400 MB/sec,恢复速度为 480 MB/sec。
SIR 支持多节点集群以提高性能。对于首发的版本,可配置 1、2 或 4 节点集群。在今后的版本中,将增至 8 和 16 节点。
12.SIR 是否可以进行负载平衡?
可以。集群中的各成员将采用简单的循环 (round-robin) 法自动进行磁带重复数据删除。通过将相等大小的散列值子集分配给每个节点,将实际的数据存储分散到集群。
13.恢复性能是否会受影响?
不会,从具备 SIR 性能的 VTL 复原与基础 VTL 中的速度一样快。
14.通过 WAN 的恢复性能如何?
由于只有虚拟索引磁带和唯一数据块需要复制回来,因此使用 SIR 可大幅度提高通过 WAN 的复原性能。
15.高可用性如何?
SIR 可配置为具有主动/被动故障切换功能的 N+1 集群,以确保节点发生故
障时仍具有高可用性。
16.如果需要的存储量超出原来提供给 SIR 的量,怎么办?
IPStor? 驱动的SIR具备了虚拟化技术,所以可以不间断地随时增加存储空间。
17.存储库应使用什么类型的存储器?
SIR 以历经验证的 IPStor 技术为基础,所以它与存储器连接类型或供应商无关。选择 FC 还是 SATA 磁盘存储器取决于环境的性能和预算要求。我们建议多数用户使用 FC 连接的阵列。
18.SIR 如何判断数据是否重复?
SIR 使用众所周知的 SHA-1 散列技术,根据数据内容计算出一个值。随后与已存储的数据散列值进行对比检查。如果存在匹配,我们就有相当的把握,可以确定该数据与已存储的某项内容重复。即便某个块发生很细微的变化,其散列值也会发生巨大变化,因此几乎可以万无一失地判定该数据的散列值是唯一的。SHA-1 散列算法与安全应用程序无关,因此即使SHA-1已经破解,也可以保证数据的安全。
19.不同数据是否会具有相同的散列值?
是,但与您每天面对的其他风险危险相比,这种可能性微乎其微。即使是 16 PB 数据,这种“散列冲突”的可能性也比磁带或磁盘子系统中硬件故障导致的数据丢失可能性小 100,000 倍。数据量较小时,这种风险将更以指数方式降低。