可变长度重复数据删除

重复数据删除给数据中心带来了根本性变革,在加强数据保护的同时大幅降低了存储成本。当今,利用重复数据删除的途径比以往更多,从闪存阵列到备份应用程序以及常见的磁盘备份设备,不一而足。那么,在选择重复数据删除技术时,有哪些关键的考虑因素呢?

什么是可变长度重复数据删除?

重复数据删除旨在提高可存储在磁盘阵列中的信息量以及可通过网络传输的有效数据量。目前有多种算法可以用于缩减数据,包括压缩算法以及用于删除冗余字节或数据块的不同算法,这些方法都可以减少写入磁盘的数据量。但主要的方法还是基于文件的重复数据删除或使用固定长度数据段或可变长度重复数据删除的方法。

昆腾使用和实施的重复数据删除是基于一种特定方法的数据压缩方案,这种方法可以将特定数据集中的冗余可变长度数据块(或数据段)系统地替换为引用指针。

昆腾重复数据删除技术可以使用基于数据的方法查找不同位置和上下文中的相同数据块边界,以便将数据流转换为可变长度数据段。这种数据块创建流程允许边界在数据流中“自由浮动”,这样,数据集某一部分发生变更几乎不会影响数据集其他位置的边界。通过这一方法,可以发现同一文件中、不同文件中、不同应用程序创建的文件中以及不同时间创建的文件中不同位置的重复数据段。

数据缩减方面的差异

重复数据删除效率提高三倍,显著降低存储、网络和云成本

最终,数据缩减量根据采用的重复数据删除算法和数据本身的特征存在很大差异,缩减率从 50%(2:1 的比例)一直到 99%(100:1 的比例)不等,采用可变长度重复数据删除时会更高。由于重复数据删除的优势是双层面的:(1) 减少存储在磁盘上的数据;(2) 减少网络流量(LAN 或 WAN),因此,数据缩减量 2 倍或 10 倍的差异将对存储、网络和云成本产生非常大的影响。

昆腾的专利 可变长度方法是删除常见数据中心重复数据最高效的方法,效率比固定数据块方法高出六倍。

如果是基于可变长度的数据段进行重复数据删除,则相比能够识别和避免存储相同完整文件重复实例的单实例存储技术,它可以提供更高的细化程度。事实上,可变长度重复数据删除技术可与基于文件的数据缩减系统结合,来提高彼此的效用。

90% = 10:1 =“将 100TB 数据压缩为 10TB 存储在磁盘上”

73% = 3.75:1 = “将 100TB 数据压缩为 27TB 存储在磁盘上”

磁盘节省 %
Exchange 备份 DXi 可变长度 固定数据块
1 33% 48%
2 62% 61%
3 73% 60%
4 78% 65%
5 82% 70%
... ... ...
18 90% 73%

上图中说明了这项差异 — 图表中显示的是完成 18 项 Microsoft Exchange 环境顺序备份的结果,同时显示了 DXi® 可变长度重复数据删除和固定块重复数据删除算法两种情况下的磁盘节省比例。结果显示,完成 18 项备份后,可变长度重复数据删除可将磁盘需求降低 90%,而固定块方法则只降低了 73%。在实际应用中,这意味着在存储相同数据量的情况下,相比固定块方法,可变长度重复数据删除只需六分之一的磁盘容量!

基于重复数据删除技术的复制

将数据移至异地和云中

最初,重复数据删除是一项针对备份和灾难恢复而设计的技术,旨在减少或避免备份时磁带的使用。作为备份技术,它具有极高的价值,因为随着时间的推移,备份数据包含的重复数据集会越来越多。但重复数据删除的价值绝不仅限于数据缩减,它正在成为一项基本的云技术。

重复数据删除技术可以减少通过网络创建和维护重复数据集所需的带宽和成本,从而支持备份数据的高效复制。在基本层面上,基于重复数据删除的复制类似于基于重复数据删除的数据存储。在创建了备份数据存储的两个映像后,要确保副本或目标与源相同,只需在每次备份活动期间定期与元数据映像或命名空间一起复制和移动新添加的数据段。

可变长度重复数据删除不但有助于减少所需的磁盘存储,而且可以显著降低对网络带宽的需求,因为只会复制经过了重复数据删除处理的数据。这意味着,可以在站点之间以及站点与云之间高效地复制数据,而且充分降低了网络流量和成本。

位置至关重要:从哪里进行重复数据删除

重复数据删除对计算资源的影响

所有数据缩减算法都有一个共同点:使用计算/处理资源来执行算法以及跟踪不同的数据位。如果用户针对主存储、闪存或 SSD 启用重复数据删除,那么设备将占用一定的处理资源来执行重复数据删除,这部分资源将无法用于其他任务 — 例如,服务于存储的客户端、应用程序和用户。而且,不仅仅是在最初执行重复数据删除期间要使用处理资源,对于所有算法而言,还需要运行一定程度的碎片整理或磁盘空间回收,来清理字节和数据块池。这同样会占用处理资源,因此在设备执行这一功能时,用于其他任务的资源会更少。简而言之,天下没有免费的午餐。执行重复数据删除所需的 CPU 动力、RAM 和存储资源需要从某处获取。

这就是为什么重复数据删除的最佳定位是专用备份技术,而最佳部署形式是设备。随着备份的不断发展,它已演变成一个需要在数据中心的特定时间窗口进行的流程。而在这期间,备份服务器和存储都将处于繁忙状态,即备份窗口期间,例如,夜间或周末。但备份存储可以在备份窗口之外“处于闲置”,这是备份设备执行与重复数据删除相关备份任务的最佳时间,不会影响备份或生产应用程序。

经实践验证的适用于重复数据删除复制的
昆腾解决方案

要在线了解更多信息
电话 8610-5829-9977 | 电子邮箱 CHINA.MARKETING@QUANTUM.COM
我需要类似解决方案请求更多的信息联系我们