可変長の重複排除

データ保護を強化し、ストレージ・コストを削減するデータ重複排除は、データセンターに革命をもたらしました。今日では、データの重複排除を活用する方法には、フラッシュアレイ、バックアップ・アプリケーション、ディスク・バックアップ・アプライアンスなど、これまでになかったさまざまな方法があります。これらの中から重複排除技術を選択する場合、何を考慮すべきでしょうか。

可変長重複排除とは

データ重複排除の目的は、ディスク・アレイに格納できるデータの量を増やし、ネットワーク経由で送信される有効なデータの量を増加させることです。データ削減のために設計されたアルゴリズムには、圧縮アルゴリズムから、データの冗長部分のビットまたはブロックを重複排除してディスクに書き込むデータを削減する各種の方法まで、数多くあります。主に使用される方法は、ファイルベースか、または固定長のデータ・セグメントまたは可変長の重複排除を使用する方法です。

クアンタムが使用/実装を行うデータの重複排除は、特定のデータ・セット内に冗長可変長ブロック(またはデータ・セグメント)のための参照ポインタを機械的に代入するやり方で構築されたデータ削減に特化したアプローチです。

クアンタムの重複排除技術は、さまざまな場所や状況にある同じブロックの境界を見つけることができるデータ依存型の方法を用いて、データ・ストリームを可変長のデータ・セグメントに配分します。このブロック作成プロセスでは、データ・ストリーム内で境界を「浮動」させることができるため、データ・セットの一部が変更されても、データ・セットの他の場所の境界にはほとんどあるいはまったく影響を与えません。この方法により、重複するデータ・セグメントを、1 ファイル内のさまざまな場所、さまざまなファイル内、さまざまなアプリケーションで作成されたファイル内、およびさまざまな時間に作成されたファイル内に見つけることができます。

データ削減率の違い

重複排除によりストレージ、ネットワーク、およびクラウドのコストが6分の1に削減

データの最終的な削減率は、可変長の重複排除を使用した場合、重複排除アルゴリズムとデータの特性に応じて50%の減少(2:1の比率)から最大で99%の減少(100:1の比率)まで大きく変わることがあります。重複排除のメリットは 2つあります。(1)ディスクに保存されるデータの削減、(2)ネットワーク・トラフィック(LANまたはWAN)の低減。2倍~10倍のデータ削減率の差がストレージ、ネットワーク、およびクラウドのコストへかなり大きな影響を与えることがあります。

クアンタムの特許取得済みの可変長方式は、一般的なデータセンターのデータを最も効率的に重複排除できます(固定ブロック方式の6倍の効率)。

可変長のデータ・セグメントに基づく重複排除は、単一インスタンスの格納技術よりも微細に調整する機能に優れており、類似したすべてのファイル内で繰り返されるインスタンスを特定でき、そのようなインスタンスを格納する必要がありません。実際、可変長の重複排除は、その効果を高めるために、ファイルベースのデータ削減システムと組み合わせることができます。

90% = 10:1 =「100 TBのデータをディスクに 10 TBとして格納」

73% = 3.75:1 = 「100TBのデータをディスクに27 TBとして格納」

ディスクの節約率(%)
バックアップの交換 DXi可変長 固定ブロック
1 33% 48%
2 62% 61%
3 73% 60%
4 78% 65%
5 82% 70%
... ... ...
18 90% 73%

上図に違いを示します。このチャートは、Microsoft Exchange環境でバックアップを18回連続して行った結果を示しています。次に、DXi®可変長の重複排除と固定ブロックの重複排除アルゴリズムの両方でそれぞれ18回バックアップしたときのディスク節約率(%)を示します。結果は、バックアップを18回行った後、可変長の重複排除は、ディスクへの格納に必要なデータの量が90%削減されたのに対し、固定ブロックでは73%しか削減されなかったことを示しています。実際的な言葉に置き換えると、これは、可変長の重複排除は同じ量のデータを、固定ブロック方式のディスク容量の3分の1で格納することを意味します!

重複排除対応のレプリケーション

データをオフサイトとクラウドへ移動

重複排除は、もともとバックアップおよびディザスター・リカバリーのために考案された技術で、バックアップ用テープの使用を削減またはなくす技術として設計されました。バックアップ・データには、時間が経つとともに冗長なデータ・セットが多く蓄積されるため、重複排除技術はバックアップ技術として優れています。しかし、重複排除機能は、単なるデータの削減よりもさらに多くの可能性をもたらしました。重複排除はクラウドの基本的な技術となってきています。

データの重複排除は、ネットワーク経由で重複したデータ・セットを作成および維持するために必要な帯域幅とコストを削減できるため、バックアップ・データをレプリケートする処理に使われています。重複排除対応のレプリケートは、基本的には重複排除対応のデータ・ストアと似ています。バックアップ・データ・ストアの2つのイメージが作成されると、レプリカ(ソースと同じターゲット)を保持するために必要なことは、各バックアップ・イベントで追加される新しいデータ・セグメントを定期的にコピーし、メタデータのイメージ(名前空間)とともに移動することです。

可変長の重複排除により、必要なディスク・ストレージの量も減少しますが、重複排除されたデータのみがレプリケートされるため、ネットワーク帯域幅の要件が大幅に低減します。これは、非常に効率的な方法(ネットワークのトラフィックとコストを最小限に抑える)でサイト間やクラウドとの間でデータをレプリケートできることを意味します。

場所に関する問題:どこで重複排除

重複排除がコンピューティング・リソースに与える影響

すべてのデータ削減アルゴリズムには共通するものがあります。それは、アルゴリズムを実行したり、さまざまなデータ・ビットを追跡したりするために、コンピューティング(コンピュータの処理能力)を使用することです。ユーザーがプライマリ・ストレージ、フラッシュ、またはSSDで重複排除を行う場合、そのデバイスは重複排除を実行する処理能力を消費し、他のタスク(そのストレージのクライアント、アプリケーション、ユーザーへのサービス提供など)のために使用することはできません。そして、データが最初に重複排除されるときに処理能力が使用されるだけでなく、ビットやブロックのプールをクリーンアップするために、すべてのアルゴリズムで、デフラグやディスク領域再利用プロセスが実行される必要があります。このようなタスクにも処理能力は使われ、また、デバイスがこの機能を実行しているときは、他のタスクを実行するために利用できるキャパシティが少なくなっています。つまり、処理能力に余裕がないということです。重複排除を実行するのに必要なCPUパワー、RAM、およびストレージはどこからか調達する必要があります。

重複排除が専用のバックアップ技術として最も適しており、アプライアンスとして多く展開されているのは、このような理由です。バックアップは時間をかけて進化し、データセンター内の特定のウィンドウ内(バックアップ・サーバーやストレージが「塞がっている」間。たとえば、夜間や週末に行われるバックアップ処理などで)に実行されるプロセスとなりました。しかし、バックアップ・ストレージは、バックアップ・ウィンドウの外で「アイドル状態」にしておくだけの余裕があります。これこそ、バックアップ・アプライアンスが重複排除機能に関連するこれらのバックアップ・タスクを実行する適切なタイミングであり、バックアップや稼動中のアプリケーションに影響を及ぼさない時間帯に行われます。

重複排除レプリケーションで実証済みの
クアンタム・ソリューション

製品に関する情報を受け取る
電話 03-4360-9255 | メール JAPAN_INFO@QUANTUM.COM
このようなソリューションを必要としている方詳細情報を
要求する
お問い合わせ