1. 「データ・デデュープ」は、どのようなテクノロジですか? データ・デデュープの定義は正式には確立されていませんが、「データ中の重複しているデータを除外する」技術という定義がストレージ業界においてほぼ定着しつつあります。また、デデュープにおいて重要な特長は、重複データをファイル・レベルではなくブロック・レベルで排除する点です。たとえば、タイトルページ以外のコンテンツが同一の20個のプレゼンテーション・ファイルの場合、ファイル・レベルで重複部分を検出する従来のデータ処理システムでは単に20のファイルとして処理されるのに対し、デデュープでは、ファイル間の共通部分をブロック・レベルで検出および処理するため、ストレージ容量を大幅に削減することができます。
最もハイレベルなデータ・デデュープでは、可変長ブロック・アプローチが採用されています。このアプローチを使用すると、データはブロック・レベルで処理され、同じブロックが繰り返し検出された場合は、そのブロック・データを何度も保存する代わりにポインタを格納します。ポインタの保存に必要な容量はブロックよりも小さいため、保存容量を削減できます。特に、バックアップ・データの場合は冗長性が非常に高いことから、従来のディスク・ストレージ・システムと比べて10~50倍のバックアップ・データを格納できます。 2. データ・デデュープは、レプリケーションにはどのように活用できますか? レプリケーションは、複製データをあるサイトから他のサイトへ転送するプロセスです。このため、バックアップ・データをすべてレプリケートする場合には、ネットワークにかなりの負荷がかかります。データ・デデュープを活用すると、レプリケートされるデータの中からソース・システムが重複したブロックを検索し、それらのブロックがすでにレプリケート先のシステムに転送されている場合は、そのブロックの代わりにポインタのみを転送します。ポインタの転送に必要な帯域幅はブロックを転送する場合に比べて少ないため、レプリケーションに必要なネットワーク帯域幅を大幅に低減できます。 3. データ・デデュープは、どのようなアプリケーションに適用できますか?また、デデュープを使用できないアプリケーションはありますか? データ・デデュープは、電子メール、データベース、印刷やファイルなどのすべてのアプリケーションに対応し、ほとんどのバックアップ・システムに適用することができます。可変長ブロックを採用したデータ・デデュープは、これらのアプリケーションのバックアップ・データから重複ブロックを検出します。ただし、冗長部分があらかじめ排除されている一部のリッチメディア・ファイルなどでは、デデュープの効果がすぐには現れにくい場合もあります。このような場合も、バックアップを繰り返すうちに、デデュープ・テクノロジによる容量やコストの削減の効果が徐々に出始めます。 4. データ・デデュープの効果(削減可能なコストおよびバックアップ時間)を導入前に概算することはできますか? デデュープの効果は、主にデータの変更量(つまり新しいブロックが追加される数)、データの圧縮率、バックアップの方法(完全、増分、差分など)、およびデータのリテンション期間の4つの要因に依存します。クアンタムや他のベンダーの提供する計算方法を使用して、デデュープの効果に関する具体的な予想数値を計算することもできます。 5. データ・デデュープの最大のメリットは何でしょうか? データ・デデュープには、2つの大きなメリットがあります。1つは、従来のディスクベース・システムよりも多くのバックアップ・データをディスクに格納することができます。これは、より多くのデータをより速くリストアできるということです。もう1つは、使用する帯域幅が減少することにより、既存のWAN を経由したレプリケーションをディザスタ・リカバリのツールとして実際に使用できることです。 6. 可変長ブロック・データ・デデュープは、どういった技術ですか?また、そのメリットは何ですか? 可変長ブロックのメリットを考える際には、逆に可変長ブロックを採用しない場合を想定してみると、理解しやすくなります。たとえば、仮にブロックの長さを常に一定の長さに設定したとすると、ブロックの長さを一度変更した場合、後続のデータ・ブロックもすべて変更されることになります。これに対して、可変長ブロックを使用すると、後続のデータに影響を与えることなく、必要に応じてブロックの長さを変更することができます。この機能によって、より多くの重複ブロックを検出できるようになり、使用するディスク容量が低減します。 7. データをブロックに分割することに不安があります。分割されたブロックはどのように保存されるのですか? 特定時点のデータの位置を示すためにポインタを使うテクノロジは、ストレージ業界ではすでに何十年も使用されており、安全性に問題はありません。従来のシステムにおいても、サイズの大きなファイルをディスクに書き込む際には、データはブロック単位に分割されて、使用可能なディスク・セクタにそれぞれ別個に格納されます。このため、これらのファイルを「読み取る」時には、実際には各セクタを正しい順に示すメタデータにあるポインタを読んでいることになります。ブロックベースのデータ・デデュープ・テクノロジは、この仕組みとよく似ています。さらに、デデュープ・テクノロジを採用しているベンダのほとんどは、様々なデータ整合性チェックを組み込むことにより、システムの安全性をさらに強化しています。 8. データ・デデュープは、バックアップ・プロセスのどの段階に適用されますか? これには、2つの選択肢があります。1つは、ターゲット・システムに送信されたバックアップ・データに対してデータ・デデュープを行う方法で、もう1つは、ホスト・システムでバックアップ・データを作成する際にデータ・デデュープを行う方法です。どちらの方法にも、それぞれの利点があります。ホストでデデュープを行う場合は、ターゲットに送信するバックアップ・データの量を削減できるという利点がありますが、すべてのホスト・システムでソフトウェアを管理しなければならなくなるため、ホスト・サーバでオーバーヘッドが発生し、実行している他のアプリケーションの処理速度に影響を与えます。一方、ターゲットでデデュープを行う場合は、転送するデータ量は多くなりますが、デデュープ専用のターゲット・システム一台のみでソフトウェアを管理するため、各ホストにおけるパフォーマンスは大幅に向上されます。 9. デデュープ・テクノロジをテープベースのバックアップ・システムに導入することはできますか? データ・デデュープにはデータ・ブロックへのランダム・アクセスが必要なため、ディスクベースのシステムのみに導入できます。ただし、一般的には、ディスクへのデータの保存は数週間から数ヶ月の短期間のみとなり、それ以上の長期保存にはテープベースのストレージを利用するという方法が広く採用されています。この場合、デデュープされたデータはテープに書き込まれる際に再展開されるため、テープから直接読み出すことができます。つまり、データを読み出す前に再度ディスク・システムに書き込む必要はありません。 10. データ・デデュープ・ソリューションの導入にかかる費用はどのくらいですか? 実際の費用はさまざまな要素によって異なりますが、基本的には次の方法でデデュープの導入にかかる費用を概算することができます。まず、業界で実際に広く使用されているデータの平均的なデデュープ率20:1を使用し、1GBあたりのコストを$1とします。これらの数値を使用して計算した場合、保存容量20TBのバックアップ・システムでの合計費用は約$20,000と見積もることができます。これは、従来のディスクベース・システムを使用した際のコストよりもはるかに低い数値です。ただし、追加されるオプションやご購入先の取引ベンダによっても費用は異なります。 |