Deduplizierung mit Datenblöcken variabler Länge

Die Datendeduplizierung hat das Rechenzentrum revolutioniert und entscheidend zur optimierten Datensicherung sowie der Einsparung von Speicherkosten beigetragen. Inzwischen gibt es für die Deduplizierung mehr Einsatzbereiche denn je: von Flash-Arrays bis hin zu Backup-Anwendungen und natürlich Disk-basierten Backup-Appliances. Welche Aspekte sollten Sie also bei der Auswahl der geeigneten Deduplizierungstechnologie berücksichtigen?

Was ist Deduplizierung mit Datenblöcken variabler Länge?

Der Zweck der Datendeduplizierung besteht darin, das auf Disk-Arrays speicherbare und in Netzwerken übertragbare Datenvolumen zu erhöhen. Unterschiedlichste Algorithmen, darunter Komprimierungsalgorithmen und verschiedene Methoden zur Deduplizierung redundanter Bits und Datenblöcke, wurden zur Verringerung der auf Disk geschriebenen Datenmengen entwickelt. Am häufigsten zum Einsatz kommen dateibasierte Methoden bzw. Methoden, die auf Datensegmenten fester Länge oder variabler Länge basieren.

Die von Quantum verwendete und implementierte Form der Datendeduplizierung bezeichnet eine bestimmte Methode zur Datenreduktion, bei der redundante Datenblöcke (oder -segmente) variabler Länge in einem spezifischen Datensatz systematisch durch Verweise (Pointer) ersetzt werden.

Die Unterteilung erfolgt anhand eines datenabhängigen Verfahrens, das identische Blockgrenzen an verschiedenen Positionen und in unterschiedlichem Kontext erkennen kann. Durch diese variable Blockerstellung können die Grenzen innerhalb des Datenstroms „fließen“, sodass Änderungen an einem Teil des Datensatzes keine oder nur geringe Auswirkung auf die Blockgrenzen an anderen Positionen im Datensatz haben. Mithilfe dieser Methode lassen sich doppelte Datensegmente an verschiedenen Stellen in einer Datei, in mehreren Dateien, in von unterschiedlichen Anwendungen erzeugten Dateien und in Dateien mit unterschiedlichem Erstellungszeitpunkt identifizieren.

Die richtige Datenreduktion macht den Unterschied

OPTIMIERTE DEDUPLIZIERUNG SPART SPEICHER-, NETZWERK- UND CLOUD-KOSTEN

Die letztlich erzielte Datenreduzierung kann drastisch schwanken. Je nach Deduplizierungsalgorithmus und Dateneigenschaften sind 50 % (also ein Verhältnis von 2:1) ebenso denkbar wie 99 % (Verhältnis 100:1) oder mehr bei einer Deduplizierung mit Datenblöcken variabler Länge. Deduplizierung bietet einen zweifachen Vorteil: (1) Reduzierung des auf Disk gespeicherten Datenvolumens und (2) Reduzierung des Netzwerkverkehrs (LAN oder WAN). Somit wirkt sich die Differenz zwischen einer Datenreduzierung im Verhältnis 2:1 bzw. 10:1 merklich auf die Speicher-, Netzwerk- und Cloud-Kosten aus.

Die von Quantum patentierte Methode mit Datenblöcken variabler Länge ist die effizienteste Vorgehensweise zur Deduplizierung typischer Rechenzentrumsdaten – 6x effizienter als Methoden auf Basis von Blöcken fester Länge.

Sie kann weit größere Granularität bieten als die sogenannte Single-Instance-Store-Technologie (Einzelinstanz-Speicherung), bei der mehrfach vorhandene vollständig identische Dateien erkannt und nur einmal gespeichert werden. Das Verfahren lässt sich zudem mit dateibasierten Reduktionstechnologien kombinieren, um deren Effektivität zu steigern.

90 % = 10:1 = 100 TB Daten ergeben 10 TB Speicherdaten auf Disk

73 % = 3,75:1 = 100 TB Daten ergeben 27 TB Speicherdaten auf Disk

SPEICHERPLATZERSPARNIS IN %
Exchange-Backup DXi (variable Länge) Feste Blocklänge
1 33 % 48 %
2 62 % 61 %
3 73 % 60 %
4 78 % 65 %
5 82 % 70 %
... ... ...
18 90 % 73 %

Das Diagramm oben veranschaulicht den Unterschied. Es zeigt die Ergebnisse aus 18 aufeinanderfolgenden Backups einer Microsoft Exchange-Umgebung und stellt die prozentuale Speicherplatzersparnis bei DXi®-basierter Deduplizierung mit Datenblöcken variabler Länge einem Deduplizierungsalgorithmus mit fester Blocklänge gegenüber. Wie Sie sehen, reduziert sich der benötigte Speicherplatz nach 18 Backups bei Deduplizierung mit Datenblöcken variabler Länge um 90 %, bei einer festen Blocklänge dagegen nur um 73 %. Konkret ausgedrückt bedeutet das, dass bei der Deduplizierung mit Datenblöcken variabler Länge für dasselbe Volumen an Daten nur ein Drittel der Speicherkapazität benötigt wird wie bei dem Ansatz mit fester Blocklänge!

Deduplizierte Replikation

DATENVERLAGERUNG AN ANDERE STANDORTE UND IN DIE CLOUD

Die Deduplizierungstechnologie wurde ursprünglich für Backup und Disaster Recovery entwickelt, um den Verbrauch von Tapes im Backup zu reduzieren oder ganz überflüssig zu machen. Tatsächlich eignet sich die Deduplizierung hervorragend als Backup-Technologie, da sich unter den Backup-Daten im Laufe der Zeit immer mehr redundante Datensätze ansammeln. Doch ihre Vorteile gehen weit über eine bloße Datenreduktion hinaus. So etabliert sich die Datendeduplizierung zunehmend als grundlegende Cloud-Technologie.

Durch Datendeduplizierung wird die Replikation von Backup-Daten über WANs zu einer praktikablen Option, da sie den Bandbreitenbedarf und die Kosten für Erstellung und Aufbewahrung von Duplikaten reduziert. Im Grunde ist eine deduplizierte Replikation vergleichbar mit der deduplizierten Datenspeicherung. Wenn erst einmal zwei Images eines Backup-Datenspeichers erstellt sind, müssen nur noch die bei jedem Backup neu hinzugekommenen Datensegmente gemeinsam mit ihren Metadaten oder Namensräumen regelmäßig kopiert werden, um Replik und Original auf einem identischen Stand zu halten.

Deduplizierung mit Datenblöcken variabler Länge senkt nicht nur den Bedarf an Disk-Speicher – auch die benötigte Netzwerkbandbreite verringert sich drastisch, da nur die deduplizierten Daten repliziert werden. So lassen sich Daten auf äußerst effiziente Weise zwischen Standorten bzw. in die Cloud und zurück replizieren und gleichzeitig Netzwerkverkehr und -kosten minimieren.

Die Wahl des passenden Deduplizierungsorts

ZUSAMMENHANG VON DEDUPLIZIERUNG UND RECHENRESSOURCEN

Eines haben alle Algorithmen zur Datenreduzierung gemeinsam: Sie benötigen Rechenkapazität, um den Algorithmus auszuführen und die einzelnen Daten-Bits zu verfolgen. Wenn Benutzer also die Deduplizierung auf einem Primärspeicher, Flash- oder SSD-Speicher starten, wird Verarbeitungsleistung beansprucht, die somit nicht mehr für andere Aufgaben zur Verfügung steht – etwa, um Anforderungen der jeweiligen Clients, Anwendungen und Benutzer zu bedienen. Hinzu kommt, dass die Verarbeitungsleistung nicht nur beim Deduplizierungsvorgang selbst in Anspruch genommen wird, sondern bei allen Algorithmen auch im Anschluss irgendeine Form von Defragmentierung oder Speicherplatzfreigabe erfolgen muss, um den Bit- und Block-Pool zu bereinigen. Auch hierfür wird Verarbeitungsleistung benötigt, die dann ebenfalls wieder für andere Aufgaben fehlt. Sie müssen also abwägen, wo Sie die CPU-, RAM- und Speicherleistung für die Deduplizierung am ehesten entbehren können.

Aus diesem Grund eignet sich die Deduplizierung so hervorragend für spezialisierte Backup-Technologien und hier wiederum am besten in einer Appliance. Im Laufe ihrer Entwicklung haben sich Backups als Prozess etabliert, der zu bestimmten Zeitfenstern im Rechenzentrum durchgeführt wird, in denen die Backup-Server und -Speicher „arbeiten“ – in der Regel nachts oder am Wochenende. Außerhalb der Backup-Fenster kann es sich der Backup-Speicher aber leisten, untätig zu sein. Dies ist die perfekte Zeitpunkt für die Backup-Appliances, ihre Deduplizierungsaufgaben durchzuführen, ohne dabei die Backup- oder Produktionsanwendungen zu beeinträchtigen.

Quantum – bewährte Lösungen
für Deduplizierung und Replikation

Online weitere Informationen anfordern
TELEFON +49 (0)89 94303-0 | EMAIL INFO.DE@QUANTUM.COM
Ich benötige eine ähnliche LösungWEITERE INFORMATIONEN ANFORDERNKONTAKTIEREN
SIE UNS