Déduplication à partir de blocs de taille variable

La déduplication de données a révolutionné le datacenter, en améliorant la protection des données et en faisant baisser les coûts du stockage. Les moyens qui permettent d’optimiser la déduplication n’ont jamais été aussi nombreux qu’aujourd’hui, des baies flash aux applications de sauvegarde, sans bien sûr oublier les appliances de sauvegarde sur disque. Mais quels sont les principaux points à prendre en considération lors du choix d’une technologie de déduplication ?

Qu’est-ce que la déduplication de données à partir de blocs de longueur variable ?

La déduplication de données permet d’augmenter le volume d’informations qu’il est possible de stocker sur des baies de disques et le volume de données effectif pouvant être transmis sur des réseaux. De multiples algorithmes sont conçus pour réduire le volume des données, qu’il s’agisse d’algorithmes de compression ou de méthodes de déduplication de bits ou de blocs redondants visant à réduire le volume des données écrites sur disque. Les principales méthodes sont basées sur les fichiers ou utilisent des segments de données de longueur fixe ou la déduplication à partir de blocs de taille variable.

La déduplication de données utilisée et mise en œuvre par Quantum fait référence à une approche spécifique de réduction des données s’appuyant sur une méthodologie qui remplace systématiquement les blocs (ou segments de données) de longueur variable redondants par des pointeurs de référence, dans un jeu de données particulier.

La technologie de déduplication de Quantum divise le flux de données en segments de données de longueur variable, en appliquant une méthodologie dépendante des données qui permet d’identifier les mêmes limites de blocs à des emplacements et dans des contextes différents. Ce processus de création de blocs permet d’utiliser des limites « flottantes » dans le flux de données, pour que les modifications affectant une partie du jeu de données aient peu d’impact, voire aucun, sur les limites à d’autres emplacements dans ce jeu. Cette méthode permet de détecter les segments de données redondants à divers emplacements dans un fichier, dans des fichiers différents, dans des fichiers créés par des applications différentes et dans des fichiers créés à des moments différents.

La réduction des données fait la différence

UNE DÉDUPLICATION SIX FOIS PLUS EFFICACE FAIT BAISSER LES COÛTS DE STOCKAGE, RÉSEAU ET CLOUD

Le pourcentage de réduction des données peut varier considérablement suivant l’algorithme de déduplication et les caractéristiques des données, de 50 % (ratio 2:1) jusqu’à 99 % (ratio 100:1), voire plus avec la déduplication à partir de blocs de taille variable. La déduplication présente donc un double avantage : (1) elle réduit le volume des données stockées sur disque et (2) allège le trafic réseau (LAN ou WAN). Le facteur de réduction des données peut avoir un impact substantiel sur les coûts de stockage, réseau et Cloud.

La méthode de déduplication brevetée à partir de blocs de taille variable de Quantum est la plus performante pour les données courantes du datacenter, six plus efficace que les méthodes à partir de blocs de taille fixe.

Lorsqu’elle est basée sur des segments de données de longueur variable, elle peut offrir une plus grande granularité que les technologies de stockage qui identifient les fichiers complets identiques et en stockent une seule instance. En fait, la déduplication de données basée sur des blocs de longueur variable peut être combinée avec des systèmes de réduction de données basés sur des fichiers pour accroître l’efficacité.

90 % = 10:1 = Le stockage de 100 To de données équivaut à 10 To sur disque

73 % = 3,75:1 = Le stockage de 100 To de données équivaut à 27 To sur disque

GAINS D’ESPACE DISQUE EN %
Sauvegarde d’Exchange DXi (taille variable) Bloc de taille fixe
1 33 % 48 %
2 62% 61%
3 73% 60%
4 78% 65%
5 82% 70 %
... ... ...
18 90% 73 %

Le tableau ci-dessus illustre la différence – il présente les résultats de 18 sauvegardes séquentielles d’un environnement Microsoft Exchange, les gains d’espace disque (en %) pour ces 18 sauvegardes, avec la déduplication à partir de blocs de taille variable du DXi® et avec un algorithme de déduplication à partir de blocs de longueur fixe. Ces résultats montrent qu’après 18 sauvegardes, la déduplication à partir de blocs de taille variable réduit l’espace disque nécessaire de 90 %, contre 73 % seulement avec la méthode à partir de blocs de longueur fixe. En résumé, pour stocker un même volume de données, la déduplication à partir de blocs de taille variable utilise un tiers de la capacité disque requise par une approche à base de blocs de taille fixe.

La déduplication au service de la réplication

TRANSFERT DE DONNÉES HORS SITE ET DANS LE CLOUD

Initialement, la déduplication était conçue pour la sauvegarde et la reprise après incident, en vue de réduire ou d’éliminer le recours à la bande pour la sauvegarde. C’est une technologie formidable pour la sauvegarde, les données de sauvegarde contenant de plus en plus de jeux de données redondants, à mesure que le temps passe. Mais la réduction des données n’est pas la seule application de la déduplication qui est en passe de devenir une technologie Cloud incontournable.

La déduplication facilite le processus de réplication des données de sauvegarde en réduisant la bande passante et les coûts qu’impliquent la création et la gestion de jeux de données en double via les réseaux. Sommairement, la réplication avec déduplication est similaire aux ensembles de données avec déduplication. Dès lors que deux images d’un ensemble de données de sauvegarde sont créées, il suffit, pour que la réplique ou la cible reste identique à la source, de copier et de déplacer périodiquement les nouveaux segments de données lors de chaque sauvegarde, avec l’image des métadonnées ou le namespace correspondant.

La déduplication à partir de blocs de taille variable réduit la capacité de stockage sur disque nécessaire, et plus encore la bande passante réseau requise, puisque seules les données dédupliquées sont répliquées. Il est donc possible de répliquer des données entre des sites mais aussi vers le Cloud et à partir de celui-ci, très efficacement, de façon à minimiser le trafic et les coûts réseau.

L’emplacement a son importance : Où dédupliquer les données ?

IMPACT DE LA DÉDUPLICATION SUR LES RESSOURCES DE TRAITEMENT

Tous les algorithmes de réduction des données ont un point commun : Ils utilisent la puissance de calcul pour exécuter l’algorithme et suivre les bits de données. En conséquence, si les utilisateurs activent la déduplication sur le stockage primaire, une baie flash ou un disque SSD, la puissance de calcul mobilisée par cet équipement pour la déduplication ne sera pas disponible pour d’autres tâches, comme desservir les clients, les applications et les utilisateurs de cet environnement de stockage. La puissance de calcul est utilisée pendant la déduplication initiale des données mais aussi avec tous les algorithmes qui doivent exécuter un processus de défragmentation ou de réclamation d’espace disque pour nettoyer le pool de bits et de blocs. L’équipement dispose alors de moins de capacité pou exécuter d’autres tâches. Bref, on n’a rien pour rien. La puissance de calcul, la RAM et la capacité de stockage requises pour la déduplication doivent venir de quelque part.

C’est lorsqu’elle est utilisée en tant que technologie de sauvegarde dédiée et déployée en tant qu’appliance que la déduplication donne le meilleur d’elle-même. La sauvegarde a évolué au fil du temps pour devenir un processus qui s’exécute pendant une période spécifique dans le datacenter – durant laquelle les serveurs de sauvegarde et le stockage sont « occupés », c’est-à-dire pendant la fenêtre de sauvegarde (la nuit ou le weekend, par exemple). L’espace de stockage dédié à la sauvegarde ne doit pas rester inutilisé en dehors des fenêtres de sauvegarde mais être mis à profit par les appliances de sauvegarde pour exécuter les tâches de sauvegarde associées à la déduplication, au moment où elles n’auront pas d’impact sur les applications de sauvegarde ou de production.

Les solutions Quantum ont fait leurs preuves pour la réplication et la déduplication

Demander des informations supplémentaires en ligne
TÉLÉPHONE +33 (0)1 41 43 49 00 | EMAIL INFO.FRANCE@QUANTUM.COM
J’ai besoin d’une solution similaireDEMANDE D’INFORMATIONSNOUS
CONTACTER