Quantum: Back up, Recovery, Archive  

    Inicio

Request more informationPrint this pageE-mail this pageBookmark this page
Las 10 principales preguntas acerca de la deduplicación de datos
 

1. ¿Qué significa realmente el término "deduplicación de datos"?
Si bien aún no hay una definición estándar en la industria, existe algo bastante aproximado. La opinión generalizada indica que la deduplicación de datos es un sistema que elimina la necesidad de almacenar datos redundantes. La mayoría de los expertos aplican este término a los sistemas que buscan datos duplicados a nivel de bloque, y no a nivel de archivo. Esto implica una característica de suma importancia. Imagine 20 copias de una presentación que tiene páginas con diferentes títulos, en un sistema de reducción de datos a nivel de archivo se verían como 20 archivos completamente diferentes. En cambio, los sistemas de bloques perciben los elementos en común y por ende utilizan mucho menos espacio de almacenamiento.

Los sistemas de deduplicación de datos más avanzados utilizan un método de bloques de longitud variable. Los productos con este sistema observan una secuencia de datos, la segmentan en bloques de longitud variable y, cuando detectan un bloque repetido, almacenan un marcador que hace referencia al original en lugar de guardar nuevamente el bloque. Dado que este marcador ocupa menos lugar que el bloque, se ahorra espacio. En las copias de seguridad, cuando el mismo bloque aparece una y otra vez, los usuarios por lo general pueden almacenar de 10 a 50 veces más datos que en un disco convencional.

2. ¿Cómo se aplica la deduplicación de datos a la replicación?
La replicación es el proceso de enviar datos duplicados de un punto de origen a un destino. Si se desea replicar todos los datos de copias de seguridad, se necesita una red de rendimiento relativamente alto para realizar esta tarea. Sin embargo, con la tecnología de deduplicación de datos, el sistema de origen (el que envía los datos) realiza una búsqueda de bloques duplicados en el flujo de datos de replicación. Si un bloque ya se transmitió al sistema de destino, no se transmite nuevamente, sino que el sistema de origen envía un marcador en su lugar. Dado que el tamaño del marcador es mucho menor que el del bloque, se requiere mucho menos ancho de banda para la replicación.

3. ¿Con qué aplicaciones funciona la deduplicación de datos? ¿Existe alguna con la que no pueda utilizarse?
Cuando se utiliza para tareas de copias de seguridad, la deduplicación de datos admite todo tipo de aplicaciones (correo electrónico, bases de datos, impresiones, archivos, etc.), y todos los paquetes de copias de seguridad con los requisitos correspondientes. La deduplicación con bloques de longitud variable puede detectar bloques redundantes en el flujo de datos de cualquiera de estas aplicaciones. En determinados tipos de archivos, por ejemplo en algunos archivos multimedia enriquecidos, no se observan grandes ventajas la primera vez que se envían a través de la tecnología de deduplicación, pues las aplicaciones que crean estos archivos ya eliminan la redundancia con anterioridad. No obstante, al realizar varias copias de seguridad de esos archivos o si se hace copia de seguridad de ellos después de implementar pequeños cambios, la deduplicación puede ofrecer potentes ventajas en cuanto a la capacidad.

4. ¿Existe alguna forma de cuantificar las ventajas que ofrecerá la deduplicación respecto de un conjunto de datos?
En realidad existen cuatro variables principales a tener en cuenta. La cantidad de cambios en los datos (es decir, cuántos bloques nuevos se introducen), la capacidad de compresión, la metodología de copias de seguridad utilizada (por ejemplo, completa o incremental), y la cantidad de tiempo que se proyecta retener los datos. Algunos proveedores (Quantum entre ellos) ofrecen calculadoras de tamaño para obtener una estimación de los efectos.

5. ¿Cuál es la ventaja real de usar la deduplicación de datos?
Existen dos grandes ventajas. 1) La tecnología de deduplicación de datos permite conservar más datos de copias de seguridad en el disco que cualquier otro sistema de copias de seguridad en disco convencional, lo que significa que los datos pueden restaurarse con mayor rapidez. 2) Este método hace más práctico el uso de redes de área amplia (WAN) estándar y replicación para la protección en caso de recuperación ante desastres, lo que implica que los usuarios pueden reducir la manipulación de cintas.

6. ¿En qué consiste la deduplicación de datos mediante bloques de longitud variable? ¿Cómo se obtiene este tipo de bloques y cuáles son sus ventajas?
Para explicar este tema, es más fácil pensar en lo opuesto. Si el flujo de datos se divide en segmentos de longitud fija, cada vez que se produce un cambio en un punto, todo el flujo de bloques también se modifica. El sistema de bloques de longitud variable permite que algunos de los segmentos se expandan o contraigan sin modificar el resto de los bloques, lo que incrementa la capacidad del sistema para encontrar segmentos con datos duplicados, y por ende permite ahorrar mucho más espacio.

7. ¿Es seguro dividir los datos en bloques? ¿Cómo se restauran los datos en ese caso?
La tecnología de uso de marcadores para hacer referencia a una secuencia de segmentos de datos se utiliza en la industria de forma estandarizada desde hace décadas. De hecho, todos los usuarios la utilizan a diario, y es totalmente segura. Cada vez que un usuario copia un archivo de gran tamaño en un disco, se almacena en bloques en diferentes sectores del disco, y en un orden determinado por el espacio disponible. Cuando se "lee" un archivo, lo que se lee realmente son los marcadores de metadatos del archivo, que apuntan a los diferentes sectores en el orden correcto. La deduplicación de datos por medio de bloques aplica una tecnología similar. Además, los proveedores de sistemas de deduplicación suelen implementar diversos controles de integridad de los datos para verificar que el sistema ofrezca solidez y los datos permanezcan disponibles.

8. ¿En qué momento se lleva a cabo la deduplicación de datos durante el proceso de copia de seguridad?
Existen dos opciones. Todos los datos pueden enviarse a una ubicación de copiado de seguridad de destino donde se realiza la deduplicación, o la deduplicación puede implementarse en el equipo host durante la realización de la copia de seguridad. Ambos métodos están disponibles y presentan sus propias ventajas. Si los datos se deduplican en el equipo host durante el proceso de copia de seguridad, se envían menos datos pero es necesario administrar el software en todos los equipos host protegidos, el proceso de copia de seguridad se vuelve más lento debido a que la deduplicación suma más tiempo de procesamiento, y puede reducirse la velocidad de otras aplicaciones que se ejecutan en el servidor host. Si los datos se deduplican en la ubicación de destino, se envía una mayor cantidad de datos a través de la conexión pero puede utilizarse cualquier software de copiado de seguridad, sólo se necesita administrar una sola ubicación de destino y el rendimiento suele ser mucho mejor porque el sistema de hardware está desarrollado especialmente para tareas de deduplicación.

9. ¿La tecnología de deduplicación puede utilizarse con cintas?
En principio, no. Pero en realidad, sí. La deduplicación de datos requiere de acceso aleatorio a los bloques de datos para las tareas de escritura y lectura, por lo que debe implementarse en un sistema de disco. No obstante, es muy fácil copiar una cinta a partir del almacenamiento de los datos deduplicados, y de hecho esa es la norma. La mayoría de los usuarios de sistemas de deduplicación conservan los datos en copias de seguridad guardadas en disco durante algunas semanas o meses, y luego utilizan sistemas de cinta para el almacenamiento más prolongado. Cuando se crea una cinta a partir de datos deduplicados, los datos vuelven a expandirse para que puedan leerse directamente en una unidad de cinta sin necesidad de volver a copiarlos en un sistema de disco en primer lugar.

10. ¿Cuál es el verdadero costo de las soluciones de deduplicación de datos?
Si bien hay muchas diferencias, existe una buena regla general para tomar como punto de partida. Si se toma como referencia una relación de ventaja promedio de 20:1 en favor de la deduplicación (una cifra ampliamente utilizada en la industria), varias listas de precios están en el margen de $1/GB. Por lo tanto, un sistema que pueda retener 20 TB de datos de copias de seguridad debería tener un precio de alrededor de $20.000, que es una cifra mucho menor al costo que implica proteger los mismos datos mediante el sistema de disco convencional. Nota: existen determinadas opciones que pueden aumentar el precio, en tanto los descuentos de revendedores o proveedores pueden reducirlo.