¿Qué es la "deduplicación"?

8

Quiero decir, puedo buscar la definición del diccionario, pero ¿por qué todo el mundo habla de repente en referencia a las bibliotecas de cintas virtuales? ¿Qué hay de "nuevo" aquí para que haya tanto en las noticias últimamente?

lavinio
fuente

Respuestas:

14

La deduplicación es donde observa el contenido de un conjunto de datos, observa todos los bits duplicados que están presentes y almacena los datos una sola vez, reemplazando todas esas copias de datos con un puntero de vuelta a la copia. Es particularmente útil con las copias de seguridad porque cuando haces copias de seguridad de cosas como servidores, gran parte de los datos son los mismos. Imagine, por ejemplo, que está haciendo una copia de seguridad de 1,000 servidores de Windows: gran parte del contenido de esos cuadros será idéntico.

La deduplicación es tan popular hoy por 3 razones:

  1. Últimamente todos están obsesionados con la creación de soluciones de recuperación ante desastres que utilizan servidores externos. Para hacer esto, debe replicar una gran cantidad de datos de producción en el sitio remoto y el ancho de banda es un gran problema. Cualquier reducción en la cantidad de datos que tiene que replicar ayuda mucho.

  2. La cantidad de datos que las compañías están reteniendo está explotando, gracias al almacenamiento más barato y a los requisitos de múltiples industrias para la retención de registros.

  3. La tecnología relativamente recientemente alcanzó el punto óptimo. Hemos tenido cosas como la deduplicación durante mucho tiempo (almacenamiento de instancia única, etc.) que ha ayudado, pero solo en el último año más o menos hemos visto una deduplicación real que puede reducir significativamente la cantidad de almacenamiento en la corriente principal.

icky3000
fuente
2
También agregaría que el costo de las soluciones de-dup está disminuyendo para que los vendedores tengan un trabajo más fácil vendiendo sus beneficios, y si es más fácil de vender, los vendedores hablarán más sobre eso ... No he notado una discusión específicamente sobre cinta virtual bibliotecas sobre otros métodos de copia de seguridad, pero supongo que es una oportunidad para comercializar los beneficios de ambos juntos.
William
1
@William: Sí, exactamente, quise referirme a la parte del costo cuando dije "punto dulce", pero no lo dejé claro, así que gracias por señalarlo. Ciertamente, el costo se ha reducido lo suficiente como para que muchos de nosotros podamos encontrar una solución de deduplicación que realmente podamos pagar.
icky3000
0

Una de las cosas que descubrimos en mi empresa al trabajar con Netapp es que la deduplicación realmente solo funciona bien en un entorno VM si tiene sus unidades alineadas. Lo cual es un problema para nosotros, ya que tenemos muchas máquinas con Windows Server 2003 y ninguna de las unidades está alineada. Lo que significa que apenas se recupera alrededor de un cuarto del espacio posible si las unidades están alineadas correctamente.

Sin embargo, se nos dice que una vez que las unidades estén alineadas correctamente, deberíamos poder recuperar el 40-60% de nuestro espacio con dedup.

Webs
fuente
Es un problema de la implementación concreta de NetApp que utiliza (por otras razones totalmente comprensibles) tamaños de bloque estático de 4 KB. La alternativa serían fragmentos definidos por el contenido de tamaño variable que no requieren una buena alineación.
dmeister el