Detalles técnicos para la función de desduplicación de Server 2012

12

Ahora que Windows Server 2012 viene con funciones de desduplicación para volúmenes NTFS , estoy teniendo dificultades para encontrar detalles técnicos al respecto. De la documentación de TechNet puedo deducir que la acción de desduplicación en sí misma es un proceso asincrónico, no muy diferente de cómo solía funcionar el SIS Groveler , pero prácticamente no hay detalles sobre la implementación (algoritmos utilizados, recursos necesarios, incluso la información sobre el rendimiento consideraciones no es más que un montón de recomendaciones de estilo de regla de oro).

Se aprecian enormemente las ideas y los punteros, sería maravilloso una comparación con la eficiencia de desduplicación ZFS de Solaris para un conjunto de escenarios.

el wabbit
fuente

Respuestas:

9

Como sospechaba, se basa en el subsistema VSS ( fuente ) que también explica su naturaleza asíncrona. Los fragmentos de duplicación se almacenan en \System Volume Information\Dedup\ChunkStore\*, con la configuración en \System Volume Information\Dedup\Settings\*. Esto tiene un impacto significativo en la forma en que su software de respaldo interactúa con dichos volúmenes, lo cual se explica en el artículo vinculado (en resumen: sin soporte de deduplicación, sus respaldos serán del mismo tamaño que siempre, con el soporte de deduplicación solo respaldará la tienda dedupe mucho más pequeña).

En cuanto a los métodos utilizados, lo mejor que pude encontrar fue un trabajo de investigación publicado por un investigador de Microsoft en 2011 ( fuente , texto completo ) en la conferencia Usenix FAST11. La Sección 3.3 entra en Deduplicación en el almacenamiento primario . Parece probable que estos datos se hayan utilizado en el desarrollo de la función de deduplicación NTFS. Esta cita fue utilizada:

El algoritmo canónico para bloques definidos por contenido de tamaño variable es Rabin Fingerprints [25].

Hay una gran cantidad de datos en el documento para analizar, pero la complejidad del conjunto de herramientas que usaron, combinada con las características que ya conocemos en 2012, sugiere fuertemente que el razonamiento en el documento se utilizó para desarrollar las características. No puedo saberlo con certeza sin los artículos de msdn, pero esto es lo más cercano que podemos llegar por el momento.

Las comparaciones de rendimiento con ZFS tendrán que esperar hasta que los benchmarkers lo terminen.

sysadmin1138
fuente
2
Gracias por la referencia, aunque tengo que admitir que esperaba algo más similar a la documentación para una característica que es tan sensata como la deducción con respecto al rendimiento, la integridad de los datos y el consumo de memoria. Bueno, esperemos y veamos, entonces.
the-wabbit