Como sospechaba, se basa en el subsistema VSS ( fuente ) que también explica su naturaleza asíncrona. Los fragmentos de duplicación se almacenan en \System Volume Information\Dedup\ChunkStore\*
, con la configuración en \System Volume Information\Dedup\Settings\*
. Esto tiene un impacto significativo en la forma en que su software de respaldo interactúa con dichos volúmenes, lo cual se explica en el artículo vinculado (en resumen: sin soporte de deduplicación, sus respaldos serán del mismo tamaño que siempre, con el soporte de deduplicación solo respaldará la tienda dedupe mucho más pequeña).
En cuanto a los métodos utilizados, lo mejor que pude encontrar fue un trabajo de investigación publicado por un investigador de Microsoft en 2011 ( fuente , texto completo ) en la conferencia Usenix FAST11. La Sección 3.3 entra en Deduplicación en el almacenamiento primario . Parece probable que estos datos se hayan utilizado en el desarrollo de la función de deduplicación NTFS. Esta cita fue utilizada:
El algoritmo canónico para bloques definidos por contenido de tamaño variable es Rabin Fingerprints [25].
Hay una gran cantidad de datos en el documento para analizar, pero la complejidad del conjunto de herramientas que usaron, combinada con las características que ya conocemos en 2012, sugiere fuertemente que el razonamiento en el documento se utilizó para desarrollar las características. No puedo saberlo con certeza sin los artículos de msdn, pero esto es lo más cercano que podemos llegar por el momento.
Las comparaciones de rendimiento con ZFS tendrán que esperar hasta que los benchmarkers lo terminen.