Encuentra archivos faltantes de múltiples copias de seguridad, independientemente de la ubicación de la carpeta [cerrado]

1

Tengo 6 copias de seguridad de mi PC desperdiciando mucho espacio en un disco duro externo, porque todas son copias de seguridad completas (no incrementales) de mi PC, lo que significa que la mayoría de los contenidos están duplicados en las copias de seguridad.

Mi idea es recortar esas copias de seguridad, manteniendo solo los archivos que FALTAN de la fuente de copia de seguridad original, SIN IMPORTAR la ubicación de la carpeta.

Como las copias de seguridad son "unidades que se pueden montar" de tal manera, puedo usar las utilidades comunes de archivos / carpetas para encontrar duplicados & amp; archivos faltantes entre dos conjuntos comparados, he probado algunas herramientas como Windiff y Comparator pro, pero ambas herramientas mostrarán como archivos perdidos que los archivos movieron en otras carpetas, en comparación con el conjunto de archivos actual.

Lo que necesito es una herramienta que enumere los archivos faltantes del origen de la copia de seguridad que están presentes en la copia de seguridad, dondequiera que estén, incluso si se han movido a otro lugar.

Riccardo
fuente
Por el precio correcto, escribiré uno para ti. . .
surfasb
¿Qué sistema operativo está ejecutando y qué sistema de archivos utiliza la unidad externa?
Scott McClenning
Windows 7. @surfasb, gracias, pero sería más fácil usar un buscador de archivos duplicados y eliminar todos los duplicados encontrados en la copia de seguridad :-)
Riccardo
@Riccardo Me sorprende que tengas esta situación en primer lugar. Suena como si fueran copias de seguridad completas idénticas realizadas en diferentes momentos. ¿Por qué no cambia a un programa de copias de seguridad donde realiza copias de seguridad completas una vez cada x veces (o cada x días) y copias de seguridad incrementales intermedias? Una herramienta gratuita como Cobian Backup puede hacerlo por usted (y, por cierto, sus copias de seguridad son archivos ZIP, por lo que acceder a los archivos es fácil). Si cambia a este programa, puede simplemente eliminar gradualmente sus copias de seguridad antiguas (asumiendo que solo necesita mantener las copias de seguridad X días atrás).
Jan Doggen

Respuestas:

1

Yo también he estado buscando copias de seguridad de espacio eficiente y aquí hay algunas aplicaciones que he encontrado:

Dupemerge es un programa de línea de comandos que deduplicará a los directorios utilizando enlaces duros. Este programa buscará un directorio o directorios a los que apunta y si hay archivos duplicados, los vinculará. Si realiza una copia de seguridad de forma regular, puede programar esto para que se ejecute después de la copia de seguridad y libere espacio.

CloneSpy es un programa GUI que mostrará listas de archivos duplicados. Puede desduplicar manualmente algunos archivos o hacer que se confunda automáticamente con los archivos por usted. El enlace duro debe activarse en las opciones, este programa comenzó como un programa para eliminar archivos duplicados y desde entonces ha agregado la capacidad de enlace duro. Si, si desea que el archivo esté enlazado, debe activarlo. No sé. CloneSpy conoce las limitaciones del enlace duro NTFS, pero Dupemerge sí lo sabe.

Hay algunas extensiones del Explorador de Windows para crear también enlaces duros y ver visualmente qué archivos están vinculados desde el Explorador de Windows. Extensión de Shell Hard Link colocará una flecha roja de "atajo" sobre los archivos que han sido enlazados. Además, en las unidades de disco locales en las propiedades del archivo, mostrará qué archivos están vinculados entre sí. Es bueno ver qué archivos están duplicados y cuáles son únicos. Además, si existe la posibilidad de editar los archivos, esto actuará como una advertencia para recordarle que si edita un archivo con una flecha roja, en realidad está editando todos los archivos enlazados al mismo tiempo. El sitio web http://schinagl.priv.at/nt/hardlinkshellext/hardlinkshellext.html tiene un montón de información sobre enlaces duros, cruces, enlaces simbólicos.

Usar enlaces duros como este es bueno porque cada carpeta de copia de seguridad se ve como una copia de seguridad completa, pero los archivos comunes dentro de la copia de seguridad y en todas las copias de seguridad solo están usando el espacio una vez, generalmente. Por lo general, debido a que NTFS tiene una limitación de 1023 enlaces duros a un archivo, dupemerge solo vinculará los archivos 1022 a un archivo, por lo que si tiene más de 1022 copias, una segunda copia de los datos tendrá que ser almacenada para otros 1022 archivos. enlaces a enlaces a.

Hay algunos programas destinados a copias de seguridad de espacio eficiente, duplicación (un puerto de Windows del programa de copia de seguridad de duplicidad de Linux). Este programa de GUI, por lo que entiendo, se deduará porque oculta los datos. Me recuerda a usar rsync para copia de seguridad. La versión actual de duplicati está muy mejorada, y la recomendaría. Puede administrar sus copias de seguridad configurando cuántas copias de seguridad mantener, cuánto espacio usar, la edad máxima de las copias de seguridad, etc. Yo uso este programa para copias de seguridad a largo plazo.

Copia de seguridad de Hardlink (anteriormente RsyncBackup) (un programa GUI) dedupes por enlaces duros. (No había usado este programa desde que fue renombrado). Como iba a usar mi programa en un entorno comercial, no probé el programa mucho más. Sin embargo, parecía funcionar bien.

Rdiff-Backup (un programa de línea de comandos) también dedupes por enlaces duros. Lo que no me importó fue poner un directorio con todo el historial de revisiones en el directorio de respaldo. Si eso fuera necesario, desearía que lo hubieran escondido y hecho un directorio de puntos. Este programa es similar a un programa de copia de seguridad rsync.

Solo para advertirle, con Windows no siempre queda claro cuánto espacio utilizan los archivos vinculados. Creo que las estadísticas generales de la unidad son correctas y muestran el espacio real utilizado. Sin embargo, si hiciera una propiedad en los directorios de copia de seguridad, parecería que no se ha guardado ningún espacio al vincularlo. Eventualmente, debería poder almacenar lo que parece ser más del 100% de la capacidad de la unidad. Esto se debe a que Explorer cuenta el espacio que ocupa cada entrada de archivo, pero no comprueba si dos entradas de archivos apuntan a la misma pieza de datos en el disco.

--Adicional--

Si solo desea mantener los archivos que no están en la copia de seguridad original, independientemente de su ubicación. (p.ej. FolderA tiene File1 en Backup1, y en Backup2 File1 es en FolderB. Porque File1 no se modificó, pero se reubicó si desea eliminar un programa File1.) Entonces el programa que yo sugeriría es CloneSpy . Para esto fue originalmente diseñado el programa. CloneSpy tiene muchas opciones. Lo he usado para una tarea similar cuando comparaba FolderA a FolderB, FolderC &erio; FolderD. Entonces compare FolderA &erio; FolderB a FolderC &erio; FolderD. Por último comparar FolderA, FolderB &erio; FolderC a FolderD. De esa manera, entre todas las carpetas solo existen archivos únicos.

--Añadido 2--

En realidad, una forma más sencilla de hacer lo anterior es tener todos los directorios en un grupo y decirle que elimine los archivos más nuevos. Eso dejaría la copia más antigua del conjunto duplicado. De esta manera puede saber cuándo se creó por primera vez una versión del archivo. Esto también eliminaría los archivos dentro de los directorios, así como a través de los directorios, dando como resultado solo una copia de un archivo único.

Scott McClenning
fuente
Muy buen post, muy útil. Gracias :-)
Riccardo
Lo siento, tengo la copia de seguridad de enlace duro y rdiff-copia de seguridad mezclados. Fue hace unos 18 meses cuando los evalué.
Scott McClenning
Scott, me he dado cuenta de que los mismos archivos en las copias de seguridad tienen diferencias extrañas: 1) exactamente un cambio de hora de 1 hora en "fecha modificada", 2) algunos de ellos tienen una diferencia de tamaño de 3 / 6kb. ¿Podría esto depender del tamaño del clúster en diferentes tamaños de partición?
Riccardo
Eso es interesante. He visto diferencias de tiempo de 1 hora desde el horario de verano en vigor o no. En cuanto al tamaño del clúster, no había visto que cambiara el tamaño de un archivo, pero he visto que cambia la cantidad de espacio que ocupa un archivo. La parte no utilizada del clúster es un espacio de holgura. Sería interesante tomar una herramienta de diferencias entre los dos archivos para ver qué diferencias hay. He tenido archivos que contienen los mismos datos, pero fueron diferentes debido a los metadatos (por ejemplo, word doc registra cuándo y cuántos guardados, incluso si no cambia el contenido del documento, cada guardado será un archivo único)
Scott McClenning
0

Esto es lo que yo haría:

  1. Para cada archivo en las copias de seguridad, calcule el código hash por el contenido del archivo (puede ser md5sum) y redirija los resultados y el nombre completo a un archivo de texto (archivo1).
  2. Ordena el archivo de texto por código hash y la ruta.
  3. Ordene el archivo de texto por código hash con la opción -u y redirija el resultado a otro archivo de texto (archivo2)
  4. Ahora file2 tiene todos los archivos únicos (si las copias de seguridad tienen varias versiones de un archivo, se conservarán todas las versiones). Puede unirse a file1 y file2 para averiguar los archivos redundantes en file1.
Codism
fuente
¿Qué herramientas para lograr esto? ¿No hay una herramienta con una interfaz de usuario? Porque una vez que encuentre los archivos faltantes de los conjuntos, me gustaría copiarlos en algún lugar y eliminar los duplicados ...
Riccardo
Puede ser más fácil eliminar duplicados y obtener archivos faltantes ...
Riccardo
Todas las herramientas están incluidas en las herramientas de texto de Unix, que están disponibles en la mayoría de las versiones de Unix / Linux; También disponible para windows a través de cygwin. Los programas que necesita son: md5sum, sort, join. Si no tienes experiencia con ellos, se requieren algunos esfuerzos para aprender, pero espero que ya veas que valen la pena aprender.
Codism
Gracias, podría ser una idea; sin embargo, en lugar de la programación de scripts, prefiero quedarme con una herramienta que ofrezca resultados duplicados con un conjunto "básico"; una especie de comparación "conjunto básico" con "otro conjunto", luego borra duplicados solo de "otro conjunto" ...
Riccardo
0

Todo terminó con Duplicate Finder, una herramienta de Ashisoft.

Pros: hace lo que estaba buscando.

Contras:
- Caro, IMO, 29USD
- Durante la compra, el sitio de comercio electrónico "cayó" en mi cesta a otras herramientas que no pedí, aumentando el precio a 50 USD, tuvo que eliminarlo manualmente de la cesta.
- ¡El precio se convirtió en euros y luego nuevamente en dólares! ¿Puedes creerlo?

Muy injusto, simplemente lo compré porque a toda prisa, creo que hay toneladas de códigos fuente, así que simplemente copie este código y reorganícelo pidiendo tanto dinero, ¡simplemente apesta!

Riccardo
fuente
0

Hilo viejo pero podría ayudar a otros: AllDup , un buscador de archivos duplicados, ahora tiene la opción de mostrar solo archivos no duplicados, es decir, aquellos que son únicos entre las carpetas incluidas en la comparación. La interfaz fue bastante torpe la última vez que lo comprobé, pero sí lo hizo la escritura.

GabrielB
fuente