¿Alguien puede sugerir una buena utilidad de detección de duplicación de fotos que funcione bien cuando estoy tratando con aproximadamente 100 gb de datos (recopilados a lo largo de los años)?
Preferiría algo que funcione en Ubuntu.
¡Gracias por adelantado!
Editar: ¿Existe una herramienta que me ayudará a reorganizar mi colección y eliminar duplicados, una vez que se hayan detectado?
Edit2: La parte difícil es descubrir qué hacer una vez que tengo la salida que consta de miles de archivos duplicados (como la salida de fdupes).
No es obvio si todavía puedo eliminar de forma segura un directorio (es decir, si un directorio puede contener archivos únicos), qué directorios son subconjuntos de otros directorios, etc. Una herramienta ideal para este problema debería ser capaz de determinar la duplicación de archivos y luego proporcionar un medio poderoso para reestructurar sus archivos y carpetas. Hacer una fusión mediante hardlinking (como lo hace fslint) realmente libera espacio en disco, pero no resuelve el problema subyacente que dio origen a la duplicación, es decir, una organización de archivos / directorios incorrecta.
fuente
Respuestas:
ImageMagick al rescate. Creo que el primer paso para cualquier solución es reducir el tamaño de su colección. Si desea comparar las fotos por su contenido , especialmente cuando algunas son versiones ligeramente modificadas una de otra, un buen comienzo es reducirlas a miniaturas y luego comparar las miniaturas. Esto es particularmente útil cuando desea encontrar fotos casi parecidas y quiere "ignorar" diferencias sin importancia durante la comparación.
Mi sugerencia es, en un nivel alto, que usted:
1- Use la herramienta de mogrificación de ImageMagick para reducir las fotos a miniaturas. Esto llevará algún tiempo, pero hará que los pasos de comparación reales sean mucho más rápidos y precisos.
2- Utilice la herramienta de comparación de ImageMagick que le permite establecer un umbral para la comparación, es decir, le permite encontrar fotos que son 85% iguales. Desearía hacer un experimento controlado para encontrar el valor umbral que más le guste.
fuente
El visualizador / organizador de fotos de código abierto Geeqie tiene una poderosa función Buscar duplicados . Puede usar varias estrategias diferentes para encontrar duplicados:
Esto proporciona una lista de resultados que puede incluir miniaturas para que pueda confirmar manualmente.
Esta será probablemente lenta durante miles de archivos, pero creo que sólo usarla y dejarla funcionar durante unos pocos días o lo que es probablemente menos esfuerzo general que encontrar o hacer algo a medida para el caso - a menos que la suma de comprobación partido es todo lo que necesita.
fuente
¿Hay una pequeña utilidad llamada "fdupes" que puede hacer lo que desea?
También hay otra utilidad llamada "fslint" que quizás también quieras probar. (Este tiene una GUI).
fuente
fdupes
: hay una opción para eliminar los engaños. askubuntu.com/a/476732dupeGuru Picture Edition es un buscador de imágenes duplicadas personalizable para Windows, Mac OS X y Linux.
Hay algunas versiones de dupeGuru (ediciones estándar, de música e imagen), y la edición de imagen le permite encontrar imágenes visualmente similares a través de un algoritmo de comparación de bloqueo de mapa de bits , entre otros métodos (como la marca de tiempo de imagen original EXIF, o los archivos son simplemente idénticos) .
Tiene una variedad de otras características útiles como carpetas excluidas, soporte para bibliotecas iPhoto / Aperture y una considerable personalización de cómo detecta duplicados y qué hace con ellos.
fuente
¿Qué quieres decir con fotos duplicadas? ¿Te refieres a los archivos que son idénticos, digamos que se copiaron una o dos veces más? o te refieres a fotos que "parecen" iguales.
Si te refieres a archivos idénticos, puedes usar 'shasum' en todos los archivos, luego ordenar los resultados y encontrar las líneas únicas con 'uniq' y ejecutar un 'diff' para ver qué se ha eliminado. Todo fácil en un shell de Ubuntu.
fuente
Hay una aplicación llamada "bleachbit", que encuentra archivos duplicados por tamaño, nombre y otros filtros. Puede instalarlo desde el administrador de paquetes synapctic en ubuntu.
fuente