Tengo un disco duro antiguo que no pude recuperar los archivos utilizando TestDisk, así que en su lugar utilicé PhotoRec para escanear el disco duro para recuperar cualquier archivo que pueda.
Terminé con muchos documentos de Word (archivos .doc) que parecían estar dañados. Cuando los abro, me sale la siguiente ventana:
¿Hay alguna forma de escanear el directorio de documentos de Word para que termine solo con los documentos de Word válidos (no dañados)? Esto me evitará abrir y revisar cada documento individualmente.
ACTUALIZAR:
Los primeros 32 bytes de datos en cada uno de estos archivos .doc fueron los mismos ...
D0 CF 11 E0 A1 B1 1A E1 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 3E 00 03 00 FE FF 09 00
La firma del archivo, D0 CF 11 E0 A1 B1 1A E1
, me dice que estos son documentos de Microsoft Office. Intenté abrir uno de los archivos con las siguientes extensiones: DOC, DOT, PPS, PPT, XLA, XLS, WIZ. En cada caso, se produjo un error.
fuente
trid.exe
. Ignora este comentario si ya lo has hecho.Respuestas:
Puedes usar Llave tratar de leer
DOC
archivos. Puedes obtener la versión de Windows de aquí .Descomprimir Antiword para
C:\antiword\
y navegue a esa carpeta usando el símbolo del sistema.A continuación, puede utilizar el comando:
Antiword emitirá el contenido de texto plano del
DOC
archivos que pudo leertmpfile.txt
y luego puede ordenar los que necesita y eliminar los archivos dañados.La salida de Antiword puede verse algo como esto:
Podrías entonces usar
grep
o haga alguna comparación de expresiones regulares para encontrar los nombres de los documentos corruptos y eliminarlos.fuente