¿Cómo buscar y eliminar (o recuperar) documentos de Word dañados en una carpeta?

0

Tengo un disco duro antiguo que no pude recuperar los archivos utilizando TestDisk, así que en su lugar utilicé PhotoRec para escanear el disco duro para recuperar cualquier archivo que pueda.

Terminé con muchos documentos de Word (archivos .doc) que parecían estar dañados. Cuando los abro, me sale la siguiente ventana:

¿Hay alguna forma de escanear el directorio de documentos de Word para que termine solo con los documentos de Word válidos (no dañados)? Esto me evitará abrir y revisar cada documento individualmente.

ACTUALIZAR:

Los primeros 32 bytes de datos en cada uno de estos archivos .doc fueron los mismos ...

D0 CF 11 E0 A1 B1 1A E1 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 3E 00 03 00 FE FF 09 00

La firma del archivo, D0 CF 11 E0 A1 B1 1A E1, me dice que estos son documentos de Microsoft Office. Intenté abrir uno de los archivos con las siguientes extensiones: DOC, DOT, PPS, PPT, XLA, XLS, WIZ. En cada caso, se produjo un error.

cornflakes24
fuente
Intenta ejecutar un TrIDNet Escanee primero los archivos para ver si realmente son documentos de Word.
Vinayak
Descargué la versión CLI de la aplicación (para poder usar el comodín * con el interruptor -ae). No cambió el nombre de ninguno de los documentos de Word. El programa no fue realmente útil para mí en este caso, pero puede ser útil en el futuro, ¡gracias!
cornflakes24
Asegúrese de haber descargado las definiciones actuales para TrID también. No funcionará sin el archivo de definiciones colocado en el mismo directorio que trid.exe. Ignora este comentario si ya lo has hecho.
Vinayak
Ya lo he hecho. También acabo de descargar Remo Repair Word y me dice que los documentos no son válidos. Lo que realmente necesito es una herramienta que mire todos mis archivos .doc y me diga cuáles son válidos y cuáles puedo tirar. De lo contrario, pasaré horas abriendo cada archivo (y la mayoría de los archivos mostrarán un error como el de arriba).
cornflakes24
1
¿Podría echar un vistazo a unos 5 archivos aleatorios con un editor hexadecimal ¿Y edita su pregunta con los primeros 32 bytes de cada uno de esos 5 documentos?
Vinayak

Respuestas:

0

Puedes usar Llave tratar de leer DOC archivos. Puedes obtener la versión de Windows de aquí .

Descomprimir Antiword para C:\antiword\ y navegue a esa carpeta usando el símbolo del sistema.
A continuación, puede utilizar el comando:

antiword PATH_TO_DOC_FILES\*.doc > tmpfile.txt

Antiword emitirá el contenido de texto plano del DOC archivos que pudo leer tmpfile.txt y luego puede ordenar los que necesita y eliminar los archivos dañados.

La salida de Antiword puede verse algo como esto:

::::::::::::::
Document 1.doc
::::::::::::::
                                Sample Document 1

This is a sample Word document.

::::::::::::::
Document 2.doc
::::::::::::::
                                Sample Document 2

This is another sample Word document.

::::::::::::::
Corrupt Document.doc
::::::::::::::

::::::::::::::
Another Corrupt Document.doc
::::::::::::::

Podrías entonces usar grep o haga alguna comparación de expresiones regulares para encontrar los nombres de los documentos corruptos y eliminarlos.

Vinayak
fuente