A veces, los documentos de Word parecen estar más o menos rotos, generalmente cuando el diseño se ha vuelto bastante complejo y el documento ha cambiado de manos y / o versiones un par de veces. Los síntomas pueden ser que no ocurre nada al presionar las teclas Backspaceo Enteren una determinada ubicación del documento donde realmente debería funcionar, o que el formato parece aplicarse y reiniciarse más o menos al azar. Creo que todos hemos estado allí.
A menudo puede ser muy difícil saber exactamente qué está mal, ya que lo que sucede debajo del capó en Word es bastante opaco. Podría tener un documento que parezca vacío, pero en realidad el estado subyacente con respecto al formateo, etc. puede ser bastante complejo.
En estos casos, sería útil echar un vistazo al código fuente detrás de lo que se muestra en la página; como cómo podría hacer View Source en un navegador e idealmente podría realizar ediciones directamente en el código fuente, como lo haría al usar Latex. ¿Existe un comando o utilidad Ver tipo fuente para documentos de Microsoft Word?
Mi conjetura es que no existe tal comando, o habría escuchado al respecto. Si ese es el caso, ¿alguien tiene un buen enfoque cuando se trata de controlar el molesto "formato oculto" en un documento de Word ?
Sospecho que puede haber algunas diferencias en los formatos .doc y .docx; Estoy interesado en ambos casos.
fuente
Supongo que el formato .doc es bastante difícil, así que no puedo ayudarte aquí. Sin embargo, .docx es en realidad un archivo zip con todos los detalles almacenados en archivos XML. Por lo tanto, cambie el nombre del archivo a .zip y eche un vistazo a la fuente.
fuente
Cuando se trata de un formato binario como * .doc, las cosas son más complicadas. Puedes usar el mso-dumper de LibreOffice . Simplemente clone la solución a su máquina local y ejecute
Ahora todas las cosas en el archivo binario se convertirán a xml en el formato exacto descrito en el formato de archivo binario de Word (.doc)
También hay WordFileDump, que es más simple pero no tan poderoso como mso-dumper
Desafortunadamente, esos son solo para analizar la estructura y no hay una herramienta para volver a ensamblar la salida xml en un archivo * .doc, por lo que una vez que encuentre la causa raíz, tendrá que usar Word para editarla. Por lo tanto, sería más fácil convertir a * .docx, examinar el archivo * .docx y luego volver a convertir a * .doc si es necesario
O también puede guardar el archivo como rtf, que es un archivo de texto "legible para humanos" en lugar de office xml. Alternativamente, guarde el archivo de Word como HTML
fuente