¿"Ver código fuente" equivalente para documentos de Word?

11

A veces, los documentos de Word parecen estar más o menos rotos, generalmente cuando el diseño se ha vuelto bastante complejo y el documento ha cambiado de manos y / o versiones un par de veces. Los síntomas pueden ser que no ocurre nada al presionar las teclas Backspaceo Enteren una determinada ubicación del documento donde realmente debería funcionar, o que el formato parece aplicarse y reiniciarse más o menos al azar. Creo que todos hemos estado allí.

A menudo puede ser muy difícil saber exactamente qué está mal, ya que lo que sucede debajo del capó en Word es bastante opaco. Podría tener un documento que parezca vacío, pero en realidad el estado subyacente con respecto al formateo, etc. puede ser bastante complejo.

En estos casos, sería útil echar un vistazo al código fuente detrás de lo que se muestra en la página; como cómo podría hacer View Source en un navegador e idealmente podría realizar ediciones directamente en el código fuente, como lo haría al usar Latex. ¿Existe un comando o utilidad Ver tipo fuente para documentos de Microsoft Word?

Mi conjetura es que no existe tal comando, o habría escuchado al respecto. Si ese es el caso, ¿alguien tiene un buen enfoque cuando se trata de controlar el molesto "formato oculto" en un documento de Word ?

Sospecho que puede haber algunas diferencias en los formatos .doc y .docx; Estoy interesado en ambos casos.

Godsmith
fuente

Respuestas:

11

Si el formato es lo que le interesa principalmente, Word tiene una buena base para inspeccionar todos los tipos de formato aplicados a texto y objetos llamados Reveal Formatting . En Word 2007 y 2010, el acceso directo para este panel es Shift+ F1.

ingrese la descripción de la imagen aquí

De lo contrario, si está buscando una comprensión aún más profunda del formato del documento, puede buscar en el XML los archivos DOCX.

  1. Encuentra tu documento DOCX en el disco.
  2. Cambie la extensión del documento de .docx a .zip.
  3. Haga doble clic en el archivo y ábralo en el administrador de archivos predeterminado.
  4. Navegue a la carpeta "Word" en el programa zip y abra Document.xml . Este es el código detrás de lo que constituye la mayor parte del contenido del documento, aunque los otros archivos también se usan de otras maneras, es decir, para estilos o información de fuentes.

Definitivamente necesitará un editor XML decente solo para ver los datos e incluso entonces es bastante complejo y para un documento grande será muy, muy largo.

Cuando se trata de DOC, no hay una manera fácil de "ver la fuente", ya que es un archivo binario compuesto por secuencias separadas y, por lo tanto, no hay una manera fácil de ver el contenido.

Adán
fuente
Eso es bastante útil, no lo sabía. Sin embargo, es una lástima que no puedas hacer lo mismo con los archivos .doc, ya que eso es lo que mi compañía todavía usa. ¡Gracias por la explicación!
Godsmith
1
@ Godsmith Puede guardar el DOC como DOCX utilizando una versión más nueva de Word, luego volver a DOC después de haber realizado los cambios. Hay pérdida de formato en este proceso, así que tenga cuidado, pero es posible que pueda hacer cambios o solucionar problemas en sus tipos de DOC al hacerlo en DOCX.
ThisClark
También puede guardar cualquier archivo directamente como html en MS Word. Alternativamente, puede guardar como RTF y abrir el archivo RTF como texto
phuclv
3

Supongo que el formato .doc es bastante difícil, así que no puedo ayudarte aquí. Sin embargo, .docx es en realidad un archivo zip con todos los detalles almacenados en archivos XML. Por lo tanto, cambie el nombre del archivo a .zip y eche un vistazo a la fuente.

Peter Albert
fuente
0

Cuando se trata de un formato binario como * .doc, las cosas son más complicadas. Puedes usar el mso-dumper de LibreOffice . Simplemente clone la solución a su máquina local y ejecute

python doc-dump.py \path\to\file.doc >output.xml

Ahora todas las cosas en el archivo binario se convertirán a xml en el formato exacto descrito en el formato de archivo binario de Word (.doc)

También hay WordFileDump, que es más simple pero no tan poderoso como mso-dumper

Desafortunadamente, esos son solo para analizar la estructura y no hay una herramienta para volver a ensamblar la salida xml en un archivo * .doc, por lo que una vez que encuentre la causa raíz, tendrá que usar Word para editarla. Por lo tanto, sería más fácil convertir a * .docx, examinar el archivo * .docx y luego volver a convertir a * .doc si es necesario

O también puede guardar el archivo como rtf, que es un archivo de texto "legible para humanos" en lugar de office xml. Alternativamente, guarde el archivo de Word como HTML

phuclv
fuente