Hoy he descubierto accidentalmente que el .docx es el mismo .zip (o no hay una gran diferencia entre ellos). Cuando cambia el .docx al .zip y lo abre con WinRAR, ve un montón de archivos XML en las carpetas. En ese archivo XML se almacena el texto, las fuentes, el propietario, la última modificación, etc. En una palabra, toda la información se almacena como datos XML.
Pero lo mismo no es correcto para los archivos de extensión .doc. Es imposible abrirlos como .zip op como .rar.
Entonces pregunta: ¿Cuál es la ventaja de almacenar los datos de .docx en XML que Microsoft ha cambiado la forma de almacenar datos? De hecho, quiero saber no la ventaja del formato XML, sino por qué Microsoft está utilizando múltiples archivos XML para almacenar los datos .docx. Resulta que .docx no es un formato nuevo en la raíz.
fuente
Respuestas:
Un
.docx
archivo puede almacenar recursos incrustados, como archivos de imagen, no solo archivos XML. En lugar de codificar cosas en base64 o algo así y almacenarlas dentro de un archivo XML o inventar otro formato de serialización binario, decidieron usar el formato ZIP estándar.Además de eso, XML es un formato de archivo muy detallado que contiene muchos patrones redundantes. Puede obtener una alta relación de compresión para archivos XML.
Por cierto, realmente no entiendo la parte de "engañarnos". ¿Es mejor inventar un nuevo formato de archivo críptico desde cero o usar un formato estándar conocido?
fuente
El artículo de Wikipedia lo resume muy bien:
"Microsoft se vio sometido a una presión cada vez mayor para adoptar un formato de archivo abierto, en particular varias naciones adoptaron reglas para que los documentos oficiales deberían estar en un formato abierto".
Editar: Y comprimirlo tiene mucho sentido, ya que el XML es muy detallado y, naturalmente, se comprime muy bien.
fuente
Usar un archivo .zip renombrado es una práctica bastante común; por ejemplo, los archivos .pak de Quake III son realmente archivos .zip. No tiene sentido inventar su propio formato de archivo comprimido cuando ya existen archivos perfectamente buenos.
fuente
.jar
, Winamp.wsz
/.wal
(skins), Firefox.xpi
(XPInstaller - themes, addons). (lostar
archivos también son populares)No es solo Office Open XML el que usa XML comprimido. OpenDocument de Open Office hace lo mismo detrás de escena.
Hay algunas ventajas que se enumeran en la página de Wikipedia sobre las Convenciones de empaquetado abierto :
fuente
El mayor beneficio es que puede acceder a sus datos descomprimiendo el archivo y copiando el texto de los archivos xml. Esto se puede hacer con una utilidad zip y un editor de texto, incluso si no tiene una copia de Word 2007.
Esto es lo que hace que el formato sea más abierto que los formatos binarios más antiguos.
fuente