¿Qué causa que el tamaño del archivo PDF aumente al guardar en Vista previa?

17

Parece que realizar ediciones, anotaciones o incluso simplemente abrir y guardar un archivo PDF en la vista previa provocará un aumento significativo en el tamaño del archivo. He notado que para algunos libros que he escaneado esto también mejora el tiempo de representación de la página.

¿Alguien puede arrojar algo de luz sobre lo que está causando estos cambios? Estoy interesado en sincronizar anotaciones de libros electrónicos en PDF entre Vista previa y el iPad (tal vez GoodReader), pero esto puede ser demasiado poco práctico con archivos PDF grandes.

Alex B
fuente
2
Esto probablemente se deba a cómo decidieron codificar archivos PDF en la vista previa. Los archivos PDF ahora son de formato abierto, pero eso no significa necesariamente que todos los estén codificando de la misma manera. Su apuesta más segura es obtener un editor de Adobe PDF y usarlo. Según estas personas, debates.apple.com/thread/3896311?start=0&tstart=0 , hace la diferencia. También discuten la posible razón detrás de su problema.
Tony

Respuestas:

12

En su novela poco conocida, PDF Karenina , Leo Tolstoi escribió:

Los archivos PDF codificados de manera óptima son todos iguales; cada archivo PDF subóptimamente codificado está subóptimamente codificado a su manera.

Es difícil para cualquiera responder por qué sus archivos PDF son más grandes después de que Vista previa los modifica. Un archivo PDF consta de muchos tipos diferentes de datos: imágenes, secuencias de contenido, fuentes, sobrecarga de documentos, espacios de color, estados gráficos extendidos y una tabla de referencias cruzadas. Al igual que una oración puede ser concisa y otra detallada, pero ambas son inglés válido y dicen lo mismo, también un archivo PDF podría tener una forma más detallada de representar el mismo contenido que un archivo PDF más conciso. Tendríamos que mirar sus archivos PDF exactos. Es probable que hayan sido creados por una variedad de diferentes piezas de software, algunas consistentes, otras no tanto.

También importa qué versión de Mac OS X y Vista previa está utilizando, ya que eso determina el software que escribe el nuevo archivo PDF cuando realiza un Guardar como en Vista previa.

Sin embargo, puedo decirte qué es lo que aumenta mis archivos PDF. Esta historia se aplica a mi computadora, que ejecuta Mac OS X 10.5.8 y Apple Preview 4.2 (469.5).

Un archivo Giulio.pdfes un documento de 22 páginas con texto como texto, no imágenes escaneadas. Tiene un tamaño de 461,092 bytes. Lo abrí en Vista previa, hice Archivo ... Guardar como ... y lo guardé con un nuevo nombre de archivo. El nuevo archivo tiene 724,421 bytes, o 57% más grande.

Abrí cada archivo con Adobe Acrobat Professional, versión 8.3.1 para Mac OS. Hice avanzada ... Optimizador de PDF ... Auditar uso de espacio ... . Un pequeño cuadro de diálogo proporcionaba un desglose de cuántos bytes se debían a cada categoría de uso, más el porcentaje del tamaño total del archivo para la categoría.

El original Giulio.pdftiene 390,754 bytes (84.75%) dedicados a flujos de contenido y cero bytes dedicados a imágenes. Está en formato PDF 1.4. El archivo guardado por Preview tiene 675,846 bytes (93.29%) dedicados a flujos de contenido, también cero bytes de imágenes, y está en formato PDF 1.3. La vista previa hizo que las secuencias de contenido fueran 285.092 bytes más grandes, y eso representa el 73% de la diferencia de tamaño de archivo entre los dos.

Me preguntaba si el formato de archivo PDF 1.3 era inherentemente menos eficiente para almacenar este tipo de archivo. Abrí el original Giulio.pdfen Adobe Acrobat Professional 8 e hice Advanced ... PDF Optimizer ... Compatibilidad con: Acrobat 3.0 y versiones posteriores y presioné OK. Guardé el archivo resultante con un nuevo nombre. El archivo resultante está en formato PDF 1.3 y tenía 452,356 bytes, o más pequeño que el original. Sus secuencias de contenido son 375,171 bytes (82.94%), una proporción similar, pero menor que las secuencias de contenido del archivo original.

Por lo tanto, parece que podemos concluir que la aplicación Vista previa en Mac OS X 10.5.8 no es tan eficiente como algunos otros creadores de PDF para hacer transmisiones de contenido conciso en archivos PDF, y la diferencia es suficiente para explicar las tres cuartas partes de la diferencia de tamaño en un archivo PDF sin imágenes.

Hice un experimento similar en form k.pdfun documento de 1 página escaneado de papel. El archivo original tiene 303,730 bytes, de los cuales 298,197 bytes (98.18%) son imágenes. Una copia de este archivo creado por Vista previa usando Guardar como ... es 300.601 bytes, o 1% más pequeño. Esta diferencia de tamaño de archivo es más que explicada por una categoría más pequeña de "sobrecarga del documento" de bytes en el archivo creado por Vista previa.

Por lo tanto, parece que también podemos concluir que Vista previa no siempre hace que un archivo PDF aumente de tamaño. Depende de la naturaleza del archivo PDF original y de cuán conciso fue para empezar.

Jim DeLaHunt
fuente
3

Sé que esto es bastante tarde, pero he encontrado algo que parece funcionar, al menos si se usa inicialmente: he intentado usar el filtro de cuarzo para "reducir el tamaño del archivo". Parece funcionar pero no está activado de forma predeterminada. Puedo elegirlo específicamente a través del menú Guardar como (mantener presionada la Opción), pero me preocupa que el valor predeterminado sea el método habitual en los autoguardados.

Esto es lo que está sucediendo para mí y cómo llegué a esta página en primer lugar: el PDF comienza como un libro de 91MB 900 páginas. Agrego una sola anotación y la guardo y el archivo salta hasta 2.29GB. Para colmo, lleva mucho tiempo guardar, especialmente porque estoy guardando en una unidad externa. ¡Gracias a Dios que la unidad es USB 3!

¿Hay alguna forma de extraer estas anotaciones? Puedo hacer anotaciones y resaltar Goodreader y PDF Expert en mi iPad. Si Vista previa no me permite hacer esto en mi computadora, ¿hay alguna otra aplicación que lo haga? ¿Por qué no puede simplemente guardar las anotaciones / resaltados, pero no intentar volver a comprimir todas las imágenes como si estuviera volviendo a guardar un JPEG cada vez? ¡Gracias por la ayuda!

Scott
fuente
Esto funciona: 400 KiB> 1.3 MiB> 540 KiB. Mi PDF original tenía menos de 400 KiB y se convirtió en un monstruoso 1.3 MiB después de agregar un par de puntos destacados / subrayados. Hice lo sugerido y el archivo bajó a 540 KiB: Guardar como ... con el filtro de cuarzo configurado para reducir el tamaño del archivo . Todavía puedo editar los aspectos destacados anteriores (lo que se vuelve imposible con Exportar como PDF ... ) y el tamaño está más en línea con lo que obtengo al editarlo en un dispositivo diferente.
Daniel
1

El problema sigue siendo grave. En Preview 7.0 (Mac Os 10.9.5.) Generé un pdf usando Acrobat 9.5.5. que resultó en un archivo de 5 MB. En Vista previa agregué exactamente 12 caracteres (usando las herramientas de edición). Después de guardar este archivo, aumentó a 14 MB.

Puede solucionarlo abriendo y guardando nuevamente en Acrobat (puede que tenga que usar la opción "reducir tamaño de archivo").

Peter Uetz
fuente
2
Esto no explica por qué sucede, que es lo que hace la pregunta.
Ian C.
0

No se pueden agregar pistas a la solución. Puedo agregar un escenario similar (OS X 10.11.3): un pdf escaneado con un peso de ~ 800kb se abre en la vista previa, se eliminan un par de paginación escaneada vacía, el PDF resultante, de dos páginas más corto, es ~ 2,2Mb. "Opción-Guardar como" y seleccionando el filtro de cuarzo "reducir tamaño de archivo" comprime el archivo a ... 1,9Mb.

El archivo original ha sido generado por una copiadora Xerox WC 7830, que en mi experiencia (en comparación con las impresoras / copiadoras multifunción anteriores que teníamos) produce archivos PDF escaneados bastante optimizados.

No puedo ver ninguna diferencia en el archivo, visualmente; Me supongo que la página de imágenes se vuelve a comprimir en 24 bpp, mientras que el archivo original es Cleary usando mucha menos profundidad de color, probablemente de 6 bits (que es un impreso y un documento firmado, sólo texto, el escáner hace un buen trabajo de mantener el fondo blanco blanco puro). Lamentablemente, Vista previa no es lo suficientemente inteligente como para detectar y mantener esto, y parece que necesita volver a comprimir todo el archivo, aunque no se realizan cambios en las páginas restantes (de nuevo, solo se han eliminado un par de páginas.

Pimenta
fuente