Tengo un documento PDF bastante grande (~ 100 MB) con muchas imágenes (como ilustraciones e imágenes de fondo), y me gustaría tener una copia de ese PDF sin imágenes, pero no puedo encontrar la manera de Haz eso.
No estoy hablando de convertirlo solo a texto, me gustaría mantener los párrafos / tablas / columnas múltiples como están.
Me siento cómodo con la línea de comandos y tengo varias computadoras con diferentes distribuciones que puedo usar.
command-line
pdf
Ornux
fuente
fuente
Respuestas:
No está en los repositorios, pero puede encontrar una descarga ( precompilada o fuente ) en su sitio web .
Manual :
fuente
Las últimas versiones de Ghostscript también pueden hacer esto. Simplemente agregue el parámetro
-dFILTERIMAGE
a su comando.Incluso hay dos parámetros nuevos más que se pueden agregar para eliminar selectivamente los tipos de contenido "vector" y "texto" :
-dFILTERIMAGE
: produce una salida donde se eliminan todas las imágenes ráster.-dFILTERTEXT
: produce una salida donde se eliminan todos los elementos de texto.-dFILTERVECTOR
: produce una salida donde se eliminan todos los dibujos vectoriales.Se pueden combinar dos de estas opciones. (Si combina los 3, obtendrá todas las páginas en blanco ...)
Ejemplos
Aquí está la captura de pantalla de una página PDF de ejemplo que contiene los 3 tipos de contenido mencionados anteriormente:
Captura de pantalla de la página PDF original que contiene los elementos "imagen", "vector" y "texto".
La ejecución de los siguientes 6 comandos creará las 6 variaciones posibles de los contenidos restantes:
La siguiente imagen ilustra los resultados:
Fila superior, desde la izquierda: se eliminó todo el "texto"; todas las "imágenes" eliminadas; todos los "vectores" eliminados. Fila inferior, desde la izquierda: solo se conserva el "texto"; solo se mantienen "imágenes"; solo se conservan los "vectores".
fuente
Si bien la respuesta de @Rinzwind es lo correcto , me gustaría comentar la solución "intermedia". Normalmente puede reducir en gran medida el tamaño de las imágenes usando ghostscript con
... a veces es realmente útil para la corrección de pruebas. La página del manual para escribir PDF está aquí .
fuente
/screen
(entre otras cosas) establecerá la resolución de las imágenes de mapa de bits en 72 ppp . Entonces sí, si tiene imágenes con un DPI más pequeño, puede aumentar el tamaño del archivo. Esta es la razón por la que usé la palabra "normalmente" (en el sentido de "no siempre, pero con bastante frecuencia"). Siéntase libre de votar lo que quiera.for s in screen default ; do gs -o /dev/null -sDEVICE=pdfwrite -dPDFSETTINGS=/${s} -c "currentpagedevice {exch ==only ( ) print === } forall" | sort | tee ghostscript---pdfwrite-PDFSETTINGS-${s}--pagedevice-settings.txt; done
. Producirá dos archivos de texto que puede comparar usandosdiff -sbB $[file1}.txt ${file2}.txt
. ¡Ahora conoce exactamente y completamente todas las diferentes configuraciones introducidas por-dPDFSETTINGS=/screen
!/screen
que en/default
--- 72 ppp frente a 150 ppp, optimizado, descartar la vista previa de EPS ... pero bueno, no es un gran problema. La gente probará y elegirá la mejor solución./screen
dieron resultados realmente malos. Posiblemente mi memoria falla, o la mezclé con/epub
. El comando que le di fue de memoria porque estaba bastante seguro de que mostraría lo que quería decir. Ahora lo volví a ejecutar de nuevo, ya no veo lo que esperaba: pruebas más extendidas que realicé hace algunos años. Luego, muchas fuentes (CID? / CFF?) Obtuvieron tamaños de hinchamiento rasterizados de los PDF resultantes. Debo volver a visitar el tema nuevamente, una vez que tenga más tiempo ... :-)Puede usar el editor maestro de pdf, eliminar esas imágenes y guardarlas como un nuevo archivo pdf. Puede descargarlo desde el centro de software de Ubuntu.
fuente