Tengo un archivo PDF de 72.9MB que necesito reducir a menos de 500 KB.
El archivo era una imagen JPEG que había escaneado y luego convertido a pdf.
pdf
compression
Tamimym
fuente
fuente
pdfopt
tiene una sintaxis simple y mejora la carga y la velocidad de cambio de página en la era del iPad. :-)Respuestas:
aking1012 es correcto. Con más información sobre posibles imágenes incrustadas, hipervínculos, etc., sería mucho más fácil responder esta pregunta.
Aquí hay un par de scripts y soluciones de línea de comandos. Úselo como mejor le parezca.
fuente
Use el siguiente comando ghostscript :
-dPDFSETTINGS=/screen
Baja calidad, menor tamaño. ( 72 ppp )-dPDFSETTINGS=/ebook
para una mejor calidad, pero archivos PDF un poco más grandes. ( 150 ppp )-dPDFSETTINGS=/prepress
salida similar a la configuración "Preimpresión optimizada" de Acrobat Distiller ( 300 ppp )-dPDFSETTINGS=/printer
selecciona una salida similar a la configuración "Impresión optimizada" de Acrobat Distiller ( 300 ppp )-dPDFSETTINGS=/default
selecciona la salida destinada a ser útil en una amplia variedad de usos, posiblemente a expensas de un archivo de salida más grandefuente
screen
configuración era de muy baja calidad para mí, peroebook
funcionó bien, reduciendo un PDF basado en escaneo de 33Mb a 3.6Mb y manteniéndolo muy legible.-dPDFSETTINGS
Aquí se enumeran otras opciones para la opción: milan.kupcevic.net/ghostscript-ps-pdf , y podría ser una buena idea incluirlas en esta respuesta.Mi forma favorita de hacer esto es convertir el pdf a ps y viceversa. Sin embargo, no siempre funciona, pero cuando funciona, los resultados son buenos:
Esto también funciona directamente en pdf, como se sugiere en los comentarios.
Algunos usuarios también informan más éxito al usar la configuración del libro electrónico de la siguiente manera:
fuente
ps2pdf intput.pdf output.pdf
Si tiene un pdf con imágenes escaneadas , puede usarlo
convert
para crear un pdf con compresión jpeg (puede usar este método en cualquier pdf, pero perderá toda la información del texto).Por ejemplo:
Ajuste la densidad (por ejemplo, 100x100) y la calidad a sus necesidades.
Dependiendo de su entrada, la compresión jpeg podría no ser la mejor opción debido a los artefactos de compresión. Puede elegir entre BZip, Fax, Group4, JPEG, JPEG2000, Lossless, LZW, RLE o Zip como métodos de compresión alternativos (algunos solo permiten imágenes en blanco y negro). Para más detalles ver aquí .
Pude lograr excelentes relaciones de compresión para documentos escaneados / fotografiados (dependiendo de la configuración). Dependiendo de la fuente del documento, es posible que desee reducir la profundidad del color (
-depth
argumento).fuente
pdfimages input.pdf pages
para extraer los archivos de PBM, entonces usted puede hacer algo como:for page in *.pbm; do convert $page -compress Group4 -type bilevel TIFF:- | convert - output.pdf
. Cualquier OCR se perderá, así que generalmente lo hagopdfsandwich output.pdf
, lo que parece reducir aún más el tamaño del archivo.gs
detrás de escena.--density --quality --compress
vs-density -quality -compress
.-resize 50%
, también puede agregar uno , cambie el porcentaje según la cantidad de DPI que se usó durante el escaneoNecesitaba reducir el tamaño de un PDF que contenía escaneos a todo color de un documento. Cada una de mis páginas era una imagen a todo color en lo que respecta al archivo. Eran imágenes de páginas que contenían texto e imágenes, pero fueron creadas escaneando a una imagen.
Usé una combinación del siguiente comando ghostscript y uno de otro hilo.
Esto redujo la resolución de la imagen a 150 ppp, reduciendo el tamaño de mi archivo a la mitad. Al mirar el documento, casi no hubo una pérdida notable de calidad de imagen. El texto sigue siendo perfectamente legible en mi Nexus7 2012.
fuente
Aquí hay un script para reescribir archivos PDF escaneados:
Puede personalizarlo un poco para hacerlo más reutilizable, pero si solo tiene un pdf, puede reemplazarlo
$1
con su nombre de archivo pdf y ponerlo en un terminal.fuente
Usualmente uso ps2pdf para hacer esto (sintaxis más fácil), algo como esto:
Utilizo el siguiente script de Python para reducir el tamaño de todos los archivos pdf en un directorio en un servidor de producción (8.04). Entonces debería funcionar.
fuente
Esto tendrá un buen resultado.
fuente
Lo mejor para mí fue
Otras maneras:
Saludos
fuente
pdf2ps input.pdf temp.ps && ps2pdf14 temp.ps output.pdf && rm temp.ps
Acabo de encontrar este problema yo mismo. Si usa un escaneo simple, seleccione el modo de texto para escaneos de baja resolución y no tendrá que preocuparse por las cosas de la línea de comandos. Solo digo.
fuente
Controlar la calidad de compresión:
fuente
shift
. El primer parámetro es el archivo de entrada, el segundo es el archivo de salida y el resto de los parámetros se pasarángs
tal cual.Dado que este enlace fue el primero para mí cuando busqué en Google, pensé en agregar una posibilidad más. Ninguna de las soluciones anteriores funcionaba para mí en un pdf exportado desde Inkscape (15 mb), pero finalmente pude reducirlo a 1 mb abriéndolo en GIMP y exportando como pdf nuevamente.
Otra opción que se acercó (pero el texto era un poco borroso) fue la utilidad de conversión de ImageMagick:
fuente
convert -compress Zip
parecía rasterizar todos los vectores.Al final escribí mi propia escritura del golpe para resolver esto, se utiliza
mogrify
,convert
ygs
para extraer páginas PDF como png, cambiar su tamaño, convertir a bmp de 1 bit y luego reconstruirlas como pdf. La reducción del tamaño del archivo puede ser superior al 90%. Disponible en http://www.timedicer.co.uk/programs/help/pdf-compress.sh.php .fuente
Recomiendo encarecidamente pdfsizeopt .
Es mucho más eficiente en términos de reducción de tamaño de cualquiera de los programas CLI y GUI anterior que he intentado (incluyendo
convert
,gs
,pdftk
, etc.) - aunque posiblemente más lento conpngout
activado -, y no tiene algunos de sus temas (sin fuertemente imágenes pixeladas / degradadas, sin pérdida de marcadores, etc.).Ahora, si necesita alcanzar un cierto tamaño, independientemente de las consecuencias (por ejemplo, degradar las imágenes hasta un punto de imposibilidad de lectura), puede que no sea la herramienta que necesita, sino como una solución siempre activa para reducir los tamaños innecesarios. en PDF sin perder legibilidad, información y calidad de imagen aceptable, creo que es la mejor opción. (Nota: tiendo a usarlo después de haber realizado primero un OCR de vectorización en Adobe Acrobat [la función solía llamarse "CleanScan"], que puede tener un impacto dramático en el tamaño de algunos documentos de texto escaneados).
Recomiendo la instalación genérica de Unix :
Instale todas las dependencias requeridas:
Descargue e instale el ejecutable:
Uso:
Nota para los usuarios de Mac que encuentren esta publicación (o usuarios de Linuxbrew): hay una fórmula de instalación de Homebrew:
fuente
Estaba enfrentando el mismo problema y me alegré de encontrar este hilo. Específicamente tuve un pdf generado a partir de imágenes escaneadas, y necesitaba reducir su tamaño de byte en un factor de 6.
Desafortunadamente, ninguna de las soluciones anteriores funcionó :(. Luego me di cuenta de que en algún lugar del proceso de escáner-> jpeg-> pdf el tamaño de la página se había hinchado por un factor de aprx 4. Los documentos que escaneé eran todos de tamaño Carta, pero el pdf tenía un tamaño de
Finalmente obtuve los resultados deseados con un comando "convertir" que hizo tanto el cambio de tamaño como los pasos de compresión en uno:
Tenga en cuenta que doc_orig tenía una densidad de 72x72 ppp.
fuente
Si la conversión a djvu también estaría bien y si no hay colores involucrados, puede intentar lo siguiente:
Convierte los archivos pdf a jpg usando
pdfimages -j
Si en su lugar obtienes archivos pbm, debes hacer el paso intermedio:
for FILENAME in $(ls *.pbm); do convert $FILENAME ${FILENAME%.*}.jpg ;done
El comando de conversión es del paquete imagemagick.
Luego use scantailor para hacer tif de él.
En un último paso, vaya al directorio de escantadores (donde se encuentran los tif) y aplique djvubind a ese directorio.
Esto debería reducir drásticamente el tamaño del archivo sin una gran pérdida de calidad del texto. Si desea un control más fino sobre el backend ocr, puede intentar
djvubind --no-ocr
usar ocrodjvu para agregar la capa ocr después.Si tiene colores en su documento, las cosas se vuelven un poco más complicadas. En lugar de djvubind , puede usar didjvu y en scantailor debe cambiar al modo mixto y seleccionar a veces imágenes en color manualmente.
fuente
cargar imagen o incluso archivo pdf en inkscape.
Desde inkscape: guarde en formato vectorial (como el .svg nativo).
Importe archivos vectoriales a scribus, edite el diseño y exporte / guarde como .pdf desde allí
fuente
Herramienta de compresión de PDF súper simple: página de GitHub.
Instalación en Ubuntu:
Utiliza ghostscript.
fuente
Puedes probar esto:
Es más rápido
gs
pero comprime hasta un 30% en este caso para un archivo de entrada de 107.5MiB.fuente
Para mí, la
screen
opción gs era demasiado mala y laebook
demasiado grande.Mi documento original contenía texto en color e imágenes en blanco y negro (dependiendo de la página).
La mejor solución que encontré fue:
Tenga en cuenta que el nivel de compresión no es lineal ... si estaba especificando 135 no comprimido, encontré que 130 es (en mi caso) la resolución máxima que logra una compresión.
fuente
Usé los siguientes comandos pero no comprimió mi archivo pdf sustancialmente. Algunas veces parte de la porción se ennegreció después de la compresión.
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf $INPUTFILE
"ps2pdf -dPDFSETTINGS=/ebook %s %s" % (input_file_path, out_file_path)
Después de mucho deambular por la web, simplemente no pude encontrar la biblioteca de compresión correcta. Me encontré
pdfcompressor.com
. Este es un sitio web increíble. Comprime el pdf en un 95% (15Mb de archivos). Así que usé selenio y Tor para automatizar la compresión. Echa un vistazo a mi repositorio de Github. [GITHUB] ( https://github.com/gugli28/PdfCompressor )fuente