Tengo un archivo PDF que contiene mapas del edificio en el que trabajo, aquí:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Los archivos de origen originales se han perdido, y me han pedido que extraiga las imágenes del mapa, preferiblemente sin el texto y los iconos que se han superpuesto sobre ellos. Esto ha resultado molestamente difícil.
Hasta ahora, he probado los siguientes programas GUI:
- Adobe Reader: me permite seleccionar texto, pero no las imágenes de fondo
- FoxIt PDF Viewer: me permite seleccionar texto, pero no las imágenes de fondo
- XPDF en Ubuntu 10.10: permite seleccionar texto, pero no las imágenes de fondo
Y también los siguientes programas de línea de comandos:
- pdfimages: extrae los iconos que indican que los baños están bien, pero no las imágenes de fondo
- pdftohtml: igual que pdfimages, además hace un documento HTML mal marcado
- pdfextract: igual que pdfimages
- convertir: imágenes guardadas con éxito, pero con el texto grabado en ellas
Incluso intenté abrir el PDF manualmente en un editor de texto y extraer los objetos de la secuencia pegándolos en un nuevo archivo y guardándolo con una extensión .jpg, .png o .bmp (cada uno a su vez). Teniendo en cuenta lo poco que sé sobre la estructura interna de los archivos PDF, no sorprende que esto no haya funcionado.
Entonces ... ¿hay alguna manera de recuperar las imágenes del mapa de esta cosa sin obtener también el texto y los iconos?
fuente
qpdf
para convertir las partes binarias a ASCII en la medida de lo posible. (2) Use un editor de texto para hacer invisible todo el texto que no quiero ver en la pantalla o en las impresiones (se puede lograr fácilmente y sin dañar la tabla XRef al alternar la bandera invisible ). (3) Vuelva a destilar el resultado con Ghostscript para reducir su tamaño tanto como sea posible. - Desafortunadamente, su archivo ya no se puede descargar para demostrar el procedimiento ...Respuestas:
Puede descargar la biblioteca XPDF desde http://www.foolabs.com/xpdf/download.html para Linux y Windows. Luego, ejecute
pdfimages -j input.pdf output
y debería obteneroutput-000.jpg
,output-001.jpg
etc. Además, visite http://linuxcommand.org/man_pages/pdfimages1.html para obtener más opciones de uso.fuente
Ok, después de jugar con esto durante 5 minutos, mi análisis es que PDF es aún más extraño de lo que pensaba originalmente, y eso es algo que dice.
No estoy seguro de cuál es su presupuesto, pero con Acrobat Pro Extended 9, puede usar:
A. Herramientas, edición avanzada, herramienta de retoque de texto
B. Herramientas, edición avanzada, herramienta de retoque de objetos
-Seleccione el objeto (puede obtener la mayoría, pero no todos) (por ejemplo, no se pueden seleccionar los iconos de las computadoras de los estudiantes), luego elimine
Así es como se veía la página 1 después de una limpieza rápida: http://dl.dropbox.com/u/7434256/p1test.pdf
fuente
/AA
operador (para Acción automática ) que lo convierte en un archivo PDF potencialmente peligroso. Ghostscript pudo reducirlo a 60 kByte sin perder nada de su contenido visible. (Los metadatos contenidos en el archivo se extienden sobre 17 objetos diferentes. Los metadatos también sugieren que hay 17 revisiones / modificaciones diferentes de ese archivo desde su creación elTome el PDF creado por Craig H y optimícelo un poco ejecutándolo a través de Ghostscript. En Windows, la línea de comando es:
En Linux / Unix / Mac OS X, haga lo siguiente:
Esto reducirá el tamaño del archivo de 3.000 kByte a aproximadamente 60 kByte sin perder contenido. Luego importarlo a Inkscape (o InDesign, Illustrator, ...) debería ser mucho más rápido ...
fuente
... podrías probar Photoshop. Lee archivos PDF y es 'posible' que se originó en PS y posiblemente todavía tenga las capas ... pero es una posibilidad muy remota.
fuente
En un entorno Linux, he usado pdfmod para extraer todas las imágenes de una vez. Ver https://wiki.gnome.org/Apps/PdfMod o, para usuarios de Ubuntu, https://apps.ubuntu.com/cat/applications/pdfmod/
Para descargarlo e instalarlo en Ubuntu, es suficiente escribir
sudo apt-get install pdfmod
.pdfmod
en el tablero o terminal de línea de comandos)export n images
con n el número apropiado). También puede acceder a este comando al pasar el mouse sobre la selección y activar el menú local (haga clic con el botón derecho para la mano derecha).Espero que esto ayude.
fuente
Abra el documento en su pantalla, amplíe la imagen para que sea lo más grande posible, pero todo sigue visible. Presione alt + prnt scrn (o el equivalente en su sistema operativo) y debería tomar una captura de pantalla del programa. Ahora abra paint o su editor de imágenes favorito (photoshop, gimp, etc.) pegue en la imagen y recorte todo lo que no desee.
fuente