Necesito procesar algunos archivos PDF. La tarea consiste en intercambiar un archivo de imagen dado por otro. Mi primer problema es cómo reemplazar una imagen PDF desde la línea de comandos en un proceso por lotes. A continuación, trataré de abordar otros problemas, como cómo identificar cuál es la imagen que necesito reemplazar (porque los archivos PDF pueden tener más de una imagen). Pero primero quiero resolver el primer problema: cómo reemplazar una imagen en un PDF por otra.
He leído sobre poppler-utils y pdftk, pero hasta donde sé, ninguna de estas herramientas permite reemplazar imágenes en PDF.
command-line
pdf
images
Ivan
fuente
fuente
Respuestas:
OK ... creo que
pdflatex
es la pieza que falta aquí.El OP dijo que ha investigado
poppler-utils
ypdftk
. Déjame agregar a esopdfimages
. Estos, junto conpdflatex
son las piezas de una solución.En el código de ejemplo anterior,
pdfimages
mira las páginas 4 a 20target.pdf
y extrae todas las imágenes en archivos con nombres que comienzanimageroot
.poppler-utils
proporcionapdftotext
. Recomiendo la-layout
opción que hace un gran trabajo manteniendo el documento legible por humanos.La objeción del OP a la
imagemagick
solución ofrecida por pidosaurus es que una imagen no tiene texto extraíble. Con las utilidades que describí, el OP ahora tendrá todas las imágenes, así como todo el texto extraído, y la-layout
opción conserva los números de página y el contenido . El OP podría identificar la página de texto correcta y colocarla en un.tex
archivo que termine con una%includegraphics
directiva y haga referencia a la imagen de reemplazo por nombre de archivo. Luego,pdflatex
esto y termina con un nuevo .pdf de una sola página para insertar en el resto de su documentopdftk
. Si sabía en qué parte del texto de la página original residía la imagen, puede%includegraphics [h]
obtener la imagen exactamente en el lugar correcto.fuente