Mi PDF contiene 600 páginas con imágenes de texto. Tiene 2 capas .
Capa 1: imagen en color de fondo
Capa 2: imagen de texto
Me gustaría eliminar todas las capas de imágenes de fondo en el archivo PDF total como se muestra en la imagen.
¿Me podría sugerir algún software / herramienta?
Respuestas:
Visión general
Lo que está buscando son herramientas como Scan Tailor y unpaper que son capaces de eliminar los umbrales , eliminar el ruido y eliminar el ruido . Ambas herramientas funcionan con imágenes en lugar de archivos PDF, pero puede convertir fácilmente entre los diferentes formatos que usan estas aplicaciones y PDF utilizando las herramientas descritas al final de esta respuesta.
ScanTailor
Puedes encontrar un video tutorial aquí . Hay documentación más extensa disponible en la wiki oficial . Probablemente le interesará más la página sobre el modo de salida en blanco y negro y la configuración del filtro .
Unpaper
Todavía no he trabajado
unpaper
conmigo mismo. Por lo que entiendo, tiene muchas más funciones que ScanTailor, pero también es mucho más difícil de dominar.No hay una interfaz gráfica de usuario y tendrá que confiar en los interruptores de línea de comandos para realizar su trabajo. Por otro lado, esto significa que las conversiones
unpaper
pueden automatizarse fácilmente mediante scripts.Puede encontrar algunos ejemplos de secuencias de comandos relacionados con la conversión de un escaneo a blanco y negro y la eliminación del fondo aquí .
Algunas herramientas útiles cuando se trabaja con unpaper y ScanTailer
No tengo tiempo suficiente para escribir un tutorial completo sobre ScanTailor y unpaper¹ pero aquí hay algunos consejos sobre la conversión
.pdf
y los formatos de imagen compatibles con estas herramientas:Puede usar
pdfimages
para convertir documentos PDF en archivos de una sola página.ppm
, que pueden leerseunpaper
.Ejemplo de uso:
ScanTailor no toma
.ppm
archivos como entrada. Tendrás que convertirlos a otro formato como el.png
primero sin pérdidas .mogrify
fuera delimagemagick
conjunto de herramientas puede hacer esto por usted.Ejemplo de uso:
El formato de salida de ScanTailor y unpaper son
.tiff
archivos de una sola página . Para volver a convertirlos a.pdf
, sugeriría usartiffcp
ytiff2pdf
.Ejemplo de uso:
Instalación
Este comando instalará todas las herramientas mencionadas anteriormente:
¹: Para cualquiera que lea esto, no dude en compilar una respuesta más extensa basada en ScanTailor y / o unpaper.
fuente
Acabo de encontrar una solución muy simple:
instalar
gscan2pdf
.Abra
gscan2pdf
e importe el PDF.herramientas-> umbral. El valor predeterminado del 80% funcionó bien para mí.
guarda el PDF en otra ubicación.
fuente
quizás el editor Master PDF pueda ayudarlo, aunque no he encontrado de ninguna manera que haga esto automáticamente en las 600 páginas.
fuente