¿Cómo puedo eliminar el fondo de la página en escala de grises de un escaneo de documentos PDF mientras se preserva el texto? (Binarización)

9

Mi PDF contiene 600 páginas con imágenes de texto. Tiene 2 capas .

  • Capa 1: imagen en color de fondo

  • Capa 2: imagen de texto

Me gustaría eliminar todas las capas de imágenes de fondo en el archivo PDF total como se muestra en la imagen.

ingrese la descripción de la imagen aquí

¿Me podría sugerir algún software / herramienta?

ingrese la descripción de la imagen aquí

Raghu G
fuente
¿Qué versión de Ubuntu estás usando?
Mitch
Ubuntu 13.10, 64 bits.
Raghu G
Descripción de la pregunta actualizada.
Raghu G

Respuestas:

9

Visión general

Lo que está buscando son herramientas como Scan Tailor y unpaper que son capaces de eliminar los umbrales , eliminar el ruido y eliminar el ruido . Ambas herramientas funcionan con imágenes en lugar de archivos PDF, pero puede convertir fácilmente entre los diferentes formatos que usan estas aplicaciones y PDF utilizando las herramientas descritas al final de esta respuesta.

ScanTailor

Puedes encontrar un video tutorial aquí . Hay documentación más extensa disponible en la wiki oficial . Probablemente le interesará más la página sobre el modo de salida en blanco y negro y la configuración del filtro .

Unpaper

Todavía no he trabajado unpaperconmigo mismo. Por lo que entiendo, tiene muchas más funciones que ScanTailor, pero también es mucho más difícil de dominar.

No hay una interfaz gráfica de usuario y tendrá que confiar en los interruptores de línea de comandos para realizar su trabajo. Por otro lado, esto significa que las conversiones unpaperpueden automatizarse fácilmente mediante scripts.

Puede encontrar algunos ejemplos de secuencias de comandos relacionados con la conversión de un escaneo a blanco y negro y la eliminación del fondo aquí .


Algunas herramientas útiles cuando se trabaja con unpaper y ScanTailer

No tengo tiempo suficiente para escribir un tutorial completo sobre ScanTailor y unpaper¹ pero aquí hay algunos consejos sobre la conversión .pdfy los formatos de imagen compatibles con estas herramientas:

  • Puede usar pdfimagespara convertir documentos PDF en archivos de una sola página .ppm, que pueden leerse unpaper.

    Ejemplo de uso:

    pdfimages *.pdf ./extracted-images
  • ScanTailor no toma .ppmarchivos como entrada. Tendrás que convertirlos a otro formato como el .pngprimero sin pérdidas . mogrifyfuera del imagemagickconjunto de herramientas puede hacer esto por usted.

    Ejemplo de uso:

    mogrify -format png *.ppm
  • El formato de salida de ScanTailor y unpaper son .tiffarchivos de una sola página . Para volver a convertirlos a .pdf, sugeriría usar tiffcpy tiff2pdf.

    Ejemplo de uso:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

Instalación

Este comando instalará todas las herramientas mencionadas anteriormente:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: Para cualquiera que lea esto, no dude en compilar una respuesta más extensa basada en ScanTailor y / o unpaper.

Glutanimato
fuente
Scantailer funciona pero en archivos pdf. Tendría que convertirlo primero a algún formato de imagen.
Para hacer
@ToDo Sí, como se señala en la respuesta :).
Glutanimate
Me di cuenta ahora. Es mejor organizar la respuesta para que toda la información de cada programa esté en un bloque.
Para hacer
@ToDo La razón original por la que puse las herramientas en una sección específica fue porque eran relevantes tanto para unpaper como para Scantailor. Sin embargo, tienes razón, estaba un poco desorganizado. Creo que debería ser mejor ahora
Glutanimate
3

Acabo de encontrar una solución muy simple:

  • instalar gscan2pdf.

  • Abra gscan2pdfe importe el PDF.

  • herramientas-> umbral. El valor predeterminado del 80% funcionó bien para mí.

  • guarda el PDF en otra ubicación.

Noam
fuente
1

quizás el editor Master PDF pueda ayudarlo, aunque no he encontrado de ninguna manera que haga esto automáticamente en las 600 páginas.

Presbitero
fuente