Filtrando una imagen un poco "entonada" para el procesamiento de OCR

10

Tengo un material PDF escaneado al que quiero agregar una capa de texto oculto, para poder indexar el documento. Utilicé el dispositivo de salida tiff en blanco y negro ghostscript (tiffg4) para extraer páginas como imágenes tiff, y aquí hay un ejemplo de cómo se ven:

ingrese la descripción de la imagen aquí

Procesar esta imagen con tesseract, no da buenos resultados.
El cambio de la salida DPI de ghostscript (600, 300, 150, 96) muestra que la imagen a 96 DPI proporciona el mejor resultado de tesseract pero aún no es satisfactoria.

Ahora pensé en pedir consejo sobre qué filtro mejoraría esta imagen para el procesamiento de OCR.

Podría usar imagemagick, o numpy / scipy / ndimage

zetah
fuente

Respuestas:

2

puedes eliminar esto usando un filtro de paso bajo. eso se hace en el espacio de frecuencia o simplemente toma la (diferencia de) gaussiana de la imagen.

paso bajo gaussiano, luego diferencia de gaussianos para afilar

Christoph Rackwitz
fuente