¿Software de escaneo a PDF para Linux?

18

Tengo un flujo de trabajo mediante el cual escaneo documentos en papel en archivos PDF con capacidad de búsqueda utilizando un escáner de documentos Fujitsu ScanSnap S500 . No soy un gran admirador del software incluido, pero es muy fácil de usar: coloque una pila de papel en la parte superior, presione el botón verde y aparecerá un PDF con capacidad de búsqueda.

Ahora, me gustaría hacer algo similar en Linux (Ubuntu 10.10). El escáner es compatible de fábrica.

He mirado gscan2pdfy XSane:

  • XSane parece potente, pero no es realmente adecuado como solución de flujo de trabajo;
  • gscan2pdf está un poco más cerca del ideal "presione el botón, obtenga el PDF", pero aún no está al 100%.

¿Algún otro software que pueda recomendar (gratuito o no)?

NPE
fuente
uso pdf-cups, pero es una imagen que no se puede buscar en el texto
RobotHumans
1
¿Qué es 'no 100% allí' con gscan2pdf?
digitxp
@digitxp No quería saturar la pregunta con una larga lista de problemas, me gusta y no me gusta para ningún producto. Sin embargo, como usted pregunta, en gscan2pdfque tenía artefactos extraños con 'des-papeleo', el OCR era prácticamente inutilizable (algunos motores mejor que otros) y, en general, no era tan aerodinámico como la solución original. De todos modos, la esencia de mi pregunta es ver qué más hay para poder probar varias soluciones y ver qué funciona mejor para mí.
NPE
@digitxp Acabo de releer mi comentario anterior y suena bastante negativo. Esa no era la intención. gscan2pdfen realidad está bastante cerca de lo que estoy buscando, pero hay áreas en las que lamentablemente carece en comparación con la solución original.
NPE

Respuestas:

18

Aquí hay algunas cosas que encontré al investigar esto a principios de este año. Lo sentimos, no puedo publicar más de un hipervínculo debido a mi calificación limitada, por lo que tendrá que buscar en Google los enlaces.

gscan2pdf

Un sistema GUI realmente bueno que puede usar varios motores OCR para el backend. Esto probablemente se encontrará con su solución de un toque (y digitxp ya lo mencionó).

Motor Tesseract OCR

Se puede usar con gscan2pdf.

Ocropus

No llegué muy lejos con ocropus ya que no estaba reconociendo texto sin una amplia capacitación. Probablemente sería realmente bueno para los libros, pero no me funcionó bien con facturas y demás. YMMV.

Cuneiforme

Tuve el mejor éxito con Cuneiform y pude crear PDF con capacidad de búsqueda mediante comandos de script similares al siguiente flujo de trabajo:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

También necesitará instalar el paquete exacto de imagen.

Varios proyectos de código abierto para OCR'ing PDF también usan Cuniform y hocr2pdf :

  • WatchOCR
  • Archivista

¡Avísame lo que averigües!

Eric Holmberg
fuente