Tengo un flujo de trabajo mediante el cual escaneo documentos en papel en archivos PDF con capacidad de búsqueda utilizando un escáner de documentos Fujitsu ScanSnap S500 . No soy un gran admirador del software incluido, pero es muy fácil de usar: coloque una pila de papel en la parte superior, presione el botón verde y aparecerá un PDF con capacidad de búsqueda.
Ahora, me gustaría hacer algo similar en Linux (Ubuntu 10.10). El escáner es compatible de fábrica.
He mirado gscan2pdf
y XSane
:
XSane
parece potente, pero no es realmente adecuado como solución de flujo de trabajo;gscan2pdf
está un poco más cerca del ideal "presione el botón, obtenga el PDF", pero aún no está al 100%.
¿Algún otro software que pueda recomendar (gratuito o no)?
gscan2pdf
que tenía artefactos extraños con 'des-papeleo', el OCR era prácticamente inutilizable (algunos motores mejor que otros) y, en general, no era tan aerodinámico como la solución original. De todos modos, la esencia de mi pregunta es ver qué más hay para poder probar varias soluciones y ver qué funciona mejor para mí.gscan2pdf
en realidad está bastante cerca de lo que estoy buscando, pero hay áreas en las que lamentablemente carece en comparación con la solución original.Respuestas:
Aquí hay algunas cosas que encontré al investigar esto a principios de este año. Lo sentimos, no puedo publicar más de un hipervínculo debido a mi calificación limitada, por lo que tendrá que buscar en Google los enlaces.
gscan2pdf
Un sistema GUI realmente bueno que puede usar varios motores OCR para el backend. Esto probablemente se encontrará con su solución de un toque (y digitxp ya lo mencionó).
Motor Tesseract OCR
Se puede usar con gscan2pdf.
Ocropus
No llegué muy lejos con ocropus ya que no estaba reconociendo texto sin una amplia capacitación. Probablemente sería realmente bueno para los libros, pero no me funcionó bien con facturas y demás. YMMV.
Cuneiforme
Tuve el mejor éxito con Cuneiform y pude crear PDF con capacidad de búsqueda mediante comandos de script similares al siguiente flujo de trabajo:
También necesitará instalar el paquete exacto de imagen.
Varios proyectos de código abierto para OCR'ing PDF también usan Cuniform y hocr2pdf :
¡Avísame lo que averigües!
fuente