¿Existen buenos programas de OCR de escritura a mano de código abierto (bueno, gratis)?

16

El título lo pregunta todo. Tengo ante mí una tarea de entrada de datos que no me entusiasma demasiado: 50-100 páginas de registros de inicio / cierre de sesión escritos a mano.

El formato de los registros puede ayudar. Las páginas se dividen en filas y columnas claramente delineadas (13r x 6c con una fila de encabezado mecanografiada adicional). Además de ayudarme es que tres columnas están relacionadas con la fecha / hora (fecha, tiempo de espera, tiempo de entrada). Además, los datos en dos de las columnas (recurso y nombre) están más o menos enumerados, de modo que, por ejemplo, el nombre "Smith" puede aparecer una y otra vez en la columna de nombre, cada vez con la misma letra. La última columna, "Notas", es de forma libre, pero si pudiera automatizar las 6 columnas anteriores, no me importaría ingresar Notas a mano.

¿Alguna sugerencia? (Además de 'comenzar a escribir').

PD: Si hay un mejor sitio de SE para preguntar esto, hágamelo saber, preguntaré allí.

psoft
fuente
1
¿Puedes publicar un escaneo de muestra del registro?
Martin Thompson
1
No te molestes con Captricity: te piden tu correo electrónico y te envían un "enlace de correo electrónico" sin un enlace.
Y esto es lo que sucede cuando te confunden con los términos «código abierto» y «sin cargo» ... que tienes una empresa que intenta obtener ventaja en el mercado dando la idea de que «código abierto» es igual a «malo» ».
Joan

Respuestas:

6

tesseract es probablemente la mejor y más extendida biblioteca de OCR.

Ha sido probado con letra manuscrita y no es tan malo, aunque la escritura manual no es algo fácil de leer. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf

Martin Beckett
fuente
Tesseract ciertamente es una buena opción si está buscando código libre / abierto. No es 100%, pero obtiene resultados bastante precisos la mayor parte del tiempo.
Capitán Kenpachi
4

Si tiene menos de 10 páginas, Captricity puede hacerlo de forma gratuita.

Fuera de la caja, no hay buenas soluciones de código abierto para lo que estás buscando. Las soluciones pagas cuestan mucho para obtener una licencia. Esto se basa en nuestra experiencia en la construcción de un servicio de OCR de escritura a mano en Captricity . Utilizamos tesseract en la producción, pero solo como un voto que se combina con la inteligencia humana (crowdsourcing) para ofrecer un alto nivel de calidad.

¡Espero que ayude!

Kuang
fuente