El título lo pregunta todo. Tengo ante mí una tarea de entrada de datos que no me entusiasma demasiado: 50-100 páginas de registros de inicio / cierre de sesión escritos a mano.
El formato de los registros puede ayudar. Las páginas se dividen en filas y columnas claramente delineadas (13r x 6c con una fila de encabezado mecanografiada adicional). Además de ayudarme es que tres columnas están relacionadas con la fecha / hora (fecha, tiempo de espera, tiempo de entrada). Además, los datos en dos de las columnas (recurso y nombre) están más o menos enumerados, de modo que, por ejemplo, el nombre "Smith" puede aparecer una y otra vez en la columna de nombre, cada vez con la misma letra. La última columna, "Notas", es de forma libre, pero si pudiera automatizar las 6 columnas anteriores, no me importaría ingresar Notas a mano.
¿Alguna sugerencia? (Además de 'comenzar a escribir').
PD: Si hay un mejor sitio de SE para preguntar esto, hágamelo saber, preguntaré allí.
Respuestas:
tesseract es probablemente la mejor y más extendida biblioteca de OCR.
Ha sido probado con letra manuscrita y no es tan malo, aunque la escritura manual no es algo fácil de leer. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf
fuente
Si tiene menos de 10 páginas, Captricity puede hacerlo de forma gratuita.Fuera de la caja, no hay buenas soluciones de código abierto para lo que estás buscando. Las soluciones pagas cuestan mucho para obtener una licencia. Esto se basa en nuestra experiencia en la construcción de un servicio de OCR de escritura a mano en Captricity . Utilizamos tesseract en la producción, pero solo como un voto que se combina con la inteligencia humana (crowdsourcing) para ofrecer un alto nivel de calidad.
¡Espero que ayude!
fuente