¿Buen OCR gratuito con GUI para corregir errores? (para ventanas)

9

He usado SimpleOCR , que tiene una buena GUI para corregir errores. ¡Lamentablemente comete muchos errores! (y sufre otros errores y limitaciones)

Por otro lado, Tesseract es más preciso pero no tiene GUI en absoluto.

Mi pregunta es, ¿hay un programa de OCR gratuito para Windows que tenga una buena GUI y una baja tasa de error? Quiero que resalte las palabras sospechosas (por incertidumbre OCR, no solo la corrección ortográfica) y muestre la palabra original (mapa de bits) mientras estoy editando la palabra OCR similar a lo que hace SimpleOCR.

El código abierto sería lo mejor, seguido de software gratuito, luego de prueba / demostración / crippleware muy por detrás.

Captura de pantalla simpleOCR que muestra la GUI para corregir errores

Hugh Allen
fuente
posible duplicado del software OCR gratuito
Sathyajith Bhat
2
@Sathya: mis requisitos específicos lo diferencian de esa pregunta.
Hugh Allen
No es exactamente gratis, pero ¿has buscado en Microsoft Office? Viene con OCR. (Busque la función "Microsoft Office Document Imaging" en la configuración.)
Vivelin
@horsedrowner: acabo de probarlo. Su precisión es comparable a Tesseract, pero requiere un archivo TIFF con la configuración de DPI adecuada o no funciona, y no tiene una interfaz para corregir errores de OCR.
Hugh Allen el
@Hugh Allen: ¿Lo hace? Funcionó bastante bien cuando me topé con la función del menú contextual en OneNote 2007. Y estaba usando un archivo de imagen aleatorio copiado de un sitio web ...
Vivelin

Respuestas:

2

¿Has probado gimagereader , un frente de interfaz gráfica de usuario para Tesseract?

ukanth
fuente
Acabo de probarlo (en Windows) y no funciona para mí; el proceso se cierra inmediatamente sin un mensaje de error :( De todos modos, mirando las capturas de pantalla, no parece resaltar realmente la palabra que estás editando. ¿Has intentado ¿verdad?
Hugh Allen
2

OCRopus :

El software se basa en parte en Tesseract, el mejor motor de OCR de código abierto disponible por ahora. Si bien se espera que el proyecto se lance a fines del próximo año y se use para el proyecto de escaneo de libros de Google, el equipo tiene algunas aplicaciones interesantes en mente:

  • una interfaz de servicio web
  • PDF, cámara y OCR de pantalla
  • integración con herramientas de búsqueda de escritorio: Beagle, Spotlight, Google Desktop

OCRopus (tm) es un sistema de análisis de documentos y OCR de última generación, que ofrece análisis de diseño conectable, reconocimiento de caracteres conectables, modelado estadístico de lenguaje natural y capacidades multilingües.

El motor OCRopus se basa en dos proyectos de investigación: un reconocedor de escritura a mano de alto rendimiento desarrollado a mediados de los 90 e implementado por la oficina del censo de EE. UU., Y nuevos métodos de análisis de diseño de alto rendimiento.

OCRopus es un desarrollo patrocinado por Google e inicialmente está destinado a esfuerzos de conversión de documentos de alto volumen y alto rendimiento. Esperamos que también sea un excelente sistema de OCR para muchas otras aplicaciones. texto alternativo Enlaces:


GOCR

GOCR es un programa de reconocimiento óptico de caracteres (OCR), desarrollado bajo la licencia pública GNU. Convierte imágenes escaneadas de texto a archivos de texto. Joerg Schulenburg comenzó el programa y ahora lidera un equipo de desarrolladores. GOCR se puede usar con diferentes front-end, lo que hace que sea muy fácil portar a diferentes sistemas operativos y arquitecturas. Puede abrir muchos formatos de imagen diferentes, y su calidad ha mejorado día a día. texto alternativo texto alternativo

Enlaces:


Krazy_Kaos
fuente
¿Alguno de ellos tiene una GUI decente para ir con ellos?
Hugh Allen
1
Editado responde a tu pregunta ... pero yo diría: "No, no lo hacen", pero escuché que abiword admite OCRopus ( arstechnica.com/open-source/news/2007/08/… )
Krazy_Kaos
1
+1 por agregar capturas de pantalla para responder y también por revisar mini los dos programas ofrecidos ...
Kurt Pfeifle
0

También hay TOPOCR (también conocido como SnapReader), que contiene el corrector ortográfico de postproceso para 11 idiomas:

SnapReader se puede utilizar para hacer sus propias notas de búsqueda de casi cualquier imagen de documento. O puede usarlo como una herramienta de autoría y crear su propio contenido editable usando su escáner o cámara y guardar los resultados como HTML o PDF. SnapReader también puede transformar texto en audio de muy alta calidad usando Audrey. Por lo tanto, no solo puede usar su escáner o cámara para capturar documentos, ahora también puede usar su reproductor de música portátil o teléfono inteligente para "leerlos".

imagen

harrymc
fuente