¿Cómo puedo extraer texto de imágenes?

25

¿Cómo puedo extraer texto de imágenes?

No estoy hablando de archivos escaneados, sino de imágenes de variedades de jardín, como cuando tomas una foto de alta definición de una pizarra en clase, y está muy bien escrita a mano; o cuando fotografía una página de un libro de recetas y quiere la receta en formato de texto.

¿Algún software libre y abierto para eso?

Intenté tesseract, y los resultados fueron terribles.

Strapakowsky
fuente
Necesito un OCR que admita bengalí e inglés simultáneamente.
alhelal

Respuestas:

26

Se llama el acto de extraer texto de las imágenes OCRy Ubuntu tiene una página wiki dedicada a OCR . De esa página:

Herramientas de OCR disponibles

Los repositorios de Ubuntu Universe contienen las siguientes herramientas de OCR:

  1. gocr : un OCR de línea de comando
  2. fuzzyocr - plugin spamassassin para verificar archivos adjuntos de imágenes
  3. libhocr0 - OCR hebreo
  4. ocrad - Programa de reconocimiento óptico de caracteres
  5. ocrfeeder : sistema de análisis de diseño de documentos y reconocimiento óptico de caracteres
  6. ocropus - análisis de documentos y sistema OCR
  7. tesseract-ocr

Los repositorios de Ubuntu multiverse también contienen:

  1. cuneiforme - sistema de OCR multilingüe

Algunos paquetes están desactualizados, pero se pueden encontrar nuevos no oficiales en Alex_P PPA (código de adición de PPA: ppa: alex-p / notesalexp). Si nunca usó un PPA, verifique cómo agregar software desde un PPA .

editar: Como se muestra en el comentario, Clara OCR también existe, pero se quedó genial en Hardy y su sitio web tiene 2009 como última actualización.

Rinzwind
fuente
¿Tiene experiencia usando alguno de esos para los ejemplos que describí? Me volví un poco escéptico a las herramientas regulares de OCR para ellos. El número 7 en la lista es el que probé y fue simplemente terrible.
Strapakowsky
Si mal no recuerdo, probé gocr también, con resultados terribles equivalentes. Si probó con éxito alguno de esos, ¿qué sintaxis usó? Gracias.
Strapakowsky
¡Ninguno en absoluto! Nunca me molesté con OCR: D La búsqueda de Freshmeat muestra a Clara OCR y tesseract-ocr;) ( freshmeat.net/search/… )
Rinzwind
¿Me equivoco si digo que el uso exitoso de OCR requiere conocimiento del proceso y una configuración cuidadosa para ajustarse a la imagen en particular a escanear? Por lo tanto, si estoy en lo cierto, los malos resultados pueden deberse al usuario y no al software.
NN
OCRfunciona mejor si sabes cómo se crea la imagen y estás muy versado en el uso del software que usas (esta última es la razón por la que nunca pude usarla).
Rinzwind
18

tesseract-ocrsería el mejor en comparación con todos los demás. Para la instalación, ejecute el comando sudo apt-get install tesseract-ocr.

El uso es tesseract filename.jpg output.txt.

El comando anterior generará output.txt.

Puede considerar seleccionar el idioma apropiado. En ese caso, deberá instalar el tesseract-ocr-LANGpaquete, donde se LANGencuentra el código de idioma ISO 639-2 de tres letras . En este momento tiene 123 idiomas en 18.04 repo. Luego use por ejemplo:

tesseract mySpanishText.jpg output -l spa
Sudhir Belagali
fuente
Oye, entonces esto funciona pero no es exacto o preferiría decir que es 80-85% exacto. Como ejemplo para esta imagen: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , estropeó $ sign y también la mayoría de los corchetes. Cuadrados, redondos, rizados, todos los corchetes son un problema, nunca se extraen correctamente. ¿Conoces alguna solución?
Milan Chheda