¿Cómo puedo extraer texto de imágenes?
No estoy hablando de archivos escaneados, sino de imágenes de variedades de jardín, como cuando tomas una foto de alta definición de una pizarra en clase, y está muy bien escrita a mano; o cuando fotografía una página de un libro de recetas y quiere la receta en formato de texto.
¿Algún software libre y abierto para eso?
Intenté tesseract, y los resultados fueron terribles.
software-recommendation
images
ocr
Strapakowsky
fuente
fuente
Respuestas:
Se llama el acto de extraer texto de las imágenes
OCR
y Ubuntu tiene una página wiki dedicada a OCR . De esa página:Herramientas de OCR disponibles
Los repositorios de Ubuntu Universe contienen las siguientes herramientas de OCR:
Los repositorios de Ubuntu multiverse también contienen:
Algunos paquetes están desactualizados, pero se pueden encontrar nuevos no oficiales en Alex_P PPA (código de adición de PPA: ppa: alex-p / notesalexp). Si nunca usó un PPA, verifique cómo agregar software desde un PPA .
editar: Como se muestra en el comentario, Clara OCR también existe, pero se quedó genial en Hardy y su sitio web tiene 2009 como última actualización.
fuente
OCR
funciona mejor si sabes cómo se crea la imagen y estás muy versado en el uso del software que usas (esta última es la razón por la que nunca pude usarla).tesseract-ocr
sería el mejor en comparación con todos los demás. Para la instalación, ejecute el comandosudo apt-get install tesseract-ocr
.El uso es
tesseract filename.jpg output.txt
.El comando anterior generará
output.txt
.Puede considerar seleccionar el idioma apropiado. En ese caso, deberá instalar el
tesseract-ocr-LANG
paquete, donde seLANG
encuentra el código de idioma ISO 639-2 de tres letras . En este momento tiene 123 idiomas en 18.04 repo. Luego use por ejemplo:fuente