Siempre he encontrado que la tecnología OCR está detrás de los sistemas de código abierto. También he visto el proyecto Ocropus desde su infancia. He probado lo que he escuchado que es el mejor motor de OCR disponible para Linux, Tesseract , y he encontrado que lamentablemente carece de documentos comerciales. ¿Hay alguna otra implementación de OCR más prometedora? ¿Qué pasa con el objetivo aún más esperanzador para interpretar la escritura a mano? ¿Qué es posible en los sistemas * nix en este campo?
opensource-projects
ocr
documents
jjclarkson
fuente
fuente
Respuestas:
Tesseract
A partir de 2018, el mejor software de OCR de código abierto disponible es Tesseract 4 (beta) con su nuevo modelo de OCR de red neuronal LSTM . Su rendimiento OCR es mucho mejor que el modelo OCR anterior utilizado en la versión 3.
Ejemplo (producir un archivo PDF
output.pdf
con una capa de texto para un documento alemán escaneado):Imprima el texto reconocido en stdout:
Lista de idiomas instalados:
El soporte para muchos idiomas / script está disponible en forma de conjuntos de datos capacitados descargables , por ejemplo, incluso hay un conjunto de datos para Fraktur.
Con el nuevo modelo LSTM, Tesseract se inspira en el proyecto de investigación OCRopus .
La versión 3 de Tesseract funciona relativamente mal incluso en imágenes de entrada de buena calidad, es decir, a menudo detecta falsamente caracteres individuales en píxeles de polvo (fuera de cualquier contexto textual) e introduce fácilmente errores de caracteres únicos en palabras conocidas.
Cuneiforme
El rendimiento de OCR cuneiforme no es tan malo, pero no se mantiene activamente (última versión en 2011, versión 1.1) y se bloquea fácilmente y tiene algunos otros problemas:
Puede deshabilitar el algoritmo de diseño de esta manera:
(
-l
especifica el idioma del documento fuente)ocrad
El texto se imprime por defecto en stdout.
En un documento comercial, se perdió una palabra subrayada, donde cuneiforme / tesseract / gocr no.
gocr
El texto se imprime por defecto en stdout.
Hardware
Sane tiene muy buen soporte para muchos escáneres de alimentación automática de documentos (ADF), por ejemplo, para los de Avision y Fujitsu .
Con Sane se incluye el
scanimage
programa de línea de comandos que puede usar para construir tuberías de escaneo con secuencias de comandos (por ejemplo, miadf2pdf.py
secuencia de comandos).fuente
Encontré una pregunta similar sobre StackOverflow y Asprise OCR SDK , uno de los productos comerciales vinculados , cuenta con una versión de Linux.
fuente
Existen pocas herramientas populares de línea de comandos de OCR:
Tesseract ( Léame , Preguntas frecuentes ) (Python)
También disponible para: Tesseract .NET , Tesseract iOS
Uso:
Ejemplo: hacer que el PDF existente se pueda buscar (OCR) a través de la línea de comandos / script
GOCR
OCRopus ™ ( FAQ ) (escrito en Python, NumPy y SciPy)
Tessnet2 (código abierto, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)
Otros ya sugeridos: ABBYY CLI OCR para Linux , Asprise OCR .
Lee también:
Para obtener una lista más completa, consulte: Lista de software de reconocimiento óptico de caracteres en Wikipedia.
fuente
... OCR es más que "solo reconocimiento de caracteres". Manejo de imágenes, preprocesamiento: análisis de página / diseño para encontrar textos, imágenes, tablas o códigos de barras. Para el reconocimiento, debe lidiar con diferentes fuentes, tamaños e idiomas. Esto es importante porque para obtener buenos resultados debe usar diccionarios y definiciones de idiomas. Finalmente, las personas esperan más opciones de exportación que el texto (por ejemplo, XML, RTF o PDF con capacidad de búsqueda). Hay algunas opciones comerciales para los SDK, pero no son baratas y gratuitas.
Recientemente encontré un CLI OCR para Linux de ABBYY . Hay una prueba gratuita de 100 páginas.
fuente
Si tiene un presupuesto, le recomiendo la CLI de ABBYY FineReader Engine para Linux . Nuestra empresa lo ha estado utilizando en nuestra aplicación web durante un año y planeamos renovar la licencia. Muy buena calidad de reconocimiento, interfaz de línea de comandos, reconocimiento en muchos idiomas.
fuente