Recomendaciones de software de reconocimiento óptico de caracteres?

15

He visto algunos libros electrónicos / documentos que aparentemente fueron escaneados de sus versiones en papel, pero el texto en los libros electrónicos / documentos se puede copiar increíblemente. Supongo que las versiones escaneadas directamente deben haber sido procesadas por algún software de reconocimiento óptico de caracteres.

Entonces, me gustaría saber cuáles son los softwares de reconocimiento óptico de caracteres recomendados. ¿Especialmente aquellos que son para Ubuntu o gratis? Si los de Windows son mucho más superiores, házmelo saber también.

Estoy particularmente interesado en esos OCR que pueden aceptar un archivo pdf escaneado como entrada y aún producir como salida otro archivo pdf que se ve igual que el de entrada pero con su texto copiable.

¡Gracias y saludos!

Por favor, limite un software por respuesta

Tim
fuente

Respuestas:

10

Tesseract OCR Instalar Tesseract OCR

El motor original fue desarrollado a finales de los años 80 por HP e IBM, pero ha demostrado ser uno de los mejores softwares de reconocimiento ocular que he usado. Recientemente se han realizado muchas actualizaciones al motor y se ha convertido en una de las herramientas de OCR más completas del mercado. Superando la mayoría de las otras herramientas de OCR (con algo en el 90 por ciento más alto de las coincidencias de texto) puede transformar fácilmente el tipo de documento estándar en texto.

Lo siguiente es un ejemplo:

tesseract ScannedDocument.png out

Producirá un archivo llamado out.txt

Dennis
fuente
¡Gracias! No vi que Tesseract sea compatible con la salida pdf. ¿Sabes sobre esto?
StackExchange para todos el
@Tim, de forma nativa, no creo que Tesseract admita muchos formatos de entrada / salida. Sin embargo, como menciona la respuesta de JanC, gscan2pdf usa Tesseract para OCR, y como su nombre lo indica, admite la salida de PDF.
Tim Lytle
Tenga en cuenta que OCR significa reconocimiento óptico de caracteres: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez
8

Otro proyecto que debería poder hacer esto es gscan2pdf

sudo apt-get install gscan2pdf

Este proyecto también puede usar Tesseract, así como otras herramientas de OCR de código abierto.

Mark Kirby
fuente
3

No conozco ningún OCR para Ubuntu, pero para Windows hay uno que tiene las características que necesita. Esa es ABBYY FineReader, esta es la página pero no es gratuita

vicmp3
fuente
1
Usé FineReader exactamente como Tim quiere (para abrir archivos PDF protegidos)
Extender el
3

Existe una solución gratuita en repos, CunieForm (y YAGF como interfaz de Gnome para ello)

Extensor
fuente
¡Gracias! ¿CunieForm admite pdf como formatos de entrada y salida? No vi esto en su página de Wikipedia y su página oficial.
StackExchange for All
Tal vez no, pero dividir PDF en series de TIFF es una tarea simple de todos modos :)
Extender
3

Parece que el proyecto Decapod exporta o exportará a PDF, por lo que Tesseract debe exportar de alguna manera la información necesaria para saber dónde se encontró el texto.

JanC
fuente
1

Adobe Acrobat (no es un lector, no es una aplicación gratuita) es capaz de OCRizar un documento PDF escaneado y agregar una capa de texto invisible en la parte superior de la imagen, para que el texto pueda seleccionarse y copiarse. Desafortunadamente, no me resulta útil verificar dónde se encuentra exactamente esa función en la interfaz de usuario de Acrobat, pero la he usado con éxito un par de veces con el mismo propósito que usted mencionó.

Y sí, este es un software de Windows, no de Linux, pero de acuerdo con la base de datos de la aplicación Wine HQ, funciona bajo Wine .

Serge Broslavsky
fuente
1

El mejor software de OCR generalmente está integrado en impresoras / escáneres / copiadoras. La Canon IRC 3880 en mi oficina puede generar excelentes archivos PDF con OCR de manera más fácil y rápida que cualquier otro programa de escritorio que conozco. Coloque el libro en la bandeja (sin consolidar), seleccione su dirección de correo, presione el botón verde.

La mayoría del pdf de OCR que puede encontrar en la red viene para máquinas similares. El problema es que el precio es demasiado alto para uso doméstico (alrededor de 12000 euros IRC).

Javier Rivera
fuente
1

OCRFeeder

Es una aplicación GUI.

ingrese la descripción de la imagen aquí

Utiliza tesseract-ocr o ocrad como motor OCR.

Se puede instalar con Software Center o con,

sudo apt-get install ocrfeeder
usuario224082
fuente