He visto algunos libros electrónicos / documentos que aparentemente fueron escaneados de sus versiones en papel, pero el texto en los libros electrónicos / documentos se puede copiar increíblemente. Supongo que las versiones escaneadas directamente deben haber sido procesadas por algún software de reconocimiento óptico de caracteres.
Entonces, me gustaría saber cuáles son los softwares de reconocimiento óptico de caracteres recomendados. ¿Especialmente aquellos que son para Ubuntu o gratis? Si los de Windows son mucho más superiores, házmelo saber también.
Estoy particularmente interesado en esos OCR que pueden aceptar un archivo pdf escaneado como entrada y aún producir como salida otro archivo pdf que se ve igual que el de entrada pero con su texto copiable.
¡Gracias y saludos!
Por favor, limite un software por respuesta
Otro proyecto que debería poder hacer esto es gscan2pdf
Este proyecto también puede usar Tesseract, así como otras herramientas de OCR de código abierto.
fuente
No conozco ningún OCR para Ubuntu, pero para Windows hay uno que tiene las características que necesita. Esa es ABBYY FineReader, esta es la página pero no es gratuita
fuente
Existe una solución gratuita en repos, CunieForm (y YAGF como interfaz de Gnome para ello)
fuente
Parece que el proyecto Decapod exporta o exportará a PDF, por lo que Tesseract debe exportar de alguna manera la información necesaria para saber dónde se encontró el texto.
fuente
Adobe Acrobat (no es un lector, no es una aplicación gratuita) es capaz de OCRizar un documento PDF escaneado y agregar una capa de texto invisible en la parte superior de la imagen, para que el texto pueda seleccionarse y copiarse. Desafortunadamente, no me resulta útil verificar dónde se encuentra exactamente esa función en la interfaz de usuario de Acrobat, pero la he usado con éxito un par de veces con el mismo propósito que usted mencionó.
Y sí, este es un software de Windows, no de Linux, pero de acuerdo con la base de datos de la aplicación Wine HQ, funciona bajo Wine .
fuente
El mejor software de OCR generalmente está integrado en impresoras / escáneres / copiadoras. La Canon IRC 3880 en mi oficina puede generar excelentes archivos PDF con OCR de manera más fácil y rápida que cualquier otro programa de escritorio que conozco. Coloque el libro en la bandeja (sin consolidar), seleccione su dirección de correo, presione el botón verde.
La mayoría del pdf de OCR que puede encontrar en la red viene para máquinas similares. El problema es que el precio es demasiado alto para uso doméstico (alrededor de 12000 euros IRC).
fuente
Ricoh Innovations ofrece mi software de OCR gratuito en línea favorito. Este es un programa beta, pero creo que funciona bastante bien. Compruébelo en: http://beta.rii.ricoh.com/betalabs/content/document-conversion
fuente
OCRFeeder
Es una aplicación GUI.
Utiliza tesseract-ocr o ocrad como motor OCR.
Se puede instalar con Software Center o con,
fuente
FineReader también tiene una versión en línea. Afirma poder procesar archivos PDF como formato de entrada --- http://finereader.abbyyonline.com/en/Help/Faq/
fuente