Convertir imagen a texto

8

Obtuve un documento de imagen escaneada del banco y quiero convertirlo a un documento de texto normal con imágenes en Ubuntu.

¿Hay alguna herramienta para ello?

joe
fuente

Respuestas:

15

Hay varios lectores de OCR para Linux que pueden convertir de imagen a texto. Mira las siguientes opciones:

Todo lo anterior, excepto ocropus, está presente en el repositorio de Ubuntu en un paquete con el mismo nombre.

Diferentes lectores admiten diferentes formatos de imagen, por lo que puede estar limitado en sus opciones por el formato de archivo en el que se encuentra su documento. Alternativamente, puede usar la herramienta de conversión de ImageMagick para cambiar el formato si desea usar un lector de OCR en particular.

Adaptado de mi respuesta aquí .

Comunidad
fuente
0

Primero debe instalar "tesseract-ocr" en su máquina Linux.

sudo apt-get install tesseract-ocr

Puede hacerlo manualmente desde CLI o he creado un código PHP para el mismo, puede usarlo si lo desea.

Nota: Para ejecutar este código, el comando exec debe habilitarse en php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

ponga este código en la carpeta raíz y acceda desde el navegador,

p.ej :

http://yourserver.com?input_file=1.png

Nota: el archivo 1.png debe estar presente en su directorio actual.

No tengo derechos para cargar imágenes, he usado esta imagen como referencia, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

Pragnesh Karia
fuente