Obtuve un documento de imagen escaneada del banco y quiero convertirlo a un documento de texto normal con imágenes en Ubuntu.
¿Hay alguna herramienta para ello?
Obtuve un documento de imagen escaneada del banco y quiero convertirlo a un documento de texto normal con imágenes en Ubuntu.
¿Hay alguna herramienta para ello?
Hay varios lectores de OCR para Linux que pueden convertir de imagen a texto. Mira las siguientes opciones:
Todo lo anterior, excepto ocropus, está presente en el repositorio de Ubuntu en un paquete con el mismo nombre.
Diferentes lectores admiten diferentes formatos de imagen, por lo que puede estar limitado en sus opciones por el formato de archivo en el que se encuentra su documento. Alternativamente, puede usar la herramienta de conversión de ImageMagick para cambiar el formato si desea usar un lector de OCR en particular.
Adaptado de mi respuesta aquí .
Primero debe instalar "tesseract-ocr" en su máquina Linux.
sudo apt-get install tesseract-ocr
Puede hacerlo manualmente desde CLI o he creado un código PHP para el mismo, puede usarlo si lo desea.
Nota: Para ejecutar este código, el comando exec debe habilitarse en php.ini
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
ponga este código en la carpeta raíz y acceda desde el navegador,
p.ej :
http://yourserver.com?input_file=1.png
Nota: el archivo 1.png debe estar presente en su directorio actual.
No tengo derechos para cargar imágenes, he usado esta imagen como referencia, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview