Tengo Linux Mint 17.2 x32 Cinnamon. Probablemente estos pasos también funcionarían en Ubuntu 14.04 x32.
- Instalar Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Puede agregar otros idiomas instalando paquetes adicionales. Esta captura de pantalla es de Synaptic:
paquetes de idioma Tesseract en Synaptic
Usando Tesseract
OPCIÓN 1: mediante la línea de comandos, abra el terminal, luego vaya a la carpeta donde guarda los archivos de imagen (jpg, png) y ejecute el comando:
a) para convertir todos los archivos de imagen a texto
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Para fusionar todos los archivos de texto en uno, ejecute un comando cat *.txt >> all.txt
b) para convertir todos los archivos de imagen en archivos hocr (abrir con Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
OPCIÓN 2 - por GUI
a) Instale gImageReader y úselo
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) La segunda aplicación es VietOCR. La versión real es 4.0, así que descargue VietOCR-4.0.zip
Descomprima archivos y abra VietOCR.jar por Java:
Open VietOCR by Java
Si no tiene Java instalado, puede instalarlo desde el repositorio o puede instalar Oracle Java 8. Pasos para instalar Oracle Java 8 en Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Recomiendo VietOCR, ya que le permite OCR archivos PDF, la conversión masiva también es una opción.