¿Cómo convierto un PDF escaneado en un PDF con texto?

36

He escaneado alrededor de 80 páginas en pdf en escala de grises (formato de imagen). El tamaño final del archivo es de aproximadamente 70 MB, que es muy grande.

Ahora estoy buscando un método para convertir el archivo PDF basado en imágenes en escala de grises en un simple archivo PDF basado en texto en blanco y negro.

He hecho muchos intentos gspero sin éxito (solo un pequeño porcentaje de recuperación). Si algún experto tiene alguna idea, hágamelo saber.

Almirante
fuente
1
Necesita alguna herramienta de OCR. Mire Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.
44
Si está interesado en mantener las imágenes PDF tal como están y agregarle texto, eche un vistazo a la pregunta Agregar información de OCR a un PDF .
colan
Si pudieras publicar un enlace a (por ejemplo) ejemplo de una página, podríamos probar soluciones ...
Rmano
No es una solución de OCR, pero askubuntu.com/a/3387/16395 ayuda mucho (aunque 72 ppp es un poco bajo, tengo mejores resultados con 120).
Rmano
¿YAGF funciona correctamente con Ubuntu 16.04? Si cargo una imagen o un documento pdf, el programa se cancela sin ningún mensaje de error. Bajo Ubuntu 14.04 no tuve problemas. H.Roos
Hubert Roos

Respuestas:

25

gImageReader es un simple front-end GTK + para tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

perdón por el texto alemán

AB
fuente
44
También debe instalar el idioma del documento para mejorar la OCR, con sudo apt-get install tesseract-ocr-[lang], reemplazando langpor el código de idioma, como deupor Deutsch, porpara el portugués, etc.
Estibordo
1
Este software es feo. La usabilidad es bajo cero. Aunque intenta hacer el trabajo, no puede leer tablas simples de hojas de cálculo. Simplemente echa de menos las páginas que los contienen.
Max Yudin
9

Puedes probar pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Para ejecutar la sintaxis es

 pdfocr -i input.pdf -o output.pdf

donde input.pdfes el nombre del archivo de entrada y output.pdfel archivo de salida.

Por defecto usa Tesseract. Para instalarlo:

 sudo apt-get install tesseract-ocr

pdfocr crea una capa de texto incrustado.

rafmunozf
fuente
¡Excelente! Curiosamente, después de realizar los pasos anteriores, el archivo ahora se puede buscar en Adobe Acrobat DC pero no en Vista previa.
lukeaus
2
Este repositorio no admite xenial
Max N
Puede intentar instalar una versión anterior de pdfocr, si instala la versión inteligente en xenial, funciona bien. Para hacer esto, agregue "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" y "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" a /etc/apt/sources.list y luego "sudo apt update" y "sudo apt-get install pdfocr"
rafmunozf
2
pdfocr es un script que automatiza el siguiente proceso: 1. Dividir el archivo PDF en páginas separadas usando pdftk 2. Extraer los datos de la imagen usando pdfimages 3. Hacer OCR (reconocimiento óptico de caracteres) usando cuneiforme 4. Insertar el texto detectado nuevamente en el Archivo PDF usando hocr2pdf 5. Fusionando los archivos usando pdftk. ( Citando de ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell
3
pdfsandwich

Carga tesseract y otros en la instalación. Es una solución fácil de un paso y puede ser programada. Se puede usar hocr2pdfpara crear un PDF de texto plano, pero aún no está listo para el horario estelar ... El valor predeterminado utiliza tesseract y crea un pdf "emparedado": imagen + texto debajo.

La imagen incrustada se puede eliminar con comandos como:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

pero el texto está oculto, por lo que parece una página en blanco.

Cargar el PDF en LibreOffice Drawexpone el texto y la imagen se puede eliminar manualmente.

AtesComp
fuente
¿Qué hacemos con respecto a los problemas de seguridad de imagemagick / ghostscript que conducen a not authorizederrores identify-im6.q16como este: imagemagick - convert: no autorizado aaaa@ error / constitut.c / ReadImage / 453 - Desbordamiento de pila
nealmcb
1

Para la interfaz gráfica sugerida por @AB en ubuntu 14.04 debe seguir:

ocr tesseract en ubuntu 14.04

o de todos modos, agregue a la lista del repositorio:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

antes de que esto funcione:

sudo apt-get install gimagereader
michel.iamit
fuente
1

Puede intentar reducir shrinkpdf para reducir el tamaño del archivo y luego ocr.sh para agregar la capa de texto.

estudiante
fuente
-1

En su archivo pdf, haga clic derecho y guarde cada página como imagen (o encuentre alguna herramienta que haga todas las páginas automáticamente)

Abra el centro de software de Ubuntu. Busca tesseract. Esto encontrará YAGF que debes instalar. En YAGF, haga clic en Archivo -> Abrir imagen y cargue su imagen. Luego haga clic en Archivo -> Reconocer.

Tenía 100% de precisión en mi primera prueba.

atmelino
fuente