Tengo un escaneo de buena calidad de un documento; dicho escaneo está en formato pdf.
¿Cómo puedo agregar información ocr al pdf para que se pueda buscar? Al buscar, me refiero a que el objetivo es que al ver el pdf con evidencia, CTRL-F realmente me permite buscar en el contenido del pdf.
Respuestas:
pdfsandwich
Hace lo que quiere y proporciona paquetes de Ubuntu Deb. Utiliza tesseract como motor OCR. La siguiente llamada agrega la capa de texto a su PDF escaneado:
Lo siguiente hace lo mismo pero con otro idioma (código ISO 639-2,
tesseract-ocr-LANGCODE
paquete de descarga ) y configurando el diseño:Si obtiene algún error, descargue la última versión deb de Sourceforge .
Descargo de responsabilidad: soy el desarrollador de pdfsandwich y, por lo tanto, obviamente soy parcial.
fuente
pdfunite
.pdfsandwitch
? Estoy haciendo esto con algunos documentos suecos, y funciona bien, excepto por algunos errores ortográficos (probablemente debido a la fuente del original) que serían fáciles de corregir si se tratara de un archivo de texto, pero ¿cómo puedo hacer esto en el PDF resultante? ?Hay dos proyectos que hacen el truco: GScan2PDF y OCRFeeder
fuente
Encontré una solución no ideal, pero muy efectiva.
Yo uso PDF X-Change Viewer a través de Wine. Tiene una función de OCR que agrega una capa de texto al PDF existente basado en imágenes.
Por lo tanto, puede buscar y copiar texto de esta capa invisible.
fuente
Para una solución de línea de comando, puede usar pdfocr .
En resumen, instale el software:
Luego ejecute pdfocr:
Eso funcionó para mí en Ubuntu 12.04 LTS.
fuente
pdfsandwich
, ya que modifica / comprime archivos PDF que contienen imágenes de alta resolución, básicamente destruyendo parte de la información de la imagen original.Una solución que es fácilmente implementable y que proporciona un PDF de salida con la misma calidad de archivo de entrada más un tamaño razonable es OCRmyPDF:
https://github.com/jbarlow83/OCRmyPDF
fuente
Esta es mi solución rápida y sucia basado en ImageMagick de
convert
,tesseract
,parallel
ypdftk
(todos disponibles en distribuciones basadas en Debian). Se basa en gran medida en esta publicación de blog .fuente
Para todo el directorio con archivos ppm puede usar este script ppm2ocrpdf.sh
fuente