Tengo varios documentos escaneados en pdf y quiero poder buscarlos. ¿Cómo puedo hacer eso?
Esencialmente tengo que OCR el pdf y luego mezclar el texto extraído nuevamente en un nuevo pdf. He probado sin éxito varias soluciones diferentes (incluidas las que se encuentran en Agregar información de OCR a un PDF ).
- pdfocr (que me da este problema: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (de los cuales el centro de software dice que es un paquete deficiente y no debería instalarlo)
- OCRfeeder (en el centro de software) exporta a odt muy bien, pero no reacciona al exportar a pdf.
- Gscan2pdf exporta una imagen completamente negra (pero que se puede buscar) como se informó en esta discusión .
- No creo que el visor Pdfxchange pueda manejar ocr sobre la marcha en archivos de más de 500 páginas.
¿Hay algún paquete de software que desconozca? O un guión que hace esto?
software-recommendation
pdf
ocr
don.joey
fuente
fuente
pdf2searchablepdf
. Se basa entesseract
. Funciona bien. Súper fácil de usar. Mira aquí. askubuntu.com/a/1187881/327339Respuestas:
Ubuntu <16.04
Tras el comentario de Glutanimate, he encontrado una solución que funciona. Es el script OCRmyPDF .
Si recibe un mensaje que dice que debe instalar GNU en paralelo. Se puede hacer (siguiendo /ubuntu//a/298598/115155 ) con (la segunda línea es opcional y depende de su sabor y versión):
Finalmente puede OCR su pdf con el comando:
Si parece que el comando no responde, puede aumentar la verbosidad usando la
-v
bandera (que se puede usar de forma incremental como-vv
o-vvv
). Puede ser mejor probar los resultados primero en un pdf más corto. Puede acortar un pdf de la siguiente manera:Ubuntu> = 16.04
A partir de Ubuntu 16.04, OCRmyPDF está disponible a través de apt. Solo corre
Finalmente puede OCR su pdf con el comando:
Si parece que el comando no responde, puede aumentar la verbosidad usando la
-v
bandera (que se puede usar de forma incremental como-vv
o-vvv
). Puede ser mejor probar los resultados primero en un pdf más corto. Puede acortar un pdf de la siguiente manera:Si tiene alguna pregunta, eche un vistazo en el nuevo Repo de Github .
fuente
sudo -H pip install git+https://github.com/jbarlow83/OCRmyPDF
para Ubuntu 16.04sudo apt install ocrmypdf
.@ don.joey respondió con el script ocrmypdf . Sin embargo, se puede instalar directamente ahora (desde 16.10 en adelante).
Luego debe instalar los idiomas de tesseract que necesita.
Para enumerar qué idiomas ya están en su sistema, escriba:
En caso de que pierda uno, instálelo. Por ejemplo,
Ahora puede producir un PDF con capacidad de búsqueda (cuya calidad variará, dependiendo del documento escaneado) con el siguiente comando
Por supuesto, puede consultar su página de manual para ver algunas opciones adicionales.
fuente
pdfsandwich
realiza exactamente este trabajo. No sabía que hay un paquete provisto en el centro de software, pero estoy proporcionando paquetes de Deb para Ubuntu en el sitio web del proyecto (ver http://www.tobias-elze.de/pdfsandwich/ para más detalles), incluida la versión más reciente actualmente (0.1.2), que es poco probable que esté en ningún centro de software todavía.Si tiene un archivo escaneado
scanned_file.pdf
, simplemente llameque genera el archivo
scanned_file_ocr.pdf
con el texto reconocido agregado a las páginas escaneadas.En comparación con la mayoría de las soluciones existentes, detecta automáticamente la versión tesseract instalada y adapta su comportamiento en consecuencia. Además, realiza el preprocesamiento de las imágenes escaneadas antes del proceso de OCR, como destornillamiento o eliminación de bordes oscuros, etc., lo que puede mejorar considerablemente el reconocimiento óptico de caracteres.
DESCARGO DE RESPONSABILIDAD: Soy el desarrollador
pdfsandwich
y, por lo tanto, muy parcial.fuente
OCRfeeder tiene un error en
la línea 436 debería leer:
cambió esto y funcionó para mí
fuente
SO: Ubuntu 18.04
Primero, instale
tesseract-ocr
con:Si va a utilizar un idioma que no sea inglés con tesseract, deberá instalar el paquete de idioma correspondiente. Por ejemplo, para el portugués, deberá hacer:
De lo contrario, obtendrá el error:
Si busca en Google "tesseract PDF", probablemente encontrará esta publicación algo desactualizada . Sin embargo, te da algunos consejos útiles. Primero tendrá que convertir su
.pdf
archivo a.tiff
uno. Correr:Si, como en la publicación obsoleta, olvida agregar
alpha -Off
, obtendrá el siguiente error:Ahora puedes ejecutar el comando final. En el caso particular de que su PDF original esté en portugués, necesitará este comando:
Se nombrará el archivo generado
output.pdf
. Si, por ejemplo, su PDF está en francés, después de instalar el correspondientetesseract-ocr-fra
, ejecutará:Y el archivo deseado será, nuevamente
output.pdf
,.fuente
Tuve este mismo problema, así que escribí esto durante el fin de semana. Dale un tiro; funciona muy bien! Es un simple envoltorio alrededor
tesseract
. Se usapdftoppm
para convertir un PDF en un montón de archivos TIFF, luego se usatesseract
para realizar OCR (reconocimiento óptico de caracteres) en ellos y producir un PDF con capacidad de búsqueda como salida. Todos los archivos temporales intermedios se eliminan automáticamente cuando se completa el script.Código fuente: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Instrucciones para instalar y usar
pdf2searchablepdf
:Probado en Ubuntu 18.04 el 11 de noviembre de 2019.
Instalar en pc:
Utilizar:
¡Ahora tendrá un pdf llamado mypdf_searchable.pdf , que contiene texto de búsqueda!
Hecho. El contenedor no tiene dependencias de python, ya que actualmente está escrito completamente en bash.
Referencias o recursos relacionados:
pdftoppm
] Extracción de imágenes incrustadas de un PDFfuente