La razón por la que pdftotext no tuvo éxito podría ser que los PDF son imágenes escaneadas y necesita OCR, escribí una forma rápida de buscar todos pdf
los correos electrónicos que no se pueden editar grep
y OCR.
Noté que si un pdf
archivo no tiene ninguna fuente, generalmente no se puede buscar. Sabiendo esto podemos usar pdffonts
.
Las primeras 2 líneas pdffonts
son el encabezado de la tabla, por lo que cuando se puede buscar un archivo tiene más de dos líneas de salida, sabiendo esto podemos crear:
gedit check_pdf_searchable.sh
pegar esto
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
ocrmypdf "$1" "$1"_ocr.pdf
fi
luego hazlo ejecutable
chmod +x check_pdf_searchable.sh
luego enumere todos los archivos PDF que no se pueden buscar en el directorio:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
o en el directorio y sus subdirectorios:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
También necesitas instalar:
sudo apt install ocrmypdf