La razón por la que pdftotext no tuvo éxito podría ser que los PDF son imágenes escaneadas y necesita OCR, escribí una forma rápida de buscar todos pdflos correos electrónicos que no se pueden editar grepy OCR.
Noté que si un pdfarchivo no tiene ninguna fuente, generalmente no se puede buscar. Sabiendo esto podemos usar pdffonts.
Las primeras 2 líneas pdffontsson el encabezado de la tabla, por lo que cuando se puede buscar un archivo tiene más de dos líneas de salida, sabiendo esto podemos crear:
gedit check_pdf_searchable.sh
pegar esto
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
ocrmypdf "$1" "$1"_ocr.pdf
fi
luego hazlo ejecutable
chmod +x check_pdf_searchable.sh
luego enumere todos los archivos PDF que no se pueden buscar en el directorio:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
o en el directorio y sus subdirectorios:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
También necesitas instalar:
sudo apt install ocrmypdf