Mi sitio web tiene un repositorio de archivos, que incluye búsqueda de texto; no solo busca los títulos de los archivos, sino también sus propiedades y contenidos establecidos.
El problema es que algunos de los archivos no se han guardado correctamente y devuelven resultados de búsqueda realmente extraños.
Tengo un proyecto que revisar y arreglar las propiedades, por lo que espero que comiencen a mostrarse correctamente en la búsqueda, pero sería bueno verificar lo que es probable que vea el sistema de búsqueda antes de volver a cargar y decirle al sitio web que vuelva a escanear el archivos
Con este fin, me preguntaba si alguien hizo una vista previa de PDF de solo texto, de la forma en que mi motor de búsqueda podría verlo. ¿Para poder verificar el contenido antes de molestarme en volver a cargar el archivo?
¿O hay algún otro método para verificar esto, tal vez?
Respuestas:
La herramienta pdftotext puede extraer el texto plano de un PDF.
fuente