Esto está un poco fuera de tema, pero espero que me ayuden. Encontré un sitio web lleno de artículos que necesito, pero estos se mezclan con muchos archivos inútiles (principalmente jpgs).
Me gustaría saber si hay una manera de encontrar ( no descargar ) todos los archivos PDF en el servidor para hacer una lista de enlaces. Básicamente, me gustaría simplemente filtrar todo lo que no es un PDF, para obtener una mejor vista sobre qué descargar y qué no.
Respuestas:
Visión de conjunto
OK aquí tienes. Esta es una solución programática en forma de script:
Instalación
Necesitará tener
wget
elynx
instalar:Uso
El script obtendrá una lista de todos los
.pdf
archivos en el sitio web y lo volcará a la salida de la línea de comandos y a un archivo de texto en el directorio de trabajo. Si comenta elwget
comando "opcional", el script procederá a descargar todos los archivos a un nuevo directorio.Ejemplo
fuente
"$(pwd)/pdflinks.txt"
lugar depdflinks.txt
?un simple fragmento de JavaScript puede resolver esto: (NOTA: supongo que todos los archivos pdf terminan con .pdf en el enlace).
abra la consola de JavaScript de su navegador, copie el siguiente código y péguelo en la consola js, ¡listo!
fuente
lu
función tenía que ser:lu.endsWith (".pdf") == 1
entonces eso solo me proporcionó los enlaces PDF, no todos los enlaces con "* .pdf *" en ellos, que es lo que obtuve con el código publicado. FWIW