Esto está un poco fuera de tema, pero espero que me ayuden. Encontré un sitio web lleno de artículos que necesito, pero estos se mezclan con muchos archivos inútiles (principalmente jpgs).
Me gustaría saber si hay una manera de encontrar ( no descargar ) todos los archivos PDF en el servidor para hacer una lista de enlaces. Básicamente, me gustaría simplemente filtrar todo lo que no es un PDF, para obtener una mejor vista sobre qué descargar y qué no.

Respuestas:
Visión de conjunto
OK aquí tienes. Esta es una solución programática en forma de script:
Instalación
Necesitará tener
wgetelynxinstalar:Uso
El script obtendrá una lista de todos los
.pdfarchivos en el sitio web y lo volcará a la salida de la línea de comandos y a un archivo de texto en el directorio de trabajo. Si comenta elwgetcomando "opcional", el script procederá a descargar todos los archivos a un nuevo directorio.Ejemplo
fuente
"$(pwd)/pdflinks.txt"lugar depdflinks.txt?un simple fragmento de JavaScript puede resolver esto: (NOTA: supongo que todos los archivos pdf terminan con .pdf en el enlace).
abra la consola de JavaScript de su navegador, copie el siguiente código y péguelo en la consola js, ¡listo!
fuente
lufunción tenía que ser:lu.endsWith (".pdf") == 1entonces eso solo me proporcionó los enlaces PDF, no todos los enlaces con "* .pdf *" en ellos, que es lo que obtuve con el código publicado. FWIW