Descargue TODAS las carpetas, subcarpetas y archivos con Wget

20

He estado usando Wget y me he encontrado con un problema. Tengo un sitio, que tiene varias carpetas y subcarpetas dentro del sitio. Necesito descargar todos los contenidos dentro de cada carpeta y subcarpeta. He intentado varios métodos con Wget, y cuando compruebo la finalización, todo lo que puedo ver en las carpetas es un archivo "índice". Puedo hacer clic en el archivo de índice y me llevará a los archivos, pero necesito los archivos reales.

¿Alguien tiene un comando para Wget que haya pasado por alto o hay algún otro programa que pueda usar para obtener toda esta información?

ejemplo de sitio:

www.mysite.com/Pictures/ dentro de Pictures DIr, hay varias carpetas .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg

Necesito todos los archivos, carpetas, etc.

Henry el Terrible
fuente
1
¿Ha leído la documentación wget, específicamente para usarla recursivamente ?
Moisés
También hay un artículo en la documentación aquí que parece relevante.
Moisés

Respuestas:

37

Quiero asumir que no has probado esto:

wget -r --no-parent http://www.mysite.com/Pictures/

o para recuperar el contenido, sin descargar los archivos "index.html":

wget -r --no-parent --reject "index.html *" http://www.mysite.com/Pictures/

Referencia: uso de wget para buscar recursivamente un directorio con archivos arbitrarios

Felix Imafidon
fuente
1
Gracias, he ejecutado ese comando varias veces, pero no dejé que el comando terminara hasta el final. Me rastrearon y dejé que el comando terminara, y copió TODAS las carpetas Primero, luego regresó y copió TODOS los archivos a la carpeta.
Horrid Henry
solo va a mostrarte, si tuviera paciencia, me habría hecho esto hace 2 semanas ... LOL. :) gracias de nuevo.
Horrid Henry
@Horrid Henry, ¡felicidades!
Felix Imafidon
¡Uso el comando similar pero solo obtengo un archivo index.html!
shenkwen
20

yo suelo wget -rkpN -e robots=off http://www.example.com/

-r significa recursivamente

-ksignifica convertir enlaces. Entonces los enlaces en la página web serán localhost en lugar de example.com/bla

-p significa obtener todos los recursos de la página web para obtener imágenes y archivos javascript para que el sitio web funcione correctamente.

-N es recuperar marcas de tiempo, por lo que si los archivos locales son más nuevos que los archivos del sitio web remoto, omítalos.

-ees una opción de bandera que necesita estar allí para robots=offque funcione.

robots=off significa ignorar el archivo de robots.

También tenía -ceste comando, por lo que si la conexión se cortaba, continuaría donde se quedó cuando volví a ejecutar el comando. Pensé -Nque iría bien con-c

Tim Jonas
fuente
¿Podría agregar un par de oraciones a su respuesta para explicar qué hacen estos parámetros?
Fixer1234
lo siento. seguro que los agregaré ahora
Tim Jonas
He actualizado mi respuesta
Tim Jonas
Gracias. Entonces, ¿debería -c ser parte de su ejemplo de comando o agregarse opcionalmente después de una descarga incompleta? Además, el -e es para que el comando tenga prioridad sobre cualquiera que pueda estar en .wgetrc? ¿Y es un error tipográfico para -r (recursivo vs. reclusivo)?
Fixer1234
Si, eso es correcto. Sí -eejecutará el comando como si fuera parte de .wgetrc. Lo agregué allí, ya robots=offque no parecía funcionar sin él.
Tim Jonas
1

wget -m -A * -pk -e robots = off www.mysite.com/ esto descargará todo tipo de archivos localmente y los
señalará desde el archivo html e ignorará el archivo de robots

Abdalla Mohamed Aly Ibrahim
fuente