He estado usando Wget y me he encontrado con un problema. Tengo un sitio, que tiene varias carpetas y subcarpetas dentro del sitio. Necesito descargar todos los contenidos dentro de cada carpeta y subcarpeta. He intentado varios métodos con Wget, y cuando compruebo la finalización, todo lo que puedo ver en las carpetas es un archivo "índice". Puedo hacer clic en el archivo de índice y me llevará a los archivos, pero necesito los archivos reales.
¿Alguien tiene un comando para Wget que haya pasado por alto o hay algún otro programa que pueda usar para obtener toda esta información?
ejemplo de sitio:
www.mysite.com/Pictures/ dentro de Pictures DIr, hay varias carpetas .....
www.mysite.com/Pictures/Accounting/
www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg
Necesito todos los archivos, carpetas, etc.
wget
, específicamente para usarla recursivamente ?Respuestas:
Quiero asumir que no has probado esto:
o para recuperar el contenido, sin descargar los archivos "index.html":
Referencia: uso de wget para buscar recursivamente un directorio con archivos arbitrarios
fuente
yo suelo
wget -rkpN -e robots=off http://www.example.com/
-r
significa recursivamente-k
significa convertir enlaces. Entonces los enlaces en la página web serán localhost en lugar de example.com/bla-p
significa obtener todos los recursos de la página web para obtener imágenes y archivos javascript para que el sitio web funcione correctamente.-N
es recuperar marcas de tiempo, por lo que si los archivos locales son más nuevos que los archivos del sitio web remoto, omítalos.-e
es una opción de bandera que necesita estar allí pararobots=off
que funcione.robots=off
significa ignorar el archivo de robots.También tenía
-c
este comando, por lo que si la conexión se cortaba, continuaría donde se quedó cuando volví a ejecutar el comando. Pensé-N
que iría bien con-c
fuente
-e
ejecutará el comando como si fuera parte de .wgetrc. Lo agregué allí, yarobots=off
que no parecía funcionar sin él.wget -m -A * -pk -e robots = off www.mysite.com/ esto descargará todo tipo de archivos localmente y los
señalará desde el archivo html e ignorará el archivo de robots
fuente