¿Cómo usar wget
y obtener todos los archivos del sitio web?
Necesito todos los archivos excepto los archivos de la página web como HTML, PHP, ASP, etc.
Para filtrar extensiones de archivo específicas:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
O, si prefiere nombres largos de opciones:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
Esto reflejará el sitio, pero los archivos sin extensión jpg
o pdf
se eliminarán automáticamente.
--accept
mayúsculas y minúsculas, por lo que tendrías que hacerlo--accept pdf,jpg,PDF,JPG
wget
pero tiene que especificar un --progress
tipo, por ejemplo--progress=dot
--ignore-case
bandera para que no se distinga entre --accept
mayúsculas y minúsculas.
Esto descargó todo el sitio web para mí:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
-e robots=off
! ¡Esto finalmente solucionó mi problema! :) Gracias
--random-wait
opción es genio;)
wget -m -p -E -k -K -np http://site/path/
La página man le dirá qué hacen esas opciones.
wget
solo seguirá enlaces, si no hay un enlace a un archivo desde la página de índice, entonces wget
no sabrá acerca de su existencia y, por lo tanto, no lo descargará. es decir. ayuda si todos los archivos están vinculados en páginas web o en índices de directorio.
Intenté descargar archivos zip vinculados desde la página de temas de Omeka, tarea bastante similar. Esto funcionó para mí:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
: solo acepta archivos zip-r
: recurse-l 1
: un nivel profundo (es decir, solo archivos directamente vinculados desde esta página)-nd
: no cree una estructura de directorio, simplemente descargue todos los archivos en este directorio.Todas las respuestas con -k
, -K
, -E
etc. opciones probablemente no han entendido realmente la cuestión, como los que para volver a escribir las páginas HTML para hacer una estructura local, cambiar el nombre de .php
archivos y así sucesivamente. Irrelevante.
Para obtener literalmente todos los archivos excepto .html
etc.
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
-A
es sensible a mayúsculas y minúsculas, creo, así que tendrías que hacerlo-A zip,ZIP
Puedes probar:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
También puedes agregar:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
aceptar las extensiones específicas o rechazar solo extensiones específicas:
-R html,htm,asp,php
o para excluir las áreas específicas:
-X "search*,forum*"
Si los archivos son ignorados por los robots (por ejemplo, los motores de búsqueda), debe agregar también: -e robots=off
Prueba esto. Siempre funciona para mi
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
wget -m -A * -pk -e robots=off www.mysite.com/
esto descargará todo tipo de archivos localmente y los señalará desde el archivo html e ignorará el archivo de robots
wget --spider
primero y siempre agregue-w 1
(o más-w 5
) para no inundar el servidor de la otra persona.