+1 para -e robots=off! ¡Esto finalmente solucionó mi problema! :) Gracias
NHDaly
12
La --random-waitopción es genio;)
poitroae
2
@izilotti ¿Puede el propietario del sitio averiguar si WGET sus archivos del sitio con este método?
Elias7
1
@whatIsperfect Definitivamente es posible.
Jack
1
@JackNicholsonn ¿Cómo sabrá el propietario del sitio? El agente utilizado fue Mozilla, lo que significa que todos los encabezados entrarán como un navegador Mozilla, por lo que no sería posible detectar wget como se usa. Por favor corrija si me equivoco. gracias
KhoPhi
63
wget -m -p -E -k -K -np http://site/path/
La página man le dirá qué hacen esas opciones.
wgetsolo seguirá enlaces, si no hay un enlace a un archivo desde la página de índice, entonces wgetno sabrá acerca de su existencia y, por lo tanto, no lo descargará. es decir. ayuda si todos los archivos están vinculados en páginas web o en índices de directorio.
Gracias por responder :) Copia todo el sitio y solo necesito archivos (es decir, txt, pdf, imagen, etc.) en el sitio web
Aniruddhsinh
25
Intenté descargar archivos zip vinculados desde la página de temas de Omeka, tarea bastante similar. Esto funcionó para mí:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A: solo acepta archivos zip
-r: recurse
-l 1: un nivel profundo (es decir, solo archivos directamente vinculados desde esta página)
-nd: no cree una estructura de directorio, simplemente descargue todos los archivos en este directorio.
Todas las respuestas con -k, -K, -Eetc. opciones probablemente no han entendido realmente la cuestión, como los que para volver a escribir las páginas HTML para hacer una estructura local, cambiar el nombre de .phparchivos y así sucesivamente. Irrelevante.
Para obtener literalmente todos los archivos excepto.html etc.
wget --spiderprimero y siempre agregue-w 1(o más-w 5) para no inundar el servidor de la otra persona.Respuestas:
Para filtrar extensiones de archivo específicas:
O, si prefiere nombres largos de opciones:
Esto reflejará el sitio, pero los archivos sin extensión
jpgopdfse eliminarán automáticamente.fuente
--acceptmayúsculas y minúsculas, por lo que tendrías que hacerlo--accept pdf,jpg,PDF,JPGwgetpero tiene que especificar un--progresstipo, por ejemplo--progress=dot--ignore-casebandera para que no se distinga entre--acceptmayúsculas y minúsculas.Esto descargó todo el sitio web para mí:
fuente
-e robots=off! ¡Esto finalmente solucionó mi problema! :) Gracias--random-waitopción es genio;)La página man le dirá qué hacen esas opciones.
wgetsolo seguirá enlaces, si no hay un enlace a un archivo desde la página de índice, entonceswgetno sabrá acerca de su existencia y, por lo tanto, no lo descargará. es decir. ayuda si todos los archivos están vinculados en páginas web o en índices de directorio.fuente
Intenté descargar archivos zip vinculados desde la página de temas de Omeka, tarea bastante similar. Esto funcionó para mí:
-A: solo acepta archivos zip-r: recurse-l 1: un nivel profundo (es decir, solo archivos directamente vinculados desde esta página)-nd: no cree una estructura de directorio, simplemente descargue todos los archivos en este directorio.Todas las respuestas con
-k,-K,-Eetc. opciones probablemente no han entendido realmente la cuestión, como los que para volver a escribir las páginas HTML para hacer una estructura local, cambiar el nombre de.phparchivos y así sucesivamente. Irrelevante.Para obtener literalmente todos los archivos excepto
.htmletc.fuente
-Aes sensible a mayúsculas y minúsculas, creo, así que tendrías que hacerlo-A zip,ZIPPuedes probar:
También puedes agregar:
aceptar las extensiones específicas o rechazar solo extensiones específicas:
o para excluir las áreas específicas:
Si los archivos son ignorados por los robots (por ejemplo, los motores de búsqueda), debe agregar también:
-e robots=offfuente
Prueba esto. Siempre funciona para mi
fuente
esto descargará todo tipo de archivos localmente y los señalará desde el archivo html e ignorará el archivo de robots
fuente
En los sistemas Windows para obtener wget puede
fuente