Tengo un sitio en un servidor que es básicamente un montón de páginas HTML, imágenes y sonidos.
He perdido mi contraseña en ese servidor y necesito tomar todo lo que está almacenado allí. Puedo ir página por página y guardar todo, pero el sitio tiene más de 100 páginas.
Estoy usando OSX. He intentado usar wget
pero creo que el servidor está bloqueando eso.
¿Hay alguna alternativa que pueda usar para obtener ese contenido?
Respuestas:
Si el servidor está bloqueando wget, lo más probable es que lo haga sobre la base del campo "User-agent:" del encabezado http, ya que esa es la única forma en que puede saberlo en primer lugar. También podría estar bloqueando su IP, en cuyo caso el uso de un software diferente no ayudará, o algún esquema que identifique la automatización en función de lo rápido que es un conjunto de solicitudes (ya que las personas reales no navegan 100 páginas en 3.2 segundos) . No he oído hablar de nadie haciendo eso, pero es posible.
Tampoco he oído hablar de una forma de ralentizar wget, pero hay una manera de burlar el campo de agente de usuario:
De acuerdo con la página del manual, soltará "User-agent:" por completo, ya que no es obligatorio. Si al servidor no le gusta eso, pruebe
--user-agent="Mozilla/5.0"
cuál debería ser lo suficientemente bueno.Por supuesto, sería útil explicar mejor por qué "cree que el servidor está bloqueando eso". ¿Wget dice algo o simplemente se detiene?
fuente
wget
tiene una serie de opciones para esperar entre consultas, limitar la velocidad o la cantidad descargada. Consulte lainfo
página para más detalles.Usualmente lo uso
httrack
para descargar / duplicar contenido web de un sitio.Después de que se ejecuta, queda una estructura de directorios que es local y explorable. Por ejemplo:
A medida que se descarga, verá el siguiente tipo de salida:
Puede tener antecedentes y / o abortarse y luego reanudarse. Esto es solo la punta del iceberg en términos de sus características. También hay una GUI para configurar una descarga y monitorearla a medida que avanza.
Existe una amplia documentación en el
httrack
sitio web y en Google.fuente