Me gustaría descargar una copia local de una página web y obtener todos los css, imágenes, javascript, etc.
En debates anteriores (por ejemplo, aquí y aquí , los cuales tienen más de dos años), generalmente se presentan dos sugerencias: wget -p
y httrack . Sin embargo, estas sugerencias fallan. Agradecería mucho la ayuda con el uso de cualquiera de estas herramientas para realizar la tarea; Las alternativas también son encantadoras.
Opción 1: wget -p
wget -p
descarga con éxito todos los requisitos previos de la página web (css, images, js). Sin embargo, cuando cargo la copia local en un navegador web, la página no puede cargar los requisitos previos porque las rutas a esos requisitos previos no se han modificado desde la versión en la web.
Por ejemplo:
- En el html de la página,
<link rel="stylesheet href="https://stackoverflow.com/stylesheets/foo.css" />
deberá corregirse para apuntar a la nueva ruta relativa defoo.css
- En el archivo css,
background-image: url(/images/bar.png)
será necesario ajustarlo de manera similar.
¿Hay alguna forma de modificar wget -p
para que las rutas sean correctas?
Opción 2: httrack
httrack
Parece una gran herramienta para duplicar sitios web completos, pero no me queda claro cómo usarlo para crear una copia local de una sola página. Existe una gran discusión en los foros de httrack sobre este tema (por ejemplo, aquí ), pero nadie parece tener una solución a prueba de balas.
Opción 3: otra herramienta?
Algunas personas han sugerido herramientas pagas, pero no puedo creer que no haya una solución gratuita disponible.
fuente
wget -E -H -k -K -p http://example.com
- solo esto funcionó para mí. Crédito: superuser.com/a/136335/94039wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com
Respuestas:
wget es capaz de hacer lo que le pides. Solo intenta lo siguiente:
El
-p
le conseguirá todos los elementos necesarios para visualizar correctamente el sitio (CSS, imágenes, etc.). El-k
va a cambiar todos los enlaces (para incluir los de CSS e imágenes) para que pueda ver la página en línea, ya que apareció en línea.De los documentos de Wget:
fuente
index.html#link-to-element-on-same-page
dejaron de funcionar.-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4'
-H, --span-hosts