Quiero usar Wget para guardar páginas web individuales (no recursivamente, no sitios completos) como referencia. Al igual que la "Página web completa de Firefox".
Mi primer problema es: no puedo hacer que Wget guarde las imágenes de fondo especificadas en el CSS. Incluso si guardara los archivos de imagen de fondo, no creo que --convert-links convertiría las URL de imagen de fondo en el archivo CSS para apuntar a las imágenes de fondo guardadas localmente. Firefox tiene el mismo problema.
Mi segundo problema es: si hay imágenes en la página que quiero guardar que están alojadas en otro servidor (como anuncios), estas no se incluirán. --span-hosts no parece resolver ese problema con la siguiente línea.
Estoy usando:
wget --no-parent --timestamping --convert-links --page-requisites --no-directories --no-host-directories -erobots=off http://domain.tld/webpage.html
Respuestas:
Desde la página de manual de Wget :
También en caso de
robots.txt
que no esté permitido agregar-e robots=off
fuente
wget --adjust-extension --span-hosts --convert-links --backup-converted --page-requisites [url]
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows
[url]El
wget
comando ofrece la opción--mirror
, que hace lo mismo que:También puede participar
-x
para crear una jerarquía de directorios completa para el sitio, incluido el nombre de host.wget
Sin embargo, es posible que no haya podido encontrar esto si no está utilizando la versión más reciente de .fuente
Parece que
wget
Firefox no analiza el CSS para que los enlaces incluyan esos archivos en la descarga. Podrías evitar esas limitaciones haciendo lo que puedas y creando una secuencia de comandos para extraer el enlace de cualquier CSS o Javascript en los archivos descargados para generar una lista de los archivos que te perdiste. Luego, una segunda ejecución dewget
esa lista de enlaces podría capturar lo que se perdió (use la-i
bandera para especificar un URL de listado de archivos).Si te gusta Perl, hay un módulo CSS :: Parser en CPAN que puede darte un medio fácil para extraer enlaces de esta manera.
Tenga en cuenta que
wget
solo se analiza cierto marcado html (href
/src
) y css uris (url()
) para determinar qué requisitos de página se deben obtener. Puede intentar usar complementos de Firefox como DOM Inspector o Firebug para determinar si las imágenes de terceros que no está obteniendo se agregan a través de Javascript; de ser así, deberá recurrir a un script o complemento de Firefox para obtenerlas. también.fuente
Hice Webtography para un propósito similar: https://webjay.github.io/webtography/
Utiliza Wget y empuja el sitio a un repositorio en su cuenta de GitHub.
Yo uso estos argumentos:
https://github.com/webjay/webtography/blob/master/lib/wget.js#L15-L26
fuente