Quiero usar Wget para guardar páginas web individuales (no recursivamente, no sitios completos) como referencia. Al igual que la "Página web completa de Firefox".
Mi primer problema es: no puedo hacer que Wget guarde las imágenes de fondo especificadas en el CSS. Incluso si guardara los archivos de imagen de fondo, no creo que --convert-links convertiría las URL de imagen de fondo en el archivo CSS para apuntar a las imágenes de fondo guardadas localmente. Firefox tiene el mismo problema.
Mi segundo problema es: si hay imágenes en la página que quiero guardar que están alojadas en otro servidor (como anuncios), estas no se incluirán. --span-hosts no parece resolver ese problema con la siguiente línea.
Estoy usando:
wget --no-parent --timestamping --convert-links --page-requisites --no-directories --no-host-directories -erobots=off http://domain.tld/webpage.html

Respuestas:
Desde la página de manual de Wget :
También en caso de
robots.txtque no esté permitido agregar-e robots=offfuente
wget --adjust-extension --span-hosts --convert-links --backup-converted --page-requisites [url]wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows[url]El
wgetcomando ofrece la opción--mirror, que hace lo mismo que:También puede participar
-xpara crear una jerarquía de directorios completa para el sitio, incluido el nombre de host.wgetSin embargo, es posible que no haya podido encontrar esto si no está utilizando la versión más reciente de .fuente
Parece que
wgetFirefox no analiza el CSS para que los enlaces incluyan esos archivos en la descarga. Podrías evitar esas limitaciones haciendo lo que puedas y creando una secuencia de comandos para extraer el enlace de cualquier CSS o Javascript en los archivos descargados para generar una lista de los archivos que te perdiste. Luego, una segunda ejecución dewgetesa lista de enlaces podría capturar lo que se perdió (use la-ibandera para especificar un URL de listado de archivos).Si te gusta Perl, hay un módulo CSS :: Parser en CPAN que puede darte un medio fácil para extraer enlaces de esta manera.
Tenga en cuenta que
wgetsolo se analiza cierto marcado html (href/src) y css uris (url()) para determinar qué requisitos de página se deben obtener. Puede intentar usar complementos de Firefox como DOM Inspector o Firebug para determinar si las imágenes de terceros que no está obteniendo se agregan a través de Javascript; de ser así, deberá recurrir a un script o complemento de Firefox para obtenerlas. también.fuente
Hice Webtography para un propósito similar: https://webjay.github.io/webtography/
Utiliza Wget y empuja el sitio a un repositorio en su cuenta de GitHub.
Yo uso estos argumentos:
https://github.com/webjay/webtography/blob/master/lib/wget.js#L15-L26
fuente