Estoy tratando de reflejar un blog, por ejemplo www.example.com, con wget.
Uso wget con las siguientes opciones (las variables de shell se sustituyen correctamente):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
El blog contiene imágenes que residen en otros dominios.
Aunque he especificado la -popción (descargar activos de página vinculados), estas imágenes no se descargan a menos que especifique cada dominio explícitamente en la -Dopción.
Si omito la -Dopción, wget seguirá cada enlace externo www.example.comy descargará todo el Internet.
¿Es posible wgetsimplemente seguir cada enlace debajo www.example.comy descargar los activos requeridos de cada página, ya sea que residan en el mismo dominio o no sin que tenga que especificar cada dominio explícitamente?

wget -N -E -H -k -K -pprimero, y se me ocurrió una secuencia de comandos para recuperar las imágenes vinculadas que faltan.-D $domainscomo el-H. Sin-Hél, debe permanecer dentro de su dominio pero aún recuperar los activos de la página directa, incluso cuando están en un dominio diferente.Respuestas:
No, la única forma es especificar los dominios que desea que wget siga usando -D o --domains = [lista de dominios] (en forma de lista separada por comas)
fuente