Reflejar un blog con wget

9

Estoy tratando de reflejar un blog, por ejemplo www.example.com, con wget.

Uso wget con las siguientes opciones (las variables de shell se sustituyen correctamente):

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

El blog contiene imágenes que residen en otros dominios.

Aunque he especificado la -popción (descargar activos de página vinculados), estas imágenes no se descargan a menos que especifique cada dominio explícitamente en la -Dopción.

Si omito la -Dopción, wget seguirá cada enlace externo www.example.comy descargará todo el Internet.

¿Es posible wgetsimplemente seguir cada enlace debajo www.example.comy descargar los activos requeridos de cada página, ya sea que residan en el mismo dominio o no sin que tenga que especificar cada dominio explícitamente?

Kostas Andrianopoulos
fuente
Me encantaría encontrar una buena respuesta a esta también. Me he encontrado con la misma situación y no pude encontrar una sola invocación wget que lo hizo. Terminé usando wget -N -E -H -k -K -pprimero, y se me ocurrió una secuencia de comandos para recuperar las imágenes vinculadas que faltan.
limonada el
55
Según este , httrack es un asesino para esto. La próxima vez lo intentaré en lugar de wget.
limonada el
Suponiendo que su blog (menos los activos de la página) no abarca varios dominios, intente eliminar tanto el -D $domainscomo el -H. Sin -Hél, debe permanecer dentro de su dominio pero aún recuperar los activos de la página directa, incluso cuando están en un dominio diferente.
blubberdiblub

Respuestas:

1

No, la única forma es especificar los dominios que desea que wget siga usando -D o --domains = [lista de dominios] (en forma de lista separada por comas)

chispas
fuente