Me gustaría rastrear enlaces en www.website.com/XYZ y solo descargar los enlaces que están en www.website.com/ABC.
Estoy usando el siguiente comando wget para obtener los archivos que quiero:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Esto funciona perfectamente cuando uso wget 1.13.4. Pero el problema es que tengo que usar este comando en un servidor que tiene wget 1.11 y cuando uso el mismo comando, termina descargando dominios adicionales como:
www.website.de
www.website.it
...
¿Cómo puedo evitar este problema? Traté de usar
--exclude domains=www.website.de,www.website.it
sin embargo, siguió descargando esos dominios.
También tenga en cuenta que no puedo usar --no-parent
ya que los archivos que quiero están en el nivel superior (quiero archivos en website.com/ABC rastreando enlaces en website.com/XYZ).
¿Alguna pista?
command-line
wget
usuario2779485
fuente
fuente
wget
no debe cruzar hosts de forma predeterminada, y necesita la opción-H
/--span-hosts
para cruzar hosts al hacer un wget recursivo. "www.website.com" es un host completamente diferente de "www.website.de".-H
siempre se ha requerido que se repita fuera del host original. Ciervas-D www.website.com
ayuda?Respuestas:
Esto está mal:
La forma correcta es:
Desde la página de manual de wget:
fuente
Puede intentarlo
--max-redirect 0
o usarlo--domains example.com
como opuesto a--exclude-domains example.com
.Ver:
fuente