Esencialmente, quiero rastrear un sitio completo con Wget, pero lo necesito para NUNCA descargar otros activos (por ejemplo, imágenes, CSS, JS, etc.). Solo quiero los archivos HTML.
Las búsquedas de Google son completamente inútiles.
Aquí hay un comando que he probado:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Nuestro sitio es híbrido flat-PHP y CMS. Así, HTML "archivos" podría ser /path/to/page
, /path/to/page/
, /path/to/page.php
, o /path/to/page.html
.
Incluso lo he incluido, -R js,css
pero aún descarga los archivos, ENTONCES los rechaza (desperdicio inútil de ancho de banda, CPU y carga del servidor).
wget
web-crawler
Nathan JB
fuente
fuente
Length: 558 [text/css]
de los archivos que no quiero. Si pudiera detener la solicitud si el encabezado no regresatext/html
, estaría eufórico.Respuestas:
¡El comentario de @ernie sobre
--ignore-tags
llevarme por el camino correcto! Al levantar la vista--ignore-tags
enman
, me di cuenta--follow-tags
.Ajuste
--follow-tags=a
me permitió saltoimg
,link
,script
, etc.Probablemente sea demasiado limitado para algunas personas que buscan la misma respuesta, pero en realidad funciona bien en mi caso (está bien si pierdo un par de páginas).
Si alguien encuentra una manera de permitir el escaneo de TODAS las etiquetas, pero evita
wget
rechazar archivos solo después de que se descargan (deben rechazar según el nombre de archivo o el tipo de contenido del encabezado antes de la descarga), ¡aceptaré su respuesta con mucho gusto!fuente
¿Qué hay de agregar las opciones?
fuente