Descargue / actualice las páginas web que figuran en el mapa del sitio XML [cerrado]

0

Estoy buscando una herramienta FLOSS que descargue todas las páginas (y recursos integrados, por ejemplo, imágenes) vinculadas en un mapa del sitio XML (creado de acuerdo con http://www.sitemaps.org/ ).

La herramienta debe "rastrear" el mapa del sitio regularmente y buscar URL nuevas y eliminadas y cambios en el lastmodelemento. Entonces, cada vez que se agrega / elimina / actualiza una página, la herramienta debe aplicar los cambios.

Algunos sitemaps enumeran submapas de sitio en sitemapindexsitemap. La herramienta debe entender esto y cargar todos los mapas de sitios secundarios vinculados y buscar las URL allí.


Sé que hay herramientas que me permiten extraer todas las URL del mapa del sitio, para poder alimentarlas con wget o herramientas similares (ver, por ejemplo: Extraer enlaces de un mapa del sitio (xml) ). Pero esto no ayudaría a hacerse notar sobre las actualizaciones de las páginas. El seguimiento de las páginas web en busca de actualizaciones no funciona, porque el contenido "secundario" en las páginas cambia diariamente, pero lastmodsolo se actualiza cuando cambia el contenido relevante.

unor
fuente

Respuestas:

1

¿Has intentado escribir esto con wget y cron? Mira la --spiderbandera de wget . Parece ser todo lo que necesita, aparte de cron para ejecutarlo ocasionalmente.

dotancohen
fuente