Lo que quiero decir es descargar cada página disponible desde Wayback Machine durante un período e intervalo de tiempo específico. Por ejemplo, deseo descargar cada página disponible de cada día desde nature.com desde enero de 2012 hasta diciembre de 2012. (No es exactamente lo que quiero hacer, pero está lo suficientemente cerca, y proporciona un buen ejemplo).
Desafortunadamente, wget no funcionará debido a la naturaleza única de cómo funciona la máquina Wayback.
Parece que herramientas como el descargador de Wayback Machine solo descargan la versión más reciente de la página.
Interactuar con la API de IA parece una ruta viable, pero no estoy seguro de cómo funcionaría.
¡Gracias!
Respuestas:
La forma en que
wayback
se formatean las URL es la siguiente:Aquí
BASEURL
está generalmentehttp://web.archive.org/web
(digo generalmente ya que no estoy seguro si es el único BASEURL)TARGET
se explica por sí mismo (en su casohttp://nature.com
, o alguna URL similar)TIMESTAMP
esYYYYmmddHHMMss
cuando se realizó la captura (en UTC):YYYY
: Añomm
: Mes (2 dígitos - 01 a 12)dd
: Día del mes (2 dígitos - 01 a 31)HH
: Hora (2 dígitos - 00 a 23)MM
: Minuto (2 dígitos - 00 a 59)ss
: Segundo (2 dígitos - 00 a 59)En caso de que solicite un tiempo de captura que no exista, la máquina wayback redirige a la captura más cercana para esa URL, ya sea en el futuro o en el pasado.
Puede usar esa función para obtener cada URL diaria usando
curl -I
(HTTPHEAD
) para obtener el conjunto de URL:Esto le proporciona las URL más cercanas al mediodía en cada día de 2012. Simplemente elimine los duplicados y descargue las páginas.
Nota: La secuencia de comandos anterior probablemente se puede mejorar mucho para avanzar en caso de que
REDIRECT
sea para una URL más de 1 día en el futuro, pero luego requiere deconstruir la URL devuelta y ajustarlaSTART
al valor de fecha correcto.fuente
wget
o cualquier otrapage-getter
con las opciones correctas (observe la-I
opcióncurl
).Hay una gema de rubí en Github: https://github.com/hartator/wayback-machine-downloader
fuente