Quiero obtener todos los archivos de un sitio web determinado en archive.org. Las razones pueden incluir:
- el autor original no archivó su propio sitio web y ahora está fuera de línea, quiero hacer un caché público a partir de él
- Soy el autor original de algún sitio web y perdí parte del contenido. Quiero recuperarlo
- ...
Cómo puedo hacer eso ?
Teniendo en cuenta que la máquina de retroceso archive.org es muy especial: los enlaces de las páginas web no apuntan al archivo en sí, sino a una página web que podría no estar allí. JavaScript se usa del lado del cliente para actualizar los enlaces, pero un truco como un wget recursivo no funcionará.
gem install wayback_machine_downloader
. Ejecute wayback_machine_downloader con la URL base del sitio web que desea recuperar como parámetro:wayback_machine_downloader http://example.com
Más información: github.com/hartator/wayback_machine_downloaderRespuestas:
Intenté diferentes formas de descargar un sitio y finalmente encontré el descargador de máquinas de wayback, que fue mencionado por Hartator antes (así que todos los créditos van a él, por favor), pero simplemente no noté su comentario a la pregunta. Para ahorrarle tiempo, decidí agregar la gema wayback_machine_downloader como respuesta separada aquí.
El sitio en http://www.archiveteam.org/index.php?title=Restoring enumera estas formas de descargar desde archive.org:
fuente
Esto se puede hacer usando un script de shell bash combinado con
wget
.La idea es utilizar algunas de las funciones de URL de la máquina wayback:
http://web.archive.org/web/*/http://domain/*
enumerará todas las páginas guardadas de formahttp://domain/
recursiva. Se puede utilizar para construir un índice de páginas para descargar y evitar heurísticas para detectar enlaces en páginas web. Para cada enlace, también está la fecha de la primera versión y la última versión.http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page
enumerará todas las versiones delhttp://domain/page
año AAAA. Dentro de esa página, se pueden encontrar enlaces específicos a las versiones (con marca de tiempo exacta)http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page
devolverá la página no modificadahttp://domain/page
en la marca de tiempo dada. Observe el token id_ .Estos son los conceptos básicos para crear un script para descargar todo desde un dominio determinado.
fuente
http://web.archive.org/web/19981202230410/http://www.google.com/
) y agregarid_
al final de los "números de fecha". Entonces, obtendrías algo asíhttp://web.archive.org/web/19981202230410id_/http://www.google.com/
.Hay una herramienta diseñada específicamente para este propósito, Warrick: https://code.google.com/p/warrick/
Está basado en el protocolo Memento.
fuente
Puedes hacer esto fácilmente con
wget
.¿Dónde
ROOT
está la URL raíz del sitio web ySTART
es la URL inicial? Por ejemplo:Tenga en cuenta que debe omitir el marco de ajuste del archivo web para
START
URL. En la mayoría de los navegadores, puede hacer clic derecho en la página y seleccionar "Mostrar solo este marco".fuente