¿Cómo archivar todo el sitio web?

Respuestas:

12

Como Wayback Machine no proporciona dicha función, he encontrado alguna solución.

  1. Primero, refleje el sitio web usando wget, p. Ej.

    wget -m https://example.com/
    
  2. Luego, use curlpara archivar todas las páginas una por una que haya descargado.

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    Nota: Puede cambiar .htmla .php, o incluir cierto tipo de archivos.

kenorb
fuente
Si el sitio no usa extensiones (como html o php, como SE está configurado), ¿cómo adapta su comando?
db
2
Puede cambiar -name "*.html"a -type fpara incluir todos los archivos.
kenorb
¿Cómo funciona esto con los parámetros de consulta?
Mítico
6

Si desea archivar un sitio web pequeño, el Equipo de archivo mantiene ArchiveBot , un bot de IRC donde puede solicitar rastrear sitios web. El equipo de archivo enviará las páginas rastreadas a la máquina Wayback de Internet Archive.

Flujo
fuente
Esto es increíblemente útil.
Guy
1

Wayback Machine no ofrece una forma de enviar un sitio completo, solo una página como ya ha encontrado. Esto se menciona en un par de puntos de sus preguntas frecuentes de Wayback Machine :

¿Puedo agregar páginas a la máquina Wayback?

En https://archive.org/web puede usar la función "Guardar página ahora" para guardar una página específica una vez. Actualmente, esto no agrega la URL a ningún rastreo futuro ni guarda más de esa página. No guarda múltiples páginas, directorios o sitios completos .

y

¿Cómo puedo incluir mi sitio en la máquina Wayback?

Gran parte de nuestros datos web archivados provienen de nuestros propios rastreos o de los rastreos de Alexa Internet. Ninguna organización tiene un "¡rastrea mi sitio ahora!" proceso de envío . Los rastreos de Internet Archive tienden a encontrar sitios que están bien vinculados desde otros sitios. La mejor manera de asegurarse de que encontremos su sitio web es asegurarse de que esté incluido en los directorios en línea y que los sitios similares / relacionados lo vinculen a usted.

John C
fuente
1
Esta no es una respuesta a la pregunta. Solo porque no hay una forma oficial de hacerlo, la tarea no es imposible de realizar. De hecho, debería ser bastante fácil crear un script que agregue enlaces de forma recursiva.
db
@db, la respuesta de kenorb parece ser lo que estabas pidiendo. Por cierto, esta respuesta es más útil para mí en este momento, ya que solo quería que The WaybackMachine capturara una página para mí ahora.
cp.engr
1

Este artículo en archive.org también sugiere un servicio pago que rastreará por usted con la frecuencia que desee:

  1. Regístrese para obtener una cuenta Archive-It

Archive-It es un servicio de suscripción proporcionado por Internet Archive que le permite ejecutar sus propios proyectos de rastreo sin ninguna experiencia técnica. Díganos qué rastrear y con qué frecuencia, y ejecutamos el rastreo y colocamos los resultados en la máquina Wayback.

Probablemente esto no sea lo que busca, pero para algunas empresas este servicio puede ser útil. Supongo que ayuda a financiar archive.org, que de lo contrario es gratis.

stason
fuente