¿Control sobre el archivo de Internet además de "No permitir /"?

13

¿Existen mecanismos para controlar lo que archiva Internet Archive en un sitio? Sé no permitir todas las páginas que podría agregar :

User-agent: ia_archiver
Disallow: /
  1. ¿Puedo decirle al bot que quiero que rastree mi sitio una vez al mes o una vez al año?

  2. Tengo un sitio / páginas que no / no se archivan correctamente debido a los activos no recogidos. ¿Hay alguna manera de decirle al bot de Internet Archive qué activos necesita si va a tomar el sitio?

artlung
fuente
También estoy muy interesado en las respuestas a esto. +1 :)
Tim Post

Respuestas:

8

Nota : Esta respuesta está cada vez más desactualizada.

El mayor contribuyente a la colección web de Internet Archive ha sido Alexa Internet. El material que Alexa rastrea para sus propósitos ha sido donado a IA unos meses más tarde. Agregar la regla de rechazo mencionada en la pregunta no afecta esos rastreos, pero el Wayback los honrará 'retroactivamente' (denegando el acceso, el material aún estará en el archivo; debe excluir el robot de Alexa si realmente desea mantener su material fuera) del Archivo de Internet).

Puede haber formas de afectar los rastreos de Alexa, pero no estoy familiarizado con eso.

Desde que IA desarrolló su propio rastreador (Heritrix), comenzaron a realizar sus propios rastreos, pero estos tienden a ser rastreos específicos (rastrean las elecciones para la Biblioteca del Congreso y han realizado rastreos nacionales para Francia y Australia, etc.). No participan en el tipo de rastreos sostenidos a escala mundial que realizan Google y Alexa. El rastreo más grande de IA fue un proyecto especial para rastrear 2 mil millones de páginas.

Como estos rastreos se operan en horarios que se derivan de factores específicos del proyecto, no puede afectar la frecuencia con la que visitan su sitio o si visitan su sitio.

La única forma de afectar directamente cómo y cuándo IA rastrea su sitio es usar su servicio Archive-It . Ese servicio le permite especificar rastreos personalizados. Los datos resultantes (eventualmente) se incorporarán a la colección web de IA. Sin embargo, este es un servicio de suscripción pagado .

Kris
fuente
3
Su comentario sobre IA haciendo sus propios rastreos fue cierto en 2011, y ya no es cierto en 2016: ahora hacemos muchos rastreos por nuestra cuenta.
Greg Lindahl
@GregLindahl, puede agregar una respuesta actualizada a esta pregunta
Stephen Ostermiller
2

La mayoría de los motores de búsqueda admiten la directiva "Crawl-delay", pero no sé si IA sí. Sin embargo, puedes probarlo:

User-agent: ia_archiver
Crawl-delay: 3600

Esto limitaría el retraso entre solicitudes a 3600 segundos (es decir, 1 hora), o ~ 700 solicitudes por mes.

No creo que sea posible el n. ° 2: el robot de IA toma los activos como y cuando lo considera conveniente. Puede tener un límite de tamaño de archivo para evitar usar demasiado almacenamiento.

Cabra descontento
fuente
@Kris: establecer un retraso de rastreo debería hacerlo por proxy. Si tiene 30 páginas y le dice al rastreador que solo acceda una vez al día, es probable que cada página se actualice aproximadamente cada 30 días. (No es una garantía, obviamente.)
DisgruntledGoat
En teoría, sí, sin embargo, si realiza el rastreo de archivos, nunca obedecería dicha regla. Rastrear un sitio un documento por día significa que no puede obtener una buena captura del sitio en un momento específico en el tiempo. Si se respetara este atributo, sería con un límite superior de 1-5 minutos en cualquier rastreo de archivo .
Kris
Ah bien, entiendo tu punto.
DisgruntledGoat
Acabo de mirar el Heritrix 3 recientemente lanzado y veo que han agregado el manejo de la directiva de retraso de rastreo, pero por defecto solo respeta un máximo de 300 segundos (5 minutos).
Kris