¿Existen mecanismos para controlar lo que archiva Internet Archive en un sitio? Sé no permitir todas las páginas que podría agregar :
User-agent: ia_archiver
Disallow: /
¿Puedo decirle al bot que quiero que rastree mi sitio una vez al mes o una vez al año?
Tengo un sitio / páginas que no / no se archivan correctamente debido a los activos no recogidos. ¿Hay alguna manera de decirle al bot de Internet Archive qué activos necesita si va a tomar el sitio?
cache
internet-archive
artlung
fuente
fuente
Respuestas:
Nota : Esta respuesta está cada vez más desactualizada.
El mayor contribuyente a la colección web de Internet Archive ha sido Alexa Internet. El material que Alexa rastrea para sus propósitos ha sido donado a IA unos meses más tarde. Agregar la regla de rechazo mencionada en la pregunta no afecta esos rastreos, pero el Wayback los honrará 'retroactivamente' (denegando el acceso, el material aún estará en el archivo; debe excluir el robot de Alexa si realmente desea mantener su material fuera) del Archivo de Internet).
Puede haber formas de afectar los rastreos de Alexa, pero no estoy familiarizado con eso.
Desde que IA desarrolló su propio rastreador (Heritrix), comenzaron a realizar sus propios rastreos, pero estos tienden a ser rastreos específicos (rastrean las elecciones para la Biblioteca del Congreso y han realizado rastreos nacionales para Francia y Australia, etc.). No participan en el tipo de rastreos sostenidos a escala mundial que realizan Google y Alexa. El rastreo más grande de IA fue un proyecto especial para rastrear 2 mil millones de páginas.
Como estos rastreos se operan en horarios que se derivan de factores específicos del proyecto, no puede afectar la frecuencia con la que visitan su sitio o si visitan su sitio.
La única forma de afectar directamente cómo y cuándo IA rastrea su sitio es usar su servicio Archive-It . Ese servicio le permite especificar rastreos personalizados. Los datos resultantes (eventualmente) se incorporarán a la colección web de IA. Sin embargo, este es un servicio de suscripción pagado .
fuente
La mayoría de los motores de búsqueda admiten la directiva "Crawl-delay", pero no sé si IA sí. Sin embargo, puedes probarlo:
Esto limitaría el retraso entre solicitudes a 3600 segundos (es decir, 1 hora), o ~ 700 solicitudes por mes.
No creo que sea posible el n. ° 2: el robot de IA toma los activos como y cuando lo considera conveniente. Puede tener un límite de tamaño de archivo para evitar usar demasiado almacenamiento.
fuente