Tengo un sitio web que en su mayoría no quiero que los motores de búsqueda indexen, pero sí quiero conservarlo para la eternidad en archive.org. Entonces mi robots.txt
comienzo con esto:
User-agent: *
Disallow: /
Hoy, de acuerdo con archive.org, debo agregar lo siguiente en mi robots.txt
para permitir sus bots:
User-agent: ia_archiver
Disallow:
Pero, ya había hecho lo que me indicaron hace un par de años, al menos, agregué lo siguiente:
User-agent: archive.org_bot
Disallow:
Luego, hay otra fuente que afirma que debe agregar los dos Disallow
s anteriores , más otro:
User-agent: ia_archiver-web.archive.org
Disallow:
Tenga en cuenta que debe colocar Disallow: /
si no desea que el bot archive su sitio.
¿Ha habido un cambio con el bot IA? ¿Si es así cuando?
¿Cuál es la forma recomendada? ¿Debo permitir los tres por ahora y esperar que IA no cambie su nombre de bot nuevamente en el futuro?
Respuestas:
Actualización : como @KevinFegan señala en los comentarios, su documentación cambió. La siguiente parte describe cómo Internet Archive lo manejó en el pasado (al menos en 2014).
Preguntas frecuentes ¿Cómo puedo excluir las páginas de mi sitio de Wayback Machine? se refiere a Eliminar documentos de la máquina Wayback , a los documentos que se llama su bot
ia_archiver
.Por lo tanto, este registro debería permitir que su bot rastree todo su sitio:
fuente
*
grupo solo coincide cuando ningún otro grupo ha coincidido.Realmente hay 2 problemas aquí:
robots.txt
en su sitio Disallow (bloque) Wayback de rastreo de su sitio.Para el punto 1:
como han dicho otros, la entrada correcta para robots.txt es:
Tenga en cuenta que puede llevar un tiempo (quizás un buen tiempo) para que Wayback note cualquier cambio que haya realizado en robots.txt.
Para verificar si
robots.txt
en su sitio le permitirá a Wayback rastrear su sitio:"Browse History"
botón."Save Page"
botón.En este punto, debería ver 1 de 3 cosas:
Ahora, para el punto 2:
¿ Wayback rastreará su sitio?
El hecho de que Permitir Wayback para rastrear su sitio, no significa que ellos (siempre) se arrastrará su sitio.
De acuerdo con las preguntas frecuentes de Wayback (énfasis agregado):
Actualización: 09-mayo-2017
Otros han dejado comentarios / respuestas que indican que Archive.org ya no respeta el archivo robots.txt. Quizás este sea un "trabajo en progreso" y eventualmente será el caso, pero aún no he visto este nuevo comportamiento.
El caso para esto parece provenir de este artículo: Robots.txt: ROBOTS.TXT ES UNA NOTA DE SUICIDIO por
archiveteam.org
. Si bien esa página tiene poco o nada bueno que decir sobre "Robots.txt", no menciona en ninguna parte que Archive.org ya no respete robots.txt.También cabe destacar: ese artículo está alojado
archiveteam.org
, lo que definitivamente no es asíarchive.org
, y no estoy seguro de que haya alguna relación (oficial) entrearchive.org
yarchiveteam.org
.De hecho, esta página sobre el Equipo de archivo parece declarar una distinción entre y (énfasis agregado):
archive.org
archive.org
archiveteam.org
En cualquier caso, decidí probar esto, y descubrí que, al menos en este momento, Archive.org STILL honra robots.txt:
archive.org
indica que "la página no se puede mostrar debido a robots.txt".Entonces, en este momento, no estoy convencido, pero me encantaría que me demuestren que está equivocado ... sería genial si fuera cierto.
fuente
Actualización 2017
Archive bot ahora no se preocupa por tu robots.txt.
Si realmente desea bloquearlo, envíeles un correo electrónico de acuerdo con esta página , o bloquee su dirección IP a través de htaccess.
fuente
La entrada de rechazo de robots.txt ia_archiver (con la "/") debe estar bien para la necesidad que describa (para "preservar por la eternidad", pero aún no públicamente).
Acabo de hacer una prueba rápida, comentando la entrada ia_archiver Disallow para un sitio que lo tuvo durante al menos los últimos 10 años. Luego busqué el sitio en archive.org/web, ¡y apareció algunas capturas que había recopilado en 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 y 2017! Esto significa que Archive.org nunca honró estrictamente lo que otros pensaban que era una declaración de "no archivar" durante estos años, simplemente no estaba exponiendo las copias archivadas.
fuente
fuente
Probé el
robots.txt
método y no funcionó. Entonces contacté al sitio web en su correo electrónico [email protected]:Y obtuve la siguiente respuesta:
Creé
wayback-removal-request.html
con el siguiente contenido (ni siquiera HTML válido):Lo cargué y respondí a su correo electrónico con la URL desde la cual estaba disponible la página web y luego recibí la siguiente respuesta:
Cuando revisé un par de horas más tarde, mi sitio web fue eliminado.
fuente