Recomiendo encarecidamente registrar su sitio con Google Search Console (anteriormente Herramientas para webmasters de Google) . Hay una sección de acceso al rastreador en la configuración del sitio que le informará cuándo se descargó su archivo robots.txt por última vez. La herramienta también proporciona muchos detalles sobre cómo los rastreadores ven su sitio, qué está bloqueado o no funciona y dónde aparecen las consultas en Google.
Por lo que puedo decir, Google descarga el archivo robots.txt a menudo. El sitio de Google Search Console también le permitirá eliminar específicamente las URL del índice, para que pueda eliminar aquellas que ahora está bloqueando.
Perseverar. Cambié de robots.txt a meta noindex, nofollow. Para que el meta funcione, las direcciones bloqueadas en robots.txt tuvieron que desbloquearse primero.
Hice esto brutalmente eliminando el archivo robots.txt por completo (y eliminándolo en el webmaster de Google).
El proceso de eliminación de robots.txt como se ve en la herramienta para webmasters (número de páginas bloqueadas) tardó 10 semanas en completarse, de las cuales Google eliminó la mayor parte solo durante las últimas 2 semanas.
fuente
Sí, Google obviamente almacenará en caché el archivo robots.txt hasta cierto punto, no lo descargará cada vez que quiera ver una página. Cuánto tiempo lo almacena en caché, no lo sé. Sin embargo, si tiene un conjunto de encabezado Expires largo, Googlebot puede dejarlo mucho más tiempo para verificar el archivo.
Otro problema podría ser un archivo mal configurado. En las Herramientas para webmasters que sugiere danivovich, hay un verificador de robots.txt . Le dirá qué tipos de páginas están bloqueadas y cuáles están bien.
fuente
La documentación de Google establece que generalmente almacenarán en caché el archivo robots.txt durante un día, pero podrían usarlo durante más tiempo si reciben errores al intentar actualizarlo.
fuente
Si. Dicen que generalmente lo actualizan una vez al día, pero algunos han sugerido que también pueden verificarlo después de un cierto número de visitas a la página (¿100?) Para que los sitios más ocupados se revisen con más frecuencia.
Vea /webmasters//a/29946 y el video que @DisgruntedGoat compartió arriba http://youtube.com/watch?v=I2giR-WKUfY .
fuente
Por lo que puedo ver en el caché accesible por el usuario que hacen, lo que debe hacer es escribir la URL de su archivo robots.txt en una Búsqueda de Google y luego hacer clic en la pequeña flecha verde desplegable y hacer clic en "en caché" (ver imagen a continuación) esto le dará la última versión de esa página de los servidores de Google.
fuente
Puede solicitar su eliminación utilizando la herramienta de eliminación de URL de Google .
fuente