¿Google almacena en caché el archivo robots.txt?

17

Agregué un archivo robots.txt a uno de mis sitios hace una semana, lo que debería haber evitado que Googlebot intente obtener ciertas URL. Sin embargo, este fin de semana puedo ver Googlebot cargando esas URL exactas.

¿Google almacena en caché el archivo robots.txt y, de ser así, debería?

Quog
fuente

Respuestas:

13

Recomiendo encarecidamente registrar su sitio con Google Search Console (anteriormente Herramientas para webmasters de Google) . Hay una sección de acceso al rastreador en la configuración del sitio que le informará cuándo se descargó su archivo robots.txt por última vez. La herramienta también proporciona muchos detalles sobre cómo los rastreadores ven su sitio, qué está bloqueado o no funciona y dónde aparecen las consultas en Google.

Por lo que puedo decir, Google descarga el archivo robots.txt a menudo. El sitio de Google Search Console también le permitirá eliminar específicamente las URL del índice, para que pueda eliminar aquellas que ahora está bloqueando.

danivovich
fuente
2
Verifiqué las herramientas para webmasters: el archivo robots.txt es válido y se recuperó 17 horas antes de la visita más reciente de googlebot a esas páginas. Sospecho que es una cuestión de propagación a través de la red de Google: eventualmente todos los servidores de googlebot se pondrán al día con las instrucciones de robots.txt.
Quog
El robot de Google no usa el archivo robots.txt tan a menudo como las actualizaciones se informan en la Consola de búsqueda. Han pasado cuatro semanas desde que hice una actualización, y el robot de Google todavía usa un archivo robots.txt incorrecto, y destruye nuestro tráfico y clasificaciones.
Corporate Geek
3

Perseverar. Cambié de robots.txt a meta noindex, nofollow. Para que el meta funcione, las direcciones bloqueadas en robots.txt tuvieron que desbloquearse primero.

Hice esto brutalmente eliminando el archivo robots.txt por completo (y eliminándolo en el webmaster de Google).

El proceso de eliminación de robots.txt como se ve en la herramienta para webmasters (número de páginas bloqueadas) tardó 10 semanas en completarse, de las cuales Google eliminó la mayor parte solo durante las últimas 2 semanas.

araldh
fuente
Tiendo a estar de acuerdo contigo. Cometimos un error y actualizamos incorrectamente el archivo robots.txt. Google lo almacenó en caché y lo está utilizando cuatro semanas después de que corregimos el error y lo reemplazamos con un nuevo archivo robots.txt. Incluso envié manualmente una solicitud de actualización en Google Webmaster Tools y ... nada. Esto es realmente malo, ya que resultó en pérdida de tráfico y clasificaciones. :(
Corporate Geek
2

Sí, Google obviamente almacenará en caché el archivo robots.txt hasta cierto punto, no lo descargará cada vez que quiera ver una página. Cuánto tiempo lo almacena en caché, no lo sé. Sin embargo, si tiene un conjunto de encabezado Expires largo, Googlebot puede dejarlo mucho más tiempo para verificar el archivo.

Otro problema podría ser un archivo mal configurado. En las Herramientas para webmasters que sugiere danivovich, hay un verificador de robots.txt . Le dirá qué tipos de páginas están bloqueadas y cuáles están bien.

Cabra descontento
fuente
Ver comentario en esta respuesta webmasters.stackexchange.com/questions/2272/…
Quog
2
@Quog: Vea este video reciente: youtube.com/watch?v=I2giR-WKUfY Matt Cutts sugiere que el archivo robots.txt se descargue una vez al día o aproximadamente cada 100 solicitudes.
DisgruntledGoat
2

La documentación de Google establece que generalmente almacenarán en caché el archivo robots.txt durante un día, pero podrían usarlo durante más tiempo si reciben errores al intentar actualizarlo.

Una solicitud de robots.txt generalmente se almacena en caché por hasta un día, pero puede almacenarse en caché por más tiempo en situaciones en las que no es posible actualizar la versión en caché (por ejemplo, debido a tiempos de espera o errores 5xx). La respuesta en caché puede ser compartida por diferentes rastreadores. Google puede aumentar o disminuir la vida útil de la memoria caché en función de los encabezados HTTP Cache-Control de edad máxima.

Stephen Ostermiller
fuente
1

Si. Dicen que generalmente lo actualizan una vez al día, pero algunos han sugerido que también pueden verificarlo después de un cierto número de visitas a la página (¿100?) Para que los sitios más ocupados se revisen con más frecuencia.

Vea /webmasters//a/29946 y el video que @DisgruntedGoat compartió arriba http://youtube.com/watch?v=I2giR-WKUfY .

studgeek
fuente
1

Por lo que puedo ver en el caché accesible por el usuario que hacen, lo que debe hacer es escribir la URL de su archivo robots.txt en una Búsqueda de Google y luego hacer clic en la pequeña flecha verde desplegable y hacer clic en "en caché" (ver imagen a continuación) esto le dará la última versión de esa página de los servidores de Google.

ingrese la descripción de la imagen aquí

sam
fuente
-2

Puede solicitar su eliminación utilizando la herramienta de eliminación de URL de Google .

KOZASHI SOUZA
fuente
Esto no responde la pregunta.
MrWhite
¿Por qué no la respuesta?
KOZASHI SOUZA
Porque la pregunta es específicamente sobre robots.txt, almacenamiento en caché y rastreo de URL. Uno de los resultados de esto podría ser que las URL no están indexadas, pero esa no es la cuestión. (Herramienta de eliminación de URL de Google es también sólo una solución "tempoary", hay otros pasos que hay que hacer para que sea permanente.)
MrWhite