¿Cómo puedo alentar a Google a leer un nuevo archivo robots.txt?

22

Acabo de actualizar mi archivo robots.txt en un nuevo sitio; Google Webmaster Tools informa que leyó mi robots.txt 10 minutos antes de mi última actualización.

¿Hay alguna forma de alentar a Google a que vuelva a leer mi archivo robots.txt lo antes posible?

ACTUALIZACIÓN: en Configuración del sitio | Acceso al rastreador | Probar robots.txt:

El acceso a la página de inicio muestra:

Googlebot está bloqueado en http://my.example.com/

FYI: el archivo robots.txt que Google leyó por última vez se ve así:

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

¿Me pegué un tiro en el pie, o eventualmente leerá: http: ///robots.txt (como lo hizo la última vez que lo leyó)?

¿Alguna idea sobre lo que necesito hacer?

qxotk
fuente
FYI: El sitio es nuevo y este mensaje aparece en Configuración | Frecuencia de rastreo: "A su sitio se le ha asignado una configuración especial de frecuencia de rastreo. No podrá cambiar la frecuencia de rastreo".
qxotk
FYI: Encontré una publicación en grupos de Google que decía que Google leerá robots.txt "al menos una vez al día". ¿Alguien puede confirmar eso? [La publicación de grupos de Google está aquí: groups.google.com/group/google_webmaster_help-indexing/… ]
qxotk
FYI: 1 día ha pasado, y Google aún no ha leído mi robots.txt actualizado.
qxotk
Mismo problema aquí, esto no es una "característica" ...
mate64

Respuestas:

25

En caso de que alguien más se encuentre con este problema, hay una manera de obligar a google-bot a volver a descargar el archivo robots.txt.

Vaya a Salud -> Obtener como Google [1] y haga que busque /robots.txt

Eso volverá a descargar el archivo y Google también volverá a analizar el archivo.

[1] en la interfaz de usuario anterior de Google era 'Diagnóstico -> Obtener como GoogleBot'.

Mate
fuente
11
Lamentablemente, esto no funcionará si su archivo robots.txt está configurado en Disallow: /. En cambio, la búsqueda informa "Denegado por robots.txt": /.
studgeek
3
La próxima vez agrega esta línea. Permitir: /robots.txt
jrosell
No puedo encontrar 'Diagnóstico', ¿tal vez la interfaz de usuario ha cambiado?
David Riccitelli
2
Ok, ahora es Salud> Recuperar como Google.
David Riccitelli
No funciona para mí cuando intento recuperar el archivo robots.txt. ERROR: "No se pudo rastrear la página en este momento porque está bloqueada por el archivo robots.txt más reciente descargado por Googlebot. Tenga en cuenta que si actualizó recientemente el archivo robots.txt, pueden pasar hasta dos días antes de que se actualice. Puede encontrar más información en el artículo del Centro de ayuda sobre robots.txt ".
Indrek
4

Sé que esto es muy antiguo, pero ... Si subió el archivo robots.txt incorrecto (no permite todas las páginas), puede intentar lo siguiente:

  • primero corrija su robots.txt para permitir las páginas correctas, luego
  • subir un sitemap.xml con sus páginas

a medida que google intenta leer el mapa del sitio xml, lo verificará de nuevo contra robots.txt, lo que obligará a google a volver a leer su robots.txt.

Hussam
fuente
Esto no funcionó para mí. Dice que el mapa del sitio fue bloqueado por el archivo robots.txt
James
1

OKAY. Esto es lo que hice, y en unas pocas horas, Google volvió a leer mis archivos robots.txt.

Tenemos 2 sitios por cada 1 sitio que ejecutamos. Llamémosles el sitio canónico (www.mysite.com) y el sitio de dominio simple (mysite.com).

Tenemos nuestros sitios configurados para que mysite.com siempre devuelva un 301 redirigiendo a www.mysite.com.

Una vez que configuré ambos sitios en las herramientas para webmasters de Google, le dije que www.mysite.com es el sitio canónico, poco después leí el archivo robots.txt en el sitio canónico.

Realmente no sé por qué, pero eso fue lo que sucedió.

qxotk
fuente
3
Sé que esto es viejo, pero aceptar su propia respuesta es 100% legítimo
Mark Henderson
0

Acorte el intervalo de escaneo de Google por algunos días.

Además, he visto el botón para verificar su archivo robots.txt, esto podría forzarlo a google, pero no estoy seguro.

BarsMonster
fuente
¿Puedes ser mas específico? Ya veo: Configuración del sitio | Acceso al rastreador | Pruebe el archivo robots.txt, pero eso prueba el texto que pega en el cuadro, no su archivo robots.txt en vivo; además, aquí es donde me indica cuándo se descargó por última vez. ¿Dónde está el botón "verificar" del que hablas?
qxotk