¿Puedo invocar a Google para verificar mi archivo robots.txt?

11

Leí las respuestas en esta pregunta, pero todavía dejan mi pregunta abierta: ¿Google almacena el caché robots.txt?

No encontré una manera en las Herramientas para webmasters de Google para invocar una descarga de mi robots.txt .

Por algún error, mi robots.txt fue reemplazado por:

User-agent: *
Disallow: /

Y ahora todo mi contenido fue eliminado de los resultados de búsqueda de Google.

Obviamente, estoy interesado en corregir esto lo antes posible. Ya reemplacé el archivo robots.txt , pero no encuentro la manera de hacer que Google actualice la versión en caché.

ingrese la descripción de la imagen aquí

Der Hochstapler
fuente
1
Por lo general, no permitir todas las páginas en robots.txt no debería ser suficiente para eliminarlas por completo de los resultados de Google, siempre y cuando otros sitios aún tengan enlaces a ellas.
Ilmari Karonen
Hmm es complicado. Las URL de ZenCart parecen confundir al robot rastreador web robots.txt y, antes de que se dé cuenta, ha bloqueado las URL que no desea bloquear. Mi experiencia es que estás mejor sin robots.txt, pero solo manteniendo un sitio web limpio. Perdí muchos lugares de rango web debido a este bloqueo de error robots.txt de URL válidas. Debido a que ZenCart usa URL dinámicas, parece confundir el rastreador web robots.txt, lo que resulta en el bloqueo de URL que no espera que se bloqueen. No estoy seguro si se relaciona con la desactivación de una categoría en ZenCart y luego mover productos fuera de esa categoría a

Respuestas:

10

No puede hacer que vuelvan a descargar su archivo robots.txt cuando lo desee. Google lo volverá a rastrear y utilizará los nuevos datos siempre que lo considere apropiado para su sitio. Tienden a rastrearlo regularmente, por lo que no esperaría que se demore mucho en encontrar su archivo actualizado y volver a rastrear e indexar sus páginas. Tenga en cuenta que puede pasar algún tiempo después de que se encuentre el nuevo archivo robots.txt antes de que se vuelvan a rastrear sus páginas y aún más tiempo para que reaparezcan en los resultados de búsqueda de Google.

John Conde
fuente
1
Según ellos, verifican todos los días más o menos, pero probablemente verifican con mayor frecuencia los sitios ocupados. Ver webmasters.stackexchange.com/a/32949/17430 .
studgeek
1

Me enfrenté al mismo problema cuando comencé mi nuevo sitio web www.satyabrata.comel 16 de junio.

Yo tenía una Disallow: /en mi robots.txt , exactamente igual que Oliver. También había un mensaje de advertencia en las Herramientas para webmasters de Google sobre las URL bloqueadas.

El problema se resolvió ayer, 18 de junio. Hice lo siguiente. No estoy seguro de qué paso funcionó.

  1. Salud -> Explorar como Google: robots.txt y la página de inicio. Luego, envíe al índice.
  2. Configuración -> Dominio preferido: URL visible como www.satyabrata.com
  3. Optimización -> Sitemaps: mapa de sitio XML agregado.

El mensaje de advertencia sobre las URL bloqueadas desapareció ahora y se muestra un nuevo archivo robots.txt descargado en las Herramientas para webmasters de Google.

Actualmente, solo tengo dos páginas indexadas en Google, la página de inicio y el archivo robots.txt . Tengo 10 páginas en el sitio web. Espero que el resto se indexe pronto.

Satyabrata Das
fuente
0

Tuve un problema en el que las imágenes se movieron a un servidor CNAME separado y se colocó un rechazo en la carpeta de imágenes. La forma en que lo borré fue recuperar los archivos robots.txt en la página web de Herramientas para webmasters de Google como herramienta de Google. Una vez que me dijo que había recuperado y leído el archivo robots.txt, lo envié. Esto rompió un embargo de tres meses en el escaneo de imágenes en el que Google informó que estaba leyendo el archivo robots.txt pero que no estaba cambiando su araña para que coincidiera con las reglas que se cambiaron para permitir la carpeta de imágenes. En una semana, las imágenes se indexaron nuevamente.

Podría valer la pena intentarlo. Se sabe que Google ocasionalmente se atasca y no puede releer el archivo.

Laboratorios Fiasco
fuente
Volvieron a leer el archivo unas 6 horas después de que publiqué. Todo ha vuelto a la normalidad por ahora.
Der Hochstapler
¡Uf! De vuelta a la pista entonces!
Fiasco Labs
Traté de pedirle a las herramientas para webmasters que busque robots.txt, se quejó de que robots.txt lo rechazó :). Así que aparentemente ese truco no funcionará si tienes robots.txt haciendo un bloque completo.
studgeek
Lo mismo aquí ... Solicitud de robots.txt denegada por robots.txt! Ja!
Kasapo
Whelp, si pones denegar en la raíz, entonces supongo que eres un poco SOL. En mi caso, era una subcarpeta que estaba siendo rechazada, por lo que forzar una nueva lectura de robots.txt a través de los mecanismos proporcionados realmente funcionó.
Fiasco Labs
-1

En mi caso, el problema era que estaba usando un servicio de DNS gratuito llamado miedo.org

(mi dominio gratuito terminó en .us.to)

Una vez que hice la transición a un TLD, comenzó a funcionar.

Stefan Monov
fuente
No veo qué DNS o tener un sitio gratuito tiene que ver con robots.txt o decirle a Google que vuelva a buscarlo.
Stephen Ostermiller
@StephenOstermiller: Yo tampoco lo veo, pero el hecho es que esto ayudó en mi caso.
Stefan Monov
¿Le ayudó a Google a verificar su archivo robots.txt?
Stephen Ostermiller
@StephenOstermiller: Sí.
Stefan Monov