Este es mi robots.txt :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.example.org/sitemap.xml.gz
Pero las Herramientas para webmasters de Google me dicen que los robots están bloqueando el acceso al mapa del sitio:
Encontramos un error al intentar acceder a su Sitemap. Asegúrese de que su Sitemap siga nuestras pautas y se pueda acceder a él en la ubicación que proporcionó y luego vuelva a enviar: URL restringida por robots.txt .
Leí que las Herramientas para webmasters de Google almacenan en caché el archivo robots.txt , pero el archivo se actualizó hace más de 36 horas.
Actualizar:
Golpear el mapa del sitio TEST no hace que Google busque un nuevo mapa del sitio. Solo SUBMIT sitemap pudo hacer eso. (Por cierto, no veo cuál es el punto en el 'mapa del sitio de prueba' a menos que pegue su mapa del sitio actual allí; no obtiene una copia nueva del mapa del sitio de la dirección que le pide ingresar antes de la prueba, pero eso es una pregunta para otro día)
Después de enviar (en lugar de probar) un nuevo mapa del sitio, la situación cambió. Ahora aparece "URL bloqueada por robots.txt . El mapa del sitio contiene URL que están bloqueadas por robots.txt ". para 44 URL. Hay exactamente 44 URL en el mapa del sitio. Este significa que Google está utilizando el nuevo mapa del sitio pero todavía va por la regla de los robots de edad (que mantienen todo fuera de los límites) Ninguna de las 44 direcciones URL están en /wp-admin/
o /wp-includes/
(que es una especie de imposible de todos modos, ya robots.txt se basa en volar por el mismo complemento que crea el mapa del sitio).
Actualización 2:
La situación empeora: en la página de resultados de la Búsqueda de Google, la descripción de la página de inicio dice: "Una descripción de este resultado no está disponible debido al archivo robots.txt de este sitio. Obtenga más información". Todas las demás páginas tienen descripciones detalladas. No hay robots.txt O robots indexación de metabloqueo de la página de inicio.
Estoy atascado.
Respuestas:
Parece que Google probablemente aún no haya actualizado su caché de su archivo robots.txt. Su archivo actual robots.txt (arriba) no parece que deba bloquear la URL de su mapa del sitio.
No hay necesidad de adivinar. En Herramientas para webmasters de Google (GWT) en "Salud"> "URL bloqueadas", puede ver cuándo se descargó el archivo robots.txt por última vez y si fue exitoso. También le informará cuántas URL ha bloqueado el archivo robots.txt.
Como mencioné en mis comentarios, GWT tiene una herramienta de verificación de robots.txt ("Salud"> "URL bloqueadas"). Por lo tanto, puede probar inmediatamente los cambios en su robots.txt (sin cambiar su archivo real). Especifique el archivo robots.txt en el área de texto superior y las URL que desea probar en el área de texto inferior y le dirá si se bloquearían o no.
Almacenamiento en caché de robots.txt
Fuente: Google Developers - Especificaciones de Robots.txt
fuente
Tuve el mismo problema con mi sitio porque durante la instalación de WP seleccioné no rastrear con el motor de búsqueda o la misma opción.
Para resolver este problema:
www.example.com/robots.txt
con esta opción -> eliminar de cach para cambiar el contenido o ...fuente