¿Se puede usar una URL de mapa de sitio relativa en un archivo robots.txt?

191

En robots.txt, ¿puedo escribir la siguiente URL relativa para el archivo de mapa del sitio?

sitemap: /sitemap.ashx

¿O tengo que usar la URL completa (absoluta) para el archivo de mapa del sitio, como:

sitemap: http://subdomain.domain.com/sitemap.ashx

Por qué me pregunto

  • Tengo un nuevo servicio de blog, www.dominio.com, que permite a los usuarios bloguear en accountname.domain.com.
  • Uso comodines, por lo que todos los subdominios (cuentas) apuntan a "blog.domain.com".

En blog.domain.com puse el archivo robots.txt para permitir que los motores de búsqueda encuentren el mapa del sitio. Pero, debido a los comodines, todas las cuentas de usuario comparten el mismo archivo robots.txt. Es por eso que no puedo usar la segunda alternativa. Y por ahora no puedo usar la reescritura de URL para archivos txt. (¿Supongo que las versiones posteriores de IIS pueden manejar esto?)

Jinete facil
fuente

Respuestas:

318

De acuerdo con la documentación oficial en sitemaps.org , debe ser una URL completa:

Puede especificar la ubicación del Sitemap usando un archivo robots.txt. Para hacer esto, simplemente agregue la siguiente línea que incluye la URL completa al mapa del sitio:

Sitemap: http://www.example.com/sitemap.xml
unor
fuente
31
Tenga en cuenta que el ejemplo de @ unor tiene: Sitemap con mayúscula S. Esto es importante ya que Robots.txt distingue entre mayúsculas y minúsculas.
BodgeIT
19
Y sobre el tema del caso, robotstxt.org especifica el archivo que se nombrará robots.txtsin la R mayúscula
khargoosh
si el sitio está cargando https, la URL del mapa del sitio mencionada con http. Esta bien? ¿O tenemos que colocar la URL del mapa del sitio según el protocolo?
Shams
44
@Shams: las URL que figuran en su mapa del sitio tienen que usar el mismo protocolo y el mismo host que el archivo del mapa del sitio. Si su sitio está disponible en http y https , solo debe proporcionar un mapa del sitio (con la variante canónica) .
hasta el
2

Los rastreadores de Google no son lo suficientemente inteligentes, no pueden rastrear las URL relativas, por eso siempre se recomienda usar URL absolutas para una mejor rastreabilidad e indexación.

Por lo tanto, no puede usar esta variación

> sitemap: /sitemap.xml

La sintaxis recomendada es

Sitemap: https://www.yourdomain.com/sitemap.xml

Nota:

  • No olvides poner en mayúscula la primera letra del "mapa del sitio"
  • No olvides poner espacio después de "Sitemap:"
Deepak Mathur
fuente
-2

Buena pregunta técnica y lógica mi querido amigo. No en el archivo robots.txt no puede ir con la URL relativa del mapa del sitio; debe ir con la URL completa del mapa del sitio.

Es mejor ir con "mapa del sitio: https://www.example.com/sitemap_index.xml "

En la URL anterior después de los dos puntos da espacio. También me gusta apoyar a Deepak.

cstpl123
fuente