¿Cómo evito que mis archivos de mapa de sitio XML aparezcan en los resultados de búsqueda de Google como este resultado de una site:
consulta de búsqueda:
No entiendo por qué Google elegiría mostrar archivos de mapa del sitio en los resultados de búsqueda para empezar. Estos archivos no están destinados al consumo humano.
Google necesita poder rastrearlo para poder procesarlo, por lo que no puedo rechazarlo en robots.txt . Simplemente no quiero que lo pongan en los resultados de búsqueda después de procesarlo.
google
sitemap
search-engine-indexing
googlebot
xml-sitemap
Stephen Ostermiller
fuente
fuente
/sitemap.xml
enumerado en robots.txt y luego se vincula a un conjunto diferente de otros mapas de sitio como/sitemap-123.xml
y/sitemap-124.xml
. Regenero los mapas del sitio todos los días y los números cambian a diario. El que está indexado es bastante antiguo. No lo enlazo a ninguna parte de mi sitio, pero es posible que algún otro sitio tenga un enlace a él en alguna parte./sitemap.xml
Supongo que este mapa del sitio en particular se caerá del índice. También me gustaría evitar que Google los muestre para buscar usuarios en el futuro.Respuestas:
Google indexa mapas de sitio XML (como cualquier archivo XML). Si Google conoce una URL y devuelve una respuesta válida, pasará las reglas de inclusión de Google y podría indexarse. Personalmente, solo envío el mapa del sitio a través de GWT e incluyo una
Sitemap:
referencia en robots.txt y esto es suficiente para indexarlo.El método recomendado para evitar que Google indexe estos archivos es incluir un
X-Robots-Tag
encabezado de respuesta HTTP cuando sirva el mapa del sitio XML. Por ejemplo:Al igual que incluir una etiqueta META de robots en archivos HTML, el
X-Robots-Tag
encabezado se puede usar para cualquier tipo de archivo.Referencia: Este documento (¡de noviembre de 2008!) Parece citar a nuestro propio John Mueller (Google) con respecto al uso de la
X-Robots-Tag
respuesta cuando se trata de mapas de sitio XML.Sí, Google indexará y clasificará su archivo XML Sitemap
Para obtener más información, consulte la guía para desarrolladores de Google:
metaetiquetas Robots y especificaciones de encabezado HTTP X-Robots-Tag
fuente
X-Robots-Tag: noindex
código del encabezado? Dentrositemap.xml
orobots.txt
?header('X-Robots-Tag: noindex',true)
) o, si está usando Apache, entonces en su archivo .htaccess o en la configuración del servidor. Vea la respuesta de Stephen para el código de ejemplo. Consulte también la guía para desarrolladores de Google vinculada a lo anterior.La respuesta de MrWhite sobre el uso de X-Robots-Tag parece ser la forma correcta de hacerlo.
Aquí hay un código que puede usarse en archivos de configuración .htaccess o Apache para hacerlo. (Referencia: WebmasterWorld - Sitemaps que aparecen en SERP - ¿Cómo prevenir esto? )
Bajo nginx la configuración sería la siguiente. (Referencia: ejemplos de Yoast X-Robots-Tag )
fuente
¿Por qué eso importa?
Si realmente puede encontrar su mapa del sitio en SERP, entonces tiene mayores problemas.
Me centraría más en obtener páginas con contenido útil. De esa manera, tendrá dificultades para encontrar su mapa del sitio. No es que te importe en ese punto de todos modos.
PD
Casi todos mantienen los mapas del sitio en el mismo lugar. Entonces, si alguien quería encontrar dónde lo guardas, lo hará :)
fuente
poner lo siguiente en el archivo robots.txt
en su lugar, envíe su mapa del sitio a través de las herramientas para webmasters de Google.
fuente