Evite que los mapas de sitio XML aparezcan en los resultados de búsqueda de Google

23

¿Cómo evito que mis archivos de mapa de sitio XML aparezcan en los resultados de búsqueda de Google como este resultado de una site:consulta de búsqueda:

mapa del sitio en los resultados de búsqueda

No entiendo por qué Google elegiría mostrar archivos de mapa del sitio en los resultados de búsqueda para empezar. Estos archivos no están destinados al consumo humano.

Google necesita poder rastrearlo para poder procesarlo, por lo que no puedo rechazarlo en robots.txt . Simplemente no quiero que lo pongan en los resultados de búsqueda después de procesarlo.

Stephen Ostermiller
fuente
1
Huh Interesante. El único pensamiento que tengo es si tiene un enlace a él en su sitio, o aparece en su archivo de mapa del sitio. Además, no estoy seguro si se refiere a él en su archivo robots.txt si eso puede ser un factor. No lo creo, solo algo a considerar. Proporciono mi mapa del sitio solo a través de Google WMT y no he visto este problema, al menos todavía no. Puedo entender que no quiero que tu mapa del sitio sea público. No quiero el mío público. Demasiados hackers / raspadores por ahí.
closetnoc
3
En este sitio en particular, he /sitemap.xmlenumerado en robots.txt y luego se vincula a un conjunto diferente de otros mapas de sitio como /sitemap-123.xmly /sitemap-124.xml. Regenero los mapas del sitio todos los días y los números cambian a diario. El que está indexado es bastante antiguo. No lo enlazo a ninguna parte de mi sitio, pero es posible que algún otro sitio tenga un enlace a él en alguna parte.
Stephen Ostermiller
1
Si no se utiliza, asegúrese de que se elimine, luego excluirlo en su archivo robots.txt y se eliminará de los SERP con bastante rapidez. Curiosamente, la eliminación de URL en Google WMT lleva una eternidad (meses para mí) mientras que robots.txt es bastante rápido.
closetnoc
1
¿ Envió el mapa del sitio XML a su cuenta de GWMT?
Oleg
3
El archivo del mapa del sitio todavía existía hasta hoy. Lo eliminé y ahora se redirige a /sitemap.xml Supongo que este mapa del sitio en particular se caerá del índice. También me gustaría evitar que Google los muestre para buscar usuarios en el futuro.
Stephen Ostermiller

Respuestas:

18

Google indexa mapas de sitio XML (como cualquier archivo XML). Si Google conoce una URL y devuelve una respuesta válida, pasará las reglas de inclusión de Google y podría indexarse. Personalmente, solo envío el mapa del sitio a través de GWT e incluyo una Sitemap:referencia en robots.txt y esto es suficiente para indexarlo.

El método recomendado para evitar que Google indexe estos archivos es incluir un X-Robots-Tagencabezado de respuesta HTTP cuando sirva el mapa del sitio XML. Por ejemplo:

X-Robots-Tag: noindex

Al igual que incluir una etiqueta META de robots en archivos HTML, el X-Robots-Tagencabezado se puede usar para cualquier tipo de archivo.

Referencia: Este documento (¡de noviembre de 2008!) Parece citar a nuestro propio John Mueller (Google) con respecto al uso de la X-Robots-Tagrespuesta cuando se trata de mapas de sitio XML.
Sí, Google indexará y clasificará su archivo XML Sitemap

Para obtener más información, consulte la guía para desarrolladores de Google:
metaetiquetas Robots y especificaciones de encabezado HTTP X-Robots-Tag

Señor White
fuente
¿Dónde debo escribir el X-Robots-Tag: noindexcódigo del encabezado? Dentro sitemap.xmlo robots.txt?
xameeramir
1
@student Es un encabezado de respuesta HTTP, por lo que debe configurarse antes de servir esos archivos (como parte del encabezado de respuesta HTTP); no se puede configurar "dentro" de ellos. Dependiendo de cómo esté sirviendo estos archivos, puede configurar esto en su código del lado del servidor (por ejemplo, en PHP header('X-Robots-Tag: noindex',true)) o, si está usando Apache, entonces en su archivo .htaccess o en la configuración del servidor. Vea la respuesta de Stephen para el código de ejemplo. Consulte también la guía para desarrolladores de Google vinculada a lo anterior.
MrWhite
8

La respuesta de MrWhite sobre el uso de X-Robots-Tag parece ser la forma correcta de hacerlo.

Aquí hay un código que puede usarse en archivos de configuración .htaccess o Apache para hacerlo. (Referencia: WebmasterWorld - Sitemaps que aparecen en SERP - ¿Cómo prevenir esto? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

Bajo nginx la configuración sería la siguiente. (Referencia: ejemplos de Yoast X-Robots-Tag )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}
Stephen Ostermiller
fuente
2

¿Por qué eso importa?

Si realmente puede encontrar su mapa del sitio en SERP, entonces tiene mayores problemas.

Me centraría más en obtener páginas con contenido útil. De esa manera, tendrá dificultades para encontrar su mapa del sitio. No es que te importe en ese punto de todos modos.

PD

Casi todos mantienen los mapas del sitio en el mismo lugar. Entonces, si alguien quería encontrar dónde lo guardas, lo hará :)

dasickle
fuente
44
Uso Google para buscar en el sitio y me topé con un mapa del sitio cuando lo uso. Sería muy confuso para mis usuarios si hicieran clic en él.
Stephen Ostermiller
¿Cuántos de tus usuarios crees que usan Google para la búsqueda en el sitio?
dasickle
3
Todos los usuarios que escriben términos de búsqueda en el cuadro de búsqueda en la parte superior de mis páginas.
Stephen Ostermiller
En ese caso. ¿Ha considerado usar algo como swiftype.com para la búsqueda de su sitio? Hay una parte superior de otras que puedes usar. Puede reordenar, eliminar y agregar resultados. También obtienes excelentes estadísticas, etc.
dasickle
-6

poner lo siguiente en el archivo robots.txt

User-agent: *
Disallow: /sitemap.xml

en su lugar, envíe su mapa del sitio a través de las herramientas para webmasters de Google.

konghou
fuente
1
¿Puede aclarar su lógica, su primera oración parece estar en conflicto con la última?
MrWhite
55
¿Google seguirá rastreando un mapa del sitio que está bloqueado en robots.txt? ¿Tiene una referencia para apoyar la afirmación?
Stephen Ostermiller
44
Si no permite el sitemap.xml, estoy bastante seguro de que ya no se rastreará. ¡No es algo que quieras que ocurra!
Max
2
Google no rastreará ningún documento con el archivo robots.txt no permitido. Normalmente no, de todos modos ... mapas del sitio incluidos.