Para un sitio web con contenido dinámico (se agrega constantemente contenido nuevo), ¿debería incluir solo el contenido más nuevo en el mapa del sitio o debería incluir todo (con un índice de mapa del sitio)? ¿Cuáles son las mejores prácticas para sitemaps esp. para sitios grandes?
Además, ¿hay alguna forma de hacer que Google (y otros motores de búsqueda) solo rastreen las páginas en el mapa del sitio?
Gracias
Actualización:
¿Alguna idea de cómo stackoverflow maneja esto? Me gustaría saberlo pero desafortunadamente (también comprensivamente ) han bloqueado el acceso a su mapa del sitio.
Respuestas:
Incluye todas las páginas. El propósito del mapa del sitio XML es informar a los motores de búsqueda sobre todo su contenido. No solo las cosas nuevas.
Desde el sitio web sitemaps.org (el énfasis es mío):
Si tiene mucho contenido, puede usar múltiples mapas de sitio XML .
Si tiene contenido que no desea rastrear o indexar, debe indicar específicamente a los motores de búsqueda que no rastreen ni indexen esas páginas. Use un archivo robots.txt para bloquear cualquier página o directorio que no desee rastrear. También puede usar una metaetiqueta para eso también. Pero no puede especificar en un mapa del sitio XML para no rastrear páginas no listadas.
fuente
Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.