Usamos un mapa del sitio en Stack Overflow, pero tengo sentimientos encontrados al respecto.
Los rastreadores web generalmente descubren páginas de enlaces dentro del sitio y de otros sitios. Los Sitemaps complementan estos datos para permitir que los rastreadores que admiten Sitemaps recojan todas las URL en el Sitemap y aprendan sobre esas URL utilizando los metadatos asociados. El uso del protocolo Sitemap no garantiza que las páginas web se incluyan en los motores de búsqueda, pero proporciona sugerencias para que los rastreadores web realicen un mejor trabajo al rastrear su sitio.
En base a nuestra experiencia de dos años con los mapas del sitio, hay algo fundamentalmente paradójico en el mapa del sitio :
- Los sitemaps están destinados a sitios que son difíciles de rastrear correctamente.
- Si Google no puede rastrear con éxito su sitio para encontrar un enlace, pero puede encontrarlo en el mapa del sitio, no le da peso al enlace del mapa del sitio y no lo indexará.
Esa es la paradoja del mapa del sitio: si su sitio no se rastrea correctamente (por cualquier razón), ¡usar un mapa del sitio no lo ayudará!
Google hace todo lo posible para no garantizar el mapa del sitio :
"No podemos hacer predicciones ni garantías sobre cuándo o si sus URL se rastrearán o agregarán a nuestro índice" cita
"No garantizamos que rastreemos o indexemos todas sus URL. Por ejemplo, no rastrearemos ni indexaremos las URL de imágenes contenidas en su Sitemap". citación
"envío de un sitemap no garantiza que todas las páginas de su sitio se rastrearán o incluidos en los resultados de búsqueda" citación
Dado que los enlaces que se encuentran en los mapas del sitio son meramente recomendaciones , mientras que los enlaces que se encuentran en su propio sitio web se consideran canónicos ... parece que lo único lógico es evitar tener un mapa del sitio y asegurarse de que Google y cualquier otro motor de búsqueda puedan arañe su sitio usando las viejas páginas web estándar que todos los demás ven.
En el momento en que ha hecho que , y está consiguiendo indexado agradable y bien por lo que Google puede ver que sus propias sitio enlaces a estas páginas, y estaría dispuesto a rastrear los vínculos - uh, ¿por qué necesitamos un mapa del sitio, de nuevo? El mapa del sitio puede ser activamente dañino, ya que lo distrae de garantizar que las arañas de los motores de búsqueda puedan rastrear con éxito todo su sitio. "¡Oh, no importa si el rastreador puede verlo, solo daremos una bofetada a esos enlaces en el mapa del sitio!" La realidad es todo lo contrario en nuestra experiencia.
Eso parece más que un poco irónico teniendo en cuenta que los mapas de sitio estaban destinados a sitios que tienen una colección muy profunda de enlaces o una interfaz de usuario compleja que puede ser difícil de detectar. En nuestra experiencia, el mapa del sitio no ayuda, porque si Google no puede encontrar el enlace en su sitio correctamente, de todos modos no lo indexará desde el mapa del sitio. Hemos visto esto una y otra vez con las preguntas de Stack Overflow.
¿Me equivoco? ¿Los mapas de sitio tienen sentido, y de alguna manera los estamos usando incorrectamente?
fuente
Respuestas:
Descargo de responsabilidad: trabajo junto con el equipo de Sitemaps en Google, por lo que soy un tanto parcial :-).
Además de utilizar Sitemaps ampliamente para contenido "no indexado en la web" (imágenes, videos, noticias, etc.), utilizamos información de las URL incluidas en los archivos de Sitemaps para estos propósitos principales:
En el lado del webmaster, también he encontrado que los archivos de Sitemaps son extremadamente útiles:
De acuerdo, para sitios realmente pequeños, estáticos y fáciles de rastrear, usar Sitemaps puede ser innecesario desde el punto de vista de Google una vez que el sitio ha sido rastreado e indexado. Para cualquier otra cosa, realmente recomendaría usarlos.
FWIW Hay algunas ideas falsas que me gustaría cubrir también:
fuente
priority
campo?1 2 3 ... 22 **23** 24 ... 198 199 200
. Por lo tanto, para encontrar un producto en la página 100, deberá pasar por unos 100 enlaces. O usa la barra de búsqueda. ¿Googlebot rastrearía eso o se rendiría después de unos 20 niveles? ¿Sería un mapa del sitio la solución adecuada aquí?Si sabe que tiene una buena arquitectura del sitio y Google encontraría sus páginas naturalmente, el único beneficio que conozco es una indexación más rápida, si su sitio se indexa lo suficientemente rápido para usted, entonces no es necesario.
Aquí hay un artículo de 2009 donde un caballero probó qué tan rápido Google rastreaba su sitio con un mapa del sitio y sin él. http://www.seomoz.org/blog/do-sitemaps-effect-crawlers
Mi regla general es que si está lanzando algo nuevo y no probado, desea ver cómo Google rastrea su sitio para asegurarse de que no haya nada que deba arreglarse, así que no envíe, si está haciendo cambios y desea Google para verlos más rápido y luego enviarlos o, si tiene otra información sensible al tiempo, como noticias de última hora, envíela porque desea hacer todo lo posible para asegurarse de ser el primero que ve Google, de lo contrario, es una cuestión de preferencia.
fuente
Sospecho: para Google, los mapas de sitio son necesarios para realizar un seguimiento de las actualizaciones de la manera más rápida posible. Por ejemplo, supongamos que ha agregado un nuevo contenido a alguna ubicación profunda de su sitio web, que requiere más de 10-20 clics para llegar desde su página de inicio. Para Google, llegar a esta nueva página sería menos probable en poco tiempo, por lo tanto, hasta que se determine por completo la ruta a esta página, se anuncia su existencia . Después de todo, el PageRank no se calcula de inmediato, requiere tiempo para evaluar el comportamiento del usuario y, por lo tanto, hasta entonces, ¿por qué el motor no debería rastrear e indexar una página con contenido nuevo?
fuente
Los sitemaps son increíblemente valiosos si los usa correctamente.
En primer lugar, el hecho de que Google dice que son pistas solo existe para a) asegurarse de que los webmasters no tengan la falsa impresión de que sitemap = indexación yb) le dan a Google la capacidad de ignorar ciertos mapas de sitio si consideran que no son confiables ( aka lastmod es la fecha actual de todas las URL cada día que se accede a ellas).
Sin embargo, a Google generalmente le gustan y consumen mapas de sitio (de hecho, a veces encuentran los suyos y los agregan a las Herramientas para webmasters de Google). ¿Por qué? Aumenta la eficiencia con la que pueden gatear.
En lugar de comenzar en un sitio semilla y rastrear la web, pueden asignar una cantidad adecuada de su presupuesto de rastreo a un sitio basado en los mapas de sitio enviados. También pueden construir un gran historial de su sitio con datos de error asociados (500, 404, etc.)
De Google:
"Googlebot rastrea la web siguiendo enlaces de una página a otra, por lo que si su sitio no está bien vinculado, puede ser difícil para nosotros descubrirlo".
Lo que no dicen es que rastrear la web lleva mucho tiempo y prefieren tener una hoja de trucos (también conocido como mapa del sitio).
Claro, su sitio podría estar bien desde una perspectiva de rastreo, pero si desea introducir contenido nuevo, colocar ese contenido en un mapa del sitio con alta prioridad es una forma más rápida de rastrearse e indexarse.
Y esto también funciona para Google, ya que quieren encontrar, rastrear e indexar nuevo contenido, rápidamente. Ahora, incluso si no cree que Google prefiera el camino trillado frente al enfoque de machete en la jungla, hay otra razón por la cual los mapas de sitio son valiosos: el seguimiento.
En particular, utilizando un índice de mapa del sitio (http://sitemaps.org/protocol.php#index) puede dividir su sitio en secciones: mapa del sitio por mapa del sitio. Al hacerlo, puede ver la tasa de indexación de su sitio sección por sección.
Una sección o tipo de contenido podría tener una tasa de indexación del 87%, mientras que otra podría tener una tasa de indexación del 46%. Entonces es tu trabajo descubrir por qué.
Para aprovechar al máximo los mapas del sitio, querrá rastrear el rastreo de Googlebot (y Bingbot) en su sitio (a través de registros web), hacer coincidirlos con sus mapas de sitio y luego seguirlo hasta el tráfico.
No te duermas en los mapas del sitio, invierte en ellos.
fuente
En palabras de Google: "En la mayoría de los casos, los webmasters se beneficiarán del envío de Sitemap, y en ningún caso serán penalizados por ello".
Pero estoy de acuerdo en que lo mejor que puede hacer si desea que las páginas de su sitio web aparezcan en los motores de búsqueda es asegurarse de que se puedan rastrear desde el sitio adecuado.
fuente
Creo que los motores de búsqueda usan el mapa del sitio no tanto para encontrar páginas, sino para optimizar la frecuencia con la que buscan actualizaciones. Miran
<changefreq>
y<lastmod>
. Probablemente Google arañe todo el sitio web con mucha frecuencia (¡revise sus registros!), Pero no todos los motores de búsqueda tienen los recursos para hacerlo (¿Alguien ha intentado Blekko ?). En cualquier caso, ya que no hay penalización por usarlos y se pueden crear de forma automática y sencilla, seguiría haciéndolo.fuente
<priority>
campo es bastante importante, para que sepan qué páginas son las más importantes. Por ejemplo, en Stack Overflow, tiene cientos de etiquetas y páginas de usuario que están bien, pero no son tan importantes como las preguntas mismas. Si el mapa del sitio establece la prioridad de la pregunta en 1 y todo lo demás es más bajo, es más probable que las preguntas se indexen en otras páginas.Si le interesa este tema, lea este excelente artículo de Google http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (abril de 2009): lea el artículo completo, no solo el blog .
del periódico
pero sí, el mapa del sitio se usa principalmente para el descubrimiento (el proceso de Google para descubrir sus cosas), no para la determinación del valor. Si te cuesta descubrir, utiliza un mapa del sitio. El descubrimiento es una condición previa para el rastreo, pero no toca la determinación del valor.
por mi experiencia
cuando implemento una estrategia de SEO para un sitio con más de medio millón de páginas, elijo
todo lo demás es solo "balast": sí, otras cosas pueden tener un valor SEO positivo, pero definitivamente tienen un valor negativo: hace que el sitio sea más difícil de administrar. (ps: para la determinación del valor, entrelazo las páginas de aterrizaje de una manera sensata (gran impacto), pero ese ya es el segundo paso).
sobre su pregunta: no confunda descubrimiento, rastreo, indexación y clasificación. Puede rastrearlos por separado y puede optimizarlos por separado. y puede mejorar el descubrimiento y el rastreo de manera importante con un excelente mapa del sitio (es decir, en tiempo real).
fuente
Los sitemaps pueden salvarte el culo.
En uno de mis sitios, tengo una gran cantidad de enlaces que evito que los motores de búsqueda se desplacen. En pocas palabras, Google estaba interpretando mal JS en mi foro y activaba muchos códigos de respuesta 500 y 403, que creía que estaban afectando la posición del sitio. Trabajé alrededor de esto excluyendo las URL problemáticas a través de robots.txt.
Un día, me equivoqué e hice algo que impidió que Google rastreara algunas páginas de ese sitio que realmente quería indexar. Debido a las exclusiones del foro, la sección de error de Herramientas para webmasters de Google para "Restringido por robots.txt" tenía más de 4000 páginas, por lo que no habría detectado este error hasta que fuera demasiado tarde.
Afortunadamente, debido a que todas las páginas "importantes" de mi sitio están en mapas de sitio, pude detectar rápidamente este problema en la categoría de error especial que tiene las Herramientas para webmasters de Google para problemas con páginas en mapas de sitio.
Por otro lado, también obtengo muchos beneficios al usar un Índice de Sitemap para determinar la calidad de indexación de varias secciones de mis sitios, como lo menciona @AJ Kohn.
fuente
No me he encontrado con esto yo mismo, pero la mayoría de mis proyectos son aplicaciones o sitios que requieren cuentas de usuario, por lo que la indexación por parte de los motores de búsqueda no es un enfoque.
Dicho esto, he oído antes que el SEO básicamente ha inutilizado los mapas de sitio. Si observa el protocolo, es una especie de "sistema de honor" para decir con qué frecuencia cambia una página y cuál es la prioridad relativa de cada página. Es lógico pensar que una docena de empresas de SEO hacen mal uso de los campos: ¡cada página es la máxima prioridad! ¡Cada página cambia cada hora! - y los mapas del sitio efectivamente inutilizados.
Este artículo de 2008 dice básicamente eso y parece llegar a la misma conclusión que usted: el mapa del sitio es bastante inútil y sería mejor optimizar el contenido que se indexará y deshacerse del mapa del sitio.
fuente
Déjalo gatear.
Hago lo siguiente:
Genero un archivo XML extendido, que sirve de base para muchas cosas:
Por lo tanto, tengo todo esto, ¿por qué no servir también un mapa del sitio xml y dejar que el rastreador haga lo que le gustaría hacer, si quisiera hacerlo?
fuente
Jeff, no tengo idea acerca de Stackoverflow porque nunca he tenido la oportunidad en mi vida de ser un webmaster de un sitio web tan grande y tan frecuentemente actualizado.
Para los sitios web pequeños que no cambian con frecuencia, creo que el mapa del sitio es bastante útil (sin decir que el mapa del sitio es lo más importante, pero sí bastante útil) por dos razones:
El sitio se rastrea rápidamente (la misma razón explicada por la respuesta de Joshak anterior ) y en mi pequeña experiencia lo noté muchas veces con sitios pequeños (hasta 30/50 páginas)
Después de algunas semanas que envié un mapa del sitio, busco en "Herramientas para webmasters de Google - Mapas del sitio" y puedo ver la cantidad de URL enviadas en el mapa del sitio VS la cantidad de URL en el índice web . Si veo que son lo mismo, entonces bien. De lo contrario, puedo consultar inmediatamente en mis sitios web qué páginas no se indexan y por qué.
fuente
Esto fue (¿primero?) Escrito por Randfish en SEOmoz en el viejo año de 2007. La primera vez llegó al mismo tipo de conclusiones, pero luego el tiempo fue lo que pasó ... y pasó.
Desde entonces (enero de 2009) agregó una posdata al artículo que indica que cualquier posible inconveniente simplemente se ve compensado por los resultados positivos generales de generar, verificar y enviar mapas del sitio.
fuente
Creo que SiteMaps solo tiene dos propósitos en estos días:
fuente
NO UTILICE SITEMAPS
Los sitemaps son principalmente para sitios que no marcan índices ni nodos ... SE hace ambas cosas por su contenido principal, por lo que tener un mapa del sitio ralentizará un rastreador ... Sí, es cierto, lo ralentizará, porque el mapa del sitio carece de los metadatos que tienen los índices principales. Por otro lado, no tengo una idea real de cómo Google construye sus bots, solo sé que si iba a bot SE, NO usaría el mapa del sitio. Además, algunos sitios ni siquiera se dan cuenta de que sus mapas de sitio son todos%! @ $, Y si ha creado un perfil en un mapa del sitio, de repente no funciona, y debe crear un nuevo perfil a partir de sitio real
Entonces, tienes razón: ¡NO UTILICES SITEMAPS!
CONSEJO: Sin embargo, una cosa que debe hacer es mantener la semántica de las etiquetas lo más constante posible en el tiempo, lo que significa que si "Asked One Hour Ago" tiene una metadata incrustada como:
nunca cambie el nombre de la cadena
relativetime
, a menos que el significado de los datostitle
haya cambiado. NUNCA... :-)fuente
Recientemente reestructuré un sitio en el que todavía estoy trabajando. Debido a que no había una buena manera de vincular 500,000 páginas para ayudar a los usuarios, decidí usar un mapa del sitio XML y enviarlo a Google y usar la búsqueda del sitio. Sin embargo, Google no tuvo problemas para indexar mi sitio antes, ya que al agregar el mapa del sitio, Google es muy agresivo al analizar mi sitio e indexar las páginas extremadamente rápido. Google ha utilizado el mapa del sitio para encontrar nuevas páginas (aproximadamente 3300 por semana) y volver a visitar páginas actualizadas. Ha sido una verdadera victoria en mi libro. Todavía quiero encontrar una nueva forma de vincular mis páginas y usar AJAX para buscar, pero ese es un proyecto para otro día. ¡Hasta aquí todo bien! Ha sido una buena solución para mí. En general, he ganado y no he perdido. Lo cual es interesante ya que siempre he sentido que los mapas de sitio podrían ser más útiles pero limitados por su diseño.
fuente
Escuché que los mapas del sitio ponen sus páginas en el índice suplementario más rápido. Pero ni siquiera he escuchado el índice suplementario mencionado en años, por lo que es posible que ya no lo estén usando.
PD: en caso de que mi declaración no sea lo suficientemente clara, estar en el índice suplementario es (o era) MALO ... por lo tanto, un mapa del sitio es (o era) MALO.
fuente
Usamos mapas del sitio (no enviados a los motores de búsqueda, pero vinculados
robots.txt
) principalmente para asegurarnos de que la página de inicio tenga la mayor<priority>
. No estoy seguro de si tienen mucho otro uso.fuente
No estoy de acuerdo con que Google no indexe los enlaces solo de sitemap. Tengo numerosos sitios a los que solo se puede acceder a través de mapas del sitio, y Google los indexa sin problemas. Puedo dar muchos ejemplos de esto.
fuente
Un sitio bien construido no necesita un mapa del sitio, aunque puede ayudar con nuestra cobertura y clasificación y agrega un poco de valor adicional, como prioridad, frecuencia de actualización, etc. Puede decirle a un motor de búsqueda, hey ... He actualizado esta página en algún lugar en el medio de mi sitio sin requerir un rastreo completo. Nunca he visto los patrones de rastreo, pero uno esperaría que ayudara.
Dicho esto, la verdadera ventaja para mí son las herramientas para webmasters y la información que le brinda sobre la visibilidad de su sitio web y sus usuarios.
fuente