Comprender las estadísticas de Google Crawl

11

Lancé mi sitio web en enero del '11 y está indexado en Google, lo cual es genial, hasta el momento alrededor de 300 páginas de contenido. Estoy tratando de entender qué sucedió con las Estadísticas de rastreo a fines de junio y principios de julio. ¿Qué ha causado la escalada masiva? ¿Qué significa avanzar? ¿Hay algo más que debería estar haciendo?


ingrese la descripción de la imagen aquí

Ubique
fuente

Respuestas:

2

Si crees que están rastreando demasiado tu sitio (quizás incluso faltan contenidos más profundos), debes asegurarte de que tus encabezados HTTP estén devolviendo buenos valores para cosas como el tiempo 'lastmodified', etc. Puede ser que Googlebot sobreestime cuánto está cambiando tu sitio . Como beneficio adicional, su sitio se comportará mejor con respecto al almacenamiento en caché (ya sea proxy o basado en navegador) y, por lo tanto, se sentirá un poco más rápido.

Haría bien en estudiar qué URL se están rastreando (revisando los registros de su servidor). Si vuelven a rastrear la misma URL una y otra vez, definitivamente tienes un problema. Una variante común de esto es si tiene una página que se puede mostrar de muchas maneras diferentes utilizando variables de solicitud. Googlbot puede intentar rastrear todas las combinaciones posibles de esas variables.

Un ejemplo que encontré como operador de rastreo fue una página que tenía una lista de veinte encabezados, cualquier combinación de los cuales podría expandirse. ¡Básicamente, esa página tenía 2 ^ 20 URL diferentes!

Asegúrese de que Googlebot no esté atascado rastreando básicamente la misma página una y otra vez con parámetros trivialmente diferentes (lo he visto atrapado en esto)

Kris
fuente
Gracias por esto, me di cuenta de que hoy había otro "pico" en la actividad, así que estoy cada vez más preocupado ya que las estadísticas de rastreo de Google rastrearon 1,000 páginas de contenido, ¡solo tengo 300 páginas! ¿Cómo verifico qué páginas Google vuelve a rastrear una y otra vez? ¿Y cómo verifico que mis encabezados HTTP devuelven buenos valores? ¿Hay una aplicación de prueba?
Ubique
Los registros de su servidor deberían indicarle qué páginas rastrea Google. En cuanto a los encabezados HTTP, hay una serie de complementos de Firefox. Personalmente uso Firebug.
Kris
1

Supongo que Google cambia la frecuencia de rastreo con la edad del sitio, la popularidad (enlaces a su sitio), el marcado y el encabezado, los mapas del sitio adecuados, etc. También cambiaron su rastreador hace un tiempo, por lo que el contenido ahora puede aparecer en los resultados de búsqueda mucho más rápido de lo que solía (al menos 2 semanas antes del cambio).

Entonces, cuando lancé mi blog hace 2 años, Google tardó meses en indexar todo el contenido y semanas en indexar nuevas publicaciones. Ahora veo cualquier publicación en los resultados de búsqueda el mismo día que la publico.

Así de simple, a Google no le gustan los sitios nuevos, pero respeta a los mayores.

Anton
fuente