Si crees que están rastreando demasiado tu sitio (quizás incluso faltan contenidos más profundos), debes asegurarte de que tus encabezados HTTP estén devolviendo buenos valores para cosas como el tiempo 'lastmodified', etc. Puede ser que Googlebot sobreestime cuánto está cambiando tu sitio . Como beneficio adicional, su sitio se comportará mejor con respecto al almacenamiento en caché (ya sea proxy o basado en navegador) y, por lo tanto, se sentirá un poco más rápido.
Haría bien en estudiar qué URL se están rastreando (revisando los registros de su servidor). Si vuelven a rastrear la misma URL una y otra vez, definitivamente tienes un problema. Una variante común de esto es si tiene una página que se puede mostrar de muchas maneras diferentes utilizando variables de solicitud. Googlbot puede intentar rastrear todas las combinaciones posibles de esas variables.
Un ejemplo que encontré como operador de rastreo fue una página que tenía una lista de veinte encabezados, cualquier combinación de los cuales podría expandirse. ¡Básicamente, esa página tenía 2 ^ 20 URL diferentes!
Asegúrese de que Googlebot no esté atascado rastreando básicamente la misma página una y otra vez con parámetros trivialmente diferentes (lo he visto atrapado en esto)
Supongo que Google cambia la frecuencia de rastreo con la edad del sitio, la popularidad (enlaces a su sitio), el marcado y el encabezado, los mapas del sitio adecuados, etc. También cambiaron su rastreador hace un tiempo, por lo que el contenido ahora puede aparecer en los resultados de búsqueda mucho más rápido de lo que solía (al menos 2 semanas antes del cambio).
Entonces, cuando lancé mi blog hace 2 años, Google tardó meses en indexar todo el contenido y semanas en indexar nuevas publicaciones. Ahora veo cualquier publicación en los resultados de búsqueda el mismo día que la publico.
Así de simple, a Google no le gustan los sitios nuevos, pero respeta a los mayores.
fuente