Desde mediados de agosto de 2014, varios servidores de Google han descargado todos los archivos binarios (muy) grandes en mi sitio web, aproximadamente una vez por semana. Todas las IP se muestran como propiedad de Google, y se ven así: google-proxy-66-249-88-199.google.com. Estas son solicitudes GET, y están afectando en gran medida el tráfico de mi servidor.
Antes de esto, no veía ningún tráfico de estas IP de proxy de Google, por lo que parece ser algo relativamente nuevo. Veo todo tipo de tráfico de otras direcciones IP de Google, todas ellas solicitudes de googlebot y HEAD únicamente.
No me preocuparía esto, excepto que Google descarga todos estos archivos aproximadamente cada semana. El ancho de banda utilizado está empezando a ser excesivo.
He especulado que dado que muchos de estos archivos son ejecutables de Windows, quizás Google los esté descargando para realizar análisis de malware. Incluso si eso es cierto, ¿realmente tiene que suceder cada semana?
Tráfico de ejemplo de IP de proxy de Google en noviembre hasta ahora:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Actualización n. ° 1: Olvidé mencionar que los archivos en cuestión ya están en el archivo robots.txt del sitio. Para demandar, la configuración de robots.txt funciona correctamente, también utilicé el probador de robots.txt en las Herramientas para webmasters de Google, que muestra que los archivos están definitivamente bloqueados para todos los bots de Google, con una excepción: Adsbot-Google. No estoy seguro de qué se trata tampoco. Y busqué en Google algunos de los archivos, y NO aparecen en los resultados de búsqueda.
Actualización n. ° 2: Ejemplo: entre las 5:12 am y las 5:18 am PST del 17 de noviembre, aproximadamente media docena de IP (todos los proxy de Google) hicieron GET en todos los archivos binarios en cuestión, 27 en total. El 4 de noviembre entre las 2:09 p.m. y las 2:15 p.m. PST, esas mismas IP hicieron básicamente lo mismo.
Actualización n. ° 3: en este punto parece claro que, aunque se trata de IP de Google válidas, forman parte del servicio de proxy de Google y no del sistema de rastreo web de Google. Debido a que estas son direcciones proxy, no hay forma de determinar dónde se originan realmente las solicitudes GET, o si provienen de un lugar o de muchos. Basado en la naturaleza esporádica de los GET, no parece que esté ocurriendo algo nefasto; es probable que alguien decida descargar todos los archivos binarios mientras usa el servicio proxy de Google. Desafortunadamente, ese servicio parece estar completamente indocumentado, lo que no ayuda. Desde el punto de vista del administrador del sitio, los servidores proxy son bastante molestos. No quiero bloquearlos, porque tienen usos legítimos. Pero también pueden ser mal utilizados.
Respuestas:
Investigué un poco sobre esta pregunta y encontré algunas cosas interesantes, como:
1. ¿Es un rastreador falso? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c
Conclusión del usuario:
Sabemos que la vista previa en vivo no está descargando sus archivos, así que pasemos a la pregunta 2.
2. ¿Forma parte de los servicios de Google? -> ¿Es este proxy de Google un rastreador falso: google-proxy-66-249-81-131.google.com?
Conclusión:
Mi suposición sobre esto es la misma que la anterior. Alguien está intentando usar un servicio de Google para acceder a sus archivos, como un traductor.
Si, como usted dice, los archivos ya están siendo bloqueados por el archivo robots.txt, esto solo puede ser una solicitud manual.
EDITAR: Para abordar el OP OP ampliamente:
¿Pueden los rastreadores ignorar el archivo robots.txt? Si. Aquí hay una lista que no creo que Google haga, lo que significa que pueden ser otros bots que usan proxies de Google.
¿Puede ser un mal bot? Sí, y para eso recomiendo:
Prohibición de acceso:
Este código puede prohibir las IP o los agentes de usuario.
O use una trampa de araña, presentada aquí
Mantengo mi opinión de que esta es una solicitud manual.
fuente