Aquí está uno de mis clientes, que realiza algunas acciones después de haber iniciado sesión en su cuenta. El token único es simplemente una identificación de usuario cifrada + marca de tiempo.
94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident / 5.0) "
Ahora, Googlebot de alguna manera se enteró de este enlace único e intentó acceder a la misma URL exactamente una semana después.
66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) "
(el código de estado es 302 porque el token había expirado)
Permítanme enfatizar que esta es una URL única que fue visible exactamente una vez, durante solo 2 segundos, antes de que el usuario hiciera clic y procediera a visitar esa página. No se envió por correo electrónico ni se publicó en ningún lugar público.
¿Qué está pasando aquí? ¿Cómo es posible que Google haya encontrado esta URL única?
fuente
Me acabo de dar cuenta de que el usuario debe haber encontrado un enlace saliente en esta página autenticada, y luego filtró la URL privada como
Referer
al hacer clic en otro sitio web. Esta es la única explicación posible, y realmente debería haber sido obvia desde el principio.Una vez filtrada, la URL privada puede haber estado expuesta a Google de varias maneras, por ejemplo, el sitio de destino podría haber publicado sus registros de acceso públicamente. Nota: ninguno de los enlaces salientes usaba Google Analytics, por lo que esto no indica que Googlebot esté usando URL de referencia de Analytics.
Lección reaprendida: nunca coloque datos confidenciales en las URL a menos que use https, en cuyo caso el navegador se habría quedado
Referer
vacío.fuente