¿Cómo encuentra Googlebot las URL que solo son visibles para los usuarios autenticados?

12

Aquí está uno de mis clientes, que realiza algunas acciones después de haber iniciado sesión en su cuenta. El token único es simplemente una identificación de usuario cifrada + marca de tiempo.

94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident / 5.0) "

Ahora, Googlebot de alguna manera se enteró de este enlace único e intentó acceder a la misma URL exactamente una semana después.

66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) "

(el código de estado es 302 porque el token había expirado)


Permítanme enfatizar que esta es una URL única que fue visible exactamente una vez, durante solo 2 segundos, antes de que el usuario hiciera clic y procediera a visitar esa página. No se envió por correo electrónico ni se publicó en ningún lugar público.

¿Qué está pasando aquí? ¿Cómo es posible que Google haya encontrado esta URL única?

Martín
fuente

Respuestas:

6

Es difícil decirlo con certeza, pero aquí hay escenarios probables:

  • El usuario tiene instalada una barra de herramientas o extensión del navegador que informa las URL que visita a Google.

  • Alguien se vinculó a esa URL y Google la encontró rastreando la página con ese enlace.

John Conde
fuente
Si habla de la barra Google, solo envía URL a Google en caso de que habilite la función "PageRank", pero nunca usamos esos datos para descubrir nuevas URL. Si se trata de alguna otra barra de herramientas lanzada por nosotros, hágamelo saber por favor.
método
5

Me acabo de dar cuenta de que el usuario debe haber encontrado un enlace saliente en esta página autenticada, y luego filtró la URL privada como Refereral hacer clic en otro sitio web. Esta es la única explicación posible, y realmente debería haber sido obvia desde el principio.

Una vez filtrada, la URL privada puede haber estado expuesta a Google de varias maneras, por ejemplo, el sitio de destino podría haber publicado sus registros de acceso públicamente. Nota: ninguno de los enlaces salientes usaba Google Analytics, por lo que esto no indica que Googlebot esté usando URL de referencia de Analytics.

Lección reaprendida: nunca coloque datos confidenciales en las URL a menos que use https, en cuyo caso el navegador se habría quedado Referervacío.

Martín
fuente
1
Tienes razón: poner datos confidenciales en las URL puede ser peligroso. Siempre que pueda, debe pasar identificaciones de usuario únicas entre páginas utilizando solicitudes POST (que no envían variables como parte de la URL, como solicitudes GET), o con variables de cookie / sesión.
Nick