¿Cómo detectan los sitios los bots detrás de servidores proxy o redes de la empresa?

¿Cómo manejan los sitios grandes (por ejemplo, Wikipedia) los bots que están detrás de otro enmascarador de IP? Por ejemplo, en mi universidad, todos buscan en Wikipedia, lo que le da una carga significativa. Pero, hasta donde yo sé, Wikipedia solo puede conocer la IP del enrutador de la universidad, así que si configuro un bot "desatado" (con solo un pequeño retraso entre las solicitudes), ¿puede Wikipedia prohibir mi bot sin prohibir toda la organización? ¿Puede un sitio realmente prohibir una IP detrás de una red organizacional?

web-crawler usuario4052054
fuente

El día que Wikipedia prohibió Qatar .

isanae

@isanae relacionadas: superuser.com/q/1013630/326546

kasperd

Mejor hacer que su bot sea indistinguible de los usuarios legítimos

Hagen von Eitzen

Respuestas:

No, prohibirán la IP pública y todos los que tengan NAT a esa IP también serán prohibidos.

Aunque al menos en la pila si creemos que vamos a prohibir una universidad o algo así, nos comunicaremos con su contacto de abuso para que rastreen al delincuente y detengan el problema.

Zypher
fuente

Lo que dijo Zypher. Hablando como alguien que solía rastrear las quejas enviadas a [email protected], generalmente estábamos ansiosos por encontrar a la persona responsable para que desbloquearan la IP pública. (A los estudiantes universitarios les encanta compartir música entre pares. A RIAA le encanta ponerse en contacto con [email protected] al respecto).

Katherine Villyard

... a menos que haya algo identificable de forma exclusiva sobre su bot, como pasar un token de acceso o una identificación de navegador única.

simpleuser

Esto no responde la pregunta del título real de cómo estos sitios detectan bots. De hecho, parece que si ralentizas tu bot lo suficiente (lo cual no sería mucho), de hecho sería indistinguible del uso válido por un montón de estudiantes universitarios.

Comodín el

Para extender el comentario de @ KatherineVillyard. Supervisar formalmente la red de una institución si nadie nos contacta antes del bloqueo, y si el recurso del que nos bloqueamos se usó regularmente, nos pondríamos en contacto con ellos para corregir el problema. Por lo general, estaban dispuestos a desbloquearnos si resolviéramos esto desde nuestro extremo. Esto significaba buscar la fuente del abuso. Siendo Wikipedia, incluso si no se comunican con su institución, es probable que su institución lo investigue una vez que se den cuenta de que han sido incluidos en la lista negra. Esa prohibición aparentemente inofensiva puede convertirse rápidamente en una expulsión.

Bacon Brad

@Wildcard FWIW la mayoría de los lugares no le dirán cómo detectan los bots simplemente porque eso solo hará que los autores de bots que están atrapando cambien las cosas. Dicho esto, hay muchas otras señales además de la velocidad de las solicitudes para detectar bots. Pero a la mayoría de los lugares no les importará mucho si estás jugando bien, sin hacer algo de mierda o agotar los recursos. Simplemente no vale la pena perseguir a cada pequeño bot que hay.

Zypher

Un sitio no puede prohibir directamente una IP que está detrás de NAT. Podría actuar sobre las IP pasadas a través de proxies HTTP sin anonimato: cuando dicho proxy reenvía una solicitud, generalmente agrega esa dirección a un encabezado X-Fordered-For, por lo que si el acceso desde su red privada realmente tiene que pasar a través de tal proxy, la IP interna podría estar expuesta; sin embargo, la mayoría de los sitios (incluida Wikipedia) no confiarían en la información de ese encabezado de todos modos porque es fácil suplantar implicaciones de IP inocentes o evadir prohibiciones.

Sin embargo, existen otras técnicas que intentan identificar de manera única a los usuarios independientemente de la dirección IP. Puede interrogar a un navegador web para obtener mucha información sobre él y el sistema en el que se está ejecutando, como el agente de usuario, la resolución de pantalla, la lista de complementos, etc. - consulte https://github.com/carlo/jquery- huella digital del navegadorpara un ejemplo de esto en la práctica. Puede usar tales huellas digitales para controlar el acceso, aunque dependiendo del diseño del sitio puede interactuar con él sin participar en el proceso de huellas digitales, e incluso si no puede un bot podría proporcionar datos espurios y aleatorios para evitar tener huella digital constante si sabe que este tipo de protección está en su lugar. Este método de control también corre el riesgo de falsos positivos, especialmente cuando se trata de dispositivos móviles donde probablemente habrá un gran número de clientes que ejecuten clientes de stock idénticos en hardware de stock idéntico (la mayoría de las personas en un modelo específico de iPhone que ejecutan una versión específica de iOS , por ejemplo, probablemente obtendría la misma huella digital).

Carcer
fuente

No es nada improbable; muchas universidades, y al menos un país entero, conectan la web proxy y agregan X-Forward-For.

Michael Hampton

Interesante. Personalmente, me sorprendería que una empresa configurara sus servidores proxy web para hacerlo, ya que expone cierta información (ciertamente trivial) sobre su red interna, pero supongo que depende de la organización.

Carcer

@Carcer, no tiene que ser la dirección IP interna real, solo algo que sea coherente para cada usuario del proxy.

Ian Ringrose

En general, la dirección IP no es información suficiente para una prohibición correcta. Entonces, las redes avanzadas funcionan en la parte superior de la pila de red.

Un ataque de denegación de servicio (DoS) (que le preocupa crear) generalmente se maneja limitando la velocidad de la configuración inicial de la conexión TCP. Esto significa que los usuarios legítimos que están dispuestos a esperar pasarán, mientras que aquellos que solo están tratando de consumir recursos del servidor se ralentizan hasta el punto de que se vuelven inofensivos. Aquí es donde DoS luego se convirtió en un ataque DoS distribuido (DDoS).

Una vez que tenga una conexión con el servidor, puede realizar tantas solicitudes como desee, la administración del servidor web puede configurar cuántas solicitudes manejar.

El servidor web probablemente puede manejar más capacidad que su puerta de enlace de red local de todos modos, ese es probablemente el factor limitante en su caso de uso. Apuesto a que los administradores de la red de tu universidad llamarían a tu puerta antes que Wikipedia.

Es importante ser un buen ciudadano de Internet, por lo que agregaría un código de limitación de velocidad a un bot.

También debe señalarse que Wikipedia ofrece volcados de datos para que el rastreo del sitio no sea realmente necesario.

Phil Hannent
fuente