¿Cómo manejan los sitios grandes (por ejemplo, Wikipedia) los bots que están detrás de otro enmascarador de IP? Por ejemplo, en mi universidad, todos buscan en Wikipedia, lo que le da una carga significativa. Pero, hasta donde yo sé, Wikipedia solo puede conocer la IP del enrutador de la universidad, así que si configuro un bot "desatado" (con solo un pequeño retraso entre las solicitudes), ¿puede Wikipedia prohibir mi bot sin prohibir toda la organización? ¿Puede un sitio realmente prohibir una IP detrás de una red organizacional?
web-crawler
usuario4052054
fuente
fuente
Respuestas:
No, prohibirán la IP pública y todos los que tengan NAT a esa IP también serán prohibidos.
Aunque al menos en la pila si creemos que vamos a prohibir una universidad o algo así, nos comunicaremos con su contacto de abuso para que rastreen al delincuente y detengan el problema.
fuente
Un sitio no puede prohibir directamente una IP que está detrás de NAT. Podría actuar sobre las IP pasadas a través de proxies HTTP sin anonimato: cuando dicho proxy reenvía una solicitud, generalmente agrega esa dirección a un encabezado X-Fordered-For, por lo que si el acceso desde su red privada realmente tiene que pasar a través de tal proxy, la IP interna podría estar expuesta; sin embargo, la mayoría de los sitios (incluida Wikipedia) no confiarían en la información de ese encabezado de todos modos porque es fácil suplantar implicaciones de IP inocentes o evadir prohibiciones.
Sin embargo, existen otras técnicas que intentan identificar de manera única a los usuarios independientemente de la dirección IP. Puede interrogar a un navegador web para obtener mucha información sobre él y el sistema en el que se está ejecutando, como el agente de usuario, la resolución de pantalla, la lista de complementos, etc. - consulte https://github.com/carlo/jquery- huella digital del navegadorpara un ejemplo de esto en la práctica. Puede usar tales huellas digitales para controlar el acceso, aunque dependiendo del diseño del sitio puede interactuar con él sin participar en el proceso de huellas digitales, e incluso si no puede un bot podría proporcionar datos espurios y aleatorios para evitar tener huella digital constante si sabe que este tipo de protección está en su lugar. Este método de control también corre el riesgo de falsos positivos, especialmente cuando se trata de dispositivos móviles donde probablemente habrá un gran número de clientes que ejecuten clientes de stock idénticos en hardware de stock idéntico (la mayoría de las personas en un modelo específico de iPhone que ejecutan una versión específica de iOS , por ejemplo, probablemente obtendría la misma huella digital).
fuente
En general, la dirección IP no es información suficiente para una prohibición correcta. Entonces, las redes avanzadas funcionan en la parte superior de la pila de red.
Un ataque de denegación de servicio (DoS) (que le preocupa crear) generalmente se maneja limitando la velocidad de la configuración inicial de la conexión TCP. Esto significa que los usuarios legítimos que están dispuestos a esperar pasarán, mientras que aquellos que solo están tratando de consumir recursos del servidor se ralentizan hasta el punto de que se vuelven inofensivos. Aquí es donde DoS luego se convirtió en un ataque DoS distribuido (DDoS).
Una vez que tenga una conexión con el servidor, puede realizar tantas solicitudes como desee, la administración del servidor web puede configurar cuántas solicitudes manejar.
El servidor web probablemente puede manejar más capacidad que su puerta de enlace de red local de todos modos, ese es probablemente el factor limitante en su caso de uso. Apuesto a que los administradores de la red de tu universidad llamarían a tu puerta antes que Wikipedia.
Es importante ser un buen ciudadano de Internet, por lo que agregaría un código de limitación de velocidad a un bot.
También debe señalarse que Wikipedia ofrece volcados de datos para que el rastreo del sitio no sea realmente necesario.
fuente