¿Qué robots y arañas debo bloquear en robots.txt?

14

A fin de que:

  1. Aumentar la seguridad de mi sitio web
  2. Reduce los requisitos de ancho de banda
  3. Prevenir la recolección de direcciones de correo electrónico
DaveC
fuente

Respuestas:

17

Ningún bot que esté recolectando correos electrónicos o probando vulnerabilidades en su sitio respetará su robots.txt. De hecho, estos robots maliciosos miran el archivo robots.txt para mapear mejor su sitio. Si tiene algún punto, Disallow:esto se utilizará para atacar mejor su sitio. Un pirata informático que está buscando manualmente en su sitio debería pasar más tiempo examinando los archivos / directorios que está intentando no permitir.

Torre
fuente
3
Punto interesante Me pregunto si tiene sentido agregar una página falsa a la lista Disallow cuyo único propósito es atrapar a tales robots en el acto para que puedan ser bloqueados automáticamente.
Steven Sudit
55
@ Steven Sudit eso no es una mala idea. Esto se llamaría un tarro de miel.
Torre de
Sí, eso es exactamente correcto, aunque estaba pensando más en el truco estándar de los compiladores de directorios (guías telefónicas, etc.) de agregar una pequeña cantidad de entradas falsas para detectar el robo al por mayor.
Steven Sudit
Si también usa ese honeypot como tarpit, también alterará los indexadores ilegítimos. Esto es bastante común para los spammers: dejar una dirección de correo electrónico indexable honeypot que conduzca a un servidor de correo electrónico tarpit.
Mark Henderson
@Farseeker No veo ningún problema para castigar a los que rompen las reglas. Aunque engañar a los spammers con datos incorrectos es un giro interesante.
Torre de
4

robots.txt no aumentará la seguridad de su sitio web ni evitará la recolección de direcciones de correo electrónico. robots.txt es una guía para que los motores de búsqueda omitan secciones de su sitio web. Estos no se indexarán y deben usarse para cualquier sección que no desee mostrar en los motores de búsqueda públicos.

Sin embargo, esto de ninguna manera evitará que otros robots descarguen todo su sitio para aumentar la seguridad o evitar la recolección de correo electrónico. Para aumentar la seguridad, debe agregar autenticación y solo permitir usuarios autenticados más allá de las secciones seguras. Para evitar la recolección de direcciones de correo electrónico, no coloque correos electrónicos en texto sin formato (o texto fácilmente descifrable) en un sitio web.

Sam
fuente
1

robots.txt no lo ayudará con la seguridad. Cualquier bot que quiera hacer algo sospechoso lo ignorará de todos modos.

Rayo
fuente
0

El archivo robots.txt solo sirve como una solicitud para que los robots y las arañas dejen en paz ciertas piezas de contenido; en realidad no puede impedir su acceso. Los bots "buenos" lo respetarán, pero los "malos" (probablemente los que desea bloquear) lo ignorarán y continuarán de todos modos.

Derekerdmann
fuente
-1

En lugar de robots.txt, tal vez necesite usar códigos CAPTCHA.

Steven Sudit
fuente
Los códigos CAPTCHA no tienen nada que ver con los rastreadores web (que es lo que las direcciones robots.txt).
user48838
Ese fue un voto negativo erróneo. El punto es que un rastreador puede ignorar robots.txt, pero los códigos CAPTCHA al menos lo ralentizarán, si no lo bloquean por completo. Gracias por estar equivocado
Steven Sudit