¿Qué bots realmente vale la pena dejar en un sitio?

11

Después de haber escrito una serie de bots, y visto las enormes cantidades de bots aleatorios que rastrean un sitio, me pregunto como webmaster, ¿qué bots realmente vale la pena dejar en un sitio?

Mi primer pensamiento es que permitir que los bots ingresen al sitio puede atraer tráfico real. ¿Hay alguna razón para permitir que los bots que no se sabe que envíen tráfico real a un sitio, y cómo detecta estos "buenos" bots?

errores
fuente
1
+1: buena pregunta; Sin embargo, es difícil responder a su pregunta porque hay muchos bots.
Zistoloen
@ Zistoloen: Sí, soy consciente de que es una pregunta difícil; de hecho, la razón por la que pregunté es porque un motor de búsqueda no importante que conozco que ha indexado miles de millones de páginas se quejaba de cómo no podían acceder a grandes cantidades de la web porque los sitios intentaban bloquear motores de búsqueda no importantes.
errores de
1
Relacionado: en.wikipedia.org/wiki/Spider_trap
Mooing Duck
@blunders Gracias por tomarse el tiempo. Lo habría editado yo mismo si hubiera podido analizar la pregunta :)
DisgruntledGoat
@DisgruntledGoat: No hay problema, ¡gracias por las ediciones!
errores

Respuestas:

11

Dentro del ámbito de los bots normales, todo depende de lo que aprecies y solo tú puedes decidir eso. Por supuesto, hay Google, Bing / MSN / Yahoo !, Baidu y Yandex. Estos son los principales motores de búsqueda. También hay varios sitios de SEO y backlinks. Bien o mal, permito que algunos de los grandes tengan acceso a mi sitio, pero en general, son sitios inútiles. Bloqueo archive.org no solo en robots.txt, sino también por nombre de dominio y dirección IP. ¡Esto se debe a que ignoran robots.txt a lo grande! Esto es algo por lo que necesita tener una idea. No se deje engañar por los nombres de los agentes. A menudo son forjados por personas malas. Hoy en día, recibo miles de solicitudes de páginas de fuentes que dicen ser Baidu, pero no lo son. Conozca estas arañas por nombres de dominio y bloques de direcciones IP y aprenda a lidiar con ellas en ese nivel. Los buenos obedecen robots.txt.

Pero debo advertirte, hay una TONELADA de bots sigilosos, bots corruptos, raspadores, etc., que querrás buscar tu análisis de registro con frecuencia y bloquear. Este 5uck5! Pero tiene que hacerse. La mayor amenaza de ellos en estos días son los enlaces de baja calidad a su sitio. Mi código de seguridad anti-bot actualizado que implementé este año ha eliminado 7700 enlaces de baja calidad automáticamente. Por supuesto, mi código todavía necesita trabajo, pero entiendes el punto. Los robots malos aún roban el potencial del sitio.

No pasará mucho tiempo antes de que te acostumbres.

closetnoc
fuente
1

Tuve problemas con los robots de Baidu que ralentizaron mi servidor mientras el motor de búsqueda casi no enviaba tráfico. Estos bots no respetan el archivo robots.txt, por lo que para bloquear los bots de Baidu simplemente pegue lo siguiente en su archivo htccess.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

También he tenido problemas con las arañas Bing / Microsoft que se arrastran demasiado rápido, a diferencia de Baidu, respetan el archivo robots.txt;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Chaoley
fuente