¿Es posible reducir la frecuencia de rastreo de Baiduspider?

18

Mucho se ha hecho de la frecuencia de arrastre de la araña Baidu. Es cierto: "Baiduspider se arrastra como un loco".

He experimentado este fenómeno en los sitios con los que trabajo. En al menos una instancia, descubrí que Baiduspider se arrastra a aproximadamente la misma frecuencia que Googlebot, a pesar de que Baidu ofrece aproximadamente un 0,1% de tráfico como Google.

Me gustaría mantener esas visitas en mi sitio, tan pocas como son (¿tal vez algún día crecerán?), Pero no puedo justificar permitir una carga tan pesada en mi servidor.

La respuesta aceptada a la pregunta vinculada anteriormente sugiere que Baidu Webmaster Tools ofrece la oportunidad de limitar la frecuencia de rastreo, pero dudo en abrir esa lata de gusanos (solo para chinos).

¿Alguien tiene alguna experiencia que limite la frecuencia de rastreo de Baiduspider con BWT? ¿Hay otra forma de limitar esta carga?

samthebrand
fuente

Respuestas:

11

Gran pregunta, y muchos webmasters podrían estar interesados ​​ya que la araña Baidu es notoriamente agresiva y puede eliminar recursos de los servidores ...

Como se indica en las noticias de Búsqueda web de Baidu, la araña Baidu no admite la configuración de notificación de retraso de rastreo , y en su lugar requiere que se registre y verifique su sitio con su plataforma Baidu Webmaster Tools, como se indica aquí en su sitio. Esta parece ser la única opción para controlar la frecuencia de rastreo directamente con Baidu.

El problema es que otros robots de spam utilizan los agentes de usuario de Baidu (enumerados aquí en el número 2) para explorar su sitio, como se indica en sus Preguntas frecuentes aquí en el número 4. Por lo tanto, solicitar una tasa de rastreo más lenta con Baidu puede no resolver todo.

Por lo tanto, si decide usar las Herramientas para webmasters de Baidu, sería aconsejable comparar también sus agentes de usuario con las IP que se sabe que están asociadas a ellos mediante el uso de un recurso como la Base de datos Bots vs Browsers , o mediante una búsqueda inversa de DNS

Las únicas otras opciones son bloquear todos los agentes de usuario de Baidu y, por lo tanto, sacrificar el tráfico potencial de Baidu, o intentar limitar las solicitudes excesivas utilizando algo como mod_qos para Apache, que afirma administrar:

  • El número máximo de solicitudes simultáneas a una ubicación / recurso (URL) o host virtual.
  • Limitación del ancho de banda, como el número máximo permitido de solicitudes por segundo a una URL o el máximo / mínimo de kbytes descargados por segundo.
  • Limita el número de eventos de solicitud por segundo (condiciones de solicitud especiales).
  • También puede "detectar" personas muy importantes (VIP) que pueden acceder al servidor web sin o con menos restricciones.
  • Línea de solicitud genérica y filtro de encabezado para denegar operaciones no autorizadas. Limitación y filtrado de datos del cuerpo de la solicitud (requiere mod_parp).
  • Limitaciones en el nivel de conexión TCP, por ejemplo, el número máximo de conexiones permitidas desde una única dirección de origen IP o control dinámico de mantenimiento de vida.
  • Prefiere las direcciones IP conocidas cuando el servidor se queda sin conexiones TCP libres.

No he encontrado experiencias reportadas con Baidu Webmaster Tools, que es lenta de cargar y tiene problemas de traducción (tampoco hay versión en inglés). Eso podría ser útil, pero basado en opiniones, por supuesto.

dan
fuente
1
Esto es realmente útil @Dan. Probar algunas de estas soluciones (Baidu Webmaster Tools es un verdadero dolor). Informaré de nuevo.
samthebrand
1
¡Gracias! Genial: actualizaré esto si encuentro otras opciones también. Esta pregunta refleja la gran cantidad de frustraciones de los webmasters con bots agresivos, y las preocupaciones de interactuar con ellos (por ejemplo, Baidu Webmaster Tools). Esperemos que los bots legítimos tengan esto en cuenta, y mejores herramientas / opciones estarán disponibles.
dan
@samthebrand y dan - ¡por favor repórtate! ¿Has encontrado alguna otra solución que puedas recomendar?
lazysoundsystem
5

Después de mucha investigación y experimentación con esto, finalmente mordí la bala y configuré una cuenta de Baidu Webmaster Tools. Es bastante fácil de usar cuando está armado con Google Translate en otra ventana. Es posible que deba activar Firebug para poder copiar y pegar texto en chino desde botones que no puede capturar desde el modo de navegador normal.

Después de configurar, debe esperar unos días para que aparezcan los datos de rastreo y luego puede personalizar la frecuencia de rastreo. Aparece en una sección llamada "Presión" a la que debería poder acceder con esta URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Tenga en cuenta que solo podrá usar esta URL si tiene una configuración de cuenta de Baidu Webmaster Tools y ha asociado la URL de su sitio web con su cuenta para el sitio web en cuestión). Aquí verá un control deslizante con su frecuencia de rastreo actual en el centro (en mi caso, 12676 solicitudes por día. Deslícelo hacia la izquierda para reducir la frecuencia de rastreo.

Todavía no tengo idea si realmente respeta su solicitud. Te da una advertencia que dice algo como esto. "Recomendamos que utilice la frecuencia de rastreo de Baidu predeterminada del sitio. Solo si su sitio web tiene problemas con nuestro rastreo, utilice esta herramienta para ajustarlo. Para mantener el rastreo normal de su sitio, Baidu tendrá en cuenta su ajuste de la tasa de rastreo con condiciones del sitio y, por lo tanto, no podemos garantizarle el ajuste de acuerdo con su solicitud ".

usuario35703
fuente
1
Estoy seguro de que no soy el único que agradecería una actualización sobre esto: ¿respeta la solicitud? ¿Recomendaría crear una cuenta?
lazysoundsystem
Acabo de actualizar la URL directa a la página de ajuste de frecuencia de rastreo, ya que ahora está más profundamente enterrada en las Herramientas para webmasters (ya no está en el menú). El traductor de Google hace que sea muy difícil de encontrar debido a traducciones confusas ;-)
odony
-1

Sí, puede usar el Crawl-delayparámetro en robots.txt para establecer el número de segundos de espera entre solicitudes sucesivas al mismo servidor.

User-agent: Baiduspider
Crawl-delay: 100

La primera línea es decirle al rastreador web Baidu que cumpla con el comando. La segunda línea es el tiempo de espera en segundos entre solicitudes al servidor. Puede agregar cualquier retraso de tiempo que desee para sus necesidades.

Deberá agregar estos comandos a su archivo robots.txt existente . Si aún no tiene un archivo robots.txt , agregue el código anterior a un archivo de texto, guarde el archivo como robots.txt y cárguelo en la carpeta raíz de su sitio web, para que aparezca en la siguiente dirección:

www.examplesite.com/robots.txt
Max
fuente
2
Baiduspider no es compatible con Crawl-Delay. Ver aquí .
samthebrand
¡Vaya, lo había visto en el archivo robots.txt de algunos sitios, así que supuse que sí! ¡¿Cómo decía el refrán?!
Max