¿Por qué Baidu rastrea mi sitio como loco?

12

Cuando reviso mi registro de Apache, puedo ver que Baidu ha estado rastreando mi sitio web 10 veces al día durante las últimas 2 semanas.

No es que me importe mucho, pero tengo mucha curiosidad acerca de por qué está haciendo esto. Es un sitio web realmente pequeño de una sola página con pocos enlaces entrantes.

¿Hay alguna razón detrás de eso?

220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)"
123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [10/Mar/2012:12:25:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.111 [10/Mar/2012:13:33:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:13:34:03 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:14:12:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [10/Mar/2012:14:23:41 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:14:23:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.94 [10/Mar/2012:15:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.183 [10/Mar/2012:15:26:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.92 [10/Mar/2012:17:45:55 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.71 [10/Mar/2012:17:45:57 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.79 [10/Mar/2012:17:46:04 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.103 [10/Mar/2012:17:47:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.179 [10/Mar/2012:17:48:37 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.108 [10/Mar/2012:18:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.185 [10/Mar/2012:18:38:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.96 [10/Mar/2012:19:25:50 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:19:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.101 [10/Mar/2012:20:25:51 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:20:26:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [10/Mar/2012:21:33:38 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [10/Mar/2012:21:34:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.170 [10/Mar/2012:21:57:39 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.98 [10/Mar/2012:22:26:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [10/Mar/2012:22:26:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.104 [10/Mar/2012:23:34:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:23:34:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.110 [11/Mar/2012:00:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:00:34:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.103 [11/Mar/2012:02:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.177 [11/Mar/2012:02:37:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:03:34:30 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [11/Mar/2012:03:35:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [11/Mar/2012:04:35:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [11/Mar/2012:04:36:16 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.115 [11/Mar/2012:05:34:31 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:05:35:12 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:06:24:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.181 [11/Mar/2012:06:24:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.112 [11/Mar/2012:07:40:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:07:41:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.95 [11/Mar/2012:08:29:42 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [11/Mar/2012:08:30:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [11/Mar/2012:09:35:23 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:09:36:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.106 [11/Mar/2012:10:39:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.165 [11/Mar/2012:10:40:11 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [11/Mar/2012:11:23:57 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
yokoloko
fuente
¿Recibe algún tráfico orgánico de Baidu.com? Si no, bloquearía la araña si está consumiendo tu ancho de banda así.
Anagio
No estoy seguro de lo que quieres decir con tráfico orgánico, pero si te refieres a los usuarios que usan el motor de búsqueda Baidu, la respuesta es no, no lo hago. No toma mucho ancho de banda o recursos. Es solo que tengo curiosidad de por qué Baidu lo está rastreando tanto.
yokoloko
1
Sí, eso es lo que quiero decir. Si no está ocupando mucho ancho de banda, no me preocuparía a menos que continúe. Siempre puedes enviarles un correo electrónico. "Si encuentra algún acceso irrazonable de Baiduspider, infórmenos a [email protected]"
Anagio
1
Solo bloquearía una araña de motor de búsqueda si nunca desea recibir tráfico de búsqueda de ellos, no solo porque actualmente no recibe ninguno, especialmente teniendo en cuenta que Baidu es el tercer motor de búsqueda más grande del mundo en términos de mercado compartir.
Lèse majesté
3
Baidu es muy agresivo hasta que obtiene suficiente de su sitio indexado. Hay raspadores que dicen ser Baidu, yo uso botsvsbrowsers.com para identificarlos y prohibirlos cuando las cosas se salgan de control. Yandex también puede generar el mismo tipo de tráfico.
Fiasco Labs

Respuestas:

7

No parece algo por lo que deba preocuparse demasiado, google rastrea algunos de mis sitios de manera similar, pero podría ser un bot falso, así que consulte los enlaces a continuación ...

Las preguntas frecuentes de Baidu Spider (traducción integrada de Chrome) tienen esto que decir:

4. ¿Por qué Baiduspider rastrea mi sitio continuamente? Para garantizar que se presente la información más reciente, Baiduspider rastrea nuevas páginas o páginas que se renuevan con frecuencia en su sitio. Verifique el registro para ver si el rastreo desde Baiduspider es razonable.

Para evitar el rastreo excesivo de spammers u otros creadores de problemas que pretenden ser Baiduspider, puede verificar el registro. Cuando encuentre un rastreo anormal, infórmenos en [email protected] y proporcione el registro de Baiduspider.

Baidu ofrece su propia versión de las herramientas para webmasters (se necesitará la función de traducción de Chrome al acceder a las herramientas), tal vez registrarse para obtener algunas respuestas. Google WMT ofrece una capacidad limitada para administrar la frecuencia de rastreo, tal vez su herramienta ofrece una funcionalidad similar.

toomanyairmiles
fuente