Preguntas etiquetadas con web-crawlers

Un programa de computadora que accede a páginas web para diversos fines (para raspar contenido, proporcionar a los motores de búsqueda información sobre su sitio, etc.)

18
¿Qué agente de usuario debo configurar?

Hay Ask bot, que establece este encabezado: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Considerando esto, tengo las siguientes preguntas: Si estoy escribiendo un rastreador web llamado Goofy, ¿qué agente de usuario debo usar? ¿Cuál es la diferencia si pongo Mozilla/2.0o...

16
SEO: sitio web receptivo y menús duplicados

Cada vez que creo un sitio web receptivo, generalmente creo 2 menús: 1 oculto y utilizado para dispositivos móviles y el otro como el menú principal, luego oculto para mostrar el menú móvil. Siempre que se trata de SEO y arañas que navegan por el sitio web, ¿me critican por tener menús duplicados?...

15
Cómo bloquear las arañas baidu

La mayoría de mis visitas son de arañas baidu. No creo que ayude en absoluto a los motores de búsqueda, así que estoy pensando en cómo bloquearlos. ¿Podría hacerse esto a través de iptables? Estoy usando nginx como mi servidor

12
¿Por qué Baidu rastrea mi sitio como loco?

Cuando reviso mi registro de Apache, puedo ver que Baidu ha estado rastreando mi sitio web 10 veces al día durante las últimas 2 semanas. No es que me importe mucho, pero tengo mucha curiosidad acerca de por qué está haciendo esto. Es un sitio web realmente pequeño de una sola página con pocos...

12
¿Debo bloquear los bots de mi sitio y por qué?

Mis registros están llenos de visitantes de bots, a menudo de Europa del Este y China. Los bots se identifican como Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou, etc. ¿Debo bloquear estos bots de mi sitio y por qué? ¿Cuáles tienen un propósito legítimo en aumentar el tráfico a mi sitio? Muchos...

12
Estado de Ajax rastreable?

¡Vi que Google tenía una buena propuesta / estándar para hacer que las aplicaciones de Ajax sean rastreables, a través de #! (hash bang) http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Mis preguntas son: ¿Están actualmente utilizando esta "propuesta"...