Preguntas etiquetadas con web-crawlers

11

¿Cuál es la mejor manera de excluir los bots del recuento de vistas?

Mi sitio web cuenta las visitas de visitantes en ciertas páginas. Me di cuenta de que Google y otros Bots están "haciendo clic" en mi sitio como locos y algunas de las páginas obtienen conteos de visitas poco realistas (en comparación con los producidos por humanos). Solicito las mejores prácticas...

11

¿Qué bots realmente vale la pena dejar en un sitio?

Después de haber escrito una serie de bots, y visto las enormes cantidades de bots aleatorios que rastrean un sitio, me pregunto como webmaster, ¿qué bots realmente vale la pena dejar en un sitio? Mi primer pensamiento es que permitir que los bots ingresen al sitio puede atraer tráfico real. ¿Hay...

seo web-crawlers robots.txt googlebot bingbot

10

¿Cómo funciona "Noindex:" en robots.txt?

Me encontré con este artículo en mis noticias de SEO hoy. Parece implicar que puede usar Noindex:directivas además de las Disallow:directivas estándar en robots.txt . Disallow: /page-one.html Noindex: /page-two.html Parece que evitaría que los motores de búsqueda rastreen la página uno y que no...

web-crawlers robots.txt googlebot noindex

10

¿Cómo logró Google rastrear mis 403 páginas?

Tenía un par de archivos privados en un directorio en la carpeta de mi escuela. Puede ver que los archivos existían yendo a myschool.edu/myusername/myfolder, pero al intentar acceder a los archivos a través de myschool.edu/myusername/myfolder/myfile.html, se produce un error 403. ¡Y sin embargo,...

web-crawlers security googlebot

10

Solo permita que los robots de Google y Bing rastreen un sitio

Estoy usando el siguiente archivo robots.txt para un sitio: El objetivo es permitir que googlebot y bingbot accedan al sitio excepto la página /bedven/bedrijf/*y bloqueen el rastreo de todos los demás bots. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent:...

web-crawlers robots.txt

10

¿Cómo (des) permitir correctamente el bot archive.org? ¿Cambiaron las cosas, si es así cuándo?

Tengo un sitio web que en su mayoría no quiero que los motores de búsqueda indexen, pero sí quiero conservarlo para la eternidad en archive.org. Entonces mi robots.txtcomienzo con esto: User-agent: * Disallow: / Hoy, de acuerdo con archive.org, debo agregar lo siguiente en mi robots.txtpara...

web-crawlers robots.txt internet-archive

10

Combina agentes de usuario en robots.txt

¿Pueden los agentes de usuario aparecer juntos, seguidos de sus reglas comunes como en un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask...

web-crawlers robots.txt user-agent

10

Signo más delante de las URL en los agentes de usuario

Ejecuté un pequeño rastreador web y tuve que decidir qué agente de usuario usar para él. Las listas de agentes de rastreadores y Wikipedia sugieren el siguiente formato: examplebot/1.2 (+http://www.example.com/bot.html) Sin embargo, algunos bots omiten el signo más delante de la URL. Y me...

web-crawlers http user-agent

10

Googlebot envía miles de solicitudes a nuestro localizador de mapas y utiliza la cuota de API

Tenemos una página de localización de tiendas en el sitio de nuestros clientes. El usuario final ingresa su código postal y un radio de búsqueda y mostramos los resultados en un mapa de Google. Recientemente comenzamos a notar que el sitio estaba alcanzando el límite de búsqueda de mapas gratis...

web-crawlers google-maps

9

¿Deberíamos abandonar el esquema de rastreo AJAX?

Así que ahora Google ha desaprobado el esquema de rastreo AJAX . Dicen que no se molesten en implementarlo en nuevos sitios web, porque ya no es necesario ya que Googlebot ahora no tiene problemas para ver contenido dinámico. ¿Deberíamos confiar de inmediato en esta declaración, o mejor seguir el...

seo web-crawlers googlebot ajax

9

¿Debo publicar un archivo ads.txt vacío para un sitio que no ejecuta ningún anuncio?

He visto algunos errores 404 cuando se solicita ads.txt en algunos de los sitios que administro. Supongo que la respuesta puede ser idéntica a la pregunta sobre un archivo robots.txt vacío o ningún archivo (solo evita algunos errores 404). Sin embargo, tengo dificultades para comprender los...

web-crawlers advertising

9

Tácticas para lidiar con robots que se portan mal

Tengo un sitio que, por razones regulatorias, no puede indexarse o buscarse automáticamente. Esto significa que debemos mantener alejados a todos los robots y evitar que recorran el sitio. Obviamente hemos tenido un archivo robots.txt que no permite nada desde el principio. Sin embargo, observar...

apache web-crawlers user-agent

9

Disqus hilo de migración. Gotchas?

He estado migrando un sitio a un nuevo dominio. El sitio en sí es bastante sencillo (usa Jekyll), y todo ha ido bien, excepto la migración de hilos Disqus. He tenido un éxito parcial : algunos de los hilos han migrado con éxito, pero no todos. He probado el asistente de migración de dominio (que...

web-crawlers

9

El rastreador del mapa del sitio de Ask.com está inactivo (para bien).

He estado usando Ask.comcomo uno de los motores de búsqueda para hacer ping a mi mapa del sitio. Cuando fui a hacer ping a mi mapa del sitio hoy para volver a indexarlo, el sitio web ( http://submissions.ask.com/ping ) dice que ya no existe. Hice una búsqueda de DNS submissions.ask.comy parece que...

search-engines sitemap web-crawlers ping

8

¿Qué etiqueta meta "robots" tiene preferencia?

Mi esposa trabaja en una escuela secundaria en Alemania. Hace poco noté que es extremadamente difícil encontrar la página de inicio de esa escuela usando Google. Miré el código fuente de la página y creo que he encontrado la razón: hay dos <meta name="robots">etiquetas; uno es <meta...

seo web-crawlers meta-robots

8

Denegar el acceso a Archive.is

Me gustaría negar el archive.isacceso a mi sitio web. (No quiero que este sitio web almacene el mío en caché sin mi consentimiento). ¿Sabes si es

web-crawlers noarchive

8

¿Es posible que los rastreadores web vean páginas estáticas sin seguir un enlace?

Si creo una página estática en un dominio (http://www.domain.com/page.html), ¿puede un rastreador seguir viéndolo si no hay enlaces a él en ningún lugar del

web-crawlers