¿Qué agente de usuario debo configurar?

18

Hay Ask bot, que establece este encabezado:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

Considerando esto, tengo las siguientes preguntas:

  • Si estoy escribiendo un rastreador web llamado Goofy, ¿qué agente de usuario debo usar?
  • ¿Cuál es la diferencia si pongo Mozilla/2.0o Mozilla/5.0?

Cualquier otra sugerencia sobre cómo debo formatear mi agente de usuario para cumplir con los estándares actuales es más que bienvenida.

Nicu Surdu
fuente

Respuestas:

32

Soy el diseñador principal y autor de un rastreador web de gran escala (consulte metadatalabs.com/mlbot (enlace archivado) ). Lo que está preguntando toca un tema que es muy importante para nosotros, quizás la parte más importante de ejecutar un rastreador: el de la cortesía.

Primero: la razón de lo de "Mozilla" es decirle al sitio cuáles son las capacidades de su navegador. Si su bot no está tratando de actuar como un navegador, no hay una razón particular por la que necesite incluir la cosa "Mozilla".

En cuanto a su cadena de agente de usuario y otros elementos relacionados con la cortesía:

  1. Seleccione un nombre que sepa que nadie más está usando. Sospecho que si usas "Goofybot", estarás bien. Pero lo comprobaría para estar seguro.

  2. Su cadena de agente de usuario debe incluir un enlace a más información sobre el bot. Por ejemplo, nuestra cadena dice "MLBot (www.metadatalabs.com/mlbot)".

  3. Asegúrese de que si alguien busca "Goofybot", esa página está alta (preferiblemente primero) en los resultados de búsqueda.

  4. Su página sobre el bot debe indicar para qué está usando la información, de qué direcciones IP rastrea e incluir una forma para que las personas se comuniquen con usted sobre problemas con el bot.

  5. Debe responder a cualquier pregunta o queja rápidamente, utilizando la filosofía "el cliente siempre tiene la razón". Recuerde, si su bot causó un problema del que esta persona se queja, entonces probablemente causó problemas en una docena de otros sitios de los que nadie se quejó. O no vieron los problemas o simplemente bloquearon su dirección IP.

  6. Debe construir en la instalación para evitar que su bot acceda a un nombre de dominio en particular. Algunas personas no quieren que rastree en absoluto y no tienen el acceso o la capacidad técnica para crear un archivo robots.txt o bloquear .htaccess. Descubrimos que esta capacidad nos permite decirle a alguien: "Lamentamos que MLBot haya causado un problema. Le hemos ordenado que nunca vuelva a rastrear su sitio". Quizás no sea sorprendente, eso calma a la gente muy rápidamente.

  7. Si aún no respetas el archivo robots.txt, hazlo. Nada le dará una mala reputación más rápido que ignorar robots.txt.

Guau. Eso duró más de lo que esperaba. En los últimos cuatro años, he cometido cada uno de esos errores a los que me referí anteriormente, y otros además. Sin embargo, descubrimos que si somos abiertos sobre lo que estamos haciendo y nos comunicamos honestamente (incluida la publicación de información sobre errores antes de recibir quejas), la mayoría de los webmasters nos ven como un buen ciudadano de Internet.

Jim Mischel
fuente
Ese enlace de ejemplo anterior ( metadatalabs.com/mlbot ) Solo muestra ("En construcción") ....
starbeamrainbowlabs
2
@starbeamrainbowlabs Esa respuesta fue escrita en 2010. Metadata Labs cerró en 2012.
Jim Mischel
¿Existe alguna alternativa?
starbeamrainbowlabs
@starbeamrainbowlabs alternativa a qué?
Jim Mischel
A lo que se vinculó en esa página de Metadata labs mostrada Como no puedo verlo, no puedo sugerir una alternativa: P
starbeamrainbowlabs
8

Mozilla / 2.0 y Mozilla / 5.0 son referencias al navegador Mozilla. Se ha vuelto en gran medida sin sentido, con muchos rastreadores que lo usan, pero debería decirle al sitio que trate a su rastreador como lo haría cualquier usuario aleatorio que navegue con un navegador normal.

Sin embargo, es una buena etiqueta incluir una URL que enlace a una página sobre quién es usted y por qué está rastreando en la siguiente sección. Ask Jeeves puede salirse con la suya solo con el nombre, pero debe incluir una URL.

P.ej

Mozilla/5.0 (compatible; http://example.org/)

Esto permitirá a los administradores web descubrir por qué estás rastreando su sitio y también contactarte si hay un problema con el comportamiento de tu rastreador.

Kris
fuente