Interpretación de agente de usuario vacío

12

¿Cómo debo interpretar un agente de usuario vacío? Tengo un código de análisis personalizado y ese código tiene que analizar solo el tráfico humano. Tengo una lista de trabajo de agentes de usuario que denotan tráfico humano y tráfico de bot, pero el agente de usuario vacío está demostrando ser problemático. Y obtengo mucho tráfico con el User-agent vacío, alrededor del 10%.

Además, he creado la lista de agentes de usuario de tráfico humano versus tráfico de bot analizando mis registros actuales. Como tal, podría estar perdiendo muchas entradas allí. ¿Existe una lista bien mantenida de agentes de usuario que denotan tráfico de bot o, al contrario, una lista de agentes de usuario que denotan tráfico de personas?

Amit Agrawal
fuente
1
La lista de posibles agentes de usuario es increíblemente larga. Por ejemplo, mire la lista de agentes de usuario solo para dispositivos móviles aquí: zytrax.com/tech/web/mobile_ids.html
Max Vernon
El agente de usuario en blanco es bastante raro: ¿qué software de servidor está utilizando? ¿Cómo está obteniendo el agente de usuario? ¿Está seguro de que realmente está en blanco, o hay algún error en su sistema de recopilación que está creando agentes de usuario en blanco?
Max Vernon
@Max: estoy sorprendido por el agente de usuario vacío. Estoy usando la pila LAMP. Recopilo el agente de usuario a través de PHP como $ _SERVER ['HTTP_USER_AGENT']. El código es simple; aunque no puedo descartar por completo la posibilidad de que el agente de usuario esté allí, pero mi código no puede recopilarlo o la base de datos se niega a almacenarlo, dudo que sea el caso.
1
Si tiene acceso a los registros de acceso de Apache: ¿también están vacíos los agentes de usuario registrados?
¿Quizás tienes un rascador accediendo a tu sitio? Esa podría ser una forma en que los visitantes parecen no tener USER_AGENT
Max Vernon

Respuestas:

5

Si desea analizar solo el "tráfico humano", no contaría los que tengan una cadena de agente de usuario vacía o faltante. En mi experiencia, casi cualquier navegador siempre enviará uno. Incluso la mayoría de los complementos o extensiones de privacidad son más bien falsos (incluir otro sistema operativo o nombre del cliente) o "normalizar" (por ejemplo, sin números de versión) o aleatorizar (por ejemplo, a veces FF, a veces cadenas de IE) las cadenas UA, pero no eliminarlas por completo (ya que esto podría causar problemas con algunos sitios que dependen de él, incluso si no es una buena idea).

Una solicitud simple sin UA se puede hacer así:

wget --user-agent="" www.example.com

Como puede ver, puede agregar lo que quiera. Los sitios que almacenan y publican UA que se encuentran "en la naturaleza" no son de gran utilidad ya que encuentran mucha basura.

Tal vez alguien solo recursivamente va a buscar tu contenido. O usó alguna herramienta de SEO para analizar su sitio (algunos permiten a los usuarios cambiar manualmente el encabezado, otros con la intención de ignorar una línea robots.txt). Ese tipo de cosas. En esas situaciones, el encabezado UA a menudo se falsifica para ocultar el cliente y el propósito.

Si estas solicitudes se mantienen constantemente, podría ser útil analizar más a fondo los encabezados (¿Proxies?) O las IP (¿Un cierto bloque? ¿La empresa / Proxy preocupada por la privacidad?)

initall
fuente
2

Trabajo para una empresa de seguridad y, entre otras cosas, monitoreamos el tráfico de Bad Bot.

Según mi experiencia, las visitas de humanos con datos de agente de usuario en blanco indican intentos de raspado / spam (generalmente raspado) realizados por bots de "navegador sin cabeza".

Estos visitantes a veces pueden ejecutar JS, por lo que aparecerán en GA; aún así, esta dosis no los hace humanos :)

Pida disculpas por el "enchufe", pero tenga en cuenta que, si es necesario, ofrecemos servicios de protección gratuitos de Bad Bot, junto con la aceleración de CDN y otros beneficios.

En este caso específico, nuestro sistema reconocería esta visita como "sospechosa", la verificó contra los vectores de ataque conocidos y, si aún no está seguro, realizó más pruebas y desafíos. Estos desafíos se realizan sin problemas, sin causar ningún retraso en la sesión.

Igal Zeifman
fuente
0

Cada bit de software que accede a Internet no tiene un agente de usuario mágicamente. Los desarrolladores de software tienen que programar esa funcionalidad en su software. Su agente de usuario en blanco solo significa que un desarrollador de software olvidó agregar un agente de usuario a su software.


fuente
O que un usuario del navegador eliminó / bloqueó la cadena UA.
hasta el
55
Esto está mal. Decir que "solo significa" implica que generalmente es o al menos a menudo la razón. Pocas personas usan software http cuyo desarrollador habría omitido la UA por pereza. En todo caso, casi siempre indica que la fuente de tráfico no quería ser identificada, y está profundamente asociada con el tráfico malicioso o de explotación. Desafortunadamente, algunas grandes empresas (Facebook) han utilizado cadenas de agente de usuario vacías en el pasado, por lo que no es necesariamente inteligente bloquearlas por completo.
jerclarke
1
@jeremyclarke +1 ¡Este tipo de comportamiento nunca debe pasarse por alto! ¡Y vergüenza en Facebook! Si un bot o navegador legítimo necesita mirar un sitio, siempre debe tener un identificador. Después de todo, están entrando en la propiedad de otra persona. No tener un agente de usuario es como un ladrón que se cuela con una máscara para ocultar su identidad.
barba blanca
2
Es como si alguien con la cara cubierta caminara de un lado a otro por el sidwalk frente a su casa. No necesariamente es ilegal, pero si no abres la puerta, no deberían asumir que eres un loco paranoico.
jerclarke
0

Veo algunos comentarios en las respuestas a esta pregunta que comparan al Agente de usuario para ocultar su identidad o ser humano. Esta es una comparación absurda. User-Agent no tiene nada que ver con la identidad o ser humano.

Piensa en ello como el calzado. Estás preguntando a tus visitantes qué tipo de calzado usan antes de dejarlos entrar. Los usos más comunes de esto es saber qué tipo de alfombra necesitas desplegar, la linda alfombra roja para zapatos de vestir limpios, el tapete feo para barro. botas, y sin alfombra para los visitantes que son alfombras alérgicas.

Cuando los visitantes no quieren decir qué calzado tienen (también conocido como Agente de usuario vacío), los ignora.

Sí, hay muchas buenas prácticas que intentan asumir cosas sobre la solicitud web en función del User-Agent y otra información del encabezado de la solicitud. Pueden funcionar muy bien el 99% del tiempo, pero al igual que con tantas otras prácticas similares, son propensos a falsos positivos y, por lo tanto, dañan a los usuarios ignorantes normales.

Habiendo tenido el problema de usar accidentalmente un User-Agent vacío, definitivamente puedo decir que no es divertido cuando un servicio web lo trata de manera diferente solo porque no pensó en contarle sobre su calzado.

Deantwo
fuente