Proporción estándar de cookies a "visitantes"?

31

Como se señaló en una publicación de blog reciente , vemos una gran discrepancia entre los "visitantes" de Google Analytics y los "visitantes" de Quantcast.

Además, por razones que nunca hemos descubierto, Google Analytics solo obtiene números más grandes que Quantcast. En este momento, GA muestra más visitantes (15 millones) solo en stackoverflow.com de lo que Quantcast ve en toda la red (14 millones):

¿Por qué? No lo sé. O Google Analytics pierde cookies a veces, o Quantcast echa de menos a los visitantes. Contar es una ciencia inexacta.

Creemos que esto se debe a que Quantcast usa una proporción más conservadora de cookies a visitantes . Mientras que Google Analytics podría considerar cada cookie como un "visitante", Quantcast solo considerará que cada 1,24 cookies sea un "visitante". Esto tiene sentido para mí, ya que las personas pueden acceder a nuestros sitios desde múltiples computadoras, múltiples navegadores, etc.

Tengo dos preguntas estrechamente relacionadas:

  1. ¿Existe una proporción estándar aceptada de cookies para los visitantes? Obviamente, esta es una ciencia inexacta, pero ¿hay alguna regla general emergente?

  2. ¿Hay alguna forma más precisa de contar "visitantes" a un sitio web que no sea confiar en las cookies del navegador? ¿O esto siempre va a ser una especie de crapshoot de estimación de mejor esfuerzo sin importar cómo lo midas?

Jeff Atwood
fuente
Quantcast definitivamente usa cookies, ¿verdad? ¿No solo usan la dirección IP o algo así?
DisgruntledGoat
@disgruntledgoat acabo de revisar el sitio web: "Quantcast proporciona datos de audiencia tanto para el recuento único de cookies como para las personas".
Matthew Brookes el
@DisgruntledGoat revisa esta misma página. Tiene cookies de quantserve.com.
Yahel

Respuestas:

14

Quantcast me envió un correo electrónico:

Usted mencionó que había un delta bastante sustancial entre sus números de GA y sus números de control de calidad. Si bien esto no sucede a menudo, sucede y hay varias razones por las que esto puede ocurrir. Por ejemplo, tenemos en cuenta las cookies de terceros y las actualizaciones automáticas y GA no. También pedimos a los editores que coloquen nuestra etiqueta cerca de la parte inferior de la página para cumplir con los estándares MRC e IAB. Si sus otras etiquetas de medición están más arriba en la página, podrían dispararse cuando Quantcast no lo haga. (Somos el único servicio de medición de tráfico acreditado por MRC). Además, los números nunca serán exactamente los mismos debido a consideraciones de zona horaria: utilizamos una función de normalización y GA's es fijo.

Si desea obtener más información sobre cómo determinamos nuestros números, consulte: http://www.quantcast.com/how-we-do-it . También tenemos documentos sobre nuestros datos de audiencia con corrección de cookies y nuestra metodología ubicada aquí.

Al leer los libros blancos, veo que en realidad están haciendo lo que Jeff sugiere: falsificar los números "oficiales" para obtener algo que creen que está más cerca del verdadero número de personas. Tienen un Libro Blanco de la audiencia de cookies corregidas (enlace PDF) que implica que su sistema es bastante elaborado, no tan simple como simplemente dividirlo por un número mágico:

El programa Quantcast Quantified Publisher captura más de 75 mil millones de eventos de consumo de medios cada mes, generados por más de 1.4 mil millones de cookies (datos a junio de 2008). Además, muchos de nuestros socios de editores cuantificados comparten identificadores anónimos con nosotros que son independientes de las cookies. Nuestro modelo también incluye varios paneles que proporcionan puntos de referencia y calibración basados ​​en personas que están libres de eliminación de cookies. Triangulamos esta masa de datos con diferentes procesos de recopilación, sesgos y problemas. Nuestros modelos tienen en cuenta la frecuencia de visitas, los períodos de tiempo, la probabilidad de uso múltiple de la computadora e incluso el impacto de que varias personas usen la misma computadora para entregar estimaciones basadas en personas. Nuestro modelo para traducir cookies únicas a personas ha sido validado utilizando muestras de reserva y conjuntos de datos independientes. Además, nuestro modelo es dinámico y recalibrado de forma continua para reflejar la naturaleza cambiante de los patrones de tráfico de Internet.

Joel Spolsky
fuente
2
Interesante. El último extracto es más informativo (y persuasivo) que el primero. GA no necesita tener en cuenta las cookies de terceros, ya que utiliza cookies de origen. Sí, las diferencias de zona horaria alterarán los números precisos, pero durante períodos de un mes, es extremadamente improbable que representen diferencias de medición significativas.
Yahel
27

Hay otro factor en juego con el conteo insuficiente de Quantcast: usan cookies de terceros (cookies servidas desde el .quantserve.comdominio), mientras que Google Analytics usa cookies de terceros ( stackexchange.com, etc.)

Esto es bastante crucial, ya que algunos navegadores (particularmente Safari, pero más recientemente Firefox y Chrome) deshabilitan las cookies de terceros como la configuración predeterminada, y muchos otros pueden elegir individualmente la configuración de privacidad que prohíbe las cookies de terceros. Esto significa que hay un subconjunto de la población que nunca será rastreado por las cookies de QuantCast. Inherentemente, eso significa que Google Analytics siempre devolverá un mayor número de visitantes.

Yo diría que no hay una regla general. Como practicante de análisis, diría que la búsqueda de un "verdadero" recuento de visitantes es inútil y, en cambio, me enfoco en las visitas mismas. Por ejemplo, en su cuenta de Google Analytics, tengo al menos 8 visitantes diferentes, habiendo accedido a StackOverflow desde Chrome, Safari y Firefox en mi computadora portátil de trabajo, mi computadora portátil personal, mi teléfono y mi iPad. Todos los servicios de análisis cuentan de diferentes maneras y, por lo tanto, todos devuelven números significativamente diferentes.

Incluso con una implementación perfecta, Google Analytics casi siempre mostrará conteos de visitas más bajos que un sistema de análisis basado en el registro del servidor, pero mostrará un conteo de visitas más alto que un sistema basado en cookies de terceros como Quantcast. Lo importante no es mirar los totales en bruto, sino las tendencias que cada método muestra en sus puntos fuertes. Por lo tanto, nunca compare los números de Quantcast con los números de Google Analytics; en su lugar, use los números dentro de los contextos en los que fueron recopilados.

Otro problema podría ser que su implementación de Google Analytics no sea correcta, ya que configurarla para su tipo de configuración de dominios múltiples y subdominios puede ser una pesadilla si no se realiza de manera correcta y rigurosa, lo que podría llevar a que un solo navegador se cuente como múltiples visitantes, inflando su cuenta. Esto nunca es un problema para Quantcast, ya que todas las cookies se configuran en su dominio de un tercero.

Yahel
fuente
Google Chrome también parece bloquear las cookies de terceros de forma predeterminada.
MrWhite
7

La proporción de cookies para visitantes únicos suele estar entre 1.3 y 1.7 para sitios con más de un millón de visitas.

Si bien yc01 es correcto que GA usa cookies de origen frente a cookies de terceros, nosotros en RealSelf.com utilizamos dos proveedores de análisis propios (GA y Comscore Direct) y GA todavía muestra un 30% más de visitantes únicos absolutos que los visitantes únicos de Comscore.

Comscore solo muestra visitantes únicos por país, por lo que para comparar GA con Comscore tenemos que calcular el número de visitantes únicos absolutos con sede en los EE. UU. De la siguiente manera:

Visitas a los Estados Unidos / Visitas globales * Usuarios únicos absolutos

(1.150.110 / 1.650.979) * 1.273.059 = 886.842 usuarios únicos con sede en EE. UU.

En contraste, Comscore reporta 680,900 usuarios únicos con sede en los Estados Unidos. Entonces GA muestra 30.2% más.

Comscore ha construido su negocio en torno a tratar de ser precisos, mientras que GA es principalmente una forma gratuita de rastrear y optimizar sitios que usan AdWords y AdSense. Comscore tiene un panel de personas que también usan para estimar el tráfico, y usan ese panel para determinar un número promedio de cookies por persona. Con más personas que usan dispositivos móviles (nuestro uso móvil es del 15%), tiene sentido que las cookies únicas exageren la cantidad de personas únicas.

Eric K
fuente
"La proporción de cookies para visitantes únicos suele estar entre 1.3 y 1.7 para sitios con más de un millón de visitas". ¿Es esa una figura publicada por Comscore?
Ciaran
Esto es sorprendentemente preciso para nosotros; Ejecuté las UserSessionestadísticas de la tabla en algunos sitios y varían de 2.0 (desbordamiento de pila) a 1.46 (webapps.se) con todo lo demás en el medio. 1.6 parece un valor predeterminado muy sensato para los sitios centrados en la tecnología.
Jeff Atwood
4

Aquí hay un estudio reciente (4 de mayo de 2011 - cuando escribí esto) de MediaMind con "Multiplicadores de inflación de cookies" para diferentes mercados:

Su factor de inflación calculado está entre 2.2 para Alemania y 3.0 para Estados Unidos.

Theo
fuente
esto es excelente - exactamente el tipo de referencia que estaba buscando
Jeff Atwood
2

¿Quizás sus números de visitantes de GA están más inflados que un sitio normal debido a la naturaleza más técnica de su audiencia? Por ejemplo, es más probable que los programadores, especialmente los desarrolladores web, usen una variedad de navegadores y, por lo tanto, aumenten el recuento de cookies.

Para la pregunta 1, supongo que, como con muchas métricas, es mejor usar datos de su propio sitio en lugar de buscar estándares globales, ya que los agregados pueden ser engañosos. Una forma de obtener una cookie para el recuento real de visitantes podría ser contar cuántas cookies ve de cada usuario registrado y luego derivar el número de eso.

En cuanto al número 2, teóricamente, la mejor manera de contar visitantes reales sería obligar a todos a registrar una cuenta. Como obviamente no es una buena idea, entonces podrías mirar a la normalización. Por ejemplo, podría usar las cookies promedio para la métrica de usuario registrado que sugerí anteriormente y aplicarla a los números de visitantes que GA informa.

Ewan Heming
fuente
Es un excelente punto. En Stack Overflow, actualmente tenemos 531,484 sesiones de las cuales 261,547 apuntan a usuarios únicos, así que básicamente 2 cookies por cada 1 usuario.
Jeff Atwood
-1

Creo que IP es confiable ... cuando creo un sistema estadístico como GA con python, uso algún método como este

  • envíe cookies al navegador y tome todos los datos del agente a la base de datos
  • manera fácil si la nueva visita tiene cookie, no es una nueva visita, así que la guardo como no nueva visita (también he asignado la fecha y el tiempo de retraso para encontrar una nueva visita si el usuario repite el sitio de la visita después de 2 horas)
  • guardar la IP del usuario y alguna identificación para este usuario e IP y cookie (también se guarda en la cookie)
  • llega un nuevo usuario y no tiene ninguna cookie ... ¿esta IP es nueva? ¿sí? OK, su nuevo usuario solo toma el agente de usuario e IP / no. ¿Cuántas veces viene este usuario? mas que limite? ¿No es realmente una nueva visita, no más con este agente de usuario? OK esto es nuevo ...: D

este método tiene fallas pero no está mal y tiene datos casi válidos ... (también depende del tiempo de demora para encontrar un nuevo usuario (demora entre 2 visitas) y tiempo de prueba para los usuarios que no tienen cookies)

Mohammad Efazati
fuente
55
¿Cómo manejaría esto, por ejemplo, una empresa con muchos desarrolladores diferentes que acceden a StackOverflow desde detrás de un NAT? ¿Serían todos contados como un solo visitante?
Svish
3
El aspecto de IP de esto es realmente defectuoso. La dirección IP no es un identificador único.
Yahel
hay tiempo de prueba para esto ... verificamos el agente y otras cosas y podemos agregar una ip más de 100 veces ... es la forma sugerida de encontrar un usuario real detrás de un NAT
Mohammad Efazati