Supongamos que tiene los registros de un servidor web. En estos registros tienes tuplas de este tipo:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Estas marcas de tiempo representan, por ejemplo, los clics de los usuarios. Ahora, user1
visitará el sitio varias veces (sesiones) durante el mes, y tendrá ráfagas de clics de cada usuario durante cada sesión (suponiendo que cuando un usuario visite su sitio, haga clic en varias páginas).
Suponga que desea particionar estas ráfagas de clics en las sesiones que las generaron, pero no tiene ninguna fuente de información adicional, solo la lista de marcas de tiempo. Si calcula la distribución de intervalos entre dos clics consecuentes del mismo usuario, obtendrá una distribución de cola larga. Intuitivamente, buscaría un "parámetro de corte", por ejemplo, N segundos, donde si timestamp_{i+1} - timestamp{i} > N
, entonces timestamp_{i+1}
es el comienzo de la nueva sesión.
El problema es que esta distribución en realidad es una mezcla de dos variables: X = "intervalo entre dos clics consecuentes en la misma sesión" e Y = "intervalo entre el último clic de la sesión anterior y el primero de la nueva".
La pregunta es, ¿cómo estimar esta N, que divide las dos distribuciones (con un poco de superposición, posiblemente) simplemente mirando el estallido de clics?
fuente
Respuestas:
Realmente debe trazar el logaritmo de los intervalos entre clics en lugar de los valores sin formato; esto aplanará su distribución e incluso podría revelar los múltiples modos en su distribución.
Los neurocientíficos han desarrollado enfoques más avanzados para resolver un problema muy similar en la identificación de estallidos de picos neuronales. Este clásico artículo o los muchos otros artículos relacionados en Google Académico .
fuente