Cluster de datos de flujo de clics

8

Recientemente ingresé en el ámbito del aprendizaje automático y un proyecto en el que estoy trabajando requiere que agrupe a los usuarios según el orden en que visitaron las páginas web de un sitio web. Tengo datos en forma de:

['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]

Donde cada número es una categoría / página que el usuario visitó. Además, la longitud de los datos para cada usuario no es la misma, es decir, algunos usuarios visitan más páginas que otros.

Me doy cuenta de que esto es realmente vago y que define la similitud es difícil. Intenté seguir el ejemplo en este trabajo de investigación y, para ser honesto, mucho de eso pasó por mi cabeza.

Necesito ayuda sobre cómo abordar este problema y estoy abierto a nuevas ideas y sugerencias.

Arjun Aletty
fuente

Respuestas:

3

Es una buena pregunta con muchas aplicaciones prácticas.

Sus datos son secuenciales, por lo que necesitamos una medida de similitud entre cualquier par de secuencias. Recomiendo Levensthein distancia ya que es muy intuitivo y muy bien definido. Vea también esta agradable tesis de licenciatura con una descripción general de más medidas para datos secuenciales.

Finalmente, si uno tiene las distancias entre todos los pares de secuencias, podemos usar cualquier algoritmo de agrupación que tome una matriz de distancia como entrada (por ejemplo, cualquier algoritmo jerárquico).

Miroslav Sabo
fuente
2

Puede usar el paquete clickstream o clickclust en lenguaje R. Realiza exactamente lo que estás buscando.

Sagar
fuente
2
Esto es más adecuado como comentario que como respuesta.
Silverfish