Recientemente ingresé en el ámbito del aprendizaje automático y un proyecto en el que estoy trabajando requiere que agrupe a los usuarios según el orden en que visitaron las páginas web de un sitio web. Tengo datos en forma de:
['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]
Donde cada número es una categoría / página que el usuario visitó. Además, la longitud de los datos para cada usuario no es la misma, es decir, algunos usuarios visitan más páginas que otros.
Me doy cuenta de que esto es realmente vago y que define la similitud es difícil. Intenté seguir el ejemplo en este trabajo de investigación y, para ser honesto, mucho de eso pasó por mi cabeza.
Necesito ayuda sobre cómo abordar este problema y estoy abierto a nuevas ideas y sugerencias.
fuente