Agrupe mi conjunto de datos de varios miles de cadenas de Markov de primer orden en aproximadamente 10 grupos.
¿Hay alguna forma recomendada de cómo puedo evaluar estos grupos y descubrir qué comparten los elementos en los grupos y en qué se diferencian de otros grupos? Entonces puedo hacer una declaración como "Los procesos en el grupo A tienden a permanecer en el estado Y una vez que llegan allí, lo cual no es cierto para los procesos en otros grupos".
Las matrices de transición de esas cadenas de Markov son demasiado grandes para simplemente "mirar y ver". Son relativamente escasos, si eso puede ayudar.
Mi idea era tomar todas las matrices de transición en un grupo, sumarlas y trazarlas como intensidad en una imagen (en una escala de 0 a 255). ¿Hay algo más "profesional" que debería probar?
fuente
Respuestas:
Para hacer una declaración sobre el comportamiento en estado estacionario de cada conglomerado, puede calcular las distribuciones en estado estacionario de cada matriz de transición por vectores propios, luego comparar las gráficas de caja por conglomerado. Es probable que encuentre problemas en el cálculo del estado estacionario sin aplicar algún tipo de suavizado primero.
¿Cómo estás agrupando las matrices de transición? Si fuera yo, aplicaría suavizado aditivo a cada fila y luego tomaría la transformación centrada de la relación logarítmica de cada fila y luego aplanaría las matrices.
Si está agrupando con K-means o una variante, puede analizar los centros de agrupación normalizados. O simplemente elija algunas observaciones de cada grupo y analícelas.
fuente
Primero, para tener una idea, ¿son sus matrices de dimensión 105 x 105, correspondientes a las aplicaciones que usted menciona? Cuando dice "permanecer en el estado Y", ¿eso significa quedarse en la aplicación Y?
Entonces, supongo que los resultados como "Procesos en el grupo A tienden a permanecer en el estado Y una vez que llegan allí, lo que no es cierto para los procesos en otros grupos" son demasiado finos con solo 10 grupos. ¿Ha intentado agrupar el dominio de la aplicación? Si lo entiendo correctamente, podría agrupar las 105 aplicaciones según el comportamiento del usuario. A continuación, ¿ha observado la presencia simple de usuarios en lugar de la transición, es decir, los perfiles de usuarios en las 105 aplicaciones? Parece que podría usar el coeficiente de Pearson entre los perfiles de usuario; ya sea en grupos de aplicaciones o en las propias aplicaciones. Tal vez esto podría extenderse hacia las transiciones entre aplicaciones, pero actualmente siento que hay una gran discordancia entre la cantidad de clústeres y el tipo de resultado que le interesa.
fuente