Tengo un conjunto de datos que contiene la actividad del usuario con 168 dimensiones, donde deseo extraer clústeres utilizando aprendizaje no supervisado. No es obvio para mí si usar un enfoque de modelado de temas en la asignación de Dirichlet latente (LDA) o los modelos de mezcla gaussiana (GMM), que es más un enfoque bayesiano. En ese sentido tengo 2 preguntas relacionadas:
¿Cuál es el principal diferenciador entre los dos métodos? Conozco los conceptos básicos de los dos modelos, pero tengo curiosidad sobre lo que realmente distingue a uno de otro. ¿Puede algo en el problema / datos decirme si un modelo es mejor?
Si aplico ambos métodos a mis datos, ¿cómo puedo comparar los resultados para ver qué método es mejor?
Actualizar
Las 168 variables de actividad de los usuarios son recuentos de una actividad, por lo que tienen valores discretos positivos. No hay un valor máximo, pero aproximadamente el 90% de las variables alcanzan valores en el intervalo .
Puede tener sentido simplemente modelar todas estas variables de actividad como variables binarias que describen si es cero o no, pero aún no sabemos lo suficiente sobre el problema para determinarlo. Lo principal que estamos buscando son ideas sobre los diferentes grupos de actividad del usuario.
Respuestas:
No usaría modelos de mezclas gaussianas , ya que requieren que las distribuciones constituyentes sean normales. Tienes cuentas, por lo que GMM es inapropiado por definición.
La asignación de Dirichlet latente (divulgación completa: no sé realmente el modelado de temas) requiere que sus datos sean multinomiales , pero puede tener recuentos en ese caso; serían recuentos de ocurrencias de diferentes categorías de una variable. Otra posibilidad es que sus recuentos sean recuentos de diferentes variables, como al tener varias variables de Poisson . Esta es una pregunta ontológica sobre cómo está pensando en sus datos.
Considere un ejemplo simple donde voy al supermercado porque quiero algo de fruta. Compraré una cierta cantidad de manzanas, naranjas, duraznos y plátanos. Cada uno de ellos podría considerarse una variable de Poisson separada. Cuando llego a casa los pongo en un frutero. Más tarde, cuando tengo ganas de comer bocadillos, podría meter la mano en el tazón sin mirar y agarrar dos piezas de fruta (por ejemplo, una manzana y un durazno). Eso puede considerarse un sorteo de una distribución multinomial. En ambos casos, tengo recuentos de categorías, pero pensamos en ellos de manera diferente. En el primer caso, las frutas que compraré se conocen antes de llegar al supermercado, pero el número comprado en cada categoría puede variar. En el segundo caso, no sé qué frutas recogeré, pero sé que estoy tomando dos de los tipos posibles.
Si sus datos son como el ejemplo del frutero, LDA puede ser apropiado para usted. Por otro lado, si son como el ejemplo de una tienda de comestibles, puede probar el modelado de mezcla finita de Poisson . Es decir, puede usar el modelado de mezclas con distribuciones que no sean gaussiana / normal. Los GMM son los más comunes con diferencia; otras distribuciones (como Poisson) son más exóticas. No sé qué tan ampliamente implementados están en el software. Si usa R, Google condujo al descubrimiento de ? PoisMixClus en el paquete HTSCluster y el paquete rebmix (tenga en cuenta que nunca he usado tampoco, o he realizado el modelado de mezclas de Poisson). También es posible encontrar implementaciones para otro software.
Agregando algunos detalles: diría que LDA es al menos una técnica bayesiana como GMM.
No dicotomizaría sus datos en cero / no cero.
fuente