¿Cuándo usar LDA sobre GMM para la agrupación?

8

Tengo un conjunto de datos que contiene la actividad del usuario con 168 dimensiones, donde deseo extraer clústeres utilizando aprendizaje no supervisado. No es obvio para mí si usar un enfoque de modelado de temas en la asignación de Dirichlet latente (LDA) o los modelos de mezcla gaussiana (GMM), que es más un enfoque bayesiano. En ese sentido tengo 2 preguntas relacionadas:

  1. ¿Cuál es el principal diferenciador entre los dos métodos? Conozco los conceptos básicos de los dos modelos, pero tengo curiosidad sobre lo que realmente distingue a uno de otro. ¿Puede algo en el problema / datos decirme si un modelo es mejor?

  2. Si aplico ambos métodos a mis datos, ¿cómo puedo comparar los resultados para ver qué método es mejor?

Actualizar

Las 168 variables de actividad de los usuarios son recuentos de una actividad, por lo que tienen valores discretos positivos. No hay un valor máximo, pero aproximadamente el 90% de las variables alcanzan valores en el intervalo .[0,3]

Puede tener sentido simplemente modelar todas estas variables de actividad como variables binarias que describen si es cero o no, pero aún no sabemos lo suficiente sobre el problema para determinarlo. Lo principal que estamos buscando son ideas sobre los diferentes grupos de actividad del usuario.

pir
fuente
LDA no requiere que sus datos sean variables categóricas multinomiales, mientras que GMM ciertamente requiere que sus datos sean variables continuas. ¿Qué tipo de datos son sus 168 variables de actividad del usuario?
gung - Restablece a Monica
Eso podría ser. Ver publicación original actualizada.
pir

Respuestas:

4

No usaría modelos de mezclas gaussianas , ya que requieren que las distribuciones constituyentes sean normales. Tienes cuentas, por lo que GMM es inapropiado por definición.

La asignación de Dirichlet latente (divulgación completa: no sé realmente el modelado de temas) requiere que sus datos sean multinomiales , pero puede tener recuentos en ese caso; serían recuentos de ocurrencias de diferentes categorías de una variable. Otra posibilidad es que sus recuentos sean recuentos de diferentes variables, como al tener varias variables de Poisson . Esta es una pregunta ontológica sobre cómo está pensando en sus datos.

Considere un ejemplo simple donde voy al supermercado porque quiero algo de fruta. Compraré una cierta cantidad de manzanas, naranjas, duraznos y plátanos. Cada uno de ellos podría considerarse una variable de Poisson separada. Cuando llego a casa los pongo en un frutero. Más tarde, cuando tengo ganas de comer bocadillos, podría meter la mano en el tazón sin mirar y agarrar dos piezas de fruta (por ejemplo, una manzana y un durazno). Eso puede considerarse un sorteo de una distribución multinomial. En ambos casos, tengo recuentos de categorías, pero pensamos en ellos de manera diferente. En el primer caso, las frutas que compraré se conocen antes de llegar al supermercado, pero el número comprado en cada categoría puede variar. En el segundo caso, no sé qué frutas recogeré, pero sé que estoy tomando dos de los tipos posibles.

Si sus datos son como el ejemplo del frutero, LDA puede ser apropiado para usted. Por otro lado, si son como el ejemplo de una tienda de comestibles, puede probar el modelado de mezcla finita de Poisson . Es decir, puede usar el modelado de mezclas con distribuciones que no sean gaussiana / normal. Los GMM son los más comunes con diferencia; otras distribuciones (como Poisson) son más exóticas. No sé qué tan ampliamente implementados están en el software. Si usa R, Google condujo al descubrimiento de ? PoisMixClus en el paquete HTSCluster y el paquete rebmix (tenga en cuenta que nunca he usado tampoco, o he realizado el modelado de mezclas de Poisson). También es posible encontrar implementaciones para otro software.


Agregando algunos detalles: diría que LDA es al menos una técnica bayesiana como GMM.

  1. Sospecho que la diferencia más importante entre LDA y GMM es el tipo de datos que suponen que tiene.
  2. No puede compararlos, porque son para diferentes tipos de datos. (Tampoco me gustaría comparar LDA y Poisson MM, ya que conceptualizan los recuentos de manera diferente).

No dicotomizaría sus datos en cero / no cero.

gung - Restablece a Monica
fuente
Estas 168 variables de actividad del usuario se cuentan a lo largo de una semana, cuando en realidad tenemos varias semanas de datos para cada usuario. Si tomáramos el promedio de más de 30 semanas de datos de conteo y lo usáramos para la agrupación, ¿marcaría la diferencia? Según mi comprensión de la CLT, las variables basadas en la media se distribuirían normalmente y, por lo tanto, mantendrían el requisito de GMM.
pir
1
Los medios de las distribuciones con N grande deben ser normales. Creo que podrías usar GMM entonces.
gung - Restablece a Monica