Análisis de clase latente versus análisis de conglomerados: ¿diferencias en las inferencias?

30

¿Cuáles son las diferencias en las inferencias que se pueden hacer de un análisis de clase latente (LCA) versus un análisis de conglomerados? ¿Es correcto que un LCA asuma una variable latente subyacente que da lugar a las clases, mientras que el análisis de conglomerados es una descripción empírica de atributos correlacionados de un algoritmo de agrupamiento? Parece que en las ciencias sociales, el LCA ha ganado popularidad y se considera metodológicamente superior dado que tiene una prueba de significación chi-cuadrado formal, que el análisis de conglomerados no tiene.

Sería genial si se pudieran ofrecer ejemplos en forma de "LCA sería apropiado para esto (pero no el análisis de conglomerados), y el análisis de conglomerados sería apropiado para esto (pero no el análisis de clase latente).

¡Gracias! Brian

Brian P
fuente
1
¿Cómo se llama inferencesen este contexto y por qué solo le interesan las diferencias de inferencia?
ttnphns
1
@ttnphns Por inferencias, me refiero a la interpretación sustantiva de los resultados. No estoy seguro acerca de la última parte de su pregunta sobre mi interés en "¿solo diferencias en inferencias?" No estoy interesado en la ejecución de sus respectivos algoritmos o las matemáticas subyacentes. Estoy interesado en cómo se interpretarían los resultados.
Brian P

Respuestas:

27

El análisis de clase latente es, de hecho, un modelo de mezcla finita (ver aquí ). La principal diferencia entre FMM y otros algoritmos de agrupación es que FMM le ofrece un enfoque de "agrupación basada en modelos" que deriva las agrupaciones utilizando un modelo probabilístico que describe la distribución de sus datos. Por lo tanto, en lugar de encontrar grupos con alguna medida de distancia elegida arbitrariamente, utiliza un modelo que describe la distribución de sus datos y, con base en este modelo, evalúa las probabilidades de que ciertos casos sean miembros de ciertas clases latentes. Por lo tanto, podría decir que es un enfoque de arriba hacia abajo (comienza describiendo la distribución de sus datos) mientras que otros algoritmos de agrupación son enfoques de abajo hacia arriba (encuentra similitudes entre los casos).

Debido a que utiliza un modelo estadístico para la selección de su modelo de datos, es posible evaluar la bondad del ajuste, al contrario de la agrupación. Además, si asume que hay algún proceso o "estructura latente" que subyace a la estructura de sus datos, entonces los FMM parecen ser una opción apropiada, ya que le permiten modelar la estructura latente detrás de sus datos (en lugar de buscar similitudes).

Otra diferencia es que los FMM son más flexibles que la agrupación. Los algoritmos de agrupación solo hacen agrupación, mientras que hay modelos basados ​​en FMM y LCA que

  • le permite hacer análisis confirmatorios entre grupos,
  • Combina modelos de teoría de respuesta a ítems (y otros) con LCA,
  • incluir covariables para predecir la membresía de clase latente de los individuos,
  • y / o incluso modelos de regresión dentro del grupo en regresión de clase latente ,
  • le permite modelar cambios a lo largo del tiempo en la estructura de sus datos, etc.

Para más ejemplos ver:

Hagenaars JA y McCutcheon, AL (2009). Análisis de clase latente aplicada. Prensa de la Universidad de Cambridge.

y la documentación de los paquetes flexmix y poLCA en R, incluidos los siguientes documentos:

Linzer, DA y Lewis, JB (2011). poLCA: un paquete R para análisis de clase latente variable politómica. Revista de software estadístico, 42 (10), 1-29.

Leisch, F. (2004). Flexmix: Un marco general para modelos de mezclas finitas y regresión de vidrio latente en R. Journal of Statistical Software, 11 (8), 1-18.

Grün, B. y Leisch, F. (2008). FlexMix versión 2: mezclas finitas con variables concomitantes y parámetros variables y constantes . Revista de software estadístico, 28 (4), 1-35.

Tim
fuente
3

Un modelo de clase latente (o perfil latente, o más generalmente, un modelo de mezcla finita) puede considerarse como un modelo probablístico para la agrupación (o clasificación no supervisada). El objetivo es generalmente el mismo: identificar grupos homogéneos dentro de una población más grande. Creo que las principales diferencias entre los modelos de clase latentes y los enfoques algorítmicos para el agrupamiento son que el primero obviamente se presta a una especulación más teórica sobre la naturaleza del agrupamiento; y debido a que el modelo de clase latente es probabilístico, ofrece alternativas adicionales para evaluar el ajuste del modelo a través de estadísticas de probabilidad y captura / retiene mejor la incertidumbre en la clasificación.

Puede encontrar algunos datos útiles en este hilo , así como esta respuesta en una publicación relacionada de chl.

También hay paralelos (en un nivel conceptual) con esta pregunta sobre PCA vs análisis factorial, y este también.

DL Dahly
fuente
2

La diferencia es que el Análisis de clase latente usaría datos ocultos (que generalmente son patrones de asociación en las características) para determinar las probabilidades de las características en la clase. Luego, se pueden hacer inferencias utilizando la máxima probabilidad de separar los elementos en clases según sus características.

El análisis de conglomerados traza las características y utiliza algoritmos como los vecinos más cercanos, la densidad o la jerarquía para determinar a qué clases pertenece un elemento.

Básicamente, la inferencia de LCA puede considerarse como "cuáles son los patrones más similares usando la probabilidad" y el análisis de clúster sería "qué es lo más cercano usando la distancia".

ccsv
fuente
¿Puede aclarar a qué "cosa" se refiere en la declaración sobre el análisis de conglomerados? ¿Es la 'característica' más cercana basada en una medida de distancia?
Brian P
Lo sería un objeto o cualquier dato que ingrese con los parámetros de la característica.
ccsv