Supuestos del análisis de conglomerados

16

Disculpas por la pregunta rudimentaria, soy nuevo en esta forma de análisis y tengo una comprensión muy limitada de los principios hasta ahora.

Me preguntaba si muchos de los supuestos paramétricos para las pruebas multivariadas / univariadas se aplican al análisis de conglomerados. Muchas de las fuentes de información que he leído sobre el análisis de conglomerados no especifican ningún supuesto.

Estoy particularmente interesado en el supuesto de independencia de las observaciones. Entiendo que la violación de esta suposición (en ANOVA y MAVOVA, por ejemplo) es grave porque influye en las estimaciones de error. Según mi lectura hasta ahora, parece que el análisis de conglomerados es en gran medida una técnica descriptiva (que solo implica inferencia estadística en ciertos casos específicos). En consecuencia, ¿se requieren supuestos como la independencia y los datos normalmente distribuidos?

Cualquier recomendación de textos que discutan este tema sería muy apreciada. Muchas gracias.

Kyle Brown
fuente

Respuestas:

7

Bueno, las técnicas de agrupamiento no se limitan a los métodos basados en la distancia donde buscamos grupos de unidades estadísticas que están inusualmente cercanas entre sí, en un sentido geométrico. También hay una variedad de técnicas que dependen de la densidad (los grupos se ven como "regiones" en el espacio de características) o distribución de probabilidad .

El último caso también se conoce como agrupamiento basado en modelos ; los psicometristas usan el término Análisis de perfil latente para denotar este caso específico del Modelo de mezcla finita , donde suponemos que la población está compuesta de diferentes grupos no observados, o clases latentes, y que la densidad conjunta de todas las variables manifiestas es una mezcla de esta clase. densidad específica. Buena aplicación están disponibles en el MCLUST paquete o Mplus software. Se pueden usar diferentes matrices de covarianza invariantes de clase (de hecho, Mclust usa el criterio BIC para seleccionar el óptimo mientras varía el número de grupos).

El modelo de clase latente estándar también supone que los datos observados provienen de una mezcla de g distribuciones multinomiales multivariadas. Una buena descripción general está disponible en el análisis de clúster basado en modelos: una defensa , de Gilles Celeux.

Dado que estos métodos se basan en supuestos de distribución, esto también hace posible el uso de pruebas formales o índices de bondad de ajuste para decidir sobre el número de grupos o clases, que sigue siendo un problema difícil en el análisis de grupos basado en la distancia, pero vea los siguientes artículos que discutió este tema:

  1. Handl, J., Knowles, J. y Kell, DB (2005). Validación de clúster computacional en análisis de datos postgenómicos. Bioinformática , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) Evaluación basada en el clúster de la estabilidad del clúster. Estadística computacional y análisis de datos , 52 , 258-271.
  3. Hennig, C. (2008) Punto de disolución y solidez del aislamiento: criterios de solidez para los métodos generales de análisis de conglomerados. Journal of Multivariate Analysis , 99 , 1154-1176.
chl
fuente
3

Existe una gran variedad de métodos de agrupación, que son exploratorios por naturaleza, y no creo que ninguno de ellos, ya sea jerárquico o basado en particiones, se base en el tipo de supuestos que uno tiene que cumplir para analizar la varianza.

Echando un vistazo a la documentación [MV] en Stata para responder a su pregunta, encontré esta cita divertida en la página 85:

Aunque algunos han dicho que hay tantos métodos de análisis de conglomerados como personas que realizan análisis de conglomerados. Este es un eufemismo bruto! Existen infinitamente más formas de realizar un análisis de conglomerados que las personas que lo realizan.

En ese contexto, dudo que haya supuestos que se apliquen a través del método de agrupación. El resto del texto simplemente establece como regla general que necesita alguna forma de "medida de disimilitud", que ni siquiera necesita ser una distancia métrica, para crear grupos.

Sin embargo, hay una excepción, que es cuando agrupa las observaciones como parte de un análisis posterior a la estimación. En Stata, el vcecomando viene con la siguiente advertencia, en la página 86 de la misma fuente:

Si está familiarizado con la gran variedad de comandos de estimación de Stata, tenga cuidado de distinguir entre el análisis de clúster (el comando de clúster) y la opción vce (cluster clustvar) permitida con muchos comandos de estimación. El análisis de conglomerados encuentra grupos en los datos. La opción vce (cluster clustvar) permitida con varios comandos de estimación indica que las observaciones son independientes entre los grupos definidos por la opción pero no son necesariamente independientes dentro de esos grupos. Una variable de agrupación producida por el comando cluster rara vez satisfará la suposición detrás del uso de la opción vce (cluster clustvar).

Basado en eso, supongo que no se requieren observaciones independientes fuera de ese caso particular. Intuitivamente, agregaría que el análisis de conglomerados podría incluso usarse con el propósito preciso de explorar hasta qué punto las observaciones son independientes o no.

Terminaré mencionando que, en la página 356 de Estadísticas con Stata , Lawrence Hamilton menciona las variables estandarizadas como un aspecto "esencial" del análisis de conglomerados, aunque no profundiza en el tema.

El p.
fuente
2

El análisis de conglomerados espaciales utiliza observaciones geográficamente referenciadas y es un subconjunto del análisis de conglomerados que no se limita al análisis exploratorio.

Ejemplo 1

Se puede usar para hacer distritos electorales justos.

Ejemplo 2

Las medidas de autocorrelación espacial local se utilizan en el método de agrupamiento AMOEBA. Aldstadt y Getis usan los grupos resultantes para crear una matriz de pesos espaciales que se puede especificar en regresiones espaciales para probar una hipótesis.

Ver Aldstadt, Jared y Arthur Getis (2006) "Uso de AMOEBA para crear una matriz de pesos espaciales e identificar grupos espaciales". Análisis geográfico 38 (4) 327-343

Ejemplo 3

El análisis de conglomerados basado en regiones de crecimiento aleatorio dado un conjunto de criterios podría usarse como un método probabilístico para indicar la injusticia en el diseño de zonas institucionales tales como zonas de asistencia escolar o distritos electorales.

b_dev
fuente