La notificación después de la tabla ANOVA después del análisis de K-medias indica que los niveles de significancia no deben considerarse como la prueba de medias iguales, ya que la solución de clúster se ha derivado en base a la distancia euclidiana para maximizar la distancia. ¿Qué prueba debo usar para mostrar si las medias de las variables de agrupación difieren entre las agrupaciones? He visto esta advertencia en la tabla ANOVA proporcionada por k-means output, pero en algunas referencias veo que se ejecutan pruebas ANOVA post-hoc. ¿Debo ignorar las salidas ANOVA k-mean y ejecutar ANOVA unidireccional con pruebas post-hoc e interpretarlas de manera tradicional? ¿O solo puedo dar a entender la magnitud del valor F y qué variables contribuyeron más a la diferencia? Otra confusión es que las variables de agrupamiento no se distribuyen normalmente violando el supuesto de ANOVA, entonces podría usar la prueba no paramétrica de Kruskal-Wallis, pero se supone que tiene las mismas distribuciones. Las distribuciones entre grupos para las variables específicas no parecen iguales, algunas están sesgadas positivamente, otras son negativas ... Tengo 1275 muestras grandes, 5 grupos, 10 variables de agrupación medidas en puntajes de PCA.
14
Respuestas:
¡No!
Usted debe utilizar los mismos datos para 1) realizar agrupaciones y 2) buscar diferencias significativas entre los puntos de las agrupaciones. Incluso si no hay una estructura real en los datos, la agrupación impondrá uno al agrupar los puntos que están cerca. Esto reduce la varianza dentro del grupo y aumenta la varianza entre grupos, lo que lo predispone hacia falsos positivos.
Aquí no hay nada especial sobre un ANOVA: vería efectos similares utilizando pruebas no paramétricas, regresión logística, cualquier cosa. En general, validar el rendimiento de un algoritmo de agrupamiento es complicado, especialmente si los datos no están etiquetados. Sin embargo, hay algunos enfoques para la "validación interna", o para medir la calidad de los grupos sin utilizar fuentes de datos externas. Generalmente se centran en la compacidad y separabilidad de los grupos. Esta revisión de Lui et al. (2010) podría ser un buen lugar para comenzar.
fuente
Su verdadero problema es el espionaje de datos. No puede aplicar ANOVA o KW si las observaciones se asignaron a grupos (grupos) en función del conjunto de datos de entrada en sí. Lo que puedes hacer es usar algo como estadística Gap para estimar el número de clústeres.
Por otro lado, los valores p analizados están sesgados hacia abajo, por lo que si el resultado de la prueba ANOVA o KW es insignificante, entonces el valor p "verdadero" es aún mayor y puede decidir fusionar los grupos.
fuente
Creo que podría aplicar dicho enfoque (es decir, usar las estadísticas, como las estadísticas F o las estadísticas t o lo que sea), si elimina las distribuciones nulas habituales .
Lo que debe hacer es simular a partir de la situación en la que su nulo es verdadero, aplicar todo el procedimiento (agrupamiento, etc.) y luego calcular la estadística cada vez. Aplicado a muchas simulaciones, obtendría una distribución para la estadística bajo el valor nulo contra el cual se podría comparar su valor de muestra. Al incorporar el espionaje de datos en el cálculo, se tiene en cuenta su efecto.
[Alternativamente, uno podría desarrollar una prueba basada en remuestreo (ya sea basada en permutación / aleatorización o bootstrapping).]
fuente