En varios lugares, vi una afirmación de que MANOVA es como ANOVA más análisis discriminante lineal (LDA), pero siempre se hizo de forma manual. Me gustaría saber qué se supone que significa exactamente .
Encontré varios libros de texto que describen todos los detalles de los cálculos de MANOVA, pero parece ser muy difícil encontrar una buena discusión general (y mucho menos imágenes ) accesible para alguien que no sea un estadístico.
anova
discriminant-analysis
manova
ameba dice Reinstate Monica
fuente
fuente
Respuestas:
En una palabra
Tanto MANOVA unidireccional como LDA comienzan con la descomposición de la matriz de dispersión total en la matriz de dispersión dentro de clase y la matriz de dispersión entre clases , de modo que . Tenga en cuenta que esto es totalmente análoga a cómo ANOVA de una vía se descompone suma total de cuadrados en dentro de clase y entre la clase sumas de cuadrados: . En ANOVA, se calcula una relación B / W y se usa para encontrar el valor p: cuanto mayor es esta relación, menor es el valor p. MANOVA y LDA componen una cantidad multivariante análoga W - 1 B .W B T = W + B T T = B + WT W B T=W+B T T=B+W B/W W−1B
De aquí en adelante son diferentes. El único propósito de MANOVA es probar si las medias de todos los grupos son las mismas; esta hipótesis nula significaría que debe ser similar en tamaño a W . Entonces MANOVA realiza una descomposición propia de W - 1 B y encuentra sus valores propios λ i . La idea ahora es probar si son lo suficientemente grandes como para rechazar el valor nulo. Hay cuatro formas comunes de formar una estadística escalar de todo el conjunto de valores propios λ i . Una forma es tomar la suma de todos los valores propios. Otra forma es tomar el valor propio máximo. En cada caso, si la estadística elegida es lo suficientemente grande, se rechaza la hipótesis nula.B W W−1B λi λi
Por el contrario, LDA realiza la descomposición propia de y observa los vectores propios (no los valores propios). Estos vectores propios definen direcciones en el espacio variable y se denominan ejes discriminantes . La proyección de los datos en el primer eje discriminante tiene una separación de clase más alta (medida como B / W ); en el segundo - segundo más alto; etc. Cuando se usa LDA para la reducción de dimensionalidad, los datos se pueden proyectar, por ejemplo, en los dos primeros ejes, y los restantes se descartan.W−1B B/W
Vea también una excelente respuesta de @ttnphns en otro hilo que cubre casi el mismo terreno.
Ejemplo
Consideremos un caso unidireccional con variables dependientes yk = 3 grupos de observaciones (es decir, un factor con tres niveles). Tomaré el conocido conjunto de datos Fisher's Iris y consideraré solo el largo y ancho del sépalo (para hacerlo bidimensional). Aquí está el diagrama de dispersión:M=2 k=3
Podemos comenzar calculando los ANOVA con ambos sepal longitud / ancho por separado. Imagine puntos de datos proyectados vertical u horizontalmente en los ejes xey, y ANOVA de 1 vía realizado para probar si tres grupos tienen las mismas medias. Obtenemos y p = 10 - 31 para la longitud del sépalo, y F 2 , 147 = 49 y p = 10 - 17 para el ancho del sépalo. Bien, mi ejemplo es bastante malo, ya que tres grupos son significativamente diferentes con valores p ridículos en ambas medidas, pero de todos modos me mantendré firme.F2,147=119 p=10−31 F2,147=49 p=10−17
Ahora podemos realizar LDA para encontrar un eje que separe al máximo tres grupos. Como se describió anteriormente, se calcula la matriz de dispersión completa , dentro de la clase de matriz de dispersión W y la matriz de dispersión entre la clase B = T - W y encontrar los vectores propios de W - 1 B . Puedo trazar ambos vectores propios en el mismo diagrama de dispersión:T W B=T−W W−1B
Las líneas discontinuas son ejes discriminantes. Los tracé con longitudes arbitrarias, pero el eje más largo muestra el vector propio con un valor propio más grande (4.1) y el más corto, el que tiene un valor propio más pequeño (0.02). Tenga en cuenta que no son ortogonales, pero las matemáticas de LDA garantizan que las proyecciones en estos ejes tienen correlación cero.
Si ahora proyectamos nuestros datos sobre el primer eje discriminante (más largo) y ejecute el ANOVA, obtenemos y P = 10 - 53 , que es menor que antes, y es el valor más bajo posible entre todas las proyecciones lineales (que fue todo el punto de LDA). La proyección en el segundo eje da solo p = 10 - 5 .F=305 p=10−53 p=10−5
MANOVA vs LDA como aprendizaje automático versus estadísticas
Este me parece ahora uno de los casos ejemplares de cómo la comunidad de aprendizaje automático y la comunidad de estadísticas diferentes abordan lo mismo. Todos los libros de texto sobre aprendizaje automático cubren LDA, muestran bellas imágenes, etc., pero nunca mencionarían MANOVA (por ejemplo , Bishop , Hastie y Murphy ). Probablemente porque las personas allí están más interesadas en la precisión de la clasificación LDA (que corresponde aproximadamente al tamaño del efecto) y no tienen interés en la significación estadística de la diferencia de grupo. Por otro lado, los libros de texto sobre análisis multivariado debatirían sobre MANOVA ad nauseam, proporcionarían una gran cantidad de datos tabulados (arrrgh) pero rara vez mencionan LDA e incluso raramente muestran tramas (p. Ej.Anderson o Harris ; sin embargo, Rencher & Christensen do y Huberty & Olejnik incluso se llama "MANOVA y análisis discriminante").
MANOVA Factorial
El MANOVA factorial es mucho más confuso, pero es interesante considerarlo porque difiere del LDA en el sentido de que el "LDA factorial" no existe realmente, y el MANOVA factorial no corresponde directamente con ningún "LDA habitual".
En esta figura, las seis "celdas" (también las llamaré "grupos" o "clases") están bien separadas, lo que, por supuesto, rara vez ocurre en la práctica. Tenga en cuenta que es obvio que hay efectos principales significativos de ambos factores aquí, y también un efecto de interacción significativo (porque el grupo superior derecho se desplaza hacia la derecha; si lo moviera a su posición de "cuadrícula", entonces no habría efecto de interacción).
¿Cómo funcionan los cálculos de MANOVA en este caso?
fuente
B^-1 W
aW^-1 B
. Su imagen con discriminantes como ejes es similar a mi propia trama ; creo que utilizó el mismo enfoque de "rotación no ortogonal según los vectores propios normalizados".MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive
. MANOVA, por supuesto, no sabe sobre nosotros haciendo LDA. MANOVA simplemente consume más df que ANOVA, porque es una prueba bidimensional, es por eso que la potencia del valor p debe ser -54 en lugar de -55.W^-1 B
que LDA. LDA construye variables latentes (los discriminantes) fuera de ella. MANOVA no lo hace; sin embargo, investiga la matriz anterior de manera más exhaustiva, calculando varias estadísticas (como la traza de Pillai, la traza de Hotteling) para basar las pruebas en ellas.machine learning
la primera vez. Y los textos que leí discutieron sobre LDA, junto con MANOVA.