¿Cómo se relaciona MANOVA con LDA?

18

En varios lugares, vi una afirmación de que MANOVA es como ANOVA más análisis discriminante lineal (LDA), pero siempre se hizo de forma manual. Me gustaría saber qué se supone que significa exactamente .

Encontré varios libros de texto que describen todos los detalles de los cálculos de MANOVA, pero parece ser muy difícil encontrar una buena discusión general (y mucho menos imágenes ) accesible para alguien que no sea un estadístico.

ameba dice Reinstate Monica
fuente
2
Mis propias cuentas locales del pariente de LDA ANOVA y MANOVA son esto , esto . Tal vez están saludando con la mano, pero abordan su tema hasta cierto punto. La clave que dice es que "LDA es MANOVA sumergido en una estructura latente". MANOVA es una instalación de prueba de hipótesis muy rica; entre otras cosas, puede analizar la estructura latente de las diferencias; Este análisis incluye LDA.
ttnphns
1
@ttnphns, me temo que mi comentario anterior no fue entregado (olvidé poner su nombre de usuario), así que permítanme repetir: Wow, muchas gracias, sus respuestas vinculadas parecen estar muy relacionadas con mi pregunta y debo haberlas perdido. en mi búsqueda antes de publicar. Me tomará un tiempo digerirlos y podría volver a usted después de eso, pero ¿tal vez ya podría señalarme algunos documentos / libros que cubran estos temas? Me encantaría ver una discusión detallada de estas cosas al estilo de sus respuestas vinculadas.
ameba dice Reinstate Monica
Solo una cuenta antigua y clásica webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . Por cierto, no lo he leído hasta ahora. Otro artículo relacionado dl.acm.org/citation.cfm?id=1890259 .
ttnphns
@ttnphns: Gracias Yo mismo escribí una respuesta a mi pregunta, básicamente proporcionando algunas ilustraciones y un ejemplo específico de su excelente respuesta vinculada en LDA / MANOVA. Creo que se complementan muy bien.
ameba dice Reinstate Monica

Respuestas:

21

En una palabra

Tanto MANOVA unidireccional como LDA comienzan con la descomposición de la matriz de dispersión total en la matriz de dispersión dentro de clase y la matriz de dispersión entre clases , de modo que . Tenga en cuenta que esto es totalmente análoga a cómo ANOVA de una vía se descompone suma total de cuadrados en dentro de clase y entre la clase sumas de cuadrados: . En ANOVA, se calcula una relación B / W y se usa para encontrar el valor p: cuanto mayor es esta relación, menor es el valor p. MANOVA y LDA componen una cantidad multivariante análoga W - 1 B .W B T = W + B T T = B + WTWBT=W+BTT=B+WB/WW1B

De aquí en adelante son diferentes. El único propósito de MANOVA es probar si las medias de todos los grupos son las mismas; esta hipótesis nula significaría que debe ser similar en tamaño a W . Entonces MANOVA realiza una descomposición propia de W - 1 B y encuentra sus valores propios λ i . La idea ahora es probar si son lo suficientemente grandes como para rechazar el valor nulo. Hay cuatro formas comunes de formar una estadística escalar de todo el conjunto de valores propios λ i . Una forma es tomar la suma de todos los valores propios. Otra forma es tomar el valor propio máximo. En cada caso, si la estadística elegida es lo suficientemente grande, se rechaza la hipótesis nula.BWW1Bλiλi

Por el contrario, LDA realiza la descomposición propia de y observa los vectores propios (no los valores propios). Estos vectores propios definen direcciones en el espacio variable y se denominan ejes discriminantes . La proyección de los datos en el primer eje discriminante tiene una separación de clase más alta (medida como B / W ); en el segundo - segundo más alto; etc. Cuando se usa LDA para la reducción de dimensionalidad, los datos se pueden proyectar, por ejemplo, en los dos primeros ejes, y los restantes se descartan.W1siB/W

Vea también una excelente respuesta de @ttnphns en otro hilo que cubre casi el mismo terreno.

Ejemplo

Consideremos un caso unidireccional con variables dependientes yk = 3 grupos de observaciones (es decir, un factor con tres niveles). Tomaré el conocido conjunto de datos Fisher's Iris y consideraré solo el largo y ancho del sépalo (para hacerlo bidimensional). Aquí está el diagrama de dispersión:M=2k=3

Diagrama de dispersión de Fisher Iris

Podemos comenzar calculando los ANOVA con ambos sepal longitud / ancho por separado. Imagine puntos de datos proyectados vertical u horizontalmente en los ejes xey, y ANOVA de 1 vía realizado para probar si tres grupos tienen las mismas medias. Obtenemos y p = 10 - 31 para la longitud del sépalo, y F 2 , 147 = 49 y p = 10 - 17 para el ancho del sépalo. Bien, mi ejemplo es bastante malo, ya que tres grupos son significativamente diferentes con valores p ridículos en ambas medidas, pero de todos modos me mantendré firme.F2,147=119p=1031F2,147=49p=1017

Ahora podemos realizar LDA para encontrar un eje que separe al máximo tres grupos. Como se describió anteriormente, se calcula la matriz de dispersión completa , dentro de la clase de matriz de dispersión W y la matriz de dispersión entre la clase B = T - W y encontrar los vectores propios de W - 1 B . Puedo trazar ambos vectores propios en el mismo diagrama de dispersión:TWB=TWW1B

Fisher Iris LDA

Las líneas discontinuas son ejes discriminantes. Los tracé con longitudes arbitrarias, pero el eje más largo muestra el vector propio con un valor propio más grande (4.1) y el más corto, el que tiene un valor propio más pequeño (0.02). Tenga en cuenta que no son ortogonales, pero las matemáticas de LDA garantizan que las proyecciones en estos ejes tienen correlación cero.

Si ahora proyectamos nuestros datos sobre el primer eje discriminante (más largo) y ejecute el ANOVA, obtenemos y P = 10 - 53 , que es menor que antes, y es el valor más bajo posible entre todas las proyecciones lineales (que fue todo el punto de LDA). La proyección en el segundo eje da solo p = 10 - 5 .F=305p=1053p=105

W1BB/WF=B/W(Nk)/(k1)=4.1147/2=305N=150k=3

λ1=4.1λ2=0.02p=1055

F(8,4)

Fisher Iris LDA modificado

p=1055p=0.26p=10545p0.05p

MANOVA vs LDA como aprendizaje automático versus estadísticas

Este me parece ahora uno de los casos ejemplares de cómo la comunidad de aprendizaje automático y la comunidad de estadísticas diferentes abordan lo mismo. Todos los libros de texto sobre aprendizaje automático cubren LDA, muestran bellas imágenes, etc., pero nunca mencionarían MANOVA (por ejemplo , Bishop , Hastie y Murphy ). Probablemente porque las personas allí están más interesadas en la precisión de la clasificación LDA (que corresponde aproximadamente al tamaño del efecto) y no tienen interés en la significación estadística de la diferencia de grupo. Por otro lado, los libros de texto sobre análisis multivariado debatirían sobre MANOVA ad nauseam, proporcionarían una gran cantidad de datos tabulados (arrrgh) pero rara vez mencionan LDA e incluso raramente muestran tramas (p. Ej.Anderson o Harris ; sin embargo, Rencher & Christensen do y Huberty & Olejnik incluso se llama "MANOVA y análisis discriminante").

MANOVA Factorial

El MANOVA factorial es mucho más confuso, pero es interesante considerarlo porque difiere del LDA en el sentido de que el "LDA factorial" no existe realmente, y el MANOVA factorial no corresponde directamente con ningún "LDA habitual".

32=6

MANOVA factorial

En esta figura, las seis "celdas" (también las llamaré "grupos" o "clases") están bien separadas, lo que, por supuesto, rara vez ocurre en la práctica. Tenga en cuenta que es obvio que hay efectos principales significativos de ambos factores aquí, y también un efecto de interacción significativo (porque el grupo superior derecho se desplaza hacia la derecha; si lo moviera a su posición de "cuadrícula", entonces no habría efecto de interacción).

¿Cómo funcionan los cálculos de MANOVA en este caso?

WBABAW1BA

BBBAB

T=BA+BB+BAB+W.
Bno puede descomponerse de manera única en una suma de tres contribuciones de factores porque los factores ya no son ortogonales; esto es similar a la discusión de Tipo I / II / III SS en ANOVA.]

BAWA=TBA

W1BA

ameba dice Reinstate Monica
fuente
+1, esa fue una buena cuenta de ello. He cambiado B^-1 Wa W^-1 B. Su imagen con discriminantes como ejes es similar a mi propia trama ; creo que utilizó el mismo enfoque de "rotación no ortogonal según los vectores propios normalizados".
ttnphns
Me pareció un poco confuso MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive. MANOVA, por supuesto, no sabe sobre nosotros haciendo LDA. MANOVA simplemente consume más df que ANOVA, porque es una prueba bidimensional, es por eso que la potencia del valor p debe ser -54 en lugar de -55.
ttnphns
Dudo que deba hablar en términos de los valores p. En cambio, el punto clave que MANOVA analiza la misma matriz W^-1 Bque LDA. LDA construye variables latentes (los discriminantes) fuera de ella. MANOVA no lo hace; sin embargo, investiga la matriz anterior de manera más exhaustiva, calculando varias estadísticas (como la traza de Pillai, la traza de Hotteling) para basar las pruebas en ellas.
ttnphns
La trama que será la metáfora de MANOVA (y creo que es posible que desee agregarlo a su respuesta) en contraste con LDA (su segunda imagen) sería la trama en la que los 3 centroides están conectados al gran centroide por líneas discontinuas .
ttnphns
Finalmente, no creo que tengas la ponderación correcta tan alta la diferencia en estadísticas y aprendizaje automático. Aprendí el análisis de datos estadísticos antes de escuchar la palabra machine learningla primera vez. Y los textos que leí discutieron sobre LDA, junto con MANOVA.
ttnphns