¿Cómo se relaciona MANOVA con LDA?

En una palabra

Tanto MANOVA unidireccional como LDA comienzan con la descomposición de la matriz de dispersión total en la matriz de dispersión dentro de clase y la matriz de dispersión entre clases , de modo que . Tenga en cuenta que esto es totalmente análoga a cómo ANOVA de una vía se descompone suma total de cuadrados en dentro de clase y entre la clase sumas de cuadrados: . En ANOVA, se calcula una relación y se usa para encontrar el valor p: cuanto mayor es esta relación, menor es el valor p. MANOVA y LDA componen una cantidad multivariante análoga . $\mathbf T$ $\mathbf W$ $\mathbf B$ $\mathbf T = \mathbf W + \mathbf B$ $T$ $T=B+W$ $B/W$ $\mathbf W^{-1} \mathbf B$

De aquí en adelante son diferentes. El único propósito de MANOVA es probar si las medias de todos los grupos son las mismas; esta hipótesis nula significaría que debe ser similar en tamaño a . Entonces MANOVA realiza una descomposición propia de y encuentra sus valores propios . La idea ahora es probar si son lo suficientemente grandes como para rechazar el valor nulo. Hay cuatro formas comunes de formar una estadística escalar de todo el conjunto de valores propios . Una forma es tomar la suma de todos los valores propios. Otra forma es tomar el valor propio máximo. En cada caso, si la estadística elegida es lo suficientemente grande, se rechaza la hipótesis nula. $\mathbf B$ $\mathbf W$ $\mathbf W^{-1} \mathbf B$ $\lambda_i$ $\lambda_i$

Por el contrario, LDA realiza la descomposición propia de y observa los vectores propios (no los valores propios). Estos vectores propios definen direcciones en el espacio variable y se denominan ejes discriminantes . La proyección de los datos en el primer eje discriminante tiene una separación de clase más alta (medida como ); en el segundo - segundo más alto; etc. Cuando se usa LDA para la reducción de dimensionalidad, los datos se pueden proyectar, por ejemplo, en los dos primeros ejes, y los restantes se descartan. $\mathbf W^{-1} \mathbf B$ $B/W$

Vea también una excelente respuesta de @ttnphns en otro hilo que cubre casi el mismo terreno.

Ejemplo

Consideremos un caso unidireccional con variables dependientes grupos de observaciones (es decir, un factor con tres niveles). Tomaré el conocido conjunto de datos Fisher's Iris y consideraré solo el largo y ancho del sépalo (para hacerlo bidimensional). Aquí está el diagrama de dispersión: $M=2$ $k=3$

Diagrama de dispersión de Fisher Iris

Podemos comenzar calculando los ANOVA con ambos sepal longitud / ancho por separado. Imagine puntos de datos proyectados vertical u horizontalmente en los ejes xey, y ANOVA de 1 vía realizado para probar si tres grupos tienen las mismas medias. Obtenemos y para la longitud del sépalo, y y para el ancho del sépalo. Bien, mi ejemplo es bastante malo, ya que tres grupos son significativamente diferentes con valores p ridículos en ambas medidas, pero de todos modos me mantendré firme. $F_{2,147}=119$ $p=10^{-31}$ $F_{2,147}=49$ $p=10^{-17}$

Ahora podemos realizar LDA para encontrar un eje que separe al máximo tres grupos. Como se describió anteriormente, se calcula la matriz de dispersión completa , dentro de la clase de matriz de dispersión y la matriz de dispersión entre la clase y encontrar los vectores propios de . Puedo trazar ambos vectores propios en el mismo diagrama de dispersión: $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}=\mathbf{T}-\mathbf{W}$ $\mathbf{W}^{-1}\mathbf{B}$

Fisher Iris LDA

Las líneas discontinuas son ejes discriminantes. Los tracé con longitudes arbitrarias, pero el eje más largo muestra el vector propio con un valor propio más grande (4.1) y el más corto, el que tiene un valor propio más pequeño (0.02). Tenga en cuenta que no son ortogonales, pero las matemáticas de LDA garantizan que las proyecciones en estos ejes tienen correlación cero.

Si ahora proyectamos nuestros datos sobre el primer eje discriminante (más largo) y ejecute el ANOVA, obtenemos y , que es menor que antes, y es el valor más bajo posible entre todas las proyecciones lineales (que fue todo el punto de LDA). La proyección en el segundo eje da solo . $F=305$ $p=10^{-53}$ $p=10^{-5}$

$\mathbf{W}^{-1}\mathbf{B}$ $B/W$ $F=B/W \cdot (N-k)/(k-1) = 4.1\cdot 147/2 = 305$ $N=150$ $k=3$

$\lambda_1=4.1$ $\lambda_2=0.02$ $p=10^{-55}$

$F$ $(8,4)$

Fisher Iris LDA modificado

$p=10^{-55}$ $p=0.26$ $p=10^{-54}$ $\sim 5$ $p\approx0.05$ $p$

MANOVA vs LDA como aprendizaje automático versus estadísticas

Este me parece ahora uno de los casos ejemplares de cómo la comunidad de aprendizaje automático y la comunidad de estadísticas diferentes abordan lo mismo. Todos los libros de texto sobre aprendizaje automático cubren LDA, muestran bellas imágenes, etc., pero nunca mencionarían MANOVA (por ejemplo , Bishop , Hastie y Murphy ). Probablemente porque las personas allí están más interesadas en la precisión de la clasificación LDA (que corresponde aproximadamente al tamaño del efecto) y no tienen interés en la significación estadística de la diferencia de grupo. Por otro lado, los libros de texto sobre análisis multivariado debatirían sobre MANOVA ad nauseam, proporcionarían una gran cantidad de datos tabulados (arrrgh) pero rara vez mencionan LDA e incluso raramente muestran tramas (p. Ej.Anderson o Harris ; sin embargo, Rencher & Christensen do y Huberty & Olejnik incluso se llama "MANOVA y análisis discriminante").

MANOVA Factorial

El MANOVA factorial es mucho más confuso, pero es interesante considerarlo porque difiere del LDA en el sentido de que el "LDA factorial" no existe realmente, y el MANOVA factorial no corresponde directamente con ningún "LDA habitual".

$3\cdot 2=6$

MANOVA factorial

En esta figura, las seis "celdas" (también las llamaré "grupos" o "clases") están bien separadas, lo que, por supuesto, rara vez ocurre en la práctica. Tenga en cuenta que es obvio que hay efectos principales significativos de ambos factores aquí, y también un efecto de interacción significativo (porque el grupo superior derecho se desplaza hacia la derecha; si lo moviera a su posición de "cuadrícula", entonces no habría efecto de interacción).

¿Cómo funcionan los cálculos de MANOVA en este caso?

$\mathbf W$ $\mathbf B_A$ $\mathbf B_A$ $\mathbf W^{-1} \mathbf B_A$

$\mathbf B_B$ $\mathbf B_{AB}$

T = B_{A} + B_{B} + B_{A B} + W .

$\mathbf T = \mathbf B_A + \mathbf B_B + \mathbf B_{AB} + \mathbf W.$ $\mathbf B$ no puede descomponerse de manera única en una suma de tres contribuciones de factores porque los factores ya no son ortogonales; esto es similar a la discusión de Tipo I / II / III SS en ANOVA.]

$\mathbf B_A$ $\mathbf W_A=\mathbf T - \mathbf B_A$

$\mathbf W^{-1} \mathbf B_A$

ameba dice Reinstate Monica
fuente

+1, esa fue una buena cuenta de ello. He cambiado B^-1 Wa W^-1 B. Su imagen con discriminantes como ejes es similar a mi propia trama ; creo que utilizó el mismo enfoque de "rotación no ortogonal según los vectores propios normalizados".

ttnphns

Me pareció un poco confuso

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive

. MANOVA, por supuesto, no sabe sobre nosotros haciendo LDA. MANOVA simplemente consume más df que ANOVA, porque es una prueba bidimensional, es por eso que la potencia del valor p debe ser -54 en lugar de -55.

ttnphns

Dudo que deba hablar en términos de los valores p. En cambio, el punto clave que MANOVA analiza la misma matriz W^-1 Bque LDA. LDA construye variables latentes (los discriminantes) fuera de ella. MANOVA no lo hace; sin embargo, investiga la matriz anterior de manera más exhaustiva, calculando varias estadísticas (como la traza de Pillai, la traza de Hotteling) para basar las pruebas en ellas.

ttnphns

La trama que será la metáfora de MANOVA (y creo que es posible que desee agregarlo a su respuesta) en contraste con LDA (su segunda imagen) sería la trama en la que los 3 centroides están conectados al gran centroide por líneas discontinuas .

ttnphns

Finalmente, no creo que tengas la ponderación correcta tan alta la diferencia en estadísticas y aprendizaje automático. Aprendí el análisis de datos estadísticos antes de escuchar la palabra machine learningla primera vez. Y los textos que leí discutieron sobre LDA, junto con MANOVA.

ttnphns

¿Cómo se relaciona MANOVA con LDA?

Respuestas:

En una palabra

Ejemplo

MANOVA vs LDA como aprendizaje automático versus estadísticas

MANOVA Factorial