Álgebra de LDA. El poder de discriminación de Fisher de un análisis discriminante variable y lineal

13

Aparentemente,

El análisis de Fisher apunta a maximizar simultáneamente la separación entre clases, mientras se minimiza la dispersión dentro de clase. Una medida útil del poder de discriminación de una variable viene dada por la cantidad diagonal: Bii/Wii .

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Entiendo que el tamaño ( p x p) de la Between ( B ) y dentro de la Clase ( W ) matrices están dados por el número de variables de entrada, p. Dado esto, ¿cómo puede Bii/Wii ser una "medida útil del poder de discriminación" de una sola variable? Se requieren al menos dos variables para construir las matrices B y W, por lo que las trazas respectivas representarían más de una variable.

Actualización: ¿Estoy en lo cierto al pensar que no es una traza sobre una traza, donde la suma está implícita, sino el elemento de matriz B i i dividido por W i i ? Actualmente esa es la única forma en que puedo conciliar la expresión con el concepto.Bii/WiiBiiWii

categoría
fuente

Respuestas:

23

Aquí hay una historia corta sobre el Análisis discriminante lineal (LDA) como respuesta a la pregunta.

Cuando tenemos una variable y grupos (clases) para discriminar por ella, esto es ANOVA. El poder de discriminación de la variable es S S entre los grupos / S S dentro de los grupos , o B / W .kSSbetween groups/SSwithin groupsB/W

Cuando tenemos variables, esto es MANOVA. Si las variables no están correlacionadas ni en la muestra total ni dentro de los grupos, entonces el poder de discriminación anterior, B / W , se calcula de forma análoga y podría escribirse como t r a c e ( S b ) / t r a c e ( S w ) , donde S w es la matriz de dispersión agrupada dentro del grupo (es decir, la suma de k matrices SSCP de las variables, centradas en el centroide de los respectivos grupos); S bpB/Wtrace(Sb)/trace(Sw)Swk p x p Sbes la matriz de dispersión entre grupos , donde S t es la matriz de dispersión para todos los datos (matriz SSCP de las variables centradas en el gran centroide. (Una "matriz de dispersión" es solo una matriz de covarianza sin devidedness) por sample_size-1.)=StSwSt

Cuando hay alguna correlación entre las variables, y generalmente la hay, el se expresa mediante S - 1 w S b, que ya no es un escalar sino una matriz. Esto simplemente se debe a que hay p variables discriminatorias ocultas detrás de esta discriminación "general" y en parte compartiéndola.B/WSw1Sbp

Ahora, es posible que queramos sumergirnos en MANOVA y descomponer en variables latentes nuevas y mutuamente ortogonales (su número es m i n ( p , k - 1 ) ) llamadas funciones discriminantes o discriminantes : la primera es la más fuerte discriminador, el segundo es el siguiente, etc. Al igual que lo hacemos en el análisis de componentes de Pricipal. Reemplazamos variables correlacionadas originales por discriminantes no correlacionados sin pérdida de poder discriminativo. Debido a que cada siguiente discriminante es cada vez más débil, podemos aceptar un pequeño subconjunto de primeros mSw1Sbmin(p,k1)mdiscriminantes sin gran pérdida de poder discriminativo (de nuevo, similar a cómo usamos PCA). Esta es la esencia de LDA en cuanto a la técnica de reducción de dimensionalidad (LDA también es una técnica de clasificación de Bayes, pero este es un tema completamente separado).

LDA por lo tanto se asemeja a PCA. PCA descompone "correlación", LDA descompone "separación". En LDA, debido a que la matriz anterior que expresa "separación" no es simétrica, se utiliza un truco algebraico de derivación para encontrar sus valores propios y vectores propios 1 . El valor propio de cada función discriminante (una variable latente) es su poder discriminatorio B / W del que hablaba en el primer párrafo. Además, vale la pena mencionar que los discriminantes, aunque no están correlacionados, no son geométricamente ortogonales como ejes dibujados en el espacio variable original.1B/W

Algunos temas potencialmente relacionados que es posible que desee leer:

LDA es MANOVA "profundizado" en el análisis de la estructura latente y es un caso particular de análisis de correlación canónica (equivalencia exacta entre ellos como tal ). Cómo LDA clasifica los objetos y cuáles son los coeficientes de Fisher. (Actualmente, solo recuerdo mis propias respuestas, tal como las recuerdo, pero también hay muchas respuestas buenas y mejores de otras personas en este sitio).


cálculos de la fase de extracción de LDAson los siguientes. Los valores propios ( L ) de S - 1 w S b son los mismos que para la matriz simétrica ( U - 1 ) S b U - 1 , donde U es laraízdeCholeskyde S w : una matriz triangular superior por la cual U U = S w . En cuanto a los vectores propios de S - 1 w S b , están dados por V1 LSw1Sb(U1)SbU1USwUU=SwSw1SbV=U1EE(U1)SbU1U

Sw1SbSwSw1/2Sw1/2SbSw1/2 (which is a symmetric matrix) yields discriminant eigenvalues L and eigenvectors A, whereby the discriminant eigenvectors V=Sw1/2A. The "quasi zca-whitening" method can be rewritten to be done via singular-value-decomposition of casewise dataset instead of working with Sw and Sb scatter matrices; that adds computational precision (what is important in near-singularity situation), but sacrifices speed.

OK, let's turn to the statistics usually computed in LDA. Canonical correlations corresponding to the eigenvalues are Γ=L/(L+1). Whereas eigenvalue of a discriminant is B/W of the ANOVA of that discriminant, canonical correlation squared is B/T (T = total sum-of-squares) of that ANOVA.

If you normalize (to SS=1) columns of eigenvectors V then these values can be seen as the direction cosines of the rotation of axes-variables into axes-discriminants; so with their help one can plot discriminants as axes on the scatterplot defined by the original variables (the eigenvectors, as axes in that variables' space, are not orthogonal).

The unstandardized discriminant coefficients or weights are simply the scaled eigenvectors C=Nk V. These are the coefficients of linear prediction of discriminants by the centered original variables. The values of discriminant functions themselves (discriminant scores) are XC, where X is the centered original variables (input multivariate data with each column centered). Discriminants are uncorrelated. And when computed by the just above formula they also have the property that their pooled within-class covariance matrix is the identity matrix.

Optional constant terms accompanying the unstandardized coefficients and allowing to un-center the discriminants if the input variables had nonzero means are C0=pdiag(X¯)C, where diag(X¯) is the diagonal matrix of the p variables' means and p is the sum across the variables.

In standardized discriminant coefficients, the contribution of variables into a discriminant is adjusted to the fact that variables have different variances and might be measured in different units; K=diag(Sw)V (where diag(Sw) is diagonal matrix with the diagonal of Sw). Despite being "standardized", these coefficients may occasionally exceed 1 (so don't be confused). If the input variables were z-standardized within each class separately, standardized coefficients = unstandardized ones. Coefficients may be used to interpret discriminants.

Pooled within-group correlations ("structure matrix", sometimes called loadings) between variables and discriminants are given by R=diag(Sw)1SwV. Correlations are insensitive to collinearity problems and constitute an alternative (to the coefficients) guidance in assessment of variables' contributions, and in interpreting discriminants.


See the complete output of the extraction phase of the discriminant analysis of iris data here.

Read this nice later answer which explains a bit more formally and detailed the same things as I did here.

This question deals with the issue of standardizing data before doing LDA.

ttnphns
fuente
As said in your answer, primarily LDA is used to do dimension reduction, but if the purpose is just classification, then we can just simply use the Bayes approach, right? But if the purpose is dimension reduction, then we have to take the Fisher's approach to find those directions on which we will project the original input X, right?
avocado
1
Yes. However, word "Fisher's approach" is ambiguous. It can mean 2 things: 1) LDA (for 2 classes) itself; 2) Fisher's classification functions in LDA.
ttnphns