¿Cuál es la relación entre la regresión y el análisis discriminante lineal (LDA)?

24

¿Existe una relación entre la regresión y el análisis discriminante lineal (LDA)? ¿Cuáles son sus similitudes y diferencias? ¿Hay alguna diferencia si hay dos clases o más de dos clases?

regression logistic discriminant-analysis canonical-correlation reduced-rank-regression zca0
fuente

3

Una nota para el lector: la pregunta es ambigua, puede entenderse como una pregunta sobre regresión logística o sobre regresión lineal . El OP parece haber estado interesado en ambos aspectos (ver comentarios). La respuesta aceptada es sobre regresión lineal, pero algunas otras respuestas se centran en la regresión logística.

ameba dice Reinstate Monica

20

Supongo que la pregunta es sobre LDA y la regresión lineal (no logística).

Existe una relación considerable y significativa entre la regresión lineal y el análisis discriminante lineal . En caso de que la variable dependiente (DV) consista solo en 2 grupos, los dos análisis son realmente idénticos. A pesar de que los cálculos son diferentes y los resultados (regresión y coeficientes discriminantes) no son los mismos, son exactamente proporcionales entre sí.

Ahora para la situación de más de dos grupos. Primero, establezcamos que LDA (su etapa de extracción, no de clasificación) es equivalente (resultados linealmente relacionados) al análisis de correlación canónica si convierte el DV de agrupación en un conjunto de variables ficticias (con una redundante de ellas abandonadas) y hace canónica análisis con conjuntos "IVs" y "dummies". Las variaciones canónicas en el conjunto de "IVs" que obtiene son lo que LDA llama "funciones discriminantes" o "discriminantes".

Entonces, ¿cómo se relaciona el análisis canónico con la regresión lineal? El análisis canónico es en esencia un MANOVA (en el sentido de "Regresión lineal múltiple multivariante" o "Modelo lineal general multivariado") profundizado en una estructura latentede las relaciones entre los DV y los IV. Estas dos variaciones se descomponen en sus interrelaciones en "variantes canónicas" latentes. Tomemos el ejemplo más simple, Y vs X1 X2 X3. La maximización de la correlación entre los dos lados es una regresión lineal (si predices Y por X) o, que es lo mismo, es MANOVA (si predices X por Y). La correlación es unidimensional (con magnitud R ^ 2 = traza de Pillai) porque el conjunto menor, Y, consiste solo en una variable. Ahora tomemos estos dos conjuntos: Y1 Y2 vs X1 x2 x3. La correlación que se maximiza aquí es bidimensional porque el conjunto menor contiene 2 variables. La primera y más fuerte dimensión latente de la correlación se llama primera correlación canónica, y la parte restante, ortogonal a ella, la segunda correlación canónica. Asi que, MANOVA (o regresión lineal) solo pregunta cuáles son los roles parciales (los coeficientes) de las variables en toda la correlación bidimensional de conjuntos; mientras que el análisis canónico solo va más abajo para preguntar cuáles son los roles parciales de las variables en la primera dimensión correlacional y en la segunda.

Por lo tanto, el análisis de correlación canónica es una regresión lineal multivariante profundizada en una estructura latente de relación entre los DV y los IV. El análisis discriminante es un caso particular de análisis de correlación canónica ( ver exactamente cómo ). Entonces, aquí estaba la respuesta sobre la relación de LDA con la regresión lineal en un caso general de más de dos grupos.

Tenga en cuenta que mi respuesta no ve en absoluto LDA como técnica de clasificación. Estaba discutiendo LDA solo como técnica de extracción de latentes. La clasificación es la segunda etapa independiente de LDA (la describí aquí ). @Michael Chernick se estaba centrando en ello en sus respuestas.

ttnphns
fuente

¿Por qué necesito un "análisis de correlación canónica" y qué hace aquí? Gracias.

zca0

1

+1 (hace mucho tiempo). ¿Conoce alguna referencia que discuta (con algún detalle) esta conexión entre MANOVA / CCA / regresión entre X y la matriz de dummies de grupo Y y LDA (para el caso general de más de dos grupos)? Ahora estoy estudiando este tema, y creo que ya lo he resuelto más o menos, pero cuando busco regression formulation of LDAes sorprendentemente difícil encontrar algo: hay varios trabajos de investigación publicados después de 2000 que dicen que tal formulación no existe o tratando de sugerir uno. ¿Hay quizás una buena referencia [antigua]?

ameba dice Reinstate Monica

3

Mmm .. Sólo un par de papeles que vienen a la mente rápidamente: Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Si no puedes encontrarlos en Internet, puedo enviarte. Si encuentra más y mejores fuentes, háganoslo saber.

ttnphns

1

Mi pasaje no implica en absoluto que se puedan obtener coeficientes CCA teniendo solo a mano los resultados de la regresión (MANOVA). Estaba diciendo que MANOVA es "superficial" y CCA es capas más "profundas" de la misma empresa analítica. No dije que son sinónimos o que uno es un caso específico del otro.

ttnphns

1

Veo. Decidí publicar otra respuesta aquí, proporcionando los detalles matemáticos de LDA / equivalencia de regresión.

ameba dice Reinstate Monica

11

Aquí hay una referencia a uno de los artículos de Efron: La eficiencia de la regresión logística en comparación con el análisis discriminante normal , 1975.

Otro artículo relevante es Ng & Jordan, 2001, Sobre clasificadores discriminatorios versus generativos: una comparación de regresión logística e ingenua Bayes . Y aquí hay un resumen de un comentario al respecto de Xue y Titterington , 2008, que menciona los documentos de O'Neill relacionados con su tesis doctoral:

La comparación de clasificadores generativos y discriminativos es un tema permanente. Como una contribución importante a este tema, basándose en sus comparaciones teóricas y empíricas entre el clasificador ingenuo de Bayes y la regresión logística lineal, Ng y Jordan (NIPS 841 --- 848, 2001) afirmaron que existen dos regímenes distintos de rendimiento entre la generación y clasificadores discriminativos con respecto al tamaño del conjunto de entrenamiento. Sin embargo, en este trabajo, nuestros estudios empíricos y de simulación, como complemento de su trabajo, sugieren que la existencia de los dos regímenes distintos puede no ser tan confiable. Además, para los conjuntos de datos del mundo real, hasta ahora no existe un criterio general teóricamente correcto para elegir entre los enfoques discriminativos y generativos para la clasificación de una observación. $x$ en una clase $y$ ; la elección depende de la confianza relativa que tengamos en la corrección de la especificación de $p(y|x)$ o $p(x, y)$ para los datos Esto puede ser hasta cierto punto una demostración de por qué Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) y O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) prefieren el análisis discriminante lineal basado en la normalidad (LDA) cuando no se produce una especificación errónea del modelo, pero otros estudios empíricos pueden preferir la regresión logística lineal. Además, sugerimos que el emparejamiento de LDA suponiendo una matriz de covarianza diagonal común (LDA) o el clasificador Bayes ingenuo y la regresión logística lineal puede no ser perfecto y, por lo tanto, puede no ser confiable para cualquier reclamo derivado de la comparación entre LDA o el clasificador ingenuo de Bayes y la regresión logística lineal para generalizar a todos los clasificadores generativos y discriminativos.

Hay muchas otras referencias sobre esto que puede encontrar en línea.

Michael R. Chernick
fuente

+1 para las muchas referencias bien ubicadas sobre el tema (ahora aclarado por el OP) de regresión logística vs. LDA.

Macro

1

Aquí hay otra comparación de clasificadores generativos y discriminativos por Yaroslav Bulatov en Quora: quora.com/…

Pardis

También un tema relacionado, stats.stackexchange.com/q/95247/3277

ttnphns

7

El propósito de esta respuesta es explicar la relación matemática exacta entre el análisis discriminante lineal (LDA) y la regresión lineal multivariada (MLR). Resulta que el marco correcto es proporcionado por la regresión de rango reducido (RRR).

Mostraremos que LDA es equivalente a RRR de la matriz de indicadores de clase blanqueada en la matriz de datos.

Notación

Sea la matriz con puntos de datos en filas y variables en columnas. Cada punto pertenece a una de las clases o grupos. El punto pertenece al número de clase . $\newcommand{\X}{\mathbf X}\X$ $n\times d$ $\newcommand{\x}{\mathbf x}\x_i$ $k$ $\x_i$ $g(i)$

Supongamos que es la matriz del grupo de codificación del indicador siguiente manera: si pertenece a la clase , y caso contrario. Hay puntos de datos en la clase ; por supuesto . $\newcommand{\G}{\mathbf G}\G$ $n \times k$ $G_{ij}=1$ $\x_i$ $j$ $G_{ij}=0$ $n_j$ $j$ $\sum n_j = n$

Suponemos que los datos están centrados y que la media global es igual a cero, . Sea la media de la clase . $\newcommand{\bmu}{\boldsymbol \mu}\bmu=0$ $\bmu_j$ $j$

LDA

La matriz de dispersión total se puede descomponer en la suma de las matrices de dispersión entre clases y dentro de clase definidas de la siguiente manera: $\newcommand{\C}{\mathbf C}\C=\X^\top \X$ Se puede verificar que. LDA busca ejes discriminantes que tienen una varianza máxima entre grupos y una varianza mínima dentro de los grupos de la proyección. Específicamente, el primer eje discriminante es el vector unitariomaximizando

\begin{aligned} C_{b} & = \sum_{j} n_{j} μ_{j} μ_{j}^{⊤} \\ C_{w} & = \sum (x_{i} - μ_{g (i)}) (x_{i} - μ_{g (i)})^{⊤} . \end{aligned}

$\begin{align} \C_b &= \sum_j n_j \bmu_j \bmu_j^\top \\ \C_w &= \sum(\x_i - \bmu_{g(i)})(\x_i - \bmu_{g(i)})^\top. \end{align}$

C = C_{b} + C_{w}

$\C = \C_b + \C_w$

w

$\newcommand{\w}{\mathbf w}\w$

, y los primeros

ejes discriminantes apilados juntos en una matriz

deberían maximizar la traza

w^{⊤} C_{b} w / (w^{⊤} C_{w} w)

$\w^\top \C_b \w / (\w^\top \C_w \w)$

p

$p$

W

$\newcommand{\W}{\mathbf W}\W$

L_{L D A} = tr (W^{⊤} C_{b} W (W^{⊤} C_{w} W)^{- 1}) .

$\DeclareMathOperator{\tr}{tr} L_\mathrm{LDA}=\tr\left(\W^\top \C_b \W (\W^\top \C_w \W)^{-1}\right).$

Suponiendo que es rango completo, la solución LDA es la matriz de vectores propios de (ordenados por los valores propios en orden decreciente). $\C_w$ $\W_\mathrm{LDA}$ $\C_w^{-1} \C_b$

Esta era la historia habitual. Ahora hagamos dos observaciones importantes.

$b/w$ $b/(b+w)$ $\C^{-1} \C_b$

$\G^\top \X$ $n_j$ $\G^\top \G$ $(\G^\top \G)^{-1}\G^\top \X$ $\C_b$

C_{b} = X^{⊤} G (G^{⊤} G)^{- 1} G^{⊤} X .

$\C_b = \X^\top \G (\G^\top \G)^{-1}\G^\top \X.$

n_{j}

$n_j$

m

$m$

X^{⊤} G G^{⊤} X / m

$\X^\top \G \G^\top \X / m$

$\newcommand{\tG}{\widetilde {\mathbf G}}\tG$ $1/\sqrt{n_j}$ $\G$ $1$ $\C_b = \X^\top \tG \tG^\top \X$ $\tG$ $\tG = \G(\G^\top \G)^{-1/2}$

Regresión

Para simplificar, comenzaremos con el caso de un conjunto de datos equilibrado.

$\G$ $\X$ $\newcommand{\B}{\mathbf B}\B$ $\| \G - \X \B\|^2$ $\B$ $p$ $\B$ $\newcommand{\D}{\mathbf D} \newcommand{\F}{\mathbf F} \B=\D\F^\top$ $\D$ $\F$ $p$

$\D$ $\W_\mathrm{LDA}$ .

The proof is straightforward. For the given $\D$ , optimal $\F$ can be found via regression: $\F^\top = (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G$ . Plugging this into the loss function, we get

‖ G - X D (D^{⊤} X^{⊤} X D)^{- 1} D^{⊤} X^{⊤} G ‖^{2},

$\| \G - \X \D (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G\|^2,$ which can be written as trace using the identity

‖ A ‖^{2} = t r (A A^{⊤})

$\|\mathbf A\|^2=\mathrm{tr}(\mathbf A \mathbf A^\top)$ . After easy manipulations we get that the regression is equivalent to maximizing (!) the following scary trace:

tr (D^{⊤} X^{⊤} G G^{⊤} X D (D^{⊤} X^{⊤} X D)^{- 1}),

$\tr\left(\D^\top \X^\top \G \G^\top \X \D (\D^\top \X^\top \X \D)^{-1}\right),$ which is actually nothing else than

\dots = tr (D^{⊤} C_{b} D (D^{⊤} C D)^{- 1}) / m \sim L_{L D A} .

$\ldots = \tr\left(\D^\top \C_b \D (\D^\top \C \D)^{-1}\right)/m \sim L_\mathrm{LDA}.$

This finishes the proof. For unbalanced datasets we need to replace $\G$ with $\tG$ .

One can similarly show that adding ridge regularization to the reduced rank regression is equivalent to the regularized LDA.

Relationship between LDA, CCA, and RRR

In his answer, @ttnphns made a connection to canonical correlation analysis (CCA). Indeed, LDA can be shown to be equivalent to CCA between $\X$ and $\G$ . In addition, CCA between any $\newcommand{\Y}{\mathbf Y}\Y$ and $\X$ can be written as RRR predicting whitened $\Y$ from $\X$ . The rest follows from this.

Bibliography

It is hard to say who deserves the credit for what is presented above.

There is a recent conference paper by Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Based Regressions that presents exactly the same proof as above but creates the impression that they invented this approach. This is definitely not the case. Torre wrote a detailed treatment of how most of the common linear multivariate methods can be seen as reduced rank regression, see A Least-Squares Framework for Component Analysis, 2009, and a later book chapter A unification of component analysis methods, 2013; he presents the same argument but does not give any references either. This material is also covered in the textbook Modern Multivariate Statistical Techniques (2008) by Izenman, who introduced RRR back in 1975.

The relationship between LDA and CCA apparently goes back to Bartlett, 1938, Further aspects of the theory of multiple regression -- that's the reference I often encounter (but did not verify). The relationship between CCA and RRR is described in the Izenman, 1975, Reduced-rank regression for the multivariate linear model. So all of these ideas have been around for a while.

amoeba says Reinstate Monica
fuente

+1 from me for the particulars and for referring to my answer and for introducing the RRR here (upvoting in advance because it will pass some unknown time before I sit down to tear through all that magnificent/formidable algebra!).

ttnphns

0

Linear regression and linear discriminant analysis are very different. Linear regression relates a dependent variable to a set of independent predictor variables. The idea is to find a function linear in the parameters that best fits the data. It does not even have to be linear in the covariates. Linear discriminant analysis on the other hand is a procedure for classifying objects into categories. For the two-class problem it seeks to find the best separating hyperplane for dividing the groups into two catgories. Here best means that it minimizes a loss function that is a linear combination of the error rates. For three or more groups it finds the best set of hyperplanes (k-1 for the k class problem). In discriminant analysis the hypoerplanes are linear in the feature variables.

The main similarity between the two is term linear in the titles.

Michael R. Chernick
fuente

Sorry, I wrote wrong. Should be regression and LDA. I saw some articles about linear discriminants via regression, but I don't know how it works. I think LDA and logistic regression for two classes have some relations but cannot tell very clearly what they are. And for more than two classes, I don't know if there are any relations.

zca0

1

Yes there is a relationship between logistic regression and linear discriminant analysis. Efron and his student Terry O'Neilll wrote about this in the late 1970s. I will try to find a link to a reference.

Michael R. Chernick

2

Here is a related question and answers on CV. stats.stackexchange.com/questions/14697/…

Michael R. Chernick

-1 because actually there is a deep relation between LDA and regression, as both @ttnphns and myself explain in our answers.

amoeba says Reinstate Monica

¿Cuál es la relación entre la regresión y el análisis discriminante lineal (LDA)?

Respuestas:

Notación

LDA

Regresión

Relationship between LDA, CCA, and RRR

Bibliography