En este artículo , el autor vincula el análisis discriminante lineal (LDA) con el análisis de componentes principales (PCA). Con mi conocimiento limitado, no puedo seguir cómo LDA puede ser algo similar a PCA.
Siempre he pensado que LDA era una forma de algoritmo de clasificación, similar a la regresión logística. Apreciaré algo de ayuda para entender cómo LDA es similar a PCA, es decir, cómo es una técnica de reducción de dimensionalidad.
Respuestas:
Como he señalado en el comentario a su pregunta, el análisis discriminante es un procedimiento compuesto con dos etapas distintas: reducción de dimensionalidad (supervisada) y etapa de clasificación. En la reducción de dimensionalidad extraemos funciones discriminantes que reemplazan las variables explicativas originales. Luego clasificamos (típicamente por el enfoque de Bayes) observaciones a las clases usando esas funciones.
Algunas personas tienden a no reconocer esta naturaleza clara de dos etapas de LDA simplemente porque se han familiarizado solo con LDA con 2 clases (llamado análisis discriminante de Fisher ). En dicho análisis, solo existe una función discriminante y la clasificación es sencilla, por lo que todo se puede explicar en un libro de texto en un solo "pase" sin invitar a conceptos de reducción de espacio y clasificación de Bayes.
LDA está estrechamente relacionado con MANOVA. Este último es un lado "superficial y amplio" del modelo lineal (multivariante), mientras que la imagen de "profundidad y enfoque" es el análisis de correlación canónica (CCA). La cuestión es que la correlación entre dos conjuntos de variables multivariantes no es unidimensional y se explica por unos pocos pares de variables "latentes" llamadas variables canónicas.
Como una reducción de la dimensionalidad, LDA es teóricamente un CCA con dos conjuntos de variables, un conjunto son las variables de intervalo "explicativas" correlacionadas y el otro conjunto son las variables ficticias (u otras codificadas por contraste) que representan los grupos k , las clases de observaciones.k - 1 k
En CCA, consideramos que los dos conjuntos de variables correlacionadas X e Y son iguales en derechos. Por lo tanto, extraemos variables canónicas de ambos lados, y forman pares: la variante 1 del conjunto X y la variante 1 del conjunto Y con una correlación canónica entre ellas máxima; luego, la variante 2 del conjunto X y la variante 2 del conjunto Y con una correlación canónica más pequeña, etc. En LDA, por lo general, no nos interesan numéricamente las variantes canónicas del lado del conjunto de clases; Sin embargo, nos interesan las variantes canónicas desde el lado explicativo del conjunto. Esas se llaman funciones discriminantes canónicas o discriminantes .
Para repetir, esto es en realidad CCA en su naturaleza. LDA con más de 3 clases incluso se llama "LDA canónica". A pesar de que CCA y LDA generalmente se implementan algorítmicamente de manera algo diferente, en vista de la eficiencia del programa, son lo suficientemente "iguales" como para que sea posible recalcular los resultados (coeficientes, etc.) obtenidos en un procedimiento sobre los obtenidos en el otro. La mayor parte de la especificidad de LDA reside en el dominio de codificación de las variables categóricas que representan grupos. Este es el mismo dilema que se observa en (M) ANOVA. Los diferentes esquemas de codificación conducen a diferentes formas de interpretación de los coeficientes.
Dado que LDA (como reducción de dimensionalidad) puede entenderse como un caso particular de CCA, definitivamente debe explorar esta respuesta comparando CCA con PCA y regresión. El punto principal es que CCA está, en cierto sentido, más cerca de la regresión que de PCA porque CCA es una técnica supervisada (se extrae una combinación lineal latente para correlacionarse con algo externo) y PCA no (se dibuja una combinación lineal latente para resumir lo interno). Estas son dos ramas de reducción de dimensionalidad.
Cuando se trata de matemáticas, puede encontrar que, si bien las variaciones de los componentes principales corresponden a los valores propios de la nube de datos (la matriz de covarianza entre las variables), las variaciones de los discriminantes no están tan claramente relacionadas con los valores propios que se producen en LDA. La razón es que en LDA, los valores propios no resumen la forma de la nube de datos; más bien, pertenecen a la cantidad abstracta de la relación entre la variación entre clases y dentro de la clase en la nube.
Entonces, los componentes principales maximizan la varianza y los discriminantes maximizan la separación de clases; un caso simple en el que una PC no logra discriminar entre clases lo suficientemente bien, pero una lata discriminante es estas imágenes. Cuando se dibujan como líneas en la característica original, los discriminantes de espacio no suelen aparecer ortogonales (sin embargo, no están correlacionados), pero las PC sí.
Nota al pie para meticuloso. Cómo, en sus resultados, LDA está exactamente relacionado con CCA . Para repetir: si hace LDA con
p
variables yk
clases y hace CCA con Set1 como esasp
variables y Set2 comok-1
variables ficticias indicadoras que representan grupos (en realidad, no necesariamente variables indicadoras, otros tipos de variables de contraste, como desviación o Helmert) funcionarán ), entonces los resultados son equivalentes en lo que respecta a las variables canónicas extraídas para Set1: corresponden directamente a las funciones discriminantes extraídas en el LDA. ¿Cuál es la relación exacta, sin embargo?n-1
La diferencia entre CCA y LDA se debe a que LDA "sabe" que hay clases (grupos): usted indica directamente los grupos para calcular las matrices de dispersión dentro y entre ellas. Eso hace que los cálculos sean más rápidos y los resultados sean más convenientes para la clasificación posterior por discriminantes. CCA, por otro lado, no conoce las clases y procesa los datos como si todas fueran variables continuas, lo cual es más general pero una forma más lenta de cálculo. Pero los resultados son equivalentes, y he mostrado cómo.
Hasta ahora estaba implícito que los
k-1
dummies se ingresan CCA de la manera típica, es decir, centrados (como las variables de Set1). Uno podría preguntarse, ¿ es posible ingresar todos losk
dummies y no centrarlos (para escapar de la singularidad)? Sí, es posible, aunque probablemente sea menos conveniente. Aparecerá una variante canónica adicional de valor propio cero, los coeficientes para ello deben desecharse. Otros resultados siguen siendo válidos. Excepto los df s para probar la importancia de las correlaciones canónicas. Df para la primera correlación será lap*k
que está mal y la verdadera df, como en LDA, esp*(k-1)
.fuente