Tres versiones de análisis discriminante: diferencias y cómo usarlas

¿Alguien puede explicar las diferencias y dar ejemplos específicos de cómo utilizar estos tres análisis?

LDA - Análisis discriminante lineal
FDA - Análisis discriminante de Fisher
QDA - Análisis discriminatorio cuadrático

Busqué en todas partes, pero no pude encontrar ejemplos reales con valores reales para ver cómo se usan estos análisis y se calcularon los datos, solo muchas fórmulas que son difíciles de entender sin ningún ejemplo real. Como traté de entender, era difícil distinguir qué ecuaciones / fórmulas pertenecían a LDA y cuáles a la FDA.

Por ejemplo, digamos que hay tales datos:

x1 x2 class
1  2  a
1  3  a
2  3  a
3  3  a
1  0  b
2  1  b
2  2  b

Y digamos algunos datos de prueba:

Entonces, ¿cómo usar esos datos con estos tres enfoques? Sería mejor ver cómo calcular todo a mano, sin usar un paquete matemático que calcule todo detrás de escena.

PD: solo encontré este tutorial: http://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDA . Muestra cómo usar LDA.

classification discriminant-analysis Andrius
fuente

Respuestas:

El "Análisis discriminante de Fisher" es simplemente LDA en una situación de 2 clases. Cuando solo hay 2 clases, los cálculos a mano son factibles y el análisis está directamente relacionado con la regresión múltiple. LDA es la extensión directa de la idea de Fisher sobre la situación de cualquier número de clases y utiliza dispositivos de álgebra matricial (como la descomposición propia) para calcularlo. Entonces, el término "Análisis discriminante de Fisher" puede verse como obsoleto hoy. En su lugar, debe usarse el "análisis discriminante lineal". Ver también . El análisis discriminante con 2+ clases (multiclase) es canónico por su algoritmo (extrae los dicriminantes como variantes canónicas); término raro "Análisis discriminante canónico"

Fisher usó lo que entonces se llamaba "funciones de clasificación de Fisher" para clasificar objetos después de que la función discriminante ha sido calculada. Hoy en día, se utiliza un enfoque más general de Bayes dentro del procedimiento LDA para clasificar objetos.

A su solicitud de explicaciones de LDA, puedo enviarle a estas mis respuestas: extracción en LDA , clasificación en LDA , LDA entre los procedimientos relacionados . También esto , esto , esto preguntas y respuestas.

Al igual que ANOVA requiere un supuesto de varianzas iguales, LDA requiere un supuesto de matrices de varianza-covarianza iguales (entre las variables de entrada) de las clases. Este supuesto es importante para la etapa de clasificación del análisis. Si las matrices difieren sustancialmente, las observaciones tenderán a asignarse a la clase donde la variabilidad es mayor. Para superar el problema, QDA se inventó . QDA es una modificación de LDA que permite la heterogeneidad anterior de las matrices de covarianza de las clases.

Si tiene la heterogeneidad (como se detecta, por ejemplo, mediante la prueba M de Box) y no tiene QDA a mano, aún puede usar LDA en el régimen de usar matrices de covarianza individuales (en lugar de la matriz agrupada) de los discriminantes en la clasificación . Esto resuelve en parte el problema, aunque con menos eficacia que en QDA, porque, como se acaba de señalar, estas son las matrices entre los discriminantes y no entre las variables originales (qué matrices diferían).

Déjame salir analizando tus datos de ejemplo por ti mismo.

Responder a @ zyxue y comentarios

LDA es lo que definió FDA en su respuesta. LDA primero extrae construcciones lineales (llamadas discriminantes) que maximizan la separación entre dentro y dentro, y luego las usa para realizar la clasificación (gaussiana). Si (como usted dice) LDA no estuviera vinculado con la tarea de extraer los discriminantes, LDA parecería ser solo un clasificador gaussiano, no se necesitaría ningún nombre "LDA".

$S_w$ $S_w$ s son las mismas que las covarianzas dentro de la clase son todas iguales, identidad; ese derecho a usarlos se vuelve absoluto.)

El clasificador gaussiano (la segunda etapa de LDA) usa la regla de Bayes para asignar observaciones a las clases por parte de los discriminantes. El mismo resultado se puede lograr a través de las llamadas funciones de clasificación lineal de Fisher que utilizan directamente las características originales. Sin embargo, el enfoque de Bayes basado en discriminantes es un poco general, ya que permitirá utilizar también matrices de covarianza discriminantes de clase separadas, además de la forma predeterminada de usar una, la agrupada. Además, permitirá basar la clasificación en un subconjunto de discriminantes.

Cuando solo hay dos clases, ambas etapas de LDA pueden describirse juntas en una sola pasada porque la "extracción de latentes" y la "clasificación de observaciones" se reducen a la misma tarea.

ttnphns
fuente

Creo que recuerdo haber aprendido en mi curso de aprendizaje automático que la LDA gaussiana de 2 clases asumió densidades gaussianas y utiliza la regla Bayesian MPE, mientras que la LDA de Fisher no hace la suposición gaussiana y cambia el criterio de optimización para maximizar la SNR. ¿Es esto congruente con tu respuesta?

Austin

@Jake También está interesado en esto, en esta respuesta: stats.stackexchange.com/questions/87975/… , se afirma que el resultado es el mismo. Comentarios?

Dole

¿Está seguro de que "" Análisis discriminante de Fisher "es simplemente LDA en una situación de 2 clases"?

zyxue

@zyxue, 95% seguro, pero de todos modos el término me parece obsoleto. Consulte mi nota al pie en stats.stackexchange.com/q/190806/3277 .

ttnphns

@ ttnphns, fyi, según youtu.be/hGKt0yy9q_E?t=3010 , la FDA y la LDA a menudo se mezclan en la literatura. Una forma de distinguir los dos, la FDA es un método de extracción de características, mientras que LDA y QDA son técnicas de clasificación.

zyxue

Me resulta difícil aceptar que la FDA sea LDA para dos clases, como sugirió @ttnphns.

Recomiendo dos conferencias muy informativas y hermosas sobre este tema del profesor Ali Ghodsi:

LDA y QDA . Además, la página 108 del libro Los elementos del aprendizaje estadístico ( pdf ) tiene una descripción de LDA consistente con la conferencia.
FDA

Para mí, LDA y QDA son similares, ya que ambas son técnicas de clasificación con supuestos gaussianos. Una diferencia importante entre los dos es que LDA asume que las matrices de covarianza de características de ambas clases son las mismas, lo que resulta en un límite de decisión lineal. En contraste, QDA es menos estricto y permite diferentes matrices de covarianza de características para diferentes clases, lo que conduce a un límite de decisión cuadrático. Vea la siguiente figura de scikit-learn para obtener una idea de cómo se ve el límite de decisión cuadrático.

Algunos comentarios sobre las subtramas :

Fila superior: cuando las matrices de covarianza son de hecho iguales en los datos, LDA y QDA conducen a los mismos límites de decisión.
Fila inferior: cuando las matrices de covarianza son diferentes, LDA conduce a un mal rendimiento ya que su suposición se vuelve inválida, mientras que QDA realiza una clasificación mucho mejor.

Por otro lado, la FDA es una especie muy diferente, que no tiene nada que ver con el supuesto de Gaussion. Lo que la FDA intenta hacer es encontrar una transformación lineal para maximizar la distancia media entre clases y minimizar la varianza dentro de la clase . La segunda conferencia explica esta idea maravillosamente. A diferencia de LDA / QDA, la FDA no hace la clasificación, aunque las características obtenidas después de la transformación encontradas por la FDA podrían usarse para la clasificación, por ejemplo, usando LDA / QDA o SVM u otros.

zyxue
fuente

Por favor vea mi respuesta a su respuesta en mi respuesta. No he visto la lección en video a la que se vincula, así que no puedo decir si estoy de acuerdo con ella. No estoy de acuerdo con la interpretación / definición (de LDA vs FDA) que está dando en la respuesta. Pero eso, la definición de los dos términos, no es un tema muy importante para mí. Es más importante entender cómo funciona todo.

ttnphns

Si entiendes,

FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classification

entonces diría que es lo que llamo "fase de extracción de LDA". Por supuesto, estas características extraídas (las funciones discriminantes): puede usarlas como desee. En la clasificación estándar de LDA, se usan como clasificadores gaussianos.

ttnphns

Tengo curiosidad de dónde leíste que " LDA primero extrae construcciones lineales (llamadas discriminantes)" . Pensé que se llama discriminante lineal porque el límite de decisión es lineal, que es el resultado de suponer que la matriz de covarianza de características es la misma para diferentes clases. Del mismo modo, QDA tiene un límite de decisión cuadrático. Estos también se muestran en las figuras incrustadas. Además de los videos anteriores, estoy haciendo referencia a Los Elementos del Aprendizaje Estadístico ( pdf . En la página 108, comienza a describir LDA sin mencionar la extracción de características.

zyxue

Después de todo, creo que estamos hablando de lo mismo, pero es solo una forma de nombrar las cosas. Piensas que LDA = extracción_característica + clasificación, pero según mis referencias, LDA se trata solo de clasificación. La parte de feature_extraction aquí se llama FDA. Es importante destacar que no hay nada que hacer aquí con la cantidad de clases involucradas aquí. Tanto LDA como FDA pueden lidiar con más de dos clases.

zyxue

Podemos apegarnos a las definiciones que también se usan. De todos modos, uno debe notar que las "construcciones lineales" y los "límites de decisión lineales" están relacionados, en el contexto de DA son casi lo mismo. Mire su imagen con el borde de decisión como línea recta. Cuando transforma las clases demasiado, las elipses para que sean esféricas, la función discriminante será precisamente perpendicular al borde. En realidad, lo "principal" aquí es la función discriminante, una variable, una dimensión, mientras que el límite de decisión es el límite en el espacio que depende de la dirección de la misma. El límite de diciembre es "secundario".

ttnphns