Análisis discriminante lineal y datos no distribuidos normalmente

Si entiendo correctamente, un análisis discriminante lineal (LDA) asume datos distribuidos normales, características independientes y covarianzas idénticas para cada clase para el criterio de optimización.

Dado que la media y la varianza se estiman a partir de los datos de entrenamiento, ¿no es ya una violación?

Encontré una cita en un artículo (Li, Tao, Shenghuo Zhu y Mitsunori Ogihara. " Uso del análisis discriminante para la clasificación de varias clases: una investigación experimental ". Sistemas de conocimiento e información 10, nº 4 (2006): 453–72 .)

"el análisis discriminante lineal con frecuencia logra buenos desempeños en las tareas de reconocimiento de rostros y objetos, a pesar de que los supuestos de la matriz de covarianza común entre los grupos y la normalidad a menudo se violan (Duda, et al., 2001)"

- desafortunadamente, no pude encontrar la sección correspondiente en Duda et. Alabama. "Clasificación de patrones".

¿Alguna experiencia o pensamiento sobre el uso de LDA (vs. LDA regularizada o QDA) para datos no normales en el contexto de la reducción de dimensionalidad?

dimensionality-reduction normality-assumption discriminant-analysis ameba
fuente

Usted pregunta específicamente sobre LDA multiclase. ¿Qué le hace pensar que el LDA multiclase y el LDA de dos clases se comportan de manera diferente a este respecto (bajo violación de la normalidad y / o supuestos de covarianza comunes)?

ameba

Si no me falta algo aquí, debería basarse en los mismos supuestos, ¿verdad? Simplemente no vi ninguna suposición en el documento de Rao con respecto a la normalidad, pero generalicé la pregunta

Respuestas:

Esto es lo que Hastie et al. tengo que decir al respecto (en el contexto de LDA de dos clases) en The Elements of Statistical Learning, sección 4.3:

Dado que esta derivación de la dirección LDA a través de mínimos cuadrados no utiliza una suposición gaussiana para las características, su aplicabilidad se extiende más allá del ámbito de los datos gaussianos. Sin embargo, la derivación de la intersección particular o punto de corte dado en (4.11) requiere datos gaussianos. Por lo tanto, tiene sentido elegir el punto de corte que minimiza empíricamente el error de entrenamiento para un conjunto de datos dado. Esto es algo que encontramos que funciona bien en la práctica, pero no lo hemos visto mencionado en la literatura.

~~No entiendo completamente la derivación a través de mínimos cuadrados a los que se refieren, pero en general~~ [Actualización: voy a resumirlo brevemente en algún momento] Creo que este párrafo tiene sentido: incluso si los datos son muy no gaussianos o de clase Las covarianzas son muy diferentes, el eje LDA probablemente aún producirá cierta discriminabilidad. Sin embargo, el punto de corte en este eje (que separa dos clases) dado por LDA puede estar completamente desactivado. Optimizarlo por separado puede mejorar sustancialmente la clasificación.

Tenga en cuenta que esto se refiere solo al rendimiento de clasificación. Si todo lo que busca es la reducción de dimensionalidad, entonces el eje LDA es todo lo que necesita. Entonces, supongo que para la reducción de la dimensionalidad, LDA a menudo hará un trabajo decente incluso si se violan los supuestos.

Con respecto a rLDA y QDA: rLDA debe usarse si no hay suficientes puntos de datos para estimar de manera confiable la covarianza dentro de la clase (y es vital en este caso). Y QDA es un método no lineal, por lo que no estoy seguro de cómo usarlo para reducir la dimensionalidad.

ameba
fuente

Gracias de nuevo por este valioso y minucioso comentario.

Han pasado pocos días :)

ameba

¿Puedo saber eso en el contexto de la reducción de dimensionalidad usando LDA / FDA? LDA/FDA can start with n dimensions and end with k dimensions, where k < n. ¿Es eso correcto? O La salida esc-1 where c is the number of classes and the dimensionality of the data is n with n>c.

aan