Si entiendo correctamente, un análisis discriminante lineal (LDA) asume datos distribuidos normales, características independientes y covarianzas idénticas para cada clase para el criterio de optimización.
Dado que la media y la varianza se estiman a partir de los datos de entrenamiento, ¿no es ya una violación?
Encontré una cita en un artículo (Li, Tao, Shenghuo Zhu y Mitsunori Ogihara. " Uso del análisis discriminante para la clasificación de varias clases: una investigación experimental ". Sistemas de conocimiento e información 10, nº 4 (2006): 453–72 .)
"el análisis discriminante lineal con frecuencia logra buenos desempeños en las tareas de reconocimiento de rostros y objetos, a pesar de que los supuestos de la matriz de covarianza común entre los grupos y la normalidad a menudo se violan (Duda, et al., 2001)"
- desafortunadamente, no pude encontrar la sección correspondiente en Duda et. Alabama. "Clasificación de patrones".
¿Alguna experiencia o pensamiento sobre el uso de LDA (vs. LDA regularizada o QDA) para datos no normales en el contexto de la reducción de dimensionalidad?
Respuestas:
Esto es lo que Hastie et al. tengo que decir al respecto (en el contexto de LDA de dos clases) en The Elements of Statistical Learning, sección 4.3:
No entiendo completamente la derivación a través de mínimos cuadrados a los que se refieren, pero en general[Actualización: voy a resumirlo brevemente en algún momento] Creo que este párrafo tiene sentido: incluso si los datos son muy no gaussianos o de clase Las covarianzas son muy diferentes, el eje LDA probablemente aún producirá cierta discriminabilidad. Sin embargo, el punto de corte en este eje (que separa dos clases) dado por LDA puede estar completamente desactivado. Optimizarlo por separado puede mejorar sustancialmente la clasificación.Tenga en cuenta que esto se refiere solo al rendimiento de clasificación. Si todo lo que busca es la reducción de dimensionalidad, entonces el eje LDA es todo lo que necesita. Entonces, supongo que para la reducción de la dimensionalidad, LDA a menudo hará un trabajo decente incluso si se violan los supuestos.
Con respecto a rLDA y QDA: rLDA debe usarse si no hay suficientes puntos de datos para estimar de manera confiable la covarianza dentro de la clase (y es vital en este caso). Y QDA es un método no lineal, por lo que no estoy seguro de cómo usarlo para reducir la dimensionalidad.
fuente
LDA/FDA can start with n dimensions and end with k dimensions, where k < n
. ¿Es eso correcto? O La salida esc-1 where c is the number of classes and the dimensionality of the data is n with n>c.