El aparente desacuerdo de las fuentes sobre el análisis lineal, cuadrático y discriminante de Fisher

10

Estoy estudiando análisis discriminante, pero estoy teniendo dificultades para conciliar varias explicaciones diferentes. Creo que me falta algo, porque nunca antes me he encontrado con este nivel (aparente) de discrepancia. Dicho esto, el número de preguntas sobre el análisis discriminante en este sitio web parece ser un testimonio de su complejidad.

LDA y QDA para varias clases

Mi libro de texto principal es Johnson & Wichern Applied Multivariate Statistical Analysis (AMSA) y las notas de mi maestro basadas en esto. Ignoraré la configuración de dos grupos, porque creo que las fórmulas simplificadas en esta configuración están causando al menos algo de confusión. Según esta fuente, LDA y QDA se definen como una extensión paramétrica (suponiendo normalidad multivariada) de una regla de clasificación basada en el costo esperado de clasificación errónea (ECM). El ECM suma el costo condicional esperado para clasificar una nueva observación x a cualquier grupo (incorporando costos de clasificación errónea y probabilidades previas) y elegimos regiones de clasificación que minimizan esto. donde

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
P(k|i)=P(classifying item as group k | item is group i)=Rkfi(x)dx , fi(x) es la densidad de población, Rk es el conjunto de observaciones en el grupo k, c es el costo y pi son las probabilidades anteriores. Luego se pueden asignar nuevas observaciones al grupo para el cual el término interno es más pequeño o equivalente para el cual la parte excluida del término interno pkfk(x) es mayor

Supuestamente, esta regla de clasificación es equivalente a "una que maximiza las probabilidades posteriores" (sic AMSA), que solo puedo suponer que es el enfoque de Bayes que he visto mencionado. ¿Es esto correcto? Y es ECM un método más antiguo, porque nunca he visto que ocurra en ningún otro lugar.

Para poblaciones normales, esta regla se simplifica al puntaje discriminante cuadrático: .

diQ(x)=12log(Σi)12(xμi)TΣi1(xμi)+log(pi)

Esto parece equivalente a la fórmula 4.12 de The Elements of Statistical Learning (ESL) en la página 110, aunque la describen como una función discriminante cuadrática en lugar de una puntuación . Además, llegan aquí a través de la relación logarítmica de las densidades multivariadas (4.9). ¿Es este otro nombre para el enfoque de Bayes?

Cuando asumimos una covarianza igual, la fórmula se simplifica aún más al puntaje discriminante lineal .

di(x)=μiTΣ1x12μiTΣ1μi+log(pi)

Esta fórmula difiere de ESL (4.10), donde se invierte el primer término: . La versión de ESL es también la que aparece en el aprendizaje estadístico en R . Además, en la salida SAS presentada en AMSA , se describe una función discriminante lineal que consiste en una constante y un coeficiente vector , aparentemente consistente con la versión ESL.xTΣ1μk0.5X¯jTCOV1X¯j+ln priorjCOV1X¯j

¿Cuál podría ser la razón detrás de esta discrepancia?

Discriminantes y método de Fisher

Nota: si esta pregunta se considera demasiado grande, eliminaré esta sección y abriré una nueva pregunta, pero se basa en la sección anterior. Independientemente de las disculpas por el muro de texto, hice todo lo posible para estructurarlo un poco, pero estoy seguro de que mi confusión sobre este método ha llevado a algunos saltos de lógica bastante extraños.

El libro de AMSA continúa describiendo el método de los pescadores, también para varios grupos. Sin embargo, ttnphns ha señalado varias veces que la FDA es simplemente LDA con dos grupos. ¿Qué es esta FDA multiclase entonces? ¿Quizás la FDA puede tener múltiples significados?

AMSA describe a los discriminantes de Fisher como los vectores propios de que maximizan la relación . Las combinaciones lineales son los discriminantes de la muestra (de los cuales hay ). Para la clasificación, elegimos el grupo k con el valor más pequeño para donde r es el número de discriminantes que nos gustaría usar. Si utilizamos todos los discriminantes, esta regla sería equivalente a la función discriminante lineal.W1Ba^TBa^a^TWa^e^ixmin(g1,p)j=1r[e^jT(xx¯k)]2

Muchas explicaciones sobre LDA parecen describir la metodología que se llama FDA en el libro AMSA, es decir, a partir de este aspecto de variabilidad entre / dentro. ¿Qué quiere decir entonces la FDA si no es la descomposición de las matrices BW?

Esta es la primera vez que el libro de texto menciona el aspecto de reducción de dimensiones del análisis discriminante, mientras que varias respuestas en este sitio enfatizan la naturaleza de dos etapas de esta técnica, pero que esto no está claro en un entorno de dos grupos porque solo hay 1 discriminante Dadas las fórmulas anteriores para LDA y QDA multiclase, todavía no me resulta evidente dónde aparecen los discriminantes.

Este comentario me dejó especialmente confundido, señalando que la clasificación de Bayes podría realizarse esencialmente en las variables originales. Pero si la FDA y la LDA son matemáticamente equivalentes como señala el libro y aquí , ¿no debería ser la reducción de la dimensionalidad inherente a las funciones ? Creo que este es el último enlace, pero no estoy completamente seguro.di

Las notas del curso de mi maestro explican que la FDA es esencialmente una forma de análisis de correlación canónica. Solo he encontrado otra fuente que habla sobre este aspecto, pero una vez más parece estar estrechamente relacionada con el enfoque de Fisher de descomponer la variabilidad entre y dentro de ella. SAS presenta un resultado en su procedimiento LDA / QDA (DISCRIM) que aparentemente está relacionado con el método de Fisher ( https://stats.stackexchange.com/a/105116/62518 ). Sin embargo, la opción de la FDA de SAS (CANDISC) esencialmente realiza una correlación canónica, sin presentar estos denominados coeficientes de clasificación de Fisher. Presenta coeficientes canónicos brutos que creo que son equivalentes a los vectores propios W-1B de R obtenidos por lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Los coeficientes de clasificación parecen obtenerse de la función discriminante que describí en mi sección LDA y QDA (dado que hay 1 función por población y elegimos la más grande).

Estaría agradecido por todas y cada una de las aclaraciones o referencias a las fuentes que podrían ayudarme a ver el bosque a través de los árboles. La principal causa de mi confusión parece ser que los diferentes libros de texto llaman a los métodos con diferentes nombres o presentan una ligera variación de las matemáticas, sin reconocer las otras posibilidades, aunque supongo que esto no debería ser una sorpresa teniendo en cuenta la antigüedad del libro de AMSA .

Zenit
fuente
If we use all the discriminants this rule would be equivalent to the linear discriminant functionPoco claro. "Discriminante" y "función discriminante" son sinónimos. Puede usar todos los discriminantes o solo algunos de los más fuertes / significativos. No recurrí al libro de AMSA, pero sospecho que FDA = LDA, para los autores. En realidad, personalmente creo que "Fisher LDA" sería un término excedente, innecesario.
ttnphns
Además de esta respuesta sobre la clasificación LDA, noto que calcular las "funciones de clasificación lineal de Fisher" directamente a partir de las variables es equivalente a Extract the discriminants -> classify by them all (using Bayes approach, as usual)cuando, como suele ser por defecto, la matriz de covarianza agrupada dentro de la clase de los discriminantes se utiliza en la clasificación.
ttnphns
En realidad, las "funciones de clasificación lineal de Fisher" son una forma de hacer LDA sin hacer una descomposición propia W^-1By luego hacer "Bayes". Es equivalente, pero es menos flexible (no puede seleccionar solo algunos de los discriminantes, no puede usar separadamente dentro de las matrices de covarianza en la clasificación, etc.).
ttnphns
Todavía estoy asimilando su respuesta y enlaces (gracias), pero: 1) Aquí hay un extracto de AMSA que aclara "discriminantes" y "puntajes discriminantes" i.imgur.com/7W7vc8u.jpg?1 He usado los términos "puntaje" y "función" indistintamente. 3) En el mismo extracto, puede ver que el libro de AMSA se refiere a la como una forma de obtener discriminantes de Fisher. La forma en que se presenta aquí el método de Fisher parece más flexible que el método lineal / cuadrática que simplemente se traduce en un disco función discriminante / puntuación ..W1B
Zenit
Zenit, para mí, el puntaje discriminante es el valor de una función discriminante (canónica). No puedo ir tan lejos como para comparar las fórmulas que cita con lo que sé sobre cómo se calculan los discriminantes canónicos en SPSS . Le sugiero que haga cálculos y compare resultados, y emita sus conclusiones. Además, sospecho que diferentes textos pueden aplicar la etiqueta "Fisher" de manera diferente.
ttnphns

Respuestas:

8

Me dirijo solo a un aspecto de la pregunta y lo hago intuitivamente sin álgebra.

Si las clases tienen las mismas matrices de varianza-covarianza y difieren solo por el desplazamiento de sus centroides en el espacio -dimensional, entonces son completamente linealmente separables en el "subespacio" . Esto es lo que está haciendo LDA. Imagine que tiene tres elipsoides idénticos en el espacio de las variables . Debe utilizar la información de todas las variables para predecir la pertenencia a la clase sin error. Pero debido al hecho de que estas eran nubes de tamaño idéntico y orientadas, es posible reescalarlas mediante una transformación común en bolas de radio unitario. Entoncesgpq=min(g1,p)V1,V2,V3q=g1=2dimensiones independientes serán suficientes para predecir la membresía de la clase con la misma precisión que antes. Estas dimensiones se denominan funciones discriminantes . Al tener 3 bolas de puntos del mismo tamaño, solo necesita 2 líneas axiales y para conocer las coordenadas de los centros de las bolas sobre ellas para asignar cada punto correctamente.D1,D2

ingrese la descripción de la imagen aquí

Los discriminantes son variables no correlacionadas, sus matrices de covarianza dentro de la clase son idealmente de identidad (las bolas). Los discriminantes forman un subespacio del espacio de variables originales: son sus combinaciones lineales. Sin embargo, no son ejes de rotación (como PCA): vistos en el espacio de variables original, discriminantes ya que los ejes no son mutuamente ortogonales .

Entonces, bajo el supuesto de homogeneidad de las covarianzas de varianza dentro de la clase, el uso de LDA para la clasificación de todos los discriminantes existentes no es peor que la clasificación inmediata por las variables originales. Pero no tienes que usar todos los discriminantes. Puede usar solo primero el más fuerte / estadísticamente significativo de ellos. De esta manera, pierde información mínima para clasificar y la clasificación errónea será mínima. Visto desde esta perspectiva, LDA es una reducción de datos similar a PCA, solo supervisada.m<q

Tenga en cuenta que suponiendo la homogeneidad (+ normalidad multivariada) y siempre que planee utilizar, pero todos los discriminantes en la clasificación, es posible evitar la extracción de los propios discriminantes, lo que implica un problema propio generalizado, y calcular las llamadas "funciones de clasificación de Fisher". de las variables directamente, con el fin de clasificar con ellos , con el resultado equivalente. Entonces, cuando las clases son idénticas en forma, podríamos considerar las variables de entrada o las funciones de Fisher o los discriminantes como todos los conjuntos equivalentes de "clasificadores". Pero los discriminantes son más convenientes en muchos aspectos. gpgq1

Como generalmente las clases no son "elipses idénticas" en realidad, la clasificación por los discriminantes es algo más pobre que si se hace la clasificación de Bayes por todas las variables originales. Por ejemplo, en esta gráfica, los dos elipsoides no son paralelos entre sí; y uno puede comprender visualmente que el discriminante existente no es suficiente para clasificar puntos con la precisión que permiten las dos variables. QDA (análisis discriminante cuadrático) sería entonces una aproximación un paso mejor que LDA. Un enfoque práctico a medio camino entre LDA y QDA es usar discriminantes de LDA pero usar sus matrices de covarianza de clase separada observadas en la clasificación ( ver , verqp) en lugar de su matriz agrupada (que es la identidad).

(Y sí, LDA puede verse como estrechamente relacionado con, incluso un caso específico de MANOVA y análisis de correlación canónica o regresión multivariada de rango reducido - ver , ver , ver ).


1 Una nota terminológica importante. En algunos textos, las funciones de clasificación de Fisher pueden denominarse "funciones discriminantes de Fisher", que pueden confundirse con las discriminaciones que son funciones discriminantes canónicas (es decir, obtenidas en la descomposición propia degqW1B) Para mayor claridad, recomiendo decir "funciones de clasificación de Fisher" frente a "funciones discriminantes canónicas" (= discriminantes, para abreviar). En la comprensión moderna, LDA es el análisis discriminante lineal canónico. El "análisis discriminante de Fisher" es, al menos que yo sepa, LDA con 2 clases (donde el discriminante canónico único es inevitablemente lo mismo que las funciones de clasificación de Fisher) o, en términos generales, el cálculo de las funciones de clasificación de Fisher en entornos multiclase.

ttnphns
fuente
Re terminología: el artículo de Wikipedia sobre LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) establece que "los términos discriminante lineal de Fisher y LDA a menudo se usan indistintamente, aunque el artículo original de Fisher [1] en realidad describe un discriminante ligeramente diferente, lo que hace no haga algunos de los supuestos de LDA, como las clases distribuidas normalmente o las covarianzas de clase igual ". Basado en esto, LDA en 2 clases parece ser un caso especial de la "FDA", si las covarianzas grupales son "iguales". @ttnphns: ¿es esto correcto?
Laryx Decidua
@LaryxDecidua, no estoy 100% seguro de la terminología en este caso, y he visto opiniones diferentes. No uso el término "DA de Fisher" en absoluto. Pero cuando la gente pregunta, respondo que en mi opinión, "FDA es LDA con 2 clases".
ttnphns
Gracias, para mí, el aspecto más interesante es que "FDA", según Wikipedia, no asume la normalidad, mientras que "LDA" (y QDA) sí. Quizás "FDA es LDA con 2 clases, sin suponer normalidad u homocedasticidad".
Laryx Decidua