Enfoques bayesianos y de Fisher para el análisis discriminante lineal

10

Conozco 2 enfoques para hacer LDA, el enfoque bayesiano y el enfoque de Fisher .

Supongamos que tenemos los datos , donde es el predictor p- dimensional e y es la variable dependiente de las clases K.(x,y)xpyK

Mediante el enfoque bayesiano , calculamos el p posterior (y_k | x) = \ frac {p (x | y_k) p (y_k)} {p (x)} \ propto p (x | y_k) p (y_k)

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
, y como Dicho en los libros, suponga que p(x|yk) es gaussiano, ahora tenemos la función discriminante para la clase k como
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
, puedo ver que fk(x) es lineal función de x , por lo que para todas las clases K tenemos K funciones discriminantes lineales.

Sin embargo, según el enfoque de Fisher , intentamos proyectar x al espacio dimensional (K1) para extraer las nuevas características que minimizan la varianza dentro de la clase y maximizan la varianza entre clases , digamos que la matriz de proyección es W con cada columna como proyección dirección. Este enfoque es más como una técnica de reducción de dimensiones .

Mis preguntas son

(1) ¿Podemos hacer una reducción de dimensiones usando el enfoque bayesiano? Quiero decir, podemos usar el enfoque bayesiano para hacer la clasificación al encontrar las funciones discriminantes fk(x) que da el mayor valor para la nueva x , pero ¿pueden usarse estas funciones discriminantes f_k (x)fk(x) para proyectar x en el subespacio dimensional más bajo? ? Tal como lo hace el enfoque de Fisher .

(2) ¿Y cómo se relacionan los dos enfoques? No veo ninguna relación entre ellos, porque uno parece ser capaz de hacer una clasificación con el valor fk(x) , y el otro está dirigido principalmente a la reducción de dimensiones.

ACTUALIZAR

Gracias a @amoeba, según el libro de ESL, encontré esto: ingrese la descripción de la imagen aquí

y esta es la función discriminante lineal, derivada del teorema de Bayes más suponiendo que todas las clases tengan la misma matriz de covarianza . Y esta función discriminante es la MISMA que la que escribí anteriormente.f k ( x )Σfk(x)

¿Puedo usar como la dirección en la cual proyectar , para hacer la reducción de dimensión? No estoy seguro de esto, ya que AFAIK, la reducción de la dimensión se logra mediante el análisis de varianza entre dentro . xΣ1μkx

ACTUALIZAR DE NUEVO

De la sección 4.3.3, así es como se derivaron esas proyecciones:

ingrese la descripción de la imagen aquí

y, por supuesto, supone una covarianza compartida entre clases, esa es la matriz de covarianza común (para covarianza dentro de la clase)W , ¿verdad? Mi problema es ¿cómo calculo esta partir de los datos? Como tendría diferentes matrices de covarianza dentro de la clase si trato de calcular partir de los datos. Entonces, ¿tengo que agrupar todas las clases de covarianza para obtener una común?K WWKW

aguacate
fuente
1
Tu pregunta mezcla dos cosas. Creo que no has asimilado nuestra conversación sobre tu pregunta anterior . Lo que usted describe primero es el enfoque bayesiano para la clasificación (no el "enfoque bayesiano para la LDA"). Este enfoque se puede usar (1) con variables originales como clasificadores o (2) con discriminantes obtenidos en LDA como clasificadores. ¿Cuál es el enfoque de Fisher entonces?
ttnphns
1
(Cont.) Bueno, "LDA de Fisher" es simplemente LDA con K = 2. Al hacer la clasificación dentro de tal LDA, Fisher inventó sus propias fórmulas para hacer la clasificación. Estas fórmulas también pueden funcionar para K> 2. Su método de clasificación apenas se usa hoy en día porque el enfoque de Bayes es más general.
ttnphns
1
@ttnphns, la razón por la que estoy confundido es porque casi todos los libros a los que me referí hablan de LDA usando este enfoque bayesiano, dando una conferencia sobre LDA como modelo generativo, no mencionan la proporción de la varianza entre grupos y la variación dentro del grupo .
aguacate
1
@loganecolss: ¿Has visto mi respuesta a continuación? ¿Tienes alguna pregunta al respecto? Estoy un poco confundido, porque pensé que le expliqué lo que ahora está preguntando nuevamente en los comentarios. El enfoque de "varianza entre dentro" es matemáticamente equivalente al "enfoque bayesiano" con un supuesto de covarianzas iguales. Puede pensar en esto como un sorprendente teorema matemático, si lo desea. La prueba se da en el libro de Hastie, que está disponible gratuitamente en línea, y también en algunos otros libros de texto de aprendizaje automático. Así que no estoy seguro de lo que podría significar "la única forma auténtica de hacer LDA"; Estas dos formas idénticas.
ameba
1
@loganecolss: Créeme, son equivalentes :) Sí, deberías poder derivar las proyecciones, pero necesitas una suposición adicional de matrices de covarianza iguales (como escribí en mi respuesta). Mira mi comentario a continuación.
ameba

Respuestas:

11

Proporcionaré solo una breve respuesta informal y lo remitiré a la sección 4.3 de Los elementos del aprendizaje estadístico para obtener detalles.

Actualización: "The Elements" cubre con gran detalle exactamente las preguntas que está haciendo aquí, incluido lo que escribió en su actualización. La sección relevante es 4.3, y en particular 4.3.2-4.3.3.

(2) ¿Y cómo se relacionan los dos enfoques?

Ciertamente lo hacen. Lo que usted llama enfoque "bayesiano" es más general y solo supone distribuciones gaussianas para cada clase. Su función de probabilidad es esencialmente la distancia de Mahalanobis desde al centro de cada clase.x

Por supuesto, tiene razón en que para cada clase es una función lineal de . Sin embargo, tenga en cuenta que la proporción de las probabilidades para dos clases diferentes (que va a utilizar para realizar una clasificación real, es decir, elegir entre clases): esta proporción no será lineal en si diferentes clases tienen diferentes matrices de covarianza. De hecho, si uno resuelve los límites entre las clases, resultan ser cuadráticos, por lo que también se llama análisis discriminante cuadrático , QDA.xxx

Una idea importante es que las ecuaciones se simplifican considerablemente si se supone que todas las clases tienen una covarianza idéntica [ Actualización: si lo asumió todo el tiempo, esto podría haber sido parte del malentendido] . En ese caso, los límites de decisión se vuelven lineales, y es por eso que este procedimiento se llama análisis discriminante lineal, LDA.

Se necesitan algunas manipulaciones algebraicas para darse cuenta de que en este caso las fórmulas en realidad se vuelven exactamente equivalentes a lo que Fisher resolvió utilizando su enfoque. Piense en eso como un teorema matemático. Vea el libro de texto de Hastie para todas las matemáticas.

(1) ¿Podemos hacer una reducción de dimensiones usando el enfoque bayesiano?

Si por "enfoque bayesiano" te refieres a tratar con diferentes matrices de covarianza en cada clase, entonces no. Al menos no será una reducción de dimensionalidad lineal (a diferencia de LDA), debido a lo que escribí anteriormente.

Sin embargo, si está contento de asumir la matriz de covarianza compartida, entonces sí, ciertamente, porque el "enfoque bayesiano" es simplemente equivalente a LDA. Sin embargo, si marca Hastie 4.3.3, verá que da las proyecciones correctas como escribió (ni siquiera entiendo lo que debería significar: estas proyecciones dependen de , y lo que generalmente se entiende por proyección es una forma de proyectar todos los puntos de todas las clases en la misma variedad de dimensiones inferiores), pero por los primeros vectores propios [generalizados] de , donde es una matriz de covarianza de centroides de clase . kΣ1μkkM μ kΣ1MMμk

ameba
fuente
1
+1. También podría vincular a mi propia respuesta mencionando QDA stats.stackexchange.com/a/71571/3277 .
ttnphns
+1 por la parte de abordar mi pregunta 2). Sé que al hacer el análisis de varianza entre dentro , podría encontrar las mejores direcciones para proyectar la variable original y obtener esos discriminantes. Con lo que estoy luchando en este momento es ¿ podría encontrar esas direcciones de proyección usando Bayesiano, sin referirme a la relación de varianza entre dentro ? X
aguacate
@loganecolss: Como dije, ¡debes asumir además que todas las clases tienen la misma matriz de covarianza! Luego, comenzando con su enfoque bayesiano + esta suposición, puede derivar las proyecciones estándar de LDA. La idea es diagonalizar . Esto está escrito con cierto detalle en Los elementos del aprendizaje estadístico, sección 4.3. Σ
ameba
Leeré esa sección más tarde. Como dijiste, suponiendo que todas las clases tengan la misma matriz de covarianza, puedo derivar una función que es la que escribí en mi publicación , ¿verdad? Y es de hecho una función lineal de , y de acuerdo con su comentario, debería ser la matriz de proyección LDA? f k ( x ) x Σ - 1 μ kfk(x)fk(x)xΣ1μk
aguacate
Actualizo mi publicación, agregando un clip de la sección 4.3
aguacate