Análisis discriminante lineal y regla de Bayes: clasificación

12

¿Cuál es la relación entre el análisis discriminante lineal y la regla de Bayes? Entiendo que LDA se usa en la clasificación al tratar de minimizar la relación de la varianza dentro del grupo y entre la varianza del grupo, pero no sé cómo se usa la regla de Bayes en ella.

zca0
fuente
Las funciones discriminantes se extraen para maximizar la variación entre grupos y la relación de variación dentro del grupo. No tiene nada que ver con la clasificación, que es la segunda etapa independiente de LDA.
ttnphns

Respuestas:

16

La clasificación en LDA es la siguiente (enfoque de la regla de Bayes). [Sobre la extracción de discriminantes uno podría mirar aquí .]

Según el teorema de Bayes, la probabilidad buscada de que estamos tratando con la clase mientras observamos actualmente el punto es , dondex P ( k | x ) = P ( k ) P ( x | k ) / P ( x )kxP(k|x)=P(k)P(x|k)/P(x)

k P ( x ) x P ( x | k ) x kP(k) - probabilidad incondicional (de fondo) de la clase ; - probabilidad incondicional (fondo) del punto ; : probabilidad de presencia del punto en la clase , si la clase tratada es .kP(x)xP(x|k)xkk

"Observando que actualmente el punto " es la condición base, , por lo que se puede omitir el denominador. Por lo tanto, .P ( x ) = 1 P ( k | x ) = P ( k ) P ( x | k )xP(x)=1P(k|x)=P(k)P(x|k)

x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P(k) es una probabilidad previa (preanalítica) de que la clase nativa para es ; es especificado por el usuario. Por lo general, por defecto todas las clases reciben = 1 / número_de_clases iguales . Para calcular , es decir, la probabilidad posterior (post-analítica) de que la clase nativa para es , se debe conocer .xkP(k)P(k)P(k|x)xkP(x|k)

P(x|k) - probabilidad per se - no se puede encontrar, para los discriminantes, el problema principal de LDA, son variables continuas, no discretas. La cantidad que expresa en este caso y proporcional a ella es la densidad de probabilidad (función PDF). Por la presente, necesitamos calcular PDF para el punto en la clase , , en -dimensional distribución normal formada por valores de discriminantes. [Ver Wikipedia Distribución normal multivariante]x k P D F ( x | k ) p pP(x|k)xkPDF(x|k)pp

PDF(x|k)=ed/2(2π)p/2|S|)

donde - distancia de Mahalanobis al cuadrado [Ver Wikipedia Distancia de Mahalanobis] en el espacio de los discriminantes desde el punto hasta un centroide de clase; - matriz de covarianza entre los discriminantes , observada dentro de esa clase.x SdxS

Calcule de esta manera para cada una de las clases. para el punto clase expresan el buscado por nosotros. Pero con la reserva anterior de que PDF no es probabilidad per se, solo proporcional a ello, deberíamos normalizar , dividiendo por la suma de s sobre todas las clases. Por ejemplo, si hay 3 clases en total, , , , entoncesP ( k ) P D F ( x | k ) x k P ( k ) P ( x | k ) P ( k ) P D F ( x | k ) P ( k ) P D F ( x | k )PDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k)P(k)PDF(x|k)P(k)PDF(x|k)l mklm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

LDA asigna el punto a la clase para la cual es la más alta.P ( k | x )xP(k|x)

Nota. Este fue el enfoque general. Por defecto, muchos programas LDA usan una matriz agrupada dentro de la clase para todas las clases en la fórmula para PDF anterior. Si es así, los simplifica fórmula mucho porque tales en LDA es la matriz de identidad (véase la nota al pie inferior aquí ), y por lo tanto y se convierte en la distancia euclídea al cuadrado (recordatorio: la agruparon dentro de la clase que estamos hablando es de covarianzas entre los discriminantes, no entre las variables de entrada, cuya matriz generalmente se designa como ).S | S | = 1 d S S wSS|S|=1dSSw

Además . Antes de que el enfoque de clasificación Bayes anterior a la clasificación se introdujera en LDA, Fisher, pionero de LDA, propuso calcular las ahora llamadas funciones de clasificación lineal de Fisher para clasificar puntos en LDA. Para el punto la puntuación de la función de pertenecer a la clase es la combinación lineal , donde son las variables predictoras en el análisis.k b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k V 1 , V 2 , . . . V pxkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp

Coeficiente , siendo el número de clases y siendo el elemento de la dispersión agrupada dentro de clase matriz de variables. g s v w p Vbkv=(ng)wpsvwV¯kwgsvwp V

Constk=log(P(k))(vpbkvV¯kv)/2 .

El punto se asigna a la clase para la cual su puntaje es el más alto. Resultados clasificación obtenida por el método de esta Fisher (que evita la extracción de discriminantes dedica a la compleja eigendecomposition) son idénticos a los obtenidos por Bayes método sólo si agruparon dentro de la clase de matriz de covarianza se utiliza con Bayes método basado en discriminantes (ver 'Nota' arriba) y todos los discriminantes se están utilizando en la clasificación. El método de Bayes es más general porque también permite usar matrices separadas dentro de la clase.x

ttnphns
fuente
Este es el enfoque bayesiano, ¿verdad? ¿Cuál es el enfoque de Fisher para esto?
zca0
1
Se agregó a la respuesta a su solicitud
ttnphns
+1 para distinguir entre el enfoque de Bayes y Fisher de LDA. Soy un recién llegado en LDA, y los libros que leo me enseñan LDA en el enfoque de Bayes, que clasifica a la clase con la más alta , por lo que tengo que calcular todos los para cada clase , ¿verdad? Según el enfoque de Fisher, solo necesito averiguar los discriminantes y sus coeficientes correspondientes, y no es necesario calcular el posterior para cada clase, ¿verdad? K p ( K | X ) p ( K | X ) KXKp(K|X)p(K|X)K
aguacate
Y creo que el enfoque de Bayes es más comprensible, y ¿por qué necesitamos usar el enfoque de Fisher?
aguacate
No necesitamos Solo por cuestiones históricas.
ttnphns
1

Suponga pesos iguales para los dos tipos de error en un problema de dos clases. Suponga que las dos clases tienen una densidad condicional de clase multivariada de las variables de clasificación. Luego, para cualquier vector observado y densidades condicionales de clase y la regla de Bayes clasificará como perteneciente al grupo 1 si y como clase 2 de lo contrario. La regla de Bayes resulta ser un clasificador discriminante lineal si yf 1 ( x ) f 2 ( x ) x f 1 ( x ) f 2 ( x ) f 1 f 2xf1(x)f2(x)xf1(x)f2(x)f1f2son ambas densidades normales multivariadas con la misma matriz de covarianza. Por supuesto, para poder discriminar útilmente los vectores medios deben ser diferentes. Una buena presentación de esto se puede encontrar en Duda and Hart Pattern Classification and Scene Analysis 1973 (el libro ha sido revisado recientemente pero me gusta particularmente la presentación en la edición original).

Michael R. Chernick
fuente