¿Cuál es la relación entre el análisis discriminante lineal y la regla de Bayes? Entiendo que LDA se usa en la clasificación al tratar de minimizar la relación de la varianza dentro del grupo y entre la varianza del grupo, pero no sé cómo se usa la regla de Bayes en ella.
12
Respuestas:
La clasificación en LDA es la siguiente (enfoque de la regla de Bayes). [Sobre la extracción de discriminantes uno podría mirar aquí .]
Según el teorema de Bayes, la probabilidad buscada de que estamos tratando con la clase mientras observamos actualmente el punto es , dondex P ( k | x ) = P ( k ) ∗ P ( x | k ) / P ( x )k x PAG( k | x ) = P( k ) ∗ P( x | k ) / P( x )
k P ( x ) x P ( x | k ) x kPAG( k ) - probabilidad incondicional (de fondo) de la clase ; - probabilidad incondicional (fondo) del punto ; : probabilidad de presencia del punto en la clase , si la clase tratada es .k PAG( x ) X PAG( x | k ) X k k
"Observando que actualmente el punto " es la condición base, , por lo que se puede omitir el denominador. Por lo tanto, .P ( x ) = 1 P ( k | x ) = P ( k ) ∗ P ( x | k )X PAG( x ) = 1 PAG( k | x ) = P( k ) ∗ P( x | k )
x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )PAG( k ) es una probabilidad previa (preanalítica) de que la clase nativa para es ; es especificado por el usuario. Por lo general, por defecto todas las clases reciben = 1 / número_de_clases iguales . Para calcular , es decir, la probabilidad posterior (post-analítica) de que la clase nativa para es , se debe conocer .X k PAG( k ) PAG( k ) PAG( k | x ) X k PAG( x | k )
donde - distancia de Mahalanobis al cuadrado [Ver Wikipedia Distancia de Mahalanobis] en el espacio de los discriminantes desde el punto hasta un centroide de clase; - matriz de covarianza entre los discriminantes , observada dentro de esa clase.x Sd x S
Calcule de esta manera para cada una de las clases. para el punto clase expresan el buscado por nosotros. Pero con la reserva anterior de que PDF no es probabilidad per se, solo proporcional a ello, deberíamos normalizar , dividiendo por la suma de s sobre todas las clases. Por ejemplo, si hay 3 clases en total, , , , entoncesP ( k ) ∗ P D F ( x | k ) x k P ( k ) ∗ P ( x | k ) P ( k ) ∗ P D F ( x | k ) P ( k ) ∗ P D F ( x | k )PDF(x|k) P(k)∗PDF(x|k) x k P(k)∗P(x|k) P(k)∗PDF(x|k) P(k)∗PDF(x|k) l mk l m
LDA asigna el punto a la clase para la cual es la más alta.P ( k | x )x P(k|x)
Nota. Este fue el enfoque general. Por defecto, muchos programas LDA usan una matriz agrupada dentro de la clase para todas las clases en la fórmula para PDF anterior. Si es así, los simplifica fórmula mucho porque tales en LDA es la matriz de identidad (véase la nota al pie inferior aquí ), y por lo tanto y se convierte en la distancia euclídea al cuadrado (recordatorio: la agruparon dentro de la clase que estamos hablando es de covarianzas entre los discriminantes, no entre las variables de entrada, cuya matriz generalmente se designa como ).S | S | = 1 d S S wS S |S|=1 d S Sw
Además . Antes de que el enfoque de clasificación Bayes anterior a la clasificación se introdujera en LDA, Fisher, pionero de LDA, propuso calcular las ahora llamadas funciones de clasificación lineal de Fisher para clasificar puntos en LDA. Para el punto la puntuación de la función de pertenecer a la clase es la combinación lineal , donde son las variables predictoras en el análisis.k b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k V 1 , V 2 , . . . V px k bkv1V1x+bkv2V2x+...+Constk V1,V2,...Vp
Coeficiente , siendo el número de clases y siendo el elemento de la dispersión agrupada dentro de clase matriz de variables. g s v w p Vbkv=(n−g)∑pwsvwV¯kw g svw p V
El punto se asigna a la clase para la cual su puntaje es el más alto. Resultados clasificación obtenida por el método de esta Fisher (que evita la extracción de discriminantes dedica a la compleja eigendecomposition) son idénticos a los obtenidos por Bayes método sólo si agruparon dentro de la clase de matriz de covarianza se utiliza con Bayes método basado en discriminantes (ver 'Nota' arriba) y todos los discriminantes se están utilizando en la clasificación. El método de Bayes es más general porque también permite usar matrices separadas dentro de la clase.x
fuente
Suponga pesos iguales para los dos tipos de error en un problema de dos clases. Suponga que las dos clases tienen una densidad condicional de clase multivariada de las variables de clasificación. Luego, para cualquier vector observado y densidades condicionales de clase y la regla de Bayes clasificará como perteneciente al grupo 1 si y como clase 2 de lo contrario. La regla de Bayes resulta ser un clasificador discriminante lineal si yf 1 ( x ) f 2 ( x ) x f 1 ( x ) ≥ f 2 ( x ) f 1 f 2x f1(x) f2(x) x f1(x)≥f2(x) f1 f2 son ambas densidades normales multivariadas con la misma matriz de covarianza. Por supuesto, para poder discriminar útilmente los vectores medios deben ser diferentes. Una buena presentación de esto se puede encontrar en Duda and Hart Pattern Classification and Scene Analysis 1973 (el libro ha sido revisado recientemente pero me gusta particularmente la presentación en la edición original).
fuente