Análisis discriminante lineal para

9

Estoy estudiando 'Introducción al aprendizaje estadístico' de James, Witten, Hastie, Tibshirani.

En la página 139 de su libro, comenzaron introduciendo el Teorema de Bayes . no es una constante matemática, pero denota la probabilidad previa. Nada es extraño en esta ecuación.pk(X)=P(Y=k|X=x)=πkfk(x)l=1kπlfl(x)π

El libro afirma que quiere obtener una estimación para que pueda conectar a la ecuación dada anteriormente. Para estimar , se supone que es normal. En la configuración unidimensional, , donde y son la media y la varianza de la clase . Se supone que . (Comencé a confundirme con la última declaración).fk(x)fk(x)fk(x)=12πσexp(12σ2(xμk)2)μkσk2kσ12=σ22==σK2

Enchufar en , usted tiene esta ecuación bastante desordenado (1):FkpagsX

pagsX(k)=πk12πσExp(-12σ2(X-μk)2)l=1Kπl12πσExp(-12σ2(X-μl)2).

Una vez más, no hay sorpresas aquí, ya que es solo una sustitución.


El clasificador de Bayes implica asignar una observación a la clase para la cual la ecuación (1) es la más grande. Tomando el registro de la ecuación (1) y la reorganización de los términos, no es difícil demostrar que esto es equivalente a asignar la observación a la clase para la cual el siguiente es el más grande:

δk(X)=Xμkσ2-μk22σ2+Iniciar sesión(πk)

Pregunta: No entiendo de dónde vino esto y qué significa. Intenté hacer el registro de la ecuación y no se convierte en esto. ¿Estamos tomando la derivada en algún lugar aquí, ya que esta es la observación más grande?

cgo
fuente

Respuestas:

5

Puede expresar la ecuación (1) hasta una constante de proporcionalidad,

pagsX(k)πk12πσExp(-12σ2(X-μk)2)

entonces si tomas troncos

Iniciar sesiónpagsX(k)Iniciar sesiónπk-Iniciar sesión(2πσ)-12σ2(X-μk)2

dónde -Iniciar sesión(2πσ) nuevamente entra en la constante de proporcionalidad porque no depende de k. Luego expanda el término al cuadrado y estará allí (tenga en cuenta que expandir el paréntesis dará otro término que se desvanecerá en)

Andy
fuente
Me reí cuando leí tu respuesta. ¿Es así de simple? ¡Brillante! ¿Puedo saber cuál es la cantidad?δk(X)significa (en términos simples)? Mi experiencia en estadísticas es pobre, pero puedo seguir las matemáticas.
cgo
2
Sí, eso es todo lo que hay que hacer. δk(X)se llama la función discriminante lineal. Es solo una forma diferente de escribir la probabilidad posterior de que una observación pertenezca a la clasek dada su característica X. Por lo tanto, elegir la clase con la probabilidad posterior más alta de la regla de Bayes es lo mismo que elegir la clase con el valor más alto para la LDA. Puedes configurarδk(X)=δl(X) para calcular el límite de decisión bayesiano (que proporciona un umbral para cuándo una observación debe clasificarse como k o l)
Andy