En R
, uso la lda
función de la biblioteca MASS
para hacer la clasificación. Según entiendo LDA, a la entrada se le asignará la etiqueta , que maximiza , ¿verdad?
Pero cuando me ajusto al modelo, en el que lda
,
Editar: para reproducir la salida a continuación, primero ejecute:
library(MASS)
library(ISLR)
train = subset(Smarket, Year < 2005)
lda.fit = lda(Direction ~ Lag1 + Lag2, data = train)
> lda.fit Call: lda(Direction ~ Lag1 + Lag2, data = train) Prior probabilities of groups: Down Up 0.491984 0.508016 Group means: Lag1 Lag2 Down 0.04279022 0.03389409 Up -0.03954635 -0.03132544 Coefficients of linear discriminants: LD1 Lag1 -0.6420190 Lag2 -0.5135293
Entiendo toda la información en la salida anterior, pero una cosa, ¿qué es LD1
? Lo busco en la web, ¿es un puntaje discriminante lineal ? ¿Qué es eso y por qué lo necesito?
ACTUALIZAR
Leo varias publicaciones (como esta y esta ) y también busco DA en la web, y ahora esto es lo que pienso sobre DA o LDA.
Se puede usar para hacer una clasificación, y cuando este es el propósito, puedo usar el enfoque de Bayes, es decir, calcular el posterior ( y | x ) para cada clase , y luego clasificar a la clase con el mayor posterior. Con este enfoque, no necesito descubrir a los discriminantes, ¿verdad?
Como leí en las publicaciones, DA o al menos LDA está dirigido principalmente a la reducción de la dimensionalidad , para las clases y el espacio predictivo -dim, puedo proyectar el -dim en un nuevo espacio de características -dim es decir
,puede verse como el vector de características transformado de laoriginal, y cadaes el vector en el quese proyecta.
¿Tengo razón sobre las declaraciones anteriores? En caso afirmativo, tengo las siguientes preguntas:
¿Qué es un discriminante ? ¿Cada entrada en el vector es un discriminante? O ?
¿Cómo hacer la clasificación usando discriminantes?
fuente
discriminant analysis
en este sitio.Respuestas:
LDA1
Lag1
Lag2
La tabla a continuación ilustra la relación entre el puntaje, la probabilidad posterior y la clasificación, para el conjunto de datos utilizado en la pregunta. Los patrones básicos siempre se mantienen con la LDA de dos grupos: hay un mapeo de 1 a 1 entre los puntajes y la probabilidad posterior, y las predicciones son equivalentes cuando se realizan a partir de las probabilidades posteriores o los puntajes.
Respuestas a las subpreguntas y algunos otros comentarios.
Aunque LDA puede usarse para la reducción de dimensiones, esto no es lo que está sucediendo en el ejemplo. Con dos grupos, la razón por la que solo se requiere un puntaje por observación es que esto es todo lo que se necesita. Esto se debe a que la probabilidad de estar en un grupo es el complemento de la probabilidad de estar en el otro (es decir, se suman a 1). Puede ver esto en la tabla: las puntuaciones inferiores a -.4 se clasifican como pertenecientes al grupo Down y se prevé que las puntuaciones más altas sean Up .
Algunas veces el vector de puntajes se llama a
discriminant function
. A veces los coeficientes se llaman así. No tengo claro si ninguno de los dos es correcto. Creo que MASS sediscriminant
refiere a los coeficientes.La
lda
función del paquete MASS produce coeficientes de una manera diferente a la mayoría de los otros programas LDA. El enfoque alternativo calcula un conjunto de coeficientes para cada grupo y cada conjunto de coeficientes tiene una intersección. Con la función discriminante (puntajes) calculada usando estos coeficientes, la clasificación se basa en el puntaje más alto y no hay necesidad de calcular probabilidades posteriores para predecir la clasificación. He puesto un código LDA en GitHub que es una modificación de laMASS
función pero produce estos coeficientes más convenientes (se llama al paqueteDisplayr/flipMultivariates
, y si crea un objeto usandoLDA
puede extraer los coeficientes usandoobj$original$discriminant.functions
).He publicado la R para el código de todos los conceptos en esta publicación aquí .
library(MASS) getAnywhere("predict.lda")
fuente
I'm not clear on whether either [word use] is correct
La "función discriminante", también conocida como "discriminante", es una variante extraída: una variable, una dimensión. Por lo tanto, se caracteriza tanto por los coeficientes (pesos) para evaluarlo a partir de las variables de entrada, como por los puntajes, los valores. Exactamente como una PC en PCA. Entonces, "coeficientes discriminantes" y "puntajes discriminantes" son el uso correcto.La teoría detrás de esta función es "Método de Fisher para discriminar entre varias poblaciones". Recomiendo el capítulo 11.6 en el análisis estadístico multivariado aplicado (ISBN: 9780134995397) como referencia.
fuente