Comprender las predicciones de la regresión logística.

13

Mis predicciones provenientes de un modelo de regresión logística (glm en R) no están delimitadas entre 0 y 1 como esperaba. Comprendo la regresión logística es que los parámetros de entrada y modelo se combinan linealmente y la respuesta se transforma en una probabilidad utilizando la función de enlace logit. Como la función logit está limitada entre 0 y 1, esperaba que mis predicciones estuvieran limitadas entre 0 y 1.

Sin embargo, eso no es lo que veo cuando implemento la regresión logística en R:

data(iris)
iris.sub <- subset(iris, Species%in%c("versicolor","virginica"))
model    <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, 
                family = binomial(link = "logit"))
hist(predict(model))

ingrese la descripción de la imagen aquí

En todo caso, la salida de predicción (modelo) me parece normal. ¿Alguien puede explicarme por qué los valores que obtengo no son probabilidades?

Adrian
fuente
3
La respuesta de Corone a continuación cubre los detalles muy bien. La figura original que tiene arriba presenta los valores de probabilidades de registro en el eje x, que pueden transformarse matemáticamente en probabilidades (es decir, según la respuesta de Corone, al pasar de nuevo a través de la función de enlace)
James Stanley

Respuestas:

16

El predict.glmmétodo por defecto devuelve los predictores en la escala del predictor lineal. Es decir, todavía no han pasado por la función de enlace.

Tratar

hist(predict(model, type = "response"))

en lugar

ingrese la descripción de la imagen aquí

Corone
fuente
44
Has hecho un gran trabajo al dominar nuestras capacidades de marcado e ilustración en poco tiempo: esta respuesta es un buen ejemplo de eso. ¡Bien hecho!
whuber