Considere la siguiente gráfica en la que simulé datos de la siguiente manera. Observamos un resultado binario para el cual la probabilidad real de ser 1 se indica mediante la línea negra. La relación funcional entre una covariable y es un polinomio de tercer orden con enlace logístico (por lo que no es lineal en una doble dirección). x p ( y o b s = 1 | x )
La línea verde es el ajuste de regresión logística GLM donde se introduce como polinomio de tercer orden. Las líneas verdes discontinuas son los intervalos de confianza del 95% alrededor de la predicción , donde los coeficientes de regresión ajustados. Solía y para esto.p ( y o b s = 1 | x , β ) βR
glm
predict.glm
Del mismo modo, la línea de pruple es la media de la parte posterior con un intervalo creíble del 95% para de un modelo de regresión logística bayesiana que utiliza un previo uniforme. Utilicé el paquete con función para esto (la configuración le da al uniforme un poco informativo antes).MCMCpack
MCMClogit
B0=0
Los puntos rojos denotan observaciones en el conjunto de datos para los cuales , los puntos negros son observaciones con . Tenga en cuenta que, como es común en la clasificación / análisis discreto pero no se observa .
Se pueden ver varias cosas:
- Simulé a propósito que es escaso en la mano izquierda. Quiero que la confianza y el intervalo creíble se amplíen aquí debido a la falta de información (observaciones).
- Ambas predicciones están sesgadas hacia arriba a la izquierda. Este sesgo es causado por los cuatro puntos rojos que indican observaciones, lo que sugiere erróneamente que la verdadera forma funcional subiría aquí. El algoritmo tiene información insuficiente para concluir que la verdadera forma funcional está doblada hacia abajo.
- El intervalo de confianza se ensancha como se esperaba, mientras que el intervalo creíble no . De hecho, el intervalo de confianza encierra el espacio de parámetros completo, como debería debido a la falta de información.
Parece que el intervalo creíble es incorrecto / demasiado optimista aquí para una parte de . Es realmente un comportamiento indeseable que el intervalo creíble se estreche cuando la información se dispersa o está completamente ausente. Por lo general, no es así como reacciona un intervalo creíble. Alguien puede explicar:
- ¿Cuáles son las razones para esto?
- ¿Qué pasos puedo tomar para llegar a un mejor intervalo creíble? (es decir, una que encierra al menos la verdadera forma funcional, o mejor, se amplía tanto como el intervalo de confianza)
El código para obtener los intervalos de predicción en el gráfico se imprime aquí:
fit <- glm(y_obs ~ x + I(x^2) + I(x^3), data=data, family=binomial)
x_pred <- seq(0, 1, by=0.01)
pred <- predict(fit, newdata = data.frame(x=x_pred), se.fit = T)
plot(plogis(pred$fit), type='l')
matlines(plogis(pred$fit + pred$se.fit %o% c(-1.96,1.96)), type='l', col='black', lty=2)
library(MCMCpack)
mcmcfit <- MCMClogit(y_obs ~ x + I(x^2) + I(x^3), data=data, family=binomial)
gibbs_samps <- as.mcmc(mcmcfit)
x_pred_dm <- model.matrix(~ x + I(x^2) + I(x^3), data=data.frame('x'=x_pred))
gibbs_preds <- apply(gibbs_samps, 1, `%*%`, t(x_pred_dm))
gibbs_pis <- plogis(apply(gibbs_preds, 1, quantile, c(0.025, 0.975)))
matlines(t(gibbs_pis), col='red', lty=2)
Acceso a datos : https://pastebin.com/1H2iXiew gracias @DeltaIV y @AdamO
dput
en el marco de datos que contiene los datos y luego incluir ladput
salida como código en su publicación.Respuestas:
Un GLM binomial frecuente no es diferente de un GLM con enlace de identidad, excepto que la varianza es proporcional a la media.
Para la predicción frecuentista, el aumento proporcional de la desviación al cuadrado (apalancamiento) en la varianza de las predicciones domina esta tendencia. Esta es la razón por la cual la tasa de convergencia a los intervalos de predicción aproximadamente igual a [0, 1] es más rápida que la convergencia del logit polinomial de tercer orden a probabilidades de 0 o 1 singularmente.
Esto no es así para los cuantiles bayesianos ajustados posteriores. No hay un uso explícito de la desviación al cuadrado, por lo que nos basamos simplemente en la proporción de tendencias dominantes 0 o 1 para construir intervalos de predicción a largo plazo.
Usando el código que proporcioné arriba obtenemos:
Entonces, el 97.75% de las veces, el tercer término polinómico fue negativo. Esto es verificable a partir de las muestras de Gibbs:
Por otro lado, el ajuste frecuentista explota hasta 0,1 como se esperaba:
da:
fuente
B0
MCMClogit