¿Cómo calcular el intervalo de confianza de la intersección x en una regresión lineal?

9

Dado que el error estándar de una regresión lineal generalmente se da para la variable de respuesta, me pregunto cómo obtener intervalos de confianza en la otra dirección, por ejemplo, para una intersección x. Puedo visualizar lo que podría ser, pero estoy seguro de que debe haber una forma directa de hacerlo. A continuación se muestra un ejemplo en R de cómo visualizar esto:

set.seed(1)
x <- 1:10
a <- 20
b <- -2
y <- a + b*x + rnorm(length(x), mean=0, sd=1)

fit <- lm(y ~ x)
XINT <- -coef(fit)[1]/coef(fit)[2]

plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y)))
abline(h=0, lty=2, col=8); abline(fit, col=2)
points(XINT, 0, col=4, pch=4)
newdat <- data.frame(x=seq(-2,12,len=1000))

# CI
pred <- predict(fit, newdata=newdat, se.fit = TRUE) 
newdat$yplus <-pred$fit + 1.96*pred$se.fit 
newdat$yminus <-pred$fit - 1.96*pred$se.fit 
lines(yplus ~ x, newdat, col=2, lty=2)
lines(yminus ~ x, newdat, col=2, lty=2)

# approximate CI of XINT
lwr <- newdat$x[which.min((newdat$yminus-0)^2)]
upr <- newdat$x[which.min((newdat$yplus-0)^2)]
abline(v=c(lwr, upr), lty=3, col=4)

ingrese la descripción de la imagen aquí

Marc en la caja
fuente
1
Se podría arrancar la siguiente: library(boot); sims <- boot(data.frame(x, y), function(d, i) { fit <- lm(y ~ x, data = d[i,]) -coef(fit)[1]/coef(fit)[2] }, R = 1e4); points(quantile(sims$t, c(0.025, 0.975)), c(0, 0)). Para intervalos de predicción inversa, el archivo de ayuda chemCal:::inverse.predictproporciona la siguiente referencia que también podría ayudar a derivar un IC: Massart, LM, Vandenginste, BGM, Buydens, LMC, De Jong, S., Lewi, PJ, Smeyers-Verbeke, J. (1997 ) Manual de quimiometría y calimetría: Parte A, p. 200
Roland
1
Lo que muestra en el gráfico no es el CI para la intercepción. Muestra los puntos donde las líneas de confianza inferior y superior de las predicciones cruzan el eje.
Roland
1
A menudo, en la regresión lineal, uno tiene un modelo que dice algo como esto: modo que las Y s se tratan como aleatorias y las x s como fijas. Eso puede justificarse diciendo que está buscando una distribución condicional dada la x s. En la práctica, si toma una nueva muestra, generalmente no solocambianlas Y s sino también las x s, lo que sugiere que, en algunas circunstancias, también deben considerarse aleatorias. Me pregunto si esto tiene relación con la propiedad de
Yyo=α+βXyo+εyodónde ε1,...εnorteiid norte(0 0,σ2),
YXXYX...
Michael Hardy
1
@AdrienRenaud: me parece que su respuesta es demasiado simplista dados los aspectos asimétricos que mencioné, y que se destacan por el ejercicio de arranque que Roland ilustró. Si no estoy pidiendo demasiado, tal vez podría ampliar el enfoque de probabilidad que mencionó.
Marc en la caja el

Respuestas:

8

¿Cómo calcular el intervalo de confianza de la intersección x en una regresión lineal?

Suposiciones

  • yyo=α+βXyo+εyo
  • ϵEl |Xnorte(0 0,σ2yonorte)
  • Ajuste usando el mínimo cuadrado ordinario

3 procedimientos para calcular el intervalo de confianza en la intersección x

Expansión Taylor de primer orden

Y=unaX+siσunaσsiunasiσunasi

unaX+si=0 0X=-siuna.

σXX

(σXX)2=(σsisi)2+(σunauna)2-2σunasiunasi.

MIB

Ver el código de Marc en el cuadro de ¿Cómo calcular el intervalo de confianza de la intersección x en una regresión lineal? .

CAPITANI-POLLASTRI

CAPITANI-POLLASTRI proporciona la función de distribución acumulativa y la función de densidad para la relación de dos variables aleatorias normales correlacionadas. Se puede usar para calcular el intervalo de confianza de la intersección x en una regresión lineal. Este procedimiento da resultados (casi) idénticos a los de MIB.

β^norte(β,σ2(XTX)-1)β^

El procedimiento es el siguiente:

  • unasi
  • σuna,σsi,σunasi=ρσunaσsi
  • unasinorte(una,si,σuna,σsi,ρ)XyonortetmirCmipagt=-siuna
  • XyonortetmirCmipagt=-siuna

Comparación de los 3 procedimientos.

Los procedimientos se comparan utilizando la siguiente configuración de datos:

  • x <- 1:10
  • a <- 20
  • b <- -2
  • y <- a + b * x + rnorm (longitud (x), media = 0, sd = 1)

Se generan y analizan 10000 muestras diferentes utilizando los 3 métodos. El código (R) utilizado para generar y analizar se puede encontrar en: https://github.com/adrienrenaud/stackExchange/blob/master/crossValidated/q221630/answer.ipynb

  • MIB y CAPITANI-POLLASTRI dan resultados equivalentes.
  • La expansión de Taylor de primer orden difiere significativamente de los otros dos métodos.
  • MIB y CAPITANI-POLLASTRI padecen una cobertura insuficiente. Se encuentra que el 68% (95%) ci contiene el valor verdadero 63% (92%) del tiempo.
  • La expansión de Taylor de primer orden sufre una sobrecobertura. Se encuentra que el 68% (95%) ci contiene el valor verdadero 87% (99%) del tiempo.

Conclusiones

La distribución de intersección x es asimétrica. Justifica un intervalo de confianza asimétrico. MIB y CAPITANI-POLLASTRI dan resultados equivalentes. CAPITANI-POLLASTRI tiene una buena justificación teórica y da motivos para MIB. MIB y CAPITANI-POLLASTRI padecen una cobertura insuficiente moderada y pueden usarse para establecer intervalos de confianza.

Adrien Renaud
fuente
Gracias por esta buena respuesta. ¿Este método implica que el error estándar de la intersección x es simétrico? Los intervalos de predicción en mi figura implican que este no es el caso, y he visto referencias a esto en otros lugares.
Marc en la caja del
Sí, implica un intervalo simétrico. Si desea una asimétrica, puede usar una probabilidad de perfil tratando los parámetros de su modelo como parámetros molestos. Pero es más trabajo :)
Adrien Renaud
(σX/ /X)2
@fcop Es una expansión de Taylor. Eche un vistazo a en.wikipedia.org/wiki/Propagation_of_uncertainty
Adrien Renaud
2

Yo recomendaría arrancar los residuos:

library(boot)

set.seed(42)
sims <- boot(residuals(fit), function(r, i, d = data.frame(x, y), yhat = fitted(fit)) {

  d$y <- yhat + r[i]

  fitb <- lm(y ~ x, data = d)

  -coef(fitb)[1]/coef(fitb)[2]
}, R = 1e4)
lines(quantile(sims$t, c(0.025, 0.975)), c(0, 0), col = "blue")

trama resultante

Lo que muestra en el gráfico son los puntos donde el límite inferior / superior de la banda de confianza de las predicciones cruza el eje. No creo que estos sean los límites de confianza de la intercepción, pero tal vez sean una aproximación aproximada.

Roland
fuente
Genial: esto ya parece más razonable que el ejemplo de tu comentario. Gracias de nuevo.
Marc en la caja el