Fórmula para el intervalo de confianza del 95% para

13

Busqué en Google y busqué en stats.stackexchange pero no puedo encontrar la fórmula para calcular un intervalo de confianza del 95% para un valor para una regresión lineal. ¿Alguien puede proporcionarlo?R2

Aún mejor, digamos que había corrido la regresión lineal a continuación en R. ¿Cómo calcularía un intervalo de confianza del 95% para el valor usando el código R?R2

lm_mtcars <- lm(mpg ~ wt, mtcars)
luciano
fuente
1
Bueno, sabes que la relación entre la correlación y es que estás cuadrando el coeficiente de correlación para obtener entonces ¿por qué no calcular el intervalo de confianza para y luego cuadrar los límites inferior y superior del intervalo? R 2 R 2 rrR2R2r
1
@ZERO: funcionará en una regresión lineal simple, es decir, con un único predictor y una intercepción. No funcionará para la regresión lineal múltiple con más de un predictor.
Stephan Kolassa 01 de
@StephanKolassa, muy cierto! Supongo que lo estaba basando en su Rcódigo donde solo hay un regresor, pero ese es un muy buen punto para aclarar.
Por ejemplo, puede usar una función R muy pequeña github.com/mayer79/R-confidence-intervals-R-squared en función de las propiedades de la distribución F no central.
Michael M

Respuestas:

16

Siempre puedes arrancarlo:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter y Bithell (2000, Statistics in Medicine) proporcionan una introducción legible para los intervalos de confianza de arranque, aunque no se centran específicamente en .R2

Stephan Kolassa
fuente
1
n=32k=1(0.546,0.960)2
También vale la pena señalar que puede obtener otros tipos de intervalo de confianza (p. Ej., BCa) de la distribución de remuestreo bootstrap mediante boot.ci().
Jeffrey Girard
7

En R, puede hacer uso de la CI.Rsq()función proporcionada por el paquete psicométrico . En cuanto a la fórmula que aplica, ver Cohen et al. (2003) , Análisis de regresión / correlación múltiple aplicada para las ciencias del comportamiento , pág. 88:

SER2=4R2(1R2)2(nk1)2(n21)(n+3)

R2±2SER2

Durden
fuente
3
(1R2)R2R2nk1>60k+1cuenta una intersección más el número de variables independientes.) Sería útil ver un ejemplo trabajado respaldado por la simulación, porque este intervalo parece demasiado amplio.
whuber
Según Wishart (1931), la fórmula no es adecuada para distribuciones no normales.
abukaj