¿Deberían los intervalos de confianza para los coeficientes de regresión lineal basarse en la distribución normal o ?

18

Tengamos un modelo lineal, por ejemplo, ANOVA simple:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

El resultado es el siguiente:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

Ahora pruebo dos métodos diferentes para estimar el intervalo de confianza de estos parámetros

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Preguntas:

  1. ¿Cuál es la distribución de los coeficientes de regresión lineal estimados? Normal o ?t
  2. ¿Por qué ambos métodos producen resultados diferentes? Suponiendo una distribución normal y una SE correcta, esperaría que ambos métodos tengan el mismo resultado.

¡Muchas gracias!

datos ~ 0 + hecho

EDITAR después de una respuesta :

La respuesta es exacta, ¡esto dará exactamente el mismo resultado que confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
Curioso
fuente

Respuestas:

19

(1) Cuando los errores se distribuyen normalmente y no se conoce su varianza , entonces tiene una distribución bajo la hipótesis nula de que es el coeficiente de regresión verdadero. El valor predeterminado es probar , por lo que las estadísticas informadas son solo tβ0β0=0t β

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

Tenga en cuenta que, en algunas condiciones de regularidad, la estadística anterior siempre se distribuye asintóticamente normalmente, independientemente de si los errores son normales o si se conoce la varianza del error.

(2) La razón por la que obtiene resultados diferentes es que los percentiles de la distribución normal son diferentes de los percentiles de la distribución . Por lo tanto, el multiplicador que está utilizando frente al error estándar es diferente, lo que a su vez proporciona diferentes intervalos de confianza.t

Específicamente, recuerde que el intervalo de confianza que usa la distribución normal es

β^±zα/2se(β^)

donde es el cuantil de la distribución normal. En el caso estándar de un intervalo de confianza del , y . El intervalo de confianza basado en la distribución es α / 2 95 % α = .05 z α / 21.96 tzα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

tα/2,nptnpnpntα/2,npzα/2

A continuación se muestra una gráfica de los multiplicadores para tamaños de muestra que varían de a (supuse para esta gráfica, pero eso no cambia nada cualitativamente). Los multiplicadores son más grandes, pero, como puede ver a continuación, convergen al multiplicador (línea negra continua) a medida que aumenta el tamaño de la muestra. t5300p=1tz

ingrese la descripción de la imagen aquí

Macro
fuente
¡¡Sí!! Buen trabajo !! (+1)
gui11aume
Macro, gracias por la respuesta. Pero: usted habla sobre la distribución de las estadísticas T, mientras que le pregunté sobre la distribución del coeficiente de regresión. Según tengo entendido, el coeficiente de regresión es una distribución caracterizada por su media (la estimación del coeficiente) y su error estándar. Pregunté sobre esta distribución, no sobre la distribución de estadísticas de prueba. Podría extrañar algo, así que por favor trate de explicarlo de una manera más obvia :) Gracias
Curioso
2
@Tomas, buena pregunta. Como escribí anteriormente, tiene una distribución . Por lo tanto, bajo la hipótesis nula, tiene una distribución que se desplaza y escala (por y , respectivamente). Pero, para muestras grandes, dado que la distribución t converge a la normal a medida que aumentan los grados de libertad, tiene una distribución normal (desplazada y escalada de la misma manera). ¿Esto te aclara algo?
β^β0se(β^)
tβ^tβ0se(β^)β^
Macro
Tienes toda la razón! ¡Esto dará exactamente el mismo resultado que confint(m1), incluso para muestras pequeñas! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
Curioso
Con los supuestos habituales necesarios para derivar la inferencia de la teoría normal para la regresión lineal, (y, por lo tanto, ) definitivamente se distribuye normalmente bajo nulo, pero incluso bajo nulo tiene una varianza desconocida . No puede compararlo con nada, ya que no sabe de qué distribución normal es (no tiene forma directa de saber si está inusualmente lejos de o no). Al escalar según el error estándar estimado, lo estandariza, lo que lo hace "comparable", pero ya no es normal, se distribuye en . β^β^β0β0t
Glen_b: reinstala a Monica