Tengamos un modelo lineal, por ejemplo, ANOVA simple:
# data generation
set.seed(1.234)
Ng <- c(41, 37, 42)
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)
fact <- as.factor(rep(LETTERS[1:3], Ng))
m1 = lm(data ~ 0 + fact)
summary(m1)
El resultado es el siguiente:
Call:
lm(formula = data ~ 0 + fact)
Residuals:
Min 1Q Median 3Q Max
-2.30047 -0.60414 -0.04078 0.54316 2.25323
Coefficients:
Estimate Std. Error t value Pr(>|t|)
factA -0.9142 0.1388 -6.588 1.34e-09 ***
factB 0.1484 0.1461 1.016 0.312
factC 1.0990 0.1371 8.015 9.25e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816, Adjusted R-squared: 0.4683
F-statistic: 36.23 on 3 and 117 DF, p-value: < 2.2e-16
Ahora pruebo dos métodos diferentes para estimar el intervalo de confianza de estos parámetros
c = coef(summary(m1))
# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2],
high = c[,1] + qnorm(p = 0.975) * c[,2])
# 2nd method
confint(m1)
Preguntas:
- ¿Cuál es la distribución de los coeficientes de regresión lineal estimados? Normal o ?
- ¿Por qué ambos métodos producen resultados diferentes? Suponiendo una distribución normal y una SE correcta, esperaría que ambos métodos tengan el mismo resultado.
¡Muchas gracias!
datos ~ 0 + hecho
EDITAR después de una respuesta :
La respuesta es exacta, ¡esto dará exactamente el mismo resultado que confint(m1)
!
# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2],
high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
r
regression
confidence-interval
Curioso
fuente
fuente
Respuestas:
(1) Cuando los errores se distribuyen normalmente y no se conoce su varianza , entonces tiene una distribución bajo la hipótesis nula de que es el coeficiente de regresión verdadero. El valor predeterminado es probar , por lo que las estadísticas informadas son solo tβ0β0=0t β
R
Tenga en cuenta que, en algunas condiciones de regularidad, la estadística anterior siempre se distribuye asintóticamente normalmente, independientemente de si los errores son normales o si se conoce la varianza del error.
(2) La razón por la que obtiene resultados diferentes es que los percentiles de la distribución normal son diferentes de los percentiles de la distribución . Por lo tanto, el multiplicador que está utilizando frente al error estándar es diferente, lo que a su vez proporciona diferentes intervalos de confianza.t
Específicamente, recuerde que el intervalo de confianza que usa la distribución normal es
donde es el cuantil de la distribución normal. En el caso estándar de un intervalo de confianza del , y . El intervalo de confianza basado en la distribución es α / 2 95 % α = .05 z α / 2 ≈ 1.96 tzα/2 α/2 95% α=.05 zα/2≈1.96 t
A continuación se muestra una gráfica de los multiplicadores para tamaños de muestra que varían de a (supuse para esta gráfica, pero eso no cambia nada cualitativamente). Los multiplicadores son más grandes, pero, como puede ver a continuación, convergen al multiplicador (línea negra continua) a medida que aumenta el tamaño de la muestra.t 5 300 p=1 t z
fuente
confint(m1)
, incluso para muestras pequeñas!cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])