Matriz de varianza-covarianza de los errores en regresión lineal

12

¿Cómo se calcula la matriz de error var / cov mediante paquetes de análisis estadístico en la práctica?

Esta idea es clara para mí en teoría. Pero no en la práctica. Quiero decir, si tengo un vector de variables aleatorias , entiendo que la matriz de varianza / covarianza se le dará el producto externo de los vectores de desviación de la media: . Σ Σ = E [ ( X - E ( X ) ) ( X - E ( X ) ) ]X=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

Pero cuando tengo una muestra, los errores de mis observaciones no son variables aleatorias. O mejor, lo son, pero solo si tomo varias muestras idénticas de la misma población. De lo contrario, se les da. Entonces, nuevamente mi pregunta es: ¿cómo puede un paquete estadístico producir una matriz var / cov a partir de una lista de observaciones (es decir, una muestra) suministrada por el investigador?

Riccardo
fuente
Los errores de sus observaciones son función de variables aleatorias (las y) y, por lo tanto, son aleatorios. Condicional solo en X, no se dan.
user603
1
Sí, estoy totalmente de acuerdo en eso. Pero lo que dices funciona en teoría. Si dibujo, digamos, 100 muestras aleatorias de tamaño idéntico de la misma población, cada error de observación será una variable aleatoria con (0, sigma ^ 2). ¿Qué pasa si, en cambio, solo saco una muestra? En ese caso, la media del error de cada observación es el error mismo. ¿Está claro lo que estoy diciendo? Entonces, lo que estoy tratando de entender es, ¿cómo calcula un paquete como Stata la matriz de varianza-covarianza usando solo una muestra extraída de la población?
Riccardo

Respuestas:

7

La matriz de covarianza para un modelo del tipo generalmente se calcula como donde es el suma residual de cuadrados, y son los grados de libertad (típicamente el número de observaciones menos el número de parámetros).( X t X ) - 1 σ 2y=Xβ+ϵ σ2σ2=Σi(yi-Xi β )2d

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

Para errores estándar robustos o agrupados, el producto se modifica ligeramente. También puede haber otras formas de calcular la matriz de covarianza, por ejemplo, según lo sugerido por la expectativa de productos externos.XtX

Simen Gaure
fuente
3
  1. Estimación de OLS de la varianza del error , :σ2

s2=ε^ε^np

Esto está incluido en Regresión práctica y Anova usando R por Julian J. Faraway, página 21 .

Ejemplo de su cálculo en R, basado en el modelo lineal de millas por galón regresión en múltiples especificaciones del modelo de coche incluidos en la mtcarsbase de datos: ols = lm(mpg ~ disp + drat + wt, mtcars). Estos son los cálculos manuales y la salida de la lm()función:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. Varianza: matriz de covarianza de los coeficientes estimados , :β^

Var[β^X]=σ2(XX)1

estimado como en la página 8 de este documento en línea como

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
Antoni Parellada
fuente
2

Y=βX+εYXβXY

Rajiv Sambasivan
fuente
Hola Rajiv, gracias por la corrección. Entonces, ¿puede explicar cómo Stata (o cualquier otro paquete de estadísticas), a partir de Y (y epsilon), logra derivar la matriz de varianza-covarianza Sigma?
Riccardo
e^e^
De acuerdo con el usuario 603. Consulte la página 21 de cran.r-project.org/doc/contrib/Faraway-PRA.pdf . Esto se basa en R pero incluye una buena discusión de la teoría detrás de la regresión lineal.
Rajiv Sambasivan
Hola a los dos, gracias, en primer lugar. También estoy de acuerdo con usted, usuario603, y esperaba esta respuesta. Pero si la matriz var / cov se calcula calculando el producto externo de los vectores de error, esto significa que la cov entre los componentes del error en la mayoría de los casos no será cero, como implicaría la hipótesis de independencia. ¿Derecho? Esto es alrededor de lo que gira mi duda. Rajiv, busqué la buena guía que sugeriste, pero no pude encontrar una respuesta. Gracias de antemano por cualquier respuesta futura.
Riccardo