Interpretación de la matriz de varianza-covarianza

12

Supongamos que tenemos un modelo lineal Model1y vcov(Model1)da la siguiente matriz:

             (Intercept)    latitude  sea.distance   altitude
(Intercept)    28.898100 -23.6439000  -34.1523000  0.50790600
latitude      -23.643900  19.7032500   28.4602500 -0.42471450
sea.distance  -34.152300  28.4602500   42.4714500 -0.62612550
altitude        0.507906  -0.4247145   -0.6261255  0.00928242

Para este ejemplo, ¿qué muestra realmente esta matriz? ¿Qué suposiciones podemos hacer con seguridad para nuestro modelo y sus variables independientes?

Murania
fuente

Respuestas:

11

Esta matriz muestra estimaciones de la varianza y covarianza entre los coeficientes de regresión. En particular, para su matriz de diseño , y una estimación de la varianza, , su matriz visualizada es .Xσ 2 ( X ' X ) - 1σ^2σ^2(XX)1

Las entradas diagonales son la varianza de los coeficientes de regresión y las no diagonales son la covarianza entre los coeficientes de regresión correspondientes.

En cuanto a los supuestos, aplique la función cov2cor () a su matriz de varianza-covarianza. Esta función convertirá la matriz dada en una matriz de correlación. Obtendrá estimaciones de las correlaciones entre los coeficientes de regresión. Sugerencia: para esta matriz, cada una de las correlaciones tendrá grandes magnitudes.

Para decir algo sobre el modelo en particular, necesitamos estimaciones puntuales de los coeficientes de regresión para decir algo más.

Donnie
fuente
11

@Donnie ha proporcionado una buena respuesta (+1). Déjame agregar un par de puntos.

En la diagonal principal de la matriz de varianza-covarianza se encuentran las variaciones de las distribuciones de muestreo de las estimaciones de sus parámetros (es decir, 's). Por lo tanto, tomar las raíces cuadradas de esos valores produce los errores estándar que se informan con la salida estadística: β^j

SEs   = sqrt(diag(vcov(Model1)))
SEs
# [1] 5.37569530 4.43883431 6.51701235 0.09634532

Estos se utilizan para formar intervalos de confianza y probar hipótesis sobre sus betas.

Los elementos fuera de la diagonal serían si todas las variables fueran ortogonales, pero sus valores están lejos de . El uso de la función o la estandarización de las covarianzas por las raíces cuadradas de las varianzas de las variables constituyentes revela que todas las variables están altamente correlacionadas ( ), por lo que tiene una multicolinealidad sustancial . Esto hace que sus errores estándar sean mucho más grandes de lo que serían. Del mismo modo, significa que hay una gran cantidad de información sobre las distribuciones de muestreo de las betas que se queda fuera de las pruebas de hipótesis estándar ( ), por lo que es posible que desee utilizar un estrategia de evaluación secuencial basado en las sumas de cuadrados de tipo I . 0 | r | > 0,97 β j / S E ( β j )00cov2cor()|r|>.97β^j/SE(β^j)

gung - Restablece a Monica
fuente