La función lm en R puede imprimir la covarianza estimada de los coeficientes de regresión. ¿Qué nos brinda esta información? ¿Podemos ahora interpretar mejor el modelo o diagnosticar problemas que podrían estar presentes en el modelo?
13
Respuestas:
El uso más básico de la matriz de covarianza es obtener los errores estándar de las estimaciones de regresión. Si el investigador solo está interesado en los errores estándar de los parámetros de regresión individuales, puede tomar la raíz cuadrada de la diagonal para obtener los errores estándar individuales.
Sin embargo, a menudo puede interesarle una combinación lineal de parámetros de regresión. Por ejemplo, si tiene una variable indicadora para un grupo dado, puede estar interesado en la media del grupo, que sería
Luego, para encontrar el error estándar para la media estimada de ese grupo, tendría
donde es un vector de sus contrastes y es la matriz de covarianza. En nuestro caso, si solo tenemos la covariable de suma "grp", entonces ( para la intersección, para pertenecer al grupo).S X = ( 1 , 1 ) 1 1X S X= ( 1 , 1 ) 1 1
Además, la matriz de covarianza (o más, la matriz de correlación, que se identifica de manera única a partir de la matriz de covarianza pero no al revés) puede ser muy útil para ciertos diagnósticos de modelo. Si dos variables están altamente correlacionadas, una forma de pensarlo es que el modelo tiene problemas para determinar qué variable es responsable de un efecto (porque están tan estrechamente relacionadas). Esto puede ser útil para una gran variedad de casos, como elegir subconjuntos de covariables para usar en un modelo predictivo; Si dos variables están altamente correlacionadas, es posible que solo desee utilizar una de las dos en su modelo predictivo.
fuente
Hay dos "tipos" de coeficientes de regresión:
Ahora piense en lo que significa covarianza. Tomemos dos variables aleatorias e . Ifes alto, entonces cada vez que dibuje un valor absoluto grande de también puede esperar dibujar un valor absoluto grande de en la misma dirección. Tenga en cuenta que "alto" aquí es relativo a la cantidad de variación en e , como se señala en los comentarios.Y | C o v ( X , Y ) | X Y X YX Y |Cov(X,Y)| X Y X Y
La covarianza (estimada) de dos coeficientes de regresión es la covarianza de las estimaciones , . Si la covarianza entre los coeficientes estimados y es alta, entonces en cualquier muestra donde sea alta, también puede esperar que sea alta. En un sentido más bayesiano, contiene información sobre .b 1 b 2 b 1 b 2 b 1 b 2b b1 b2 b1 b2 b1 b2
Tenga en cuenta de nuevo que "alto" es relativo. Aquí " es alto" significa que " es alto en relación con su error estándar", y su covarianza es "alta" significa "alto en relación con el producto de sus errores estándar". Una forma de suavizar estos inconvenientes interpretativos es estandarizar cada entrada de regresión dividiéndola por su desviación estándar (o dos desviaciones estándar en algunos casos).b 1b1 b1
Un usuario en este sitio describió como "un poco fudge", pero no estoy totalmente de acuerdo. Por un lado, podría usar esta interpretación para obtener antecedentes informativos en regresión bayesiana.Cov(b1,b2)
En cuanto a para qué se usa esto realmente, la respuesta de Cliff AB es un buen resumen.
fuente