Cómo derivar la matriz de coeficientes de varianza-covarianza en regresión lineal

36

Estoy leyendo un libro sobre regresión lineal y tengo algunos problemas para comprender la matriz de varianza-covarianza de b :

ingrese la descripción de la imagen aquí

Los elementos diagonales son bastante fáciles, pero los no diagonales son un poco más difíciles, lo que me desconcierta es que

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

pero no hay rastro de y aquí.β 1β0β1

qed
fuente
3
Pregunta relacionada: stats.stackexchange.com/questions/44838/…
ocram
2
Cual es el libro
Konstantinos
Neter et al., Modelos de regresión lineal aplicada, 1983, página 216. Puede encontrar el mismo material en Modelos estadísticos lineales aplicados, 5a edición, página 207.
akavalar

Respuestas:

53

Esta es realmente una buena pregunta que desafía su comprensión básica de una regresión.

Primero elimine cualquier confusión inicial sobre la notación. Estamos viendo la regresión:

y=b0+b1x+u^

donde y son los estimadores de los verdaderos y , y son los residuos de la regresión. Tenga en cuenta que la regresión subyacente verdadera y no observada se denota así como:b0b1β0β1uu^

y=β0+β1x+u

Con la expectativa de y la varianza . Algunos libros denotan como y adaptamos esta convención aquí. También utilizamos la notación matricial, donde b es el vector 2x1 que contiene los estimadores de , es decir, . (También en aras de la claridad, trato X como fijo en los siguientes cálculos).mi[tu]=0 0mi[tu2]=σ2siβ β = [ β 0 , ß 1 ] ' b = [ b 0 , b 1 ] 'β^β=[β0 0,β1]si=[si0 0,si1]

Ahora a tu pregunta. Su fórmula para la covarianza es correcta, es decir:

σ(si0 0,si1)=mi(si0 0si1)-mi(si0 0)mi(si1)=mi(si0 0si1)-β0 0β1

Creo que quiere saber cómo es que tenemos los verdaderos coeficientes no observados en esta fórmula. De hecho, se cancelan si damos un paso más allá al expandir la fórmula. Para ver esto, tenga en cuenta que la varianza poblacional del estimador viene dada por:β0 0,β1

Vunar(β^)=σ2(XX)-1

Esta matriz contiene las variaciones en los elementos diagonales y las covarianzas en los elementos fuera de la diagonal.

Para llegar a la fórmula anterior, generalicemos su reclamo utilizando la notación matricial. Por lo tanto, denotemos la varianza con y la expectativa con .Vunar[]mi[]

Vunar[si]=mi[si2]-mi[si]mi[si]

Esencialmente tenemos la fórmula de varianza general, simplemente usando la notación matricial. La ecuación se resuelve al sustituir en la expresión estándar el estimador . También suponga que es un estimador imparcial. Por lo tanto, obtenemos:si=(XX)-1Xymi[si]=β

mi[((XX)-1Xy)2]-β22×2

Tenga en cuenta que tenemos en el lado derecho - matriz 2x2, a saber , pero en este punto ya puede adivinar qué sucederá con este término en breve.β2sisi

Reemplazando con nuestra expresión para el verdadero proceso subyacente de generación de datos subyacente, tenemos:y

mi[((XX)-1Xy)2]-β2=mi[((XX)-1X(Xβ+tu))2]-β2=mi[((XX)-1XX=yoβ+(XX)-1Xtu)2]-β2=mi[(β+(XX)-1Xtu)2]-β2=β2+mi[(XX)-1Xtu)2]-β2

ya que . Además, el término cuadrático se cancela según lo previsto.mi[tu]=0 0β2

Así tenemos:

Vunar[si]=((XX)-1X)2mi[tu2]

Por linealidad de expectativas. Tenga en cuenta que por suposición y ya que es una matriz simétrica y, por lo tanto, es lo mismo que su transposición. Finalmente llegamos ami[tu2]=σ2((XX)-1X)2=(XX)-1XX(XX)-1=(XX)-1XXK×K

Vunar[si]=σ2(XX)-1

Ahora que nos hemos deshecho de todos los términos . Intuitivamente, la varianza del estimador es independiente del valor del coeficiente subyacente verdadero, ya que esta no es una variable aleatoria per se. El resultado es válido para todos los elementos individuales en la matriz de covarianza de la varianza como se muestra en el libro, por lo tanto, también es válido para los elementos fuera de la diagonal y con para cancelar, respectivamente. El único problema era que había aplicado la fórmula general para la variación que no refleja esta cancelación al principio.ββ0 0β1

En última instancia, la varianza de los coeficientes se reduce a e independiente de . Pero ¿qué significa esto? (Creo que también solicitó una comprensión más general de la matriz de covarianza general)σ2(XX)-1β

Mira la fórmula en el libro. Simplemente afirma que la varianza del estimador aumenta cuando el verdadero término de error subyacente es más ruidoso ( aumenta), pero disminuye cuando aumenta la propagación de X. Debido a que tener más observaciones distribuidas alrededor del valor verdadero, en general le permite construir un estimador que sea más preciso y, por lo tanto, más cercano al verdadero . Por otro lado, los términos de covarianza en fuera de diagonal se vuelven prácticamente relevantes en la prueba de hipótesis de hipótesis conjuntas como . Aparte de eso, son un poco falsos, de verdad. Espero que esto aclare todas las preguntas.σ2 β b 0 = b 1 = 0βsi0 0=si1=0 0

Majte
fuente
y cuando mantiene la extensión constante y disminuye las x, el error estándar de la intersección se vuelve más pequeño, lo que tiene sentido.
Theta30
No sigo la expansión de la plaza. ¿Por qué no se simplifica a ? ((XX)-1X)2=((XX)-1X)((XX)-1X)=X-2
David
2

En tu caso tenemos

XX=[norteXyoXyoXyo2]

Invierta esta matriz y obtendrá el resultado deseado.

mpiktas
fuente
1

Parece que son los valores pronosticados (valores esperados). Hacen el cambio entre y .β0 0β1mi(si0 0)=β0 0mi(si1)=β1

Drew75
fuente
β0 0 y son generalmente desconocidos, ¿a qué se pueden cambiar? β1
qed
Creo que entiendo la confusión, y creo que quizás deberían haber escrito lugar de . Aquí hay otra publicación que pasa por el cálculo: enlace β 0β0 0β0 0
Drew75
2
@qed: para muestrear estimaciones de las cantidades desconocidas.
Glen_b -Reinstale a Monica el