¿Errores estándar para coeficientes de regresión múltiple?

18

Me doy cuenta de que esta es una pregunta muy básica, pero no puedo encontrar una respuesta en ningún lado.

Estoy calculando los coeficientes de regresión usando las ecuaciones normales o la descomposición QR. ¿Cómo puedo calcular los errores estándar para cada coeficiente? Por lo general, pienso que los errores estándar se calculan como:

SEx¯ =σx¯n

¿Qué es para cada coeficiente? ¿Cuál es la forma más eficiente de calcular esto en el contexto de OLS?σx¯

Belmont
fuente

Respuestas:

19

Al hacer una estimación de mínimos cuadrados (suponiendo un componente aleatorio normal), las estimaciones de los parámetros de regresión se distribuyen normalmente con una media igual al parámetro de regresión verdadero y la matriz de covarianza donde es la varianza residual y es la matriz de diseño. es la transposición de y X está definida por la ecuación del modelo Y = X \ beta + \ epsilon con \ beta los parámetros de regresión y \ epsilon es el término de error. La desviación estándar estimada de un parámetro beta se obtiene tomando el término correspondiente en (X ^ TX) ^ {- 1}Σ=s2(XTX)1s2XTXXTXXY=Xβ+ϵβϵ(XTX)1multiplicándolo por la estimación muestral de la varianza residual y luego tomando la raíz cuadrada. Este no es un cálculo muy simple, pero cualquier paquete de software lo calculará por usted y lo proporcionará en la salida.

Ejemplo

En la página 134 de Draper y Smith (mencionado en mi comentario), proporcionan los siguientes datos para ajustar por mínimos cuadrados un modelo Y=β0+β1X+ε donde εN(0,Iσ2) .

                      X                      Y                    XY
                      0                     -2                     0
                      2                      0                     0
                      2                      2                     4
                      5                      1                     5
                      5                      3                    15
                      9                      1                     9
                      9                      0                     0
                      9                      0                     0
                      9                      1                     9
                     10                     -1                   -10
                    ---                     --                   ---
Sum                  60                      5                    32
Sum of  Squares     482                     21                   528

Parece un ejemplo donde la pendiente debe estar cerca de 0.

Xt=(111111111102255999910).

Entonces

XtX=(nXiXiXi2)=(106060482)

y

(XtX)1=(Xi2n(XiX¯)2X¯(XiX¯)2X¯(XiX¯)21(XiX¯)2)=(48210(122)612261221122)=(0.3950.0490.0490.008)

donde .X¯=Xi/n=60/10=6

Estimación para = (b0) = (Yb-b1 Xb) b1 Sxy / Sxxβ=(XTX)1XTY

b1 = 1/61 = 0.0163 y b0 = 0.5- 0.0163 (6) = 0.402

De arriba de Sb1 = Se (0.008) y Sb0 = Se (0.395) donde Se es la desviación estándar estimada para el término de error. Se = √2.3085.(XTX)1

Lamento que las ecuaciones no contengan subíndice y superíndice cuando las corté y pegué. La tabla tampoco se reprodujo bien porque los espacios se ignoraron. La primera cadena de 3 números corresponde a los primeros valores de XY y XY y lo mismo para las siguientes cadenas de tres. Después de Sum vienen las sumas para XY y XY respectivamente y luego la suma de los cuadrados para XY y XY respectivamente. Las matrices 2x2 también se estropearon. Los valores después de los corchetes deben estar entre corchetes debajo de los números a la izquierda.

Michael R. Chernick
fuente
2
No pretende ser un complemento para mi libro, pero reviso los cálculos de la solución de mínimos cuadrados en regresión lineal simple (Y = aX + b) y calculo los errores estándar para a y b, pp.101-103, The Essentials of Biostatistics para Médicos, Enfermeras y Clínicos, Wiley 2011. se puede encontrar una descripción más detallada en Draper and Smith Applied Regression Analysis 3rd Edition, Wiley New York 1998, página 126-127. En mi respuesta que sigue tomaré un ejemplo de Draper y Smith.
Michael R. Chernick
8
Cuando comencé a interactuar con este sitio, Michael, tuve sentimientos similares. Con experiencia, han cambiado. Vale la pena conocer algunos y una vez que lo hace, es (casi) tan rápido escribirlo como escribir cualquier cosa en inglés. También aprendí, al estudiar publicaciones ejemplares (como muchas respuestas de @chl, cardinal y otros usuarios de alta reputación por publicación), que proporcionar referencias, ilustraciones claras y ecuaciones bien pensadas suele ser muy apreciado y bueno. recibido. La alta calidad es una cosa que distingue a este sitio de la mayoría de los demás. TEX
Whuber
2
Todo eso es bueno Bill y es bueno que tanta gente se dedique a dar publicaciones de alta calidad. Puedo usar Latex para otros fines, como publicar artículos. Pero no tengo tiempo para hacer todo el esfuerzo que la gente espera de mí en este sitio. No voy a invertir el tiempo solo para brindar servicio en este sitio.
Michael R. Chernick
44
Creo que la desconexión está aquí: "Esta es solo una de las muchas cosas sobre este sitio que requiere que las publicaciones pongan más tiempo y esfuerzo" - @whuber y yo estamos diciendo que, de hecho, no toma más tiempo si sabes cómo hacerlo. No aprendemos para poder publicar en este sitio; nosotros (al menos yo) aprendemos porque es una habilidad importante tener como estadístico y resulta que las publicaciones son mucho más legibles en este sitio. TEXTEX
Macro
3
Al igual que muchas de las personas aquí, sí, trabajo como estadístico, pero también me parece divertido: este sitio es recreativo para mí y es una buena ventaja que otros encuentren útiles algunas de mis publicaciones. Si encuentra que marcar sus ecuaciones con es un trabajo y no cree que valga la pena aprenderlo, que así sea, pero sepa que parte de su contenido se pasará por alto. TEX
Macro