¿Cómo interpretar los errores estándar de coeficientes en regresión lineal?

26

Me pregunto cómo interpretar los errores estándar del coeficiente de una regresión cuando se usa la función de visualización en R.

Por ejemplo en el siguiente resultado:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

¿Un error estándar más alto implica una mayor importancia?

También para la desviación estándar residual, un valor más alto significa una mayor dispersión, pero la R al cuadrado muestra un ajuste muy cercano, ¿no es esto una contradicción?

por encima de
fuente

Respuestas:

52

Las estimaciones de parámetros, como una media de muestra o un coeficiente de regresión de MCO, son estadísticas de muestra que utilizamos para hacer inferencias sobre los parámetros de población correspondientes. Lo que realmente nos importa son los parámetros de la población, pero debido a que no tenemos acceso a toda la población (por lo general, se supone que es infinito), debemos utilizar este enfoque en su lugar. Sin embargo, hay ciertos hechos incómodos que vienen con este enfoque. Por ejemplo, si tomamos otra muestra y calculamos el estadístico para estimar nuevamente el parámetro, es casi seguro que encontraremos que difiere. Además, ninguna estimación es probable que coincida con el verdadero valor del parámetro que queremos saber. De hecho, si hiciéramos esto una y otra vez, continuando muestreando y estimando para siempre, encontraríamos que la frecuencia relativa de los diferentes valores estimados siguió una distribución de probabilidad. El teorema del límite central sugiere que es probable que esta distribución sea normal. Necesitamos una forma de cuantificar la cantidad de incertidumbre en esa distribución. Eso es lo que el error estándar hace por ti.

En su ejemplo, desea conocer la pendiente de la relación lineal entre x1 e y en la población, pero solo tiene acceso a su muestra. En su muestra, esa pendiente es .51, pero sin saber cuánta variabilidad hay en su distribución de muestreo correspondiente , es difícil saber qué hacer con ese número. El error estándar, .05 en este caso, es la desviación estándar de esa distribución de muestreo. Para calcular la significancia, divide la estimación entre el SE y busca el cociente en la tabla. Por lo tanto, los SE más grandes significan menor importancia.

La desviación estándar residual no tiene nada que ver con las distribuciones de muestreo de sus pendientes. Es solo la desviación estándar de su muestra condicional en su modelo. No hay contradicción, ni podría haberla. En cuanto a cómo tiene una SD más grande con un alto R ^ 2 y solo 40 puntos de datos, supongo que tiene lo contrario de la restricción de rango: sus valores de x se extienden muy ampliamente.

gung - Restablece a Monica
fuente
Excelente y muy clara respuesta! Entonces, básicamente, para la segunda pregunta, ¿la SD indica dispersión horizontal y la R ^ 2 indica el ajuste general o la dispersión vertical?
encima del
77
@Dbr, encantado de ayudar. Por lo general, pensamos que la variable de respuesta está en el eje vertical y la variable predictora en el eje horizontal. Con esta configuración, todo es vertical: la regresión minimiza las distancias verticales entre las predicciones y la variable de respuesta (SSE). Asimismo, el SD residual es una medida de dispersión vertical después de haber tenido en cuenta los valores pronosticados. Finalmente, R ^ 2 es la relación entre la dispersión vertical de sus predicciones y la dispersión vertical total de sus datos sin procesar.
gung - Restablece a Monica