¿Qué es el error estándar residual?

35

Cuando se ejecuta un modelo de regresión múltiple en R, una de las salidas es un error estándar residual de 0.0589 en 95,161 grados de libertad. Sé que los 95,161 grados de libertad están dados por la diferencia entre el número de observaciones en mi muestra y el número de variables en mi modelo. ¿Cuál es el error estándar residual?

ustroetz
fuente
2
Esta pregunta y sus respuestas podrían ayudar: ¿Por qué decimos error estándar residual?
Antoine Vernet
Una pregunta rápida: ¿es "error estándar residual" lo mismo que "desviación estándar residual"? Gelman y Hill (p. 41, 2007) parecen usarlos indistintamente.
JetLag

Respuestas:

26

Un modelo de regresión ajustado utiliza los parámetros para generar predicciones de estimación puntual, que son el medio de las respuestas observadas si tuviera que replicar el estudio con los mismos valores de un número infinito de veces (y cuando el modelo lineal es verdadero). La diferencia entre estos valores pronosticados y los utilizados para ajustar el modelo se denominan "residuos" que, al replicar el proceso de recopilación de datos, tienen propiedades de variables aleatorias con 0 medias.X

Los residuos observados se utilizan para estimar posteriormente la variabilidad en estos valores y para estimar la distribución de muestreo de los parámetros. Cuando el error estándar residual es exactamente 0, el modelo se ajusta perfectamente a los datos (probablemente debido al sobreajuste). Si no se puede demostrar que el error estándar residual sea significativamente diferente de la variabilidad en la respuesta incondicional, entonces hay poca evidencia que sugiera que el modelo lineal tenga alguna capacidad predictiva.

AdamO
fuente
3
Esto puede haber sido respondido antes. Vea si esta pregunta proporciona las respuestas que necesita. [Interpretación de la salida lm () de R] [1] [1]: stats.stackexchange.com/questions/5135/…
doug.numbers
26

Digamos que tenemos la siguiente tabla ANOVA (adaptada del example(aov)comando de R ):

          Df Sum Sq Mean Sq F value Pr(>F)
Model      1   37.0   37.00   0.483  0.525
Residuals  4  306.3   76.57               

Si divide la suma de cuadrados de cualquier fuente de variación (modelo o residuos) por sus respectivos grados de libertad, obtendrá el cuadrado medio. Particularmente para los residuos:

306,34 4=76,57576,57

Entonces 76.57 es el cuadrado medio de los residuos, es decir, la cantidad de variación residual (después de aplicar el modelo) en su variable de respuesta.

El error estándar residual que ha preguntado no es más que la raíz cuadrada positiva del error cuadrado medio . En mi ejemplo, el error estándar residual sería igual a , o aproximadamente 8.75. R generaría esta información como "8.75 en 4 grados de libertad".76,57

Waldir Leoncio
fuente
1
Elegí la respuesta de @AdamO porque, como persona que usa la regresión directamente con mayor frecuencia, esa respuesta fue la más directa para mí. Sin embargo, aprecio esta respuesta, ya que ilustra la relación de notación / conceptual / metodológica entre ANOVA y la regresión lineal.
svannoy
12

Y=β0 0+β1X+ϵ
ϵX

β0 0β1ϵϵ

RSE se explica con bastante claridad en "Introducción al aprendizaje estadístico".

pequeño monstruo
fuente
2
ϵRSmi=RSS(norte-2)
1
Para cualquiera que lea el epub de ISL, puede ubicar "página 66" con ctrl-f "error estándar residual". (Los archivos Epub no tienen números de página verdaderos).
user2426679