¿Por qué decimos "error estándar residual"?

14

Un error estándar es la desviación estándar estimada de un estimador para un parámetro . θ θσ^(θ^)θ^θ

¿Por qué la desviación estándar estimada de los residuos se denomina "error estándar residual" (por ejemplo, en la salida de la summary.lmfunción de R ) y no "desviación estándar residual"? ¿Qué parámetro de estimación equipamos aquí con un error estándar?

¿Consideramos cada residuo como un estimador para "su" término de error y estimamos el error estándar "agrupado" de todos estos estimadores?

Michael M
fuente
66
Creo que eso es una cosa R. No creo que otro software necesariamente use esa redacción, y la 'desviación estándar residual' es común en los libros de texto, por ejemplo. No tengo una respuesta, pero siempre pensé que era extraño que R usara esa frase.
gung - Restablece a Monica
@gung: ¡esa podría ser la explicación! Cuando busco en Google "error estándar residual" en las comillas, obtengo solo el 0.1% de los aciertos que sin las comillas ...
Michael M
Podría poner eso como una (no) respuesta, si lo prefiere.
gung - Restablece a Monica
1
@gung es curioso cómo el uso de software específico da forma a tu pensamiento: nunca lo llamaría "SD residual": los residuos no son datos sino errores, por lo que el error residual parece ser el nombre correcto. Pero si lo piensas, realmente parece una cosa R.
Tim
2
@Tim, podría considerarse correctamente una estimación de la desviación estándar de los errores , pero los residuos no son técnicamente los errores en sí mismos. Tampoco es el error estándar del error SD, por lo que vale.
gung - Restablece a Monica

Respuestas:

12

Creo que el fraseo es específico de la summary.lm()salida de R. Observe que el valor subyacente en realidad se llama "sigma" ( summary.lm()$sigma). No creo que otro software necesariamente use ese nombre para la desviación estándar de los residuos. Además, la frase "desviación estándar residual" es común en los libros de texto, por ejemplo. No sé cómo llegó a ser el fraseo utilizado en la summary.lm()salida de R , pero siempre pensé que era extraño.

gung - Restablece a Monica
fuente
¿Cómo es summary.lm(reg)$sigmadiferente de sd(reg$residuals)?
ataque aéreo
3
@ AndréTerra, los grados correctos de libertad son n - p, que es lo que usa el resumen. sd usa var que usa n - 1 grados de libertad. Si calcula manualmente la desviación estándar de los residuos dividiendo por n - p, obtendrá la misma respuesta que proporciona el resumen.
Jdub
3
Para corroborar el gung, cito de la documentación R de stats::sigma: El nombre erróneo "Error estándar residual" ha sido parte de demasiadas salidas R (y S) para poder cambiarlas fácilmente allí.
NRH
2

Desde mi formación en econometría, se llama "error estándar residual" porque es una estimación de la "desviación estándar residual" real. Vea esta pregunta relacionada que corrobora esta terminología.

Una búsqueda en Google del término error estándar residual también muestra muchos resultados, por lo que no es una rareza. Intenté ambos términos con citas, y ambos aparecen aproximadamente 60,000 veces.

Heisenberg
fuente
Interesante. Pero, ¿por qué llamaría a un "error estándar" una estimación de una desviación estándar de cualquier variable aleatoria (como un término de error; y no un estimador específico)?
Michael M
Mi opinión es que necesitamos tener un nombre para la estimación (para distinguirlo del valor real), cualquier nombre es tan bueno como otro. Pero seguramente alguien más conocedor de la etimología puede ofrecer una mejor razón. Tenga en cuenta que definitivamente hay un paralelo con el error estándar del coeficiente, que es la estimación de la desviación estándar de la estimación del coeficiente.
Heisenberg
0

En pocas palabras, el error estándar de la muestra es una estimación de cuán lejos es probable que esté la media muestral de la media poblacional, mientras que la desviación estándar de la muestra es el grado en que los individuos dentro de la muestra difieren de la media muestral.

Error estándar - Wikipedia, la enciclopedia libre

usuario629019
fuente
66
Esto es cierto, pero en realidad no responde la pregunta. Lo que R llama el "error estándar residual" no es "una estimación de cuán lejos es probable que esté la media de la muestra de la media de la población".
gung - Restablece a Monica
0

Un modelo de regresión ajustado utiliza los parámetros para generar predicciones de estimación puntual que son el medio de las respuestas observadas si tuviera que replicar el estudio con los mismos valores XX un número infinito de veces ( cuando el modelo lineal es verdadero ).

La diferencia entre estos valores pronosticados y los utilizados para ajustar el modelo se denominan " Residuos " que, al replicar el proceso de recopilación de datos, tienen propiedades de variables aleatorias con 0 medias. Los residuos observados se utilizan para estimar posteriormente la variabilidad en estos valores y para estimar la distribución de muestreo de los parámetros.

Nota:

Cuando el error estándar residual es exactamente 0, el modelo se ajusta perfectamente a los datos (probablemente debido al sobreajuste).

Si no se puede demostrar que el error estándar residual sea significativamente diferente de la variabilidad en la respuesta incondicional, entonces hay poca evidencia que sugiera que el modelo lineal tenga alguna capacidad predictiva.

Abhishek Jaiswal
fuente