Me sorprende que esto no se haya preguntado antes, pero no puedo encontrar la pregunta en stats.stackexchange.
Esta es la fórmula para calcular la varianza de una muestra distribuida normalmente:
Esta es la fórmula para calcular el error cuadrático medio de las observaciones en una regresión lineal simple:
¿Cuál es la diferencia entre estas dos fórmulas? La única diferencia que puedo ver es que MSE usa . Entonces, si esa es la única diferencia, ¿por qué no referirse a ellos como la varianza, pero con diferentes grados de libertad?
Respuestas:
El error cuadrático medio como lo ha escrito para OLS está ocultando algo:
Observe que el numerador suma sobre una función dey y x , por lo que pierde un grado de libertad para cada variable, por lo tanto n−2 . En la fórmula para la varianza muestral, el numerador es una función de una sola variable, por lo que pierde solo un grado de libertad en el denominador.
Sin embargo, está en camino de notar que estas son cantidades conceptualmente similares. La varianza muestral mide la extensión de los datos alrededor de la media muestral (en unidades cuadradas), mientras que el MSE mide la extensión vertical de los datos alrededor de la línea de regresión muestral (en unidades verticales cuadradas).
fuente
fuente