¿Cuál es la diferencia entre la varianza y el error cuadrático medio?

27

Me sorprende que esto no se haya preguntado antes, pero no puedo encontrar la pregunta en stats.stackexchange.

Esta es la fórmula para calcular la varianza de una muestra distribuida normalmente:

(XX¯)2n1

Esta es la fórmula para calcular el error cuadrático medio de las observaciones en una regresión lineal simple:

(yiy^i)2n2

¿Cuál es la diferencia entre estas dos fórmulas? La única diferencia que puedo ver es que MSE usa . Entonces, si esa es la única diferencia, ¿por qué no referirse a ellos como la varianza, pero con diferentes grados de libertad?n2

luciano
fuente
¿Qué tiene la página de wikipedia aquí que no está clara?
TrynnaDoStat
3
La varianza es el promedio de la desviación al cuadrado de las observaciones de la media. El MSE en contraste es el promedio de las desviaciones al cuadrado de las predicciones de los valores verdaderos.
random_guy
3
Tanto "varianza" como "error cuadrático medio" tienen múltiples fórmulas y diferentes aplicaciones. Para aclarar su pregunta, ¿podría (a) describir a qué tipo de datos está aplicando estos conceptos y (b) dar fórmulas para ellos? (Es probable que al hacerlo descubra también la respuesta a su pregunta).
whuber
66
Hay una fórmula más general, que ambos son casos especiales de: , dondepes el número de parámetros estimados en la obtención yi(yiy^i)2nppy^
Glen_b -Reinstate Monica
@Glen_b ¿podría proporcionar una referencia para obtener más información sobre esta fórmula general?
trianta2

Respuestas:

28

El error cuadrático medio como lo ha escrito para OLS está ocultando algo:

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

Observe que el numerador suma sobre una función de y y x , por lo que pierde un grado de libertad para cada variable, por lo tanto n2 . En la fórmula para la varianza muestral, el numerador es una función de una sola variable, por lo que pierde solo un grado de libertad en el denominador.

Sin embargo, está en camino de notar que estas son cantidades conceptualmente similares. La varianza muestral mide la extensión de los datos alrededor de la media muestral (en unidades cuadradas), mientras que el MSE mide la extensión vertical de los datos alrededor de la línea de regresión muestral (en unidades verticales cuadradas).

Alexis
fuente
@amoeba ¡Hola! Gracias por la atención. ¿Existe una guía de estilo de CV oficial que provocó esta edición? Si es así, quiero aprenderlo. Si no, bueno, Glen_b una vez me recriminó con razón por estar colonizando con mis preferencias de estilo personal y ediciones a otras Qs y As. ¿Qué piensas? (Y pregunto esto en un tono colegial: creo que su edición agrega algo. Solo quiero entender mejor nuestros valores de edición.)
Alexis
1
No creo que haya ninguna guía de estilo de CV oficial que haga esta sugerencia, pero en LaTeX hay fórmulas en línea (marcadas con un signo de dólar) que se representan directamente en el bloque de texto y muestran fórmulas (marcadas con dos signos de dólar) que se representan en una línea separada. Las fórmulas mostradas usan un diseño diferente. Su fórmula estaba originalmente en una línea separada pero marcada con un signo de dólar; No creo que esto tenga sentido. Sin embargo, tiene razón sobre las preferencias personales, así que siéntase libre de retroceder con disculpas. La razón por la que edité fue porque estaba arreglando un error tipográfico en la Q de todos modos.
ameba dice Reinstate Monica
β0n1n2
1

nn1nn1

=β0+β1×xβ0β1n2

Brajesh Kumar
fuente