Error cuadrático medio y suma residual de cuadrados

31

Mirando las definiciones de Wikipedia de:

Me parece que

MSE=1NRSS=1N(fiyi)2

donde es el número de muestras y es nuestra estimación de .Nfiyi

Sin embargo, ninguno de los artículos de Wikipedia menciona esta relación. ¿Por qué? ¿Me estoy perdiendo de algo?

Josh
fuente
66
Sé que esto parece inútil y un poco hostil, pero no lo mencionan porque es obvio. Además, quieres tener un poco de cuidado, aquí. Por lo general, cuando se encuentra con un MSE en el trabajo empírico real, no es dividido por sino dividido por donde es el número (incluida la intercepción) de las variables del lado derecho en algún modelo de regresión. RSSNRSSNKK
Bill
10
@Bill: Bueno, es exactamente el tipo de relación que generalmente lleva a que los artículos se vinculen en Wikipedia. Su punto con respecto al grado de libertades también muestra que no es tan obvio y definitivamente algo que vale la pena mencionar.
bluenote10
2
@Bill: De acuerdo, sin embargo, la obviedad es muy subjetiva. El área gris de estadísticas / aprendizaje automático está llena de notación infernal y, por lo tanto, es bueno ser explícito.
rnoodle

Respuestas:

30

En realidad, se menciona en la sección Regresión del error cuadrático medio en Wikipedia:

En el análisis de regresión, el término error cuadrático medio a veces se usa para referirse a la estimación imparcial de la varianza del error: la suma residual de cuadrados dividida por el número de grados de libertad.

También puede encontrar información aquí: Errores y residuos en las estadísticas. Dice que la expresión error cuadrático medio puede tener diferentes significados en diferentes casos, lo que a veces es complicado.

Whenov
fuente
4

Pero tenga en cuenta que la suma de cuadrados erros (SSE) y la suma residual de cuadrados (RSS) a veces se usan de forma intercambiable, lo que confunde a los lectores. Por ejemplo, consulte esta URL: https://365datascience.com/sum-squares/ para obtener más información sobre regresión lineal.

Hablando estrictamente desde el punto de vista estadístico, los Errores y Residuos son conceptos completamente diferentes. Los errores se refieren principalmente a la diferencia entre los valores de muestra observados reales y los valores pronosticados, y se utilizan principalmente en las métricas estadísticas, como los errores cuadráticos medios de raíz (RMSE) y los errores absolutos medios (MAE). En contraste, los residuos se refieren exclusivamente a las diferencias entre las variables dependientes y las estimaciones de la regresión lineal.

Dr.CYY
fuente
0

No creo que esto sea correcto aquí si consideramos que MSE es el cuadrado de RMSE. Por ejemplo, tiene una serie de datos muestreados sobre predicciones y observaciones, ahora intenta hacer una regresión lineal: Observación (O) = a + b X Predicción (P). En este caso, el MSE es la suma de la diferencia al cuadrado entre O y P y se divide por el tamaño de la muestra N.

Pero si desea medir el rendimiento de la regresión lineal, necesita calcular el Residuo Cuadrado Medio (MSR). En el mismo caso, se estaría calculando en primer lugar la suma residual de cuadrados (RSS) que corresponde a la suma de las diferencias al cuadrado entre los valores de observación reales y las observaciones predichas derivadas de la regresión lineal. Luego, se sigue para RSS dividido por N-2 para obtener MSR.

En pocas palabras, en el ejemplo, MSE no puede estimarse usando RSS / N ya que el componente RSS ya no es el mismo para el componente utilizado para calcular MSE.

Dr.CYY
fuente
1
No entiendo esta respuesta.
Michael R. Chernick
Mire, basándose en el ejemplo mencionado de predicción muestreada y valores de datos observados, se establece la regresión lineal: Observación (O) = a + b X Predicción (P) (a, b son intersección y pendiente respectivamente). En este caso, MSE = Σ (OP) ^ 2 / n, donde Σ (OP) ^ 2 es la Suma de Erros Cuadrados (SSE) yn es el tamaño de la muestra. Sin embargo, los residuos cuadrados medios (MSR) = Σ (OO´) ^ 2 / n-2, donde Σ (OO´) ^ 2 es igual a la suma residual de cuadrados (RSS) y O` = a + b X P. MSR y Los RSS se utilizan principalmente para probar la importancia general de la regresión lineal. También tenga en cuenta, SSE = Erros sistemático (SE) + RSS, donde SE = Σ (PO´) ^ 2
Dr.CYY