Mirando las definiciones de Wikipedia de:
- Error Cuadrático Medio (MSE)
- Suma residual de cuadrados (RSS)
Me parece que
donde es el número de muestras y es nuestra estimación de .
Sin embargo, ninguno de los artículos de Wikipedia menciona esta relación. ¿Por qué? ¿Me estoy perdiendo de algo?
Respuestas:
En realidad, se menciona en la sección Regresión del error cuadrático medio en Wikipedia:
También puede encontrar información aquí: Errores y residuos en las estadísticas. Dice que la expresión error cuadrático medio puede tener diferentes significados en diferentes casos, lo que a veces es complicado.
fuente
Pero tenga en cuenta que la suma de cuadrados erros (SSE) y la suma residual de cuadrados (RSS) a veces se usan de forma intercambiable, lo que confunde a los lectores. Por ejemplo, consulte esta URL: https://365datascience.com/sum-squares/ para obtener más información sobre regresión lineal.
Hablando estrictamente desde el punto de vista estadístico, los Errores y Residuos son conceptos completamente diferentes. Los errores se refieren principalmente a la diferencia entre los valores de muestra observados reales y los valores pronosticados, y se utilizan principalmente en las métricas estadísticas, como los errores cuadráticos medios de raíz (RMSE) y los errores absolutos medios (MAE). En contraste, los residuos se refieren exclusivamente a las diferencias entre las variables dependientes y las estimaciones de la regresión lineal.
fuente
No creo que esto sea correcto aquí si consideramos que MSE es el cuadrado de RMSE. Por ejemplo, tiene una serie de datos muestreados sobre predicciones y observaciones, ahora intenta hacer una regresión lineal: Observación (O) = a + b X Predicción (P). En este caso, el MSE es la suma de la diferencia al cuadrado entre O y P y se divide por el tamaño de la muestra N.
Pero si desea medir el rendimiento de la regresión lineal, necesita calcular el Residuo Cuadrado Medio (MSR). En el mismo caso, se estaría calculando en primer lugar la suma residual de cuadrados (RSS) que corresponde a la suma de las diferencias al cuadrado entre los valores de observación reales y las observaciones predichas derivadas de la regresión lineal. Luego, se sigue para RSS dividido por N-2 para obtener MSR.
En pocas palabras, en el ejemplo, MSE no puede estimarse usando RSS / N ya que el componente RSS ya no es el mismo para el componente utilizado para calcular MSE.
fuente