Regresión: ¿Cuál es la utilidad de R al cuadrado en comparación con RMSE?

11

Supongamos que estoy haciendo regresión con entrenamiento, validación y conjuntos de pruebas. Puedo encontrar RMSE y R al cuadrado (R ^ 2, el coeficiente de determinación) de la salida de mi software (como la función Rm lm ()).

Entiendo que la prueba RMSE (o MSE) es la medida de la bondad de predecir los valores de validación / prueba, mientras que R ^ 2 es una medida de la bondad del ajuste para capturar la varianza en el conjunto de entrenamiento.

En el mundo real, lo que realmente me importa es la precisión de predicción generalizada de datos que no he visto. Entonces, ¿cuál es la utilidad del valor R ^ 2 en comparación con RMSE?

stackoverflowuser2010
fuente

Respuestas:

7

El no ajustado se define como R2

R2=1-1norteyo=1norte(yyo-y^yo)21norteyo=1norte(yyo-y¯)2=1-METROSmi1norteTotSS

Tomemos el RMSE como

RMETROSmi=METROSmi.

Para un conjunto de datos dado, y son fijos, por lo que los diferentes modelos se consideran solo el cambio de . Esto significa que en las expresiones anteriores, solo cambia el MSE. Entonces, tanto como son funciones de la misma cosa, y por lo tanto no hay mucha diferencia (excepto para la interpretación) al considerar uno versus el otro.yyoy¯y^yoR2RMETROSmi

Si en cambio observamos el ajustado o usamos entonces también tendremos , la dimensión del modelo, que cambia para diferentes modelos.R2RMETROSmi=nortenorte-pagsMETROSmipags

jld
fuente
7

Chaconne hizo un excelente trabajo al definir las fórmulas de medidas y cómo están muy estrechamente relacionadas desde el punto de vista matemático. Si compara o clasifica modelos usando el mismo conjunto de datos, esas dos medidas son intercambiables, lo que significa que obtendrá exactamente la misma clasificación de sus modelos, ya sea que use R Square (clasificándolos de mayor a menor) o RMSE (clasificándolos de bajo a alto) .

Sin embargo, las dos medidas tienen un significado y un uso muy diferentes. R Square no es solo una medida de Bondad de ajuste, también es una medida de cuánto explica el modelo (el conjunto de variables independientes que seleccionó) el comportamiento (o la varianza) de su variable dependiente. Entonces, si su modelo tiene un R cuadrado de 0.60, explica el 60% del comportamiento de su variable dependiente. Ahora, si usa el Cuadrado R ajustado que esencialmente penaliza al Cuadrado R por la cantidad de variables que usa, tiene una idea bastante buena de cuándo debe dejar de agregar variables a su modelo (y eventualmente obtener un modelo que esté sobreajustado). Si su cuadrado R ajustado es 0.60. Y, cuando agrega una variable adicional, solo aumenta a 0.61. Probablemente no valga la pena agregar esta variable adicional.

Ahora, recurrir a RMSE también se conoce comúnmente como Error estándar. Tiene un uso completamente diferente a R Square. El error estándar le permite construir intervalos de confianza alrededor de su estimación de regresión asumiendo cualquier nivel de confianza que le interese (generalmente 99%, 95% o 90%). De hecho, el error estándar es el equivalente de un valor Z. Entonces, si desea construir un IC del 95% alrededor de su línea de tendencia de regresión, multiplique el Error estándar por 1.96 y rápidamente genera una estimación alta y baja como borde de su IC del 95% alrededor de la línea de regresión.

Entonces, tanto el cuadrado R (y el cuadrado R ajustado) como el error estándar son extremadamente útiles para evaluar la solidez estadística de un modelo. Y, como se indicó, tienen una aplicación práctica completamente diferente. Uno mide el poder explicativo del modelo. El otro te permite construir intervalos de confianza. Ambas cosas muy útiles pero diferentes.

Con respecto a la evaluación de la precisión de la predicción en datos que no ha visto, ambas medidas tienen sus limitaciones, así como la mayoría de las otras medidas que puede pensar. En los datos nuevos que están fuera de la muestra, el R cuadrado y el error estándar en el historial o la muestra de aprendizaje del modelo no serán de mucha utilidad. El material fuera de la muestra es solo una gran prueba para verificar si su modelo está sobreajustado (gran cuadrado R y bajo error estándar, pero bajo rendimiento fuera de la muestra) o no. Entiendo que las mejores medidas para los datos prospectivos (datos que aún no ha visto) son el criterio de información que incluye AIC, BIC, SIC. Y, el modelo con los mejores valores de criterio de información debería manejar mejor los datos no vistos, en otras palabras, ser más predictivo. Esas medidas son primos cercanos del concepto de Ajustada R Square. Sin embargo,

Sympa
fuente
1
Gracias por tu respuesta. Por lo general, he usado RMSE solo para evaluar el poder predictivo de un modelo de regresión lineal (después de predecir los valores de un conjunto de pruebas no visto). Por lo tanto, no he visto que RMSE "tenga un uso completamente diferente ... para construir intervalos de confianza alrededor de su estimación de regresión". Supongo que esto debe ser una cosa estadística. Soy de informática, así que no he calculado muchos intervalos de confianza en mi carrera.
stackoverflowuser2010