Chaconne hizo un excelente trabajo al definir las fórmulas de medidas y cómo están muy estrechamente relacionadas desde el punto de vista matemático. Si compara o clasifica modelos usando el mismo conjunto de datos, esas dos medidas son intercambiables, lo que significa que obtendrá exactamente la misma clasificación de sus modelos, ya sea que use R Square (clasificándolos de mayor a menor) o RMSE (clasificándolos de bajo a alto) .
Sin embargo, las dos medidas tienen un significado y un uso muy diferentes. R Square no es solo una medida de Bondad de ajuste, también es una medida de cuánto explica el modelo (el conjunto de variables independientes que seleccionó) el comportamiento (o la varianza) de su variable dependiente. Entonces, si su modelo tiene un R cuadrado de 0.60, explica el 60% del comportamiento de su variable dependiente. Ahora, si usa el Cuadrado R ajustado que esencialmente penaliza al Cuadrado R por la cantidad de variables que usa, tiene una idea bastante buena de cuándo debe dejar de agregar variables a su modelo (y eventualmente obtener un modelo que esté sobreajustado). Si su cuadrado R ajustado es 0.60. Y, cuando agrega una variable adicional, solo aumenta a 0.61. Probablemente no valga la pena agregar esta variable adicional.
Ahora, recurrir a RMSE también se conoce comúnmente como Error estándar. Tiene un uso completamente diferente a R Square. El error estándar le permite construir intervalos de confianza alrededor de su estimación de regresión asumiendo cualquier nivel de confianza que le interese (generalmente 99%, 95% o 90%). De hecho, el error estándar es el equivalente de un valor Z. Entonces, si desea construir un IC del 95% alrededor de su línea de tendencia de regresión, multiplique el Error estándar por 1.96 y rápidamente genera una estimación alta y baja como borde de su IC del 95% alrededor de la línea de regresión.
Entonces, tanto el cuadrado R (y el cuadrado R ajustado) como el error estándar son extremadamente útiles para evaluar la solidez estadística de un modelo. Y, como se indicó, tienen una aplicación práctica completamente diferente. Uno mide el poder explicativo del modelo. El otro te permite construir intervalos de confianza. Ambas cosas muy útiles pero diferentes.
Con respecto a la evaluación de la precisión de la predicción en datos que no ha visto, ambas medidas tienen sus limitaciones, así como la mayoría de las otras medidas que puede pensar. En los datos nuevos que están fuera de la muestra, el R cuadrado y el error estándar en el historial o la muestra de aprendizaje del modelo no serán de mucha utilidad. El material fuera de la muestra es solo una gran prueba para verificar si su modelo está sobreajustado (gran cuadrado R y bajo error estándar, pero bajo rendimiento fuera de la muestra) o no. Entiendo que las mejores medidas para los datos prospectivos (datos que aún no ha visto) son el criterio de información que incluye AIC, BIC, SIC. Y, el modelo con los mejores valores de criterio de información debería manejar mejor los datos no vistos, en otras palabras, ser más predictivo. Esas medidas son primos cercanos del concepto de Ajustada R Square. Sin embargo,