¿Cuál es la diferencia entre "coeficiente de determinación" y "error cuadrático medio"?

33

Para el problema de regresión, he visto a personas usar el "coeficiente de determinación" (también conocido como R al cuadrado) para realizar la selección del modelo, por ejemplo, encontrar el coeficiente de penalización apropiado para la regularización.

Sin embargo, también es común usar "error cuadrático medio" o "error cuadrático medio raíz" como medida de precisión de regresión.

Entonces, ¿cuál es la principal diferencia entre estos dos? ¿Se podrían usar indistintamente para tareas de "regularización" y "regresión"? ¿Y cuál es el uso principal de cada uno en la práctica, como en el aprendizaje automático, las tareas de minería de datos?

dolaameng
fuente

Respuestas:

40

, dondeSSEes la suma del error al cuadrado (residuos o desviaciones de la línea de regresión) ySSTes la suma de las desviaciones al cuadrado de lamediaYdel dependiente.R2=1-SSmiSSTSSmiSSTY

, dondenes el tamaño de la muestraymes el número de parámetros en el modelo (incluida la intercepción, si la hay).METROSmi=SSminorte-metronortemetro

es una medida estandarizada del grado de predicción, o ajuste, en la muestra. M S E es la estimación de la varianza de los residuos, o no aptos, en la población. Las dos medidas están claramente relacionadas, como se ve en la fórmula más habitual para R 2 ajustado(la estimación de R 2 para la población):R2METROSmi R2R2

Runarej2=1-(1-R2)norte-1norte-metro=1-SSmi/ /(norte-metro)SST/ /(norte-1)=1-METROSmiσy2

ttnphns
fuente
2
Pensé que MSE es el promedio de los errores, lo que significa MSE = SSE / n, ¿en qué ocasiones usamos MSE = SSE / (nm)? Por favor explique. Gracias
Sincole Brans
@SincoleBrans Consulte en.wikipedia.org/wiki/Mean_squared_error , sección "Regresión".
ttnphns
Estoy un poco confundido. Los resultados en martin-thoma.com/regression muestran que un modelo puede ser bueno (en comparación con otros modelos) con R ^ 2, pero al mismo tiempo malo con MSE. ¿Podrías explicar eso?
Martin Thoma