¿Cómo calcular fuera de la muestra R al cuadrado?

Sé que esto probablemente se haya discutido en otro lugar, pero no he podido encontrar una respuesta explícita. Estoy tratando de usar la fórmula $R^2 = 1 - SSR/SST$ para calcular fuera de muestra $R^2$ de un modelo de regresión lineal, donde $SSR$ es la suma de los residuos cuadrados y $SST$ es el suma total de cuadrados. Para el conjunto de entrenamiento, está claro que

S S T = Σ (y - {\bar{y}}_{t r una yo norte})^{2}

$SST = \Sigma (y - \bar{y}_{train})^2$

¿Qué pasa con el conjunto de prueba? ¿Debo seguir usando $\bar{y}_{train}$ fuera de la muestra $y$ , o usar $\bar{y}_{test}$ lugar?

He descubierto que si uso $\bar{y}_{test}$ , la resultante $R^2$ puede ser negativo a veces. Esto es consistente con la descripción de la r2_score()función de sklearn , donde usaron $\bar{y}_{test}$ (que también es utilizada por la score()función de su linear_model para probar muestras). Afirman que "un modelo constante que siempre predice el valor esperado de y, sin tener en cuenta las características de entrada, obtendría una puntuación R ^ 2 de 0.0".

Sin embargo, en otros lugares la gente ha usado $\bar{y}_{train}$ como aquí y aquí (la segunda respuesta de dmi3kno). ¿Entonces me preguntaba cuál tiene más sentido? Cualquier comentario será muy apreciado!

regression machine-learning r-squared out-of-sample conductor loco
fuente

Respuestas:

Estás en lo correcto.

Los residuos de OSR se basan en datos de pruebas, pero la línea de base aún debe ser datos de capacitación. Dicho esto, su SST es ; observe que es igual para $^2$ $SST=Σ(y−\bar y_{train})^2$ $R^2$

usuario152317
fuente

Aunque he corregido algunos errores obvios y aparentes de ediciones anteriores, algunas de las anotaciones y algunos de los significados previstos aún no están claros.

Nick Cox

¡Gracias por la respuesta! ¿Tienes alguna referencia sobre esto? Parece que los softwares estadísticos usan comúnmente la definición alternativa, con y_test?

Matifou