lata

8

La página de Wikipedia en R2 diceR2 puede tomar un valor mayor que 1. No veo cómo esto es posible.

Valores de R2 fuera del rango 0 a 1 puede ocurrir donde se usa para medir la concordancia entre los valores observados y modelados y donde los valores "modelados" no se obtienen por regresión lineal y dependiendo de qué formulación de R2es usado Si se usa la primera fórmula anterior, los valores pueden ser menores que cero. Si se usa la segunda expresión, los valores pueden ser mayores que uno.

Esa cita se refiere a la "segunda expresión" pero no veo una segunda expresión en la página.

¿Hay algún escenario donde R2puede ser mayor que 1? Estoy pensando en esta pregunta para la regresión no lineal, pero me gustaría obtener una respuesta general.

[Para alguien que mira esta página con la pregunta opuesta en mente: Sí; R2puede ser negativo Esto sucede cuando ajusta un modelo que se ajusta peor a los datos que una línea horizontal. Esto generalmente se debe a un error al seleccionar un modelo o restricciones.]

Harvey Motulsky
fuente
66
Este problema ya se ha tratado al menos una vez en este sitio web stats.stackexchange.com/questions/251337 e imagino que hay más preguntas relacionadas con él o que lo explican por completo.
SST(total)=RSS(model)+SSE(error)
SSt>SSe, esto solo es cierto en general si el modelo incluye una intersección y si la media del error / residual es 0. SiR2se relaciona, más simplemente, con la correlación, y no hay correcciones, de hecho, no debe ser mayor que 1. Es solo que no siempre se calcula de la misma manera que una correlación.
Sextus Empiricus
1
Entonces tienes las dos expresiones:
R2=1SSe/SSt=SSm/SSt
es posible que SSm>SSt
Sextus Empiricus
Calculo R al cuadrado como "1.0 - (absoluta_error_varianza / dependiente_varianza_de_datos)" y dado que la varianza del error absoluto no puede ser menor que cero, en mis cálculos el valor máximo de R al cuadrado es 1.0
James Phillips
2
Son peculiaridades como estas las que me hacen pensar que R2En general, es mejor tomarlo como el cuadrado de la correlación entre lo observado y lo predicho.
Nick Cox
Si R cuadró más de uno, eso significa que 1 + 1 es más que 2
Ibrahim

Respuestas:

8

Encontré la respuesta, así que publicaré la respuesta a mi pregunta. Como señaló Martijn, con la regresión lineal puedes calcularR2 por dos expresiones equivalentes:

R2=1SSe/SSt=SSm/SSt

Con la regresión no lineal, no puede sumar la suma de cuadrados de los residuos y la suma de cuadrados de la regresión para obtener la suma total de cuadrados. Esa ecuación simplemente no es cierta. Entonces la ecuación anterior no es correcta. Esas dos expediciones calculan dos valores diferentes paraR2.

La única ecuación que tiene sentido y es (creo) universalmente utilizada es:

R2=1SSe/SSt

Su valor nunca es mayor que 1.0, pero puede ser negativo cuando se ajusta al modelo incorrecto (o restricciones incorrectas) por lo que el SSe (suma de cuadrados de residuos) es mayor que SSt (suma de cuadrados de la diferencia entre los valores Y reales y medios).

La otra ecuación no se usa con regresión no lineal:

R2=SSm/SSt

Pero si se usara esta ecuación, da como resultado R2 mayor que 1.0 en casos donde el modelo se ajusta muy mal a los datos SSm Es mas grande que SSt. Esto sucede cuando el ajuste del modelo es peor que el ajuste de una línea horizontal, los mismos casos que conducen aR2<0 con la otra ecuación.

Línea de fondo: R2 puede ser mayor que 1.0 solo cuando se usa una ecuación no válida (o no estándar) para calcular R2 y cuando el modelo elegido (con restricciones, si corresponde) se ajusta muy mal a los datos, peor que el ajuste de una línea horizontal.

Harvey Motulsky
fuente
¿Es correcto el último punto? Considere los datos en una línea perfecta. Ahora considere un modelo que se ajuste exactamente a esta línea. Esto tiene SS_m / SS_t = 1. Ahora considere el mismo modelo pero con un gradiente ligeramente más pronunciado. Ahora SS_m es un poco más grande y SS_m / SS_t> 1. El modelo es un poco peor, pero aún se ajusta bien a los datos, no "realmente mal".
Denziloe
@Denziloe. Sus datos son perfectos o casi perfectos con una pendiente positiva. Ahora ajuste una línea de regresión lineal con la restricción de que la pendiente sea negativa con una pendiente menor que -100. El modelo de ajuste se ajustará peor que una línea horizontal, por lo que SSe es mayor que SSt. Con la primera ecuación, el R2 será negativo. Con la segunda ecuación, R2 será mayor que 1. No, esa no es una situación realista o común.
Harvey Motulsky
@Denziloe. El modelo se ajustará muy mal a los datos (peor que la hipótesis nula de una línea horizontal), solo si restringe la pendiente o intercepta a un valor que no tiene sentido. En su ejemplo, el modelo se ajusta bien a los datos, mejor que una línea horizontal.
Harvey Motulsky
Lo siento, realmente no sigo eso como respuesta. En mi ejemplo, SS_m / SS_t> +1, ¿estás de acuerdo? Y el modelo se ajusta bien, ¿de nuevo está de acuerdo? Esto parece contradecir su afirmación, "R2 puede ser mayor que 1 solo cuando ... el modelo elegido se ajusta muy mal a los datos".
Denziloe
@Denziloe Envíe algunos datos reales y ajustes, para que yo / nosotros podamos ver lo que quiere decir.
Harvey Motulsky
4

Por definición, R2=1SSe/SStdonde ambos términos SS son una suma de cuadrados y, por lo tanto, no negativos. El máximo se alcanza aSSe=0 Resultando en R2=1.

AlexR
fuente
1
Esto no es cierto en general, y solo se cumple cuando la varianza del modelo es menor que la varianza del error. Como ejemplo, tome una regresión lineal sin un coeficiente de intercepción.
Alex R.
@AlexR. Vea la respuesta de Harveys (mucho mejor que la mía por cierto): esto solo se aplica si usa otra definición deR2.
AlexR