Coeficiente de determinación (

Quiero comprender completamente la noción de describe la cantidad de variación entre las variables. Cada explicación web es un poco mecánica y obtusa. Quiero "entender" el concepto, no solo usar mecánicamente los números. $r^2$

Por ejemplo: horas estudiadas vs. puntaje de la prueba

$r$ = .8

$r^2$ = .64

¿Entonces, qué significa esto?
¿El 64% de la variabilidad de los puntajes de los exámenes puede explicarse por horas?
¿Cómo sabemos eso con solo cuadrar?

regression correlation variance JackOfAll
fuente

su pregunta no es sobre R vs R-cuadrado (usted comprende que ) se trata de la interpretación de . Por favor reformule el título.

{0.8}^{2} = 0.64

$0.8^2=0.64$

r^{2}

$r^2$

robin girard

una pregunta similar: stats.stackexchange.com/questions/28139/…

Abe

@amoeba estuvo de acuerdo, saqué la etiqueta.

Brett

Necesita

n

$n$ para determinar el significado. Ver también stats.stackexchange.com/a/265924/99274 .

Carl

Respuestas:

Comience con la idea básica de variación. Su modelo inicial es la suma de las desviaciones al cuadrado de la media. El valor R ^ 2 es la proporción de esa variación que se contabiliza utilizando un modelo alternativo. Por ejemplo, R-cuadrado te dice qué cantidad de la variación en Y puedes eliminar sumando las distancias al cuadrado desde una línea de regresión, en lugar de la media.

Creo que esto queda perfectamente claro si pensamos en el problema de regresión simple trazado. Considere un diagrama de dispersión típico donde tiene un predictor X a lo largo del eje horizontal y una respuesta Y a lo largo del eje vertical.

La media es una línea horizontal en el diagrama donde Y es constante. La variación total en Y es la suma de las diferencias al cuadrado entre la media de Y y cada punto de datos individual. Es la distancia entre la línea media y cada punto individual al cuadrado y sumado.

También puede calcular otra medida de variabilidad después de tener la línea de regresión del modelo. Esta es la diferencia entre cada punto Y y la línea de regresión. En lugar de cada (Y - la media) al cuadrado, obtenemos (Y - el punto en la línea de regresión) al cuadrado.

Si la línea de regresión es cualquier cosa menos horizontal, obtendremos menos distancia total cuando usemos esta línea de regresión ajustada en lugar de la media, es decir, hay menos variación inexplicable. La relación entre la variación adicional explicada y la variación original es su R ^ 2. Es la proporción de la variación original en su respuesta que se explica ajustando esa línea de regresión.

Aquí hay un código R para un gráfico con la media, la línea de regresión y los segmentos desde la línea de regresión a cada punto para ayudar a visualizar:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

Brett
fuente

> La relación entre la variación explicada y la variación original es su R ^ 2 Veamos si obtuve esto. Si la variación original de la media totaliza 100, y la variación de regresión totaliza 20, entonces la razón = 20/100 = .2 Está diciendo que R ^ 2 = .2 b / c 20% de la variación media (rojo) se contabiliza por la variación explicada (verde) (en el caso de r = 1) Si la variación original totaliza 50, y la variación de regresión totaliza 0, entonces la relación = 0/50 = 0 = 0% de la variación de la media ( rojo) se explica por la variación explicada (verde) Espero que R ^ 2 sea 1, no 0.

JackOfAll

R ^ 2 = 1- (SSR / SST) o (SST-SSR) / SST. Entonces, en sus ejemplos, R ^ 2 = .80 y 1.00. La diferencia entre la línea de regresión y cada punto es que no se explica por el ajuste. El resto es la proporción explicada. De lo contrario, eso es exactamente correcto.

Brett

Edité ese último párrafo para tratar de hacerlo un poco más claro. Conceptualmente (y computacionalmente) todo lo que necesita está ahí. Podría ser más claro agregar realmente la fórmula y referirme a la SSE y la SSR de SST, pero luego estaba tratando de llegar conceptualmente

Brett

es decir: R ^ 2 es la proporción de la variación total de la media (SST) que es la diferencia b / w del valor de regresión esperado y el valor medio (SSE). En mi ejemplo de horas vs. puntaje, el valor de regresión sería el puntaje de prueba esperado basado en la correlación con las horas estudiadas. Cualquier variación adicional de eso se atribuye a SSR. Para un punto dado, las horas estudiadas variables / regresión explicaron x% de la variación total de la media (TSM). Con un alto valor de r, "explicado" es un gran porcentaje de SST en comparación con SSR. Con un valor r bajo, "explicado" es un porcentaje menor de SST en comparación con SSR.

JackOfAll

@BrettMagill, creo que el enlace a la imagen está roto ...

Garrett

Aquí hay una demostración matemática de la relación entre los dos: la correlación de Pearson y el análisis de regresión de mínimos cuadrados .

~~No estoy seguro de si hay una intuición geométrica o de otro tipo que pueda ofrecerse aparte de las matemáticas, pero si puedo pensar en una, actualizaré esta respuesta.~~

Actualización: intuición geométrica

$x$ $y$ $y$

$y = x\ \beta + \epsilon$

$y_1,y_2$ $x_1,x_2$

texto alternativo http://a.imageshack.us/img202/669/linearregression1.png

$\beta$ $x\ \beta$ $y$ $\beta$ $x$ $\hat{\beta}$ $\beta$ $y$ $\hat{y} = x\ \hat{\beta}$

$y = \hat{y} + \hat{\epsilon}$

$y$ $\hat{y}$ $\hat{\epsilon}$ $\hat{\beta}$

$\beta$ $x\ \beta$ $\hat{\epsilon}$

$y$ $y$ $x$ $y$ $y_1^2+y_2^2$ $y$ $\hat{y}$ $\hat{y}$

Según el teorema de Pitágoras, tenemos:

$y^2 = \hat{y}^2 + \hat{\epsilon}^2$

$x$ $\frac{\hat{y}^2}{y^2}$ $cos(\theta) = \frac{\hat{y}}{y}$

Por lo tanto, tenemos la relación requerida:

$y$ $x$

Espero que ayude.

fuente

Aprecio tu intento de ayudar, pero desafortunadamente, esto solo empeoró las cosas 10 veces. ¿Estás realmente introduciendo trigonometría para explicar r ^ 2? ¡Eres demasiado listo para ser un buen maestro!

JackOfAll

Pensé que querías saber por qué la correlación ^ 2 = R ^ 2. En cualquier caso, diferentes formas de entender el mismo concepto ayudan o al menos esa es mi perspectiva.

El applet Regression By Eye podría ser útil si está tratando de desarrollar algo de intuición.

Le permite generar datos y luego adivinar un valor para R , que luego puede comparar con el valor real.

ars
fuente