La correlación, , es una medida de asociación lineal entre dos variables. El coeficiente de determinación, , es una medida de cuánto de la variabilidad en una variable puede "explicarse por" la variación en la otra.r 2
Por ejemplo, si es la correlación entre dos variables, entonces . Por lo tanto, el 64% de la variabilidad en uno puede explicarse por diferencias en el otro. ¿Derecho?r 2 = 0.64
Mi pregunta es, por ejemplo, ¿alguna de las siguientes afirmaciones es correcta?
- 64% de los valores caen a lo largo de la línea de regresión
- 80% de los valores caen a lo largo de la línea de regresión
regression
correlation
r-squared
Bradex
fuente
fuente
Respuestas:
La primera parte de esto es básicamente correcta, pero el modelo explica el 64% de la variación. En una regresión lineal simple: Y ~ X, si es 0,64, significa que el 64% de la variación en Y está determinada por la relación lineal entre Y y X. Es posible tener una relación fuerte con muy bajo R 2 , si la relación es fuertemente no lineal.R2 R2
En cuanto a sus dos preguntas numeradas, ninguna es correcta. De hecho, es posible que ninguno de los puntos se encuentre exactamente en la línea de regresión. Eso no es lo que se mide. Más bien, se trata de cuán cerca está el punto promedio de la línea. Si todos o casi todos los puntos están cerca (aunque ninguno es exactamente sobre la línea), entonces será alto. Si la mayoría de los puntos están lejos de la línea, R 2 será bajo. Si la mayoría de los puntos están cerca pero algunos están lejos, la regresión es incorrecta (problema de valores atípicos). Otras cosas también pueden salir mal.R2 R2
Además, he dejado la noción de "lejos" bastante vaga. Esto dependerá de cuán extendidas estén las X. Hacer precisas estas nociones es parte de lo que aprende en un curso sobre regresión; No voy a entrar aquí.
fuente
http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/
http://economictheoryblog.com/2014/11/05/proof/
fuente
Niether 1 ni 2 es correcto.
Luego
fuente