¿Por qué cuadrar da la varianza explicada?

12

Esta puede ser una pregunta básica, pero me preguntaba ¿por qué un valor en un modelo de regresión puede simplemente cuadrarse para dar una cifra de varianza explicada?R

Entiendo que el coeficiente puede dar la fuerza de una relación, pero no entiendo cómo simplemente elevar al cuadrado este valor da una medida de la varianza explicada.R

¿Alguna explicación fácil de esto?

Muchas gracias por ayudar con esto!

David
fuente
¿Estás buscando algo intuitivo o más matemático? ¿Has revisado algunas de las otras preguntas sobre y los coeficientes de correlación en este sitio? R2
Cardenal
1
Dos preguntas relacionadas están aquí y aquí , por ejemplo. Si juegas con las ecuaciones allí, podrás derivar la equivalencia matemática. Pero, tampoco es probable que sean particularmente útiles desde el punto de vista de la intuición.
Cardenal
Veo esto al revés. Es R cuadrado que se define como 1-varianza residual / varianza total y luego R es la raíz cuadrada positiva de eso. Simplemente sucede que cuando tenemos una regresión lineal simple, R cuadrado se reduce al cuadrado del coeficiente de correlación.
Michael R. Chernick
@Michael, sin duda pretendías decir la raíz cuadrada debidamente firmada en lugar de la positiva .
cardenal
1
@cardinal, tengo la misma impresión: (or ) se refiere al coeficiente de correlación de la muestra y me sorprendería ver una referencia ampliamente utilizada que usa eso para referirse al valor absoluto de la correlación de la muestrarRr
Macro

Respuestas:

15

Hand-wavingly, la correlación puede ser pensado como una medida del ángulo entre dos vectores, el vector dependiente y el vector independiente . Si el ángulo entre los vectores es , la correlación es . La parte de que se explica por es de longitud y es paralela a (o la proyección de en ). La parte que no se explica es de longitud y es ortogonal a . En términos de variaciones, tenemos Y X θ R cos ( θ ) Y X | El | Y | El | cos ( θ ) X Y X | El | Y | El | sin ( θ ) X σ 2 Y = σ 2 Y cos 2 ( θ ) + σ 2 Y sin 2 ( θ ) R 2 RRYXθRcos(θ)YX||Y||cos(θ)XYX||Y||sin(θ)X

σY2=σY2cos2(θ)+σY2sin2(θ)
donde el primer término a la derecha es la varianza explicada y el segundo la varianza inexplicada. La fracción que se explica es por lo tanto , no .R2R
Dilip Sarwate
fuente
2
(+1) No hay demasiadas ondas manuales aquí realmente. El punto de vista geométrico es el más intuitivo, en mi opinión. Es probable que haya una figura de código abierto de alta calidad que describa las cosas precisamente de esta manera.
cardenal
(+1) Comencé a escribir una derivación directa de que era igual a la definición habitual de como una relación de varianzas pero, al hacerlo, Me di cuenta de que proporcionaba poca / ninguna intuición (por lo que probablemente no sería útil para el póster original). ¡Creo que esto sí! R 2cor(y,y^)2R2
Macro
1
Esto no responde la pregunta, pero muestra cómo R cuadrado se menciona como el cuadrado del coeficiente de correlación sin ninguna referencia a R. Por lo tanto, las fuentes que confirman o refutan mi afirmación pueden ser difíciles de encontrar. Esto es de un artículo sobre el coeficiente de determinación en Wikipedia:
Michael R. Chernick
Como coeficiente de correlación cuadrado De manera similar, después de la regresión de mínimos cuadrados con un modelo constante + lineal (es decir, regresión lineal simple), R2 es igual al cuadrado del coeficiente de correlación entre los valores de datos observados y modelados (pronosticados).
Michael R. Chernick
En condiciones generales, un valor R2 a veces se calcula como el cuadrado del coeficiente de correlación entre los valores de datos originales y modelados. En este caso, el valor no es directamente una medida de cuán buenos son los valores modelados, sino más bien una medida de cuán bueno podría construirse un predictor a partir de los valores modelados (creando un predictor revisado de la forma α + βƒi). Según Everitt (2002, p. 78), este uso es específicamente la definición del término "coeficiente de determinación": el cuadrado de la correlación entre dos variables (generales).
Michael R. Chernick