¿Qué significa explicar la varianza?

15

En particular, me pregunto por qué tenemos este concepto R múltiple (que puedo entender como la correlación entre las puntuaciones observadas y pronosticadas en la regresión múltiple), y luego un concepto R-cuadrado separado que es solo el cuadrado o R.

Me han informado que R cuadrado es la variación porcentual explicada y R no, pero no entiendo la distinción que se hace entre correlación y variación explicada.

user1205901 - Restablecer Monica
fuente
66
Uno de mis mejores maestros relató su defensa de tesis doctoral en la que explicó a un grupo de oceanógrafos físicos que su regresión podría explicar el XX% de la variación en algunos datos. Un distinguido examinador se puso de pie y proclamó: "Con sus correlaciones no ha explicado exactamente nada; más bien, nos ha ofrecido una sugerencia que se desmorona el 10% del tiempo"
gregory_britten
3
Este es un duplicado de: stats.stackexchange.com/questions/90793/…
Aksakal

Respuestas:

7

Una cuestión principal aquí es que la medida de "variación" en el análisis de regresión está relacionada con las diferencias al cuadrado de las variables observadas de sus valores medios predichos. Esta es una elección útil de una medida de variación, tanto para el análisis teórico como para el trabajo práctico, porque las diferencias al cuadrado de la media están relacionadas con la varianza de una variable aleatoria, y la varianza de la suma de dos variables aleatorias independientes es simplemente el suma de sus variaciones individuales.

R2 en regresión múltiple representa la fracción de "variación" en la variable observada que se explica por el modelo de regresión cuando las diferencias al cuadrado de las medias predichas se utilizan como medida de la variación. La R múltiple es simplemente la raíz cuadrada de .R2

Me temo que nunca he entendido la utilidad de especificar el valor de la R múltiple en lugar de . A diferencia del coeficiente de correlación en una regresión univariante, que muestra tanto la dirección como la fuerza de la relación entre 2 variables, la especificación de la R múltiple no parece agregar mucho más allá de una posibilidad de confusión adicional.R2r

EdM
fuente