Quiero comprender completamente la noción de describe la cantidad de variación entre las variables. Cada explicación web es un poco mecánica y obtusa. Quiero "entender" el concepto, no solo usar mecánicamente los números.
Por ejemplo: horas estudiadas vs. puntaje de la prueba
= .8
= .64
- ¿Entonces, qué significa esto?
- ¿El 64% de la variabilidad de los puntajes de los exámenes puede explicarse por horas?
- ¿Cómo sabemos eso con solo cuadrar?
regression
correlation
variance
JackOfAll
fuente
fuente
Respuestas:
Comience con la idea básica de variación. Su modelo inicial es la suma de las desviaciones al cuadrado de la media. El valor R ^ 2 es la proporción de esa variación que se contabiliza utilizando un modelo alternativo. Por ejemplo, R-cuadrado te dice qué cantidad de la variación en Y puedes eliminar sumando las distancias al cuadrado desde una línea de regresión, en lugar de la media.
Creo que esto queda perfectamente claro si pensamos en el problema de regresión simple trazado. Considere un diagrama de dispersión típico donde tiene un predictor X a lo largo del eje horizontal y una respuesta Y a lo largo del eje vertical.
La media es una línea horizontal en el diagrama donde Y es constante. La variación total en Y es la suma de las diferencias al cuadrado entre la media de Y y cada punto de datos individual. Es la distancia entre la línea media y cada punto individual al cuadrado y sumado.
También puede calcular otra medida de variabilidad después de tener la línea de regresión del modelo. Esta es la diferencia entre cada punto Y y la línea de regresión. En lugar de cada (Y - la media) al cuadrado, obtenemos (Y - el punto en la línea de regresión) al cuadrado.
Si la línea de regresión es cualquier cosa menos horizontal, obtendremos menos distancia total cuando usemos esta línea de regresión ajustada en lugar de la media, es decir, hay menos variación inexplicable. La relación entre la variación adicional explicada y la variación original es su R ^ 2. Es la proporción de la variación original en su respuesta que se explica ajustando esa línea de regresión.
Aquí hay un código R para un gráfico con la media, la línea de regresión y los segmentos desde la línea de regresión a cada punto para ayudar a visualizar:
fuente
Aquí hay una demostración matemática de la relación entre los dos: la correlación de Pearson y el análisis de regresión de mínimos cuadrados .
No estoy seguro de si hay una intuición geométrica o de otro tipo que pueda ofrecerse aparte de las matemáticas, pero si puedo pensar en una, actualizaré esta respuesta.Actualización: intuición geométrica
texto alternativo http://a.imageshack.us/img202/669/linearregression1.png
Según el teorema de Pitágoras, tenemos:
Por lo tanto, tenemos la relación requerida:
Espero que ayude.
fuente
El applet Regression By Eye podría ser útil si está tratando de desarrollar algo de intuición.
Le permite generar datos y luego adivinar un valor para R , que luego puede comparar con el valor real.
fuente