Poco fondo
Estoy trabajando en la interpretación del análisis de regresión, pero estoy realmente confundido sobre el significado de r, r cuadrado y desviación estándar residual. Sé las definiciones:
Caracterizaciones
r mide la fuerza y la dirección de una relación lineal entre dos variables en un diagrama de dispersión
R-cuadrado es una medida estadística de qué tan cerca están los datos de la línea de regresión ajustada.
La desviación estándar residual es un término estadístico utilizado para describir la desviación estándar de los puntos formados alrededor de una función lineal, y es una estimación de la precisión de la variable dependiente que se mide. ( No sé cuáles son las unidades, cualquier información sobre las unidades aquí sería útil )
(fuentes: aquí )
Pregunta
Aunque "entiendo" las caracterizaciones, sí entiendo cómo estos términos pueden llegar a una conclusión sobre el conjunto de datos. Insertaré un pequeño ejemplo aquí, tal vez esto pueda servir como guía para responder mi pregunta (¡ siéntase libre de usar un ejemplo propio!)
Ejemplo
Esta no es una pregunta práctica, sin embargo busqué en mi libro para obtener un ejemplo simple (el conjunto de datos actual que estoy analizando es demasiado complejo y grande para mostrar aquí)
Veinte parcelas, cada una de 10 x 4 metros, fueron elegidas al azar en un gran campo de maíz. Para cada parcela, se observó la densidad de plantas (número de plantas en la parcela) y el peso medio de la mazorca (gm de grano por mazorca). Los resultados se dan en la siguiente tabla:
(fuente: Estadísticas de ciencias de la vida )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Primero haré un diagrama de dispersión para visualizar los datos:
para poder calcular r, R 2 y la desviación estándar residual.
primero la prueba de correlación:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
y en segundo lugar un resumen de la línea de regresión:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Entonces, según esta prueba: r = -0.9417954
, R cuadrado: 0.887
y error estándar residual: 8.619
¿Qué nos dicen estos valores sobre el conjunto de datos? (ver pregunta )
fuente
Respuestas:
Esas estadísticas pueden decirle si hay un componente lineal en la relación, pero no mucho sobre si la relación es estrictamente lineal. Una relación con un componente cuadrático pequeño puede tener un r ^ 2 de 0.99. Un gráfico de residuos en función de lo predicho puede ser revelador. En el experimento de Galileo aquí https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html la correlación es muy alta pero la relación es claramente no lineal.
fuente
Aquí hay un segundo intento de respuesta después de recibir comentarios sobre problemas con mi primera respuesta.
El error estándar residual es la desviación estándar para una distribución normal, centrada en la línea de regresión predicha, que representa la distribución de los valores realmente observados. En otras palabras, si tuviéramos que medir solo la densidad de la planta para una nueva parcela, podemos predecir el peso de la mazorca usando los coeficientes del modelo ajustado, esta es la media de esa distribución. El RSE es la desviación estándar de esa distribución y, por lo tanto, una medida de cuánto esperamos que los pesos de mazorca realmente observados se desvíen de los valores predichos por el modelo. En este caso, se debe comparar un RSE de ~ 8 con la desviación estándar de la muestra del peso de la mazorca, pero cuanto más pequeño se compara el RSE con la SD de la muestra, más predictivo o adecuado es el modelo.
fuente