¿Qué nos dice r, r al cuadrado y la desviación estándar residual sobre una relación lineal?

13

Poco fondo
Estoy trabajando en la interpretación del análisis de regresión, pero estoy realmente confundido sobre el significado de r, r cuadrado y desviación estándar residual. Sé las definiciones:

Caracterizaciones

r mide la fuerza y ​​la dirección de una relación lineal entre dos variables en un diagrama de dispersión

R-cuadrado es una medida estadística de qué tan cerca están los datos de la línea de regresión ajustada.

La desviación estándar residual es un término estadístico utilizado para describir la desviación estándar de los puntos formados alrededor de una función lineal, y es una estimación de la precisión de la variable dependiente que se mide. ( No sé cuáles son las unidades, cualquier información sobre las unidades aquí sería útil )

(fuentes: aquí )

Pregunta
Aunque "entiendo" las caracterizaciones, sí entiendo cómo estos términos pueden llegar a una conclusión sobre el conjunto de datos. Insertaré un pequeño ejemplo aquí, tal vez esto pueda servir como guía para responder mi pregunta (¡ siéntase libre de usar un ejemplo propio!)

Ejemplo
Esta no es una pregunta práctica, sin embargo busqué en mi libro para obtener un ejemplo simple (el conjunto de datos actual que estoy analizando es demasiado complejo y grande para mostrar aquí)

Veinte parcelas, cada una de 10 x 4 metros, fueron elegidas al azar en un gran campo de maíz. Para cada parcela, se observó la densidad de plantas (número de plantas en la parcela) y el peso medio de la mazorca (gm de grano por mazorca). Los resultados se dan en la siguiente tabla:
(fuente: Estadísticas de ciencias de la vida )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Primero haré un diagrama de dispersión para visualizar los datos: para poder calcular r, R 2 y la desviación estándar residual. primero la prueba de correlación:
ingrese la descripción de la imagen aquí

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

y en segundo lugar un resumen de la línea de regresión:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Entonces, según esta prueba: r = -0.9417954, R cuadrado: 0.887y error estándar residual: 8.619 ¿Qué nos dicen estos valores sobre el conjunto de datos? (ver pregunta )

KingBoomie
fuente
3
Vale la pena señalar que lo que llama "definiciones" son solo caracterizaciones casuales y , como tal, pueden ser engañosas, dependiendo de cómo se interpreten y apliquen. Las definiciones reales son cuantitativas y precisas.
whuber
Gracias por señalar que yo, las fuentes que utilicé llamaron a estas definiciones, sin embargo, sin "caracterizaciones" del contexto probablemente sería mejor, ¡cambiaré eso!
KingBoomie
Piezas: R cuadrado generalmente se explica como la proporción de varianza explicada por los predictores, por lo que cerca de 1 es bueno. Las unidades de desviación estándar residual deben ser las unidades de sus residuos, que son las unidades de su variable de respuesta.
alistaire
¡Gracias! @alistaire en realidad esto tiene sentido jaja porque comparamos el valor y de los puntos originales con los valores y de los puntos predichos
KingBoomie
Debes trazar los residuos contra los predichos según lo sugerido por David en su respuesta.
HelloWorld

Respuestas:

5

Esas estadísticas pueden decirle si hay un componente lineal en la relación, pero no mucho sobre si la relación es estrictamente lineal. Una relación con un componente cuadrático pequeño puede tener un r ^ 2 de 0.99. Un gráfico de residuos en función de lo predicho puede ser revelador. En el experimento de Galileo aquí https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html la correlación es muy alta pero la relación es claramente no lineal.

David Lane
fuente
5

Aquí hay un segundo intento de respuesta después de recibir comentarios sobre problemas con mi primera respuesta.

r|r||r|

R2r2R2

rR2rrR2rR2

El error estándar residual es la desviación estándar para una distribución normal, centrada en la línea de regresión predicha, que representa la distribución de los valores realmente observados. En otras palabras, si tuviéramos que medir solo la densidad de la planta para una nueva parcela, podemos predecir el peso de la mazorca usando los coeficientes del modelo ajustado, esta es la media de esa distribución. El RSE es la desviación estándar de esa distribución y, por lo tanto, una medida de cuánto esperamos que los pesos de mazorca realmente observados se desvíen de los valores predichos por el modelo. En este caso, se debe comparar un RSE de ~ 8 con la desviación estándar de la muestra del peso de la mazorca, pero cuanto más pequeño se compara el RSE con la SD de la muestra, más predictivo o adecuado es el modelo.

Johan Falkenjack
fuente
@whuber Todavía no hay otras respuestas a esta pregunta, así que decidí intentarlo de nuevo. En lugar de recuperar la vieja respuesta, con todo su equipaje decidí escribir una nueva (excepto el párrafo RSE que copié). Si tiene tiempo, le agradecería cualquier comentario sobre este segundo intento. Mi enfoque habitual para la evaluación del modelo es la validación cruzada y los conjuntos de espera, ya que el propósito suele ser la predicción, pero realmente me gustaría entender estas métricas, ya que son bastante comunes.
Johan Falkenjack
2
|r|rρ