Interpretación de salida de regresión lineal simple

20

He ejecutado una regresión lineal simple del logaritmo natural de 2 variables para determinar si se correlacionan. Mi salida es esta:

R^2 = 0.0893

slope = 0.851

p < 0.001

Estoy confundido. Mirando el valor de R2 , diría que las dos variables no están correlacionadas, ya que está muy cerca de 0 0 . Sin embargo, la pendiente de la línea de regresión es casi 1 (a pesar de parecer casi horizontal en la gráfica), y el valor p indica que la regresión es altamente significativa.

¿Significa esto que las dos variables están altamente correlacionadas? Si es así, ¿qué indica el valor de R2 ?

Debo agregar que la estadística de Durbin-Watson se probó en mi software y no rechazó la hipótesis nula (equivalía a 1.357 ). Pensé que esto probó la independencia entre las 2 variables. En este caso, esperaría que las variables sean dependientes, ya que son 2 mediciones de un ave individual. Estoy haciendo esta regresión como parte de un método publicado para determinar la condición corporal de un individuo, por lo que supuse que usar una regresión de esta manera tenía sentido. Sin embargo, dados estos resultados, estoy pensando que quizás para estas aves, este método no es adecuado. ¿Parece esto una conclusión razonable?

Gatito
fuente
1
La estadística de Durbin-Watson es una prueba de correlación en serie: es decir, para ver si los términos de error adyacentes están correlacionados entre sí. ¡No dice nada sobre la correlación entre tu X y tu Y! No aprobar la prueba es una indicación de que la pendiente y el valor p deben interpretarse con precaución.
whuber
Ah ok Eso tiene un poco más de sentido que si las dos variables están correlacionadas ... después de todo, pensé que eso era lo que estaba tratando de encontrar usando la regresión. ¡Y si no pasa la prueba indica que debo tener cuidado al interpretar la pendiente y el valor p tiene aún más sentido en este caso! Gracias @whuber!
Mog
1
Solo me gustaría agregar una pendiente que puede ser muy significativa (valor p <.001) a pesar de que la relación es débil, especialmente con un gran tamaño de muestra. Esto se insinuó en la mayoría de las respuestas ya que la pendiente (incluso si es significativa) no dice nada sobre la fuerza de la relación.
Glen
Necesita para determinar la fuerza de la relación. Consulte también stats.stackexchange.com/a/265924/99274 . norte
Carl

Respuestas:

22

El valor estimado de la pendiente, por sí solo, no le dice la fuerza de la relación. La fuerza de la relación depende del tamaño de la varianza del error y del rango del predictor. Además, un valor significativo no te dice necesariamente que hay una relación fuerte; el valor p simplemente está probando si la pendiente es exactamente 0. Para un tamaño de muestra suficientemente grande, incluso pequeñas desviaciones de esa hipótesis (por ejemplo, las que no tienen importancia práctica) producirán un valor p significativo .pagspagspags

De las tres cantidades que presentó, , el coeficiente de determinación , da la mayor indicación de la fuerza de la relación. En su caso, R 2 = .089 , significa que el 8.9 % de la variación en su variable de respuesta puede explicarse una relación lineal con el predictor. Lo que constituye una "gran" R 2 es la disciplina dependiente. Por ejemplo, en ciencias sociales R 2 = .2 podría ser "grande" pero en entornos controlados como una configuración de fábrica, R 2 > .9R2R2=.0898,9%R2R2=.2R2>.9Puede ser necesario decir que hay una relación "fuerte". En la mayoría de situaciones de es una muy pequeña R 2 , por lo que su conclusión de que existe una relación lineal es probablemente razonable..089R2

Macro
fuente
Gracias macro. Muy útil respuesta. Me alegra que hayas incluido la parte sobre qué, exactamente, está probando el valor p. Tiene mucho sentido que el valor p sea tan bajo considerando cuán cerca de 1 está la pendiente. Me parece, a la luz de su respuesta y @jedfrancis ', el valor r ^ 2 describe esa' nube 'de puntos de datos alrededor de la línea de regresión. ¡Excelente! ¡Eso está mucho más claro ahora!
Mog
@Macro (+1), buena respuesta. Pero, ¿cómo depende la "fuerza de la relación" del "tamaño de la intercepción"? AFAIK la intersección no dice nada acerca de la correlación o "fuerza" de una relación lineal.
whuber
@whuber, tienes razón: la intersección es irrelevante y definitivamente no cambia la correlación. Estaba pensando en la función de regresión vs. y = x y pensando de alguna manera que la segunda es una relación más fuerte ( todo lo demás se mantuvo igual), ya que una mayor cantidad de la magnitud de y se debió a x en el último caso. No tiene mucho sentido ahora que lo pienso. He editado la publicación. y=10000+xy=xyx
Macro
44
@macro Excelente respuesta, pero enfatizaría (para los nuevos en este tema) que R ^ 2 puede ser muy bajo incluso con una relación fuerte, si la relación es no lineal, y particularmente si no es monotónica. Mi ejemplo favorito de esto es la relación entre el estrés y el puntaje del examen; El estrés muy bajo y muy alto tienden a ser peores que el estrés moderado.
Peter Flom - Restablece a Monica
1
@macro Sí, su respuesta fue buena, pero he trabajado con personas que no conocen muchas estadísticas, y he visto lo que sucede ... ¡a veces lo que decimos no es lo que oyen!
Peter Flom - Restablece a Monica
14

El le indica cuánta variación de la variable dependiente explica un modelo. Sin embargo, uno puede interpretar el R 2 , así como la correlación entre los valores originales de la variable dependiente y los valores ajustados. La interpretación exacta y la derivación del coeficiente de determinación R 2 se pueden encontrar aquí .R2R2R2

La prueba de que el coeficiente de determinación es el equivalente del coeficiente de correlación al cuadrado de Pearson entre los valores observados y los valores ajustados y i se puede encontrar aquí .yiy^i

El o coeficiente de determinación indica la fortaleza de su modelo de explicar la variable dependiente. En su caso, R 2 = 0.089 . Esto que su modelo puede explicar el 8.9% de la variación de su variable dependiente. O bien, el coeficiente de correlación entre el y yo sus valores ajustados y Y i es 0,089. Lo que constituye una buena R 2 es la disciplina dependiente.R2R2=0.089yiy^iR2

Finalmente, a la última parte de tu pregunta. No puede obtener la prueba de Durbin-Watson para decir algo sobre la correlación entre sus variables dependientes e independientes. La prueba de Durbin-Watson prueba la correlación serial. Se realiza para examinar si sus términos de error están correlacionados entre sí.

Lionel Benza
fuente
9

El valor le indica cuánta variación en los datos explica el modelo ajustado.R2

La baja valor en su estudio sugiere que los datos probablemente se disemina ampliamente alrededor de la línea de regresión, lo que significa que el modelo de regresión sólo se puede explicar (muy poco) el 8,9% de la variación en los datos.R2

¿Ha verificado si un modelo lineal es apropiado? Observe la distribución de sus residuos, ya que puede usar esto para evaluar el ajuste del modelo a sus datos. Idealmente, sus residuos no deberían mostrar una relación con sus valores de , y si lo hace, puede pensar en reescalar sus variables de una manera adecuada, o ajustar un modelo más apropiado.x

jedfrancis
fuente
Gracias @jed. Sí, había verificado la normalidad de los residuos, y todo estaba bien. Su sugerencia de que los datos se distribuyen ampliamente alrededor de esa línea de regresión es exactamente correcta: los puntos de datos se ven como una nube alrededor de la línea de regresión trazada por el software.
Mog
1
¡Bienvenido a nuestro sitio, @jed, y gracias por su respuesta! Tenga en cuenta que la pendiente en sí misma no dice casi nada acerca de la correlación, aparte de su signo, porque la correlación no depende de las unidades en las que se miden X e Y, pero la pendiente sí.
whuber
1
@whuber dice que el valor de la pendiente no le dice nada sobre la fuerza de la asociación a menos que las variables estén estandarizadas. Ver la respuesta de shabbychefs.
wolf.rauch
@ wolf.rauch gotcha
jedfrancis
@ jed Sería bueno si corrigieras tu respuesta.
whuber
7

Para una regresión lineal, la pendiente equipada va a ser la correlación (que, cuando al cuadrado, da el coeficiente de determinación, el ) veces la desviación estándar empírica de la regressand (la y ) dividido por la desviación estándar empírica de la regresor (la x ). Dependiendo de la escala de x e y , puede tener una pendiente de ajuste igual a uno pero un valor R 2 arbitrariamente pequeño .R2yxxyR2

En resumen, la pendiente no es un buen indicador del modelo de "ajuste" a menos que esté seguro de que las escalas de las variables dependientes e independientes deben ser iguales entre sí.

shabbychef
fuente
1

Me gustan las respuestas ya dadas, pero permítanme complementarlas con un enfoque diferente (y más irónico).

Supongamos que recopilamos un montón de observaciones de 1000 personas aleatorias que intentan averiguar si los golpes en la cara están asociados con dolores de cabeza:

Hmiunareunadohmis=β0 0+β1PAGStunortedoh_ _yonorte_ _thmi_ _Funadomi+ε

ε

β1R2

Gráficamente, esto probablemente parece una pendiente pronunciada pero con una variación muy grande alrededor de esta pendiente.

cd98
fuente
0

@Macro tuvo una gran respuesta.

El valor estimado de la pendiente, por sí solo, no le dice la fuerza de la relación. La fuerza de la relación depende del tamaño de la varianza del error y del rango del predictor. Además, un valor pp significativo no le dice necesariamente que existe una relación sólida; el valor pp simplemente prueba si la pendiente es exactamente 0.

Solo quiero agregar un ejemplo numérico para mostrar cómo es tener un caso OP descrito.

  • R2
  • Significativo en el valor p
  • 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

ingrese la descripción de la imagen aquí

Haitao Du
fuente