He ejecutado una regresión lineal simple del logaritmo natural de 2 variables para determinar si se correlacionan. Mi salida es esta:
R^2 = 0.0893
slope = 0.851
p < 0.001
Estoy confundido. Mirando el valor de , diría que las dos variables no están correlacionadas, ya que está muy cerca de . Sin embargo, la pendiente de la línea de regresión es casi (a pesar de parecer casi horizontal en la gráfica), y el valor p indica que la regresión es altamente significativa.
¿Significa esto que las dos variables están altamente correlacionadas? Si es así, ¿qué indica el valor de ?
Debo agregar que la estadística de Durbin-Watson se probó en mi software y no rechazó la hipótesis nula (equivalía a ). Pensé que esto probó la independencia entre las variables. En este caso, esperaría que las variables sean dependientes, ya que son mediciones de un ave individual. Estoy haciendo esta regresión como parte de un método publicado para determinar la condición corporal de un individuo, por lo que supuse que usar una regresión de esta manera tenía sentido. Sin embargo, dados estos resultados, estoy pensando que quizás para estas aves, este método no es adecuado. ¿Parece esto una conclusión razonable?
fuente
Respuestas:
El valor estimado de la pendiente, por sí solo, no le dice la fuerza de la relación. La fuerza de la relación depende del tamaño de la varianza del error y del rango del predictor. Además, un valor significativo no te dice necesariamente que hay una relación fuerte; el valor p simplemente está probando si la pendiente es exactamente 0. Para un tamaño de muestra suficientemente grande, incluso pequeñas desviaciones de esa hipótesis (por ejemplo, las que no tienen importancia práctica) producirán un valor p significativo .pags pags pags
De las tres cantidades que presentó, , el coeficiente de determinación , da la mayor indicación de la fuerza de la relación. En su caso, R 2 = .089 , significa que el 8.9 % de la variación en su variable de respuesta puede explicarse una relación lineal con el predictor. Lo que constituye una "gran" R 2 es la disciplina dependiente. Por ejemplo, en ciencias sociales R 2 = .2 podría ser "grande" pero en entornos controlados como una configuración de fábrica, R 2 > .9R2 R2= .089 8,9 % R2 R2= .2 R2>.9 Puede ser necesario decir que hay una relación "fuerte". En la mayoría de situaciones de es una muy pequeña R 2 , por lo que su conclusión de que existe una relación lineal es probablemente razonable..089 R2
fuente
El le indica cuánta variación de la variable dependiente explica un modelo. Sin embargo, uno puede interpretar el R 2 , así como la correlación entre los valores originales de la variable dependiente y los valores ajustados. La interpretación exacta y la derivación del coeficiente de determinación R 2 se pueden encontrar aquí .R2 R2 R2
La prueba de que el coeficiente de determinación es el equivalente del coeficiente de correlación al cuadrado de Pearson entre los valores observados y los valores ajustados y i se puede encontrar aquí .yi y^i
El o coeficiente de determinación indica la fortaleza de su modelo de explicar la variable dependiente. En su caso, R 2 = 0.089 . Esto que su modelo puede explicar el 8.9% de la variación de su variable dependiente. O bien, el coeficiente de correlación entre el y yo sus valores ajustados y Y i es 0,089. Lo que constituye una buena R 2 es la disciplina dependiente.R2 R2=0.089 yi y^i R2
Finalmente, a la última parte de tu pregunta. No puede obtener la prueba de Durbin-Watson para decir algo sobre la correlación entre sus variables dependientes e independientes. La prueba de Durbin-Watson prueba la correlación serial. Se realiza para examinar si sus términos de error están correlacionados entre sí.
fuente
El valor le indica cuánta variación en los datos explica el modelo ajustado.R2
La baja valor en su estudio sugiere que los datos probablemente se disemina ampliamente alrededor de la línea de regresión, lo que significa que el modelo de regresión sólo se puede explicar (muy poco) el 8,9% de la variación en los datos.R2
¿Ha verificado si un modelo lineal es apropiado? Observe la distribución de sus residuos, ya que puede usar esto para evaluar el ajuste del modelo a sus datos. Idealmente, sus residuos no deberían mostrar una relación con sus valores de , y si lo hace, puede pensar en reescalar sus variables de una manera adecuada, o ajustar un modelo más apropiado.x
fuente
Para una regresión lineal, la pendiente equipada va a ser la correlación (que, cuando al cuadrado, da el coeficiente de determinación, el ) veces la desviación estándar empírica de la regressand (la y ) dividido por la desviación estándar empírica de la regresor (la x ). Dependiendo de la escala de x e y , puede tener una pendiente de ajuste igual a uno pero un valor R 2 arbitrariamente pequeño .R2 y x x y R2
En resumen, la pendiente no es un buen indicador del modelo de "ajuste" a menos que esté seguro de que las escalas de las variables dependientes e independientes deben ser iguales entre sí.
fuente
Me gustan las respuestas ya dadas, pero permítanme complementarlas con un enfoque diferente (y más irónico).
Supongamos que recopilamos un montón de observaciones de 1000 personas aleatorias que intentan averiguar si los golpes en la cara están asociados con dolores de cabeza:
Gráficamente, esto probablemente parece una pendiente pronunciada pero con una variación muy grande alrededor de esta pendiente.
fuente
@Macro tuvo una gran respuesta.
Solo quiero agregar un ejemplo numérico para mostrar cómo es tener un caso OP descrito.
fuente