¿Hay alguna diferencia entre

21

El coeficiente de correlación generalmente se escribe con una mayúscula, pero a veces no. Me pregunto si realmente hay una diferencia entre y . ¿Puede significar algo más que un coeficiente de correlación?r 2 R 2 rRr2R2r

DJack
fuente
77
Me sorprende que esta pregunta haya sido rechazada: es clara y está bien especificada, y cubre un problema en el que la terminología se usa de manera inconsistente. Peor aún, porque distingue entre mayúsculas y minúsculas, ¡es un tema difícil de buscar para aclarar! Aparte del hecho de que se puede utilizar para dos cosas muy diferentes, la situación se agrava aún más si tenemos en cuenta los modelos sin términos de intercepción, cuando R 2 , el coeficiente de determinación, ni siquiera es el mismo que el cuadrado de R . No es de extrañar que la gente encuentre la notación confusa. rR2R
Silverfish

Respuestas:

18

La notación sobre este asunto parece variar un poco.

se utiliza en el contexto de correlación múltiple y se denomina "coeficiente de correlación múltiple". Es la correlación entre las respuestas observadas Y y la Y Montado por el modelo. La Y es generalmente predecirse a partir de varias variables de predicción x i , por ejemplo Y = β 0 + β 1 X 1 + β 2 X 2 , donde los coeficientes de intersección y de pendiente beta i se han estimado a partir de los datos. Tenga en cuenta que 0RYY^Y^XiY^=β^0+β^1X1+β^2X2β^i .0R1

El símbolo es el "coeficiente de correlación de la muestra" utilizado en el caso bivariado, es decir, hay dos variables, X e Y , y generalmente significa la correlación entre X e Y en su muestra. Puede tratar esto como una estimación de la correlación ρ entre las dos variables en la población más amplia. Para correlacionar dos variables no es necesario identificar cuál es el predictor y cuál es la respuesta. De hecho, si encuentra la correlación entre Y e X , sería la misma que la correlación entre X e Y , porque la correlación es simétricarXYXYρYXXY. Tenga en cuenta que cuando el símbolo r se usa de esta manera, con r < 0 (correlación negativa) si las dos variables tienen una relación linealmente decreciente (a medida que una sube, la otra tiende a bajar).1r1rr<0

Cuando la notación se vuelve inconsistente es cuando hay dos variables, e Y , y se realiza una regresión lineal simple . Esto significa identificar una variable, Y , como la variable de respuesta, y el otro, X , como la variable de predictor, y ajustar el modelo Y = β 0 + β 1 X . Algunas personas también usan el símbolo r para indicar la correlación entre Y y Y mientras que otros (por consistencia con la regresión múltiple) de escritura RXYYXY^=β^0+β^1XrYY^R. Tenga en cuenta que la correlación entre las respuestas observadas y ajustadas es necesariamente mayor o igual a cero. Esta es una razón no me gusta el uso del símbolo en este caso: la correlación entre X y Y podría ser negativa, mientras que la correlación entre Y y Y es positivo (de hecho será simplemente el módulo de la correlación entre X e Y ) pero ambos podrían escribirse con el símbolo r . He visto algunos libros de texto y artículos de Wikipedia que cambian casi indistintamente entre los dos significados de r y lo encuentro innecesariamente confuso. Prefiero usar el símbolo RrXYYY^XYrrRpara la correlación entre y Y en tanto regresión simple y múltiple.YY^

En vez simple y regresión múltiple, a continuación, siempre y cuando no es un término de intersección equipado en el modelo, el entre Y y Y es simplemente la raíz cuadrada del coeficiente de determinación R 2RYY^R2 (a menudo llamado "proporción de varianza explicada" o similar). En el caso de la regresión lineal simple específicamente, entonces R2=r2 donde estoy escribiendo para la correlación entre X e Y , y R 2 podría representar el coeficiente de determinación de la regresión o el cuadrado de la correlación entrerXYR2 y Y . Dado que - 1 r 1 y 0 R 1 , esto significa que R = | r | . Así, por ejemplo, si se obtiene una correlación entre X y Y de r = - 0,7 entonces la correlación entre Y y la equipada Y desde la simple regresión lineal Y = β 0 + β 1 XYY^1r10R1R=|r|XYr=0.7YY^Y=β^0+β^1Xsería y el coeficiente de determinación sería R 2 = 0.49, es decir, su modelo explicaría casi la mitad de la variación en la respuesta.R=0.7R2=0.49

Si no se incluyó ningún término de intercepción en el modelo, entonces el símbolo es ambiguo. Por lo general, se pretende que sea el coeficiente de determinación, pero generalmente se calculará de una manera diferente a la habitual , así que tenga cuidado al leer la salida de su software estadístico. ¡Entonces ya no es lo mismo que el cuadrado de la correlación múltiple R , ni en el caso bivariado será igual a r 2 !R2Rr2

Lepisma
fuente