El coeficiente de correlación generalmente se escribe con una mayúscula, pero a veces no. Me pregunto si realmente hay una diferencia entre y . ¿Puede significar algo más que un coeficiente de correlación?r 2 R 2 r
21
El coeficiente de correlación generalmente se escribe con una mayúscula, pero a veces no. Me pregunto si realmente hay una diferencia entre y . ¿Puede significar algo más que un coeficiente de correlación?r 2 R 2 r
Respuestas:
La notación sobre este asunto parece variar un poco.
se utiliza en el contexto de correlación múltiple y se denomina "coeficiente de correlación múltiple". Es la correlación entre las respuestas observadas Y y la Y Montado por el modelo. La Y es generalmente predecirse a partir de varias variables de predicción x i , por ejemplo Y = β 0 + β 1 X 1 + β 2 X 2 , donde los coeficientes de intersección y de pendiente beta i se han estimado a partir de los datos. Tenga en cuenta que 0R Y Y^ Y^ Xyo Y^= β^0 0+ β^1X1+ β^2X2 β^yo .0 ≤ R ≤ 1
El símbolo es el "coeficiente de correlación de la muestra" utilizado en el caso bivariado, es decir, hay dos variables, X e Y , y generalmente significa la correlación entre X e Y en su muestra. Puede tratar esto como una estimación de la correlación ρ entre las dos variables en la población más amplia. Para correlacionar dos variables no es necesario identificar cuál es el predictor y cuál es la respuesta. De hecho, si encuentra la correlación entre Y e X , sería la misma que la correlación entre X e Y , porque la correlación es simétricar X Y X Y ρ Y X X Y . Tenga en cuenta que cuando el símbolo r se usa de esta manera, con r < 0 (correlación negativa) si las dos variables tienen una relación linealmente decreciente (a medida que una sube, la otra tiende a bajar).- 1 ≤ r ≤ 1 r r < 0
Cuando la notación se vuelve inconsistente es cuando hay dos variables, e Y , y se realiza una regresión lineal simple . Esto significa identificar una variable, Y , como la variable de respuesta, y el otro, X , como la variable de predictor, y ajustar el modelo Y = β 0 + β 1 X . Algunas personas también usan el símbolo r para indicar la correlación entre Y y Y mientras que otros (por consistencia con la regresión múltiple) de escritura RX Y Y X Y^= β^0 0+ β^1X r Y Y^ R . Tenga en cuenta que la correlación entre las respuestas observadas y ajustadas es necesariamente mayor o igual a cero. Esta es una razón no me gusta el uso del símbolo en este caso: la correlación entre X y Y podría ser negativa, mientras que la correlación entre Y y Y es positivo (de hecho será simplemente el módulo de la correlación entre X e Y ) pero ambos podrían escribirse con el símbolo r . He visto algunos libros de texto y artículos de Wikipedia que cambian casi indistintamente entre los dos significados de r y lo encuentro innecesariamente confuso. Prefiero usar el símbolo Rr X Y Y Y^ X Y r r R para la correlación entre y Y en tanto regresión simple y múltiple.Y Y^
En vez simple y regresión múltiple, a continuación, siempre y cuando no es un término de intersección equipado en el modelo, el entre Y y Y es simplemente la raíz cuadrada del coeficiente de determinación R 2R Y Y^ R2 (a menudo llamado "proporción de varianza explicada" o similar). En el caso de la regresión lineal simple específicamente, entonces R2=r2 donde estoy escribiendo para la correlación entre X e Y , y R 2 podría representar el coeficiente de determinación de la regresión o el cuadrado de la correlación entrer X Y R2 y Y . Dado que - 1 ≤ r ≤ 1 y 0 ≤ R ≤ 1 , esto significa que R = | r | . Así, por ejemplo, si se obtiene una correlación entre X y Y de r = - 0,7 entonces la correlación entre Y y la equipada Y desde la simple regresión lineal Y = β 0 + β 1 XY Y^ −1≤r≤1 0≤R≤1 R=|r| X Y r=−0.7 Y Y^ Y=β^0+β^1X sería y el coeficiente de determinación sería R 2 = 0.49, es decir, su modelo explicaría casi la mitad de la variación en la respuesta.R=0.7 R2=0.49
Si no se incluyó ningún término de intercepción en el modelo, entonces el símbolo es ambiguo. Por lo general, se pretende que sea el coeficiente de determinación, pero generalmente se calculará de una manera diferente a la habitual , así que tenga cuidado al leer la salida de su software estadístico. ¡Entonces ya no es lo mismo que el cuadrado de la correlación múltiple R , ni en el caso bivariado será igual a r 2 !R2 R r2
fuente