¿Cómo entender la fórmula del coeficiente de correlación?

15

¿Alguien puede ayudarme a entender la fórmula de correlación de Pearson? la muestra r = la media de los productos de las calificaciones de las variables X y .Y

Entiendo por qué necesitan estandarizar e , pero ¿cómo entender los productos de ambas puntuaciones z? XY

Esta fórmula también se llama "coeficiente de correlación producto-momento", pero ¿cuál es el fundamento de la acción del producto? No estoy seguro de haber aclarado mi pregunta, pero solo quiero recordar la fórmula intuitivamente.

Aaron Lu
fuente
11
Es posible que desee leer el documento "Trece formas de ver el coeficiente de correlación" (Rodgers y Nicewander 1988). Como el título lo indica, discute trece visiones intuitivas diferentes del coeficiente de correlación. Esperemos que al menos uno haga clic :)
medio pase el
10
13 formas se pueden encontrar aquí
Dimitriy V. Masterov
44
Una decimocuarta forma de comprender la correlación (en términos de productos de las puntuaciones z) se reduce a comprender la covarianza de las variables estandarizadas, como se ilustra en stats.stackexchange.com/questions/18058/… .
whuber
44
... Y una décimo quinta manera usa los círculos que se muestran en stats.stackexchange.com/a/46508/919 : un ajuste de mínimos cuadrados minimiza el área total de los círculos (hay al menos dos formas de hacerlo cuando los puntos lo hacen) no se alinean con precisión) y el coeficiente de correlación es entonces su área promedio (cuando ambas variables están estandarizadas).
Whuber
2
Posible duplicado de ¿Qué es la covarianza en lenguaje sencillo?
kjetil b halvorsen

Respuestas:

14

En los comentarios, se sugirieron 15 formas de entender el coeficiente de correlación:


Las 13 formas discutidas en el artículo de Rodgers y Nicewander (The American Statistician, febrero de 1988) son

  1. Una función de puntajes y medias en bruto,

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. Covarianza estandarizada

    r=sXY/(sXsY)

    donde es covarianza de muestra y s X y s Y son desviaciones estándar de muestra.sXYsXsY

  3. Pendiente estandarizada de la línea de regresión,

    r=bYXsXsY=bXYsYsX,

    donde y b X Y son las pendientes de las líneas de regresión.bYXbXY

  4. La media geométrica de las dos pendientes de regresión,

    r=±bYXbXY.
  5. La raíz cuadrada de la razón de dos variaciones (proporción de variabilidad contabilizada),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. El producto cruzado medio de variables estandarizadas,

    r=zXzY/N.
  7. Una función del ángulo entre las dos líneas de regresión estandarizadas. Las dos líneas de regresión (de vs. X y X vs. Y ) son simétricas respecto a la diagonal. Deje que el ángulo entre las dos líneas sea β . LuegoYXXYβ

    r=sec(β)±tan(β).
  8. Una función del ángulo entre los dos vectores variables,

    r=cos(α).
  9. Una variación reescalada de la diferencia entre los puntajes estandarizados. Dejar que sea la diferencia entre estandarizados X y Y variables para cada observación,zYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Estimado a partir de la regla del "globo",

    r1(h/H)2

    HXYhX

  11. En relación a las elipses bivariadas de isoconcentración,

    r=D2d2D2+d2

    Ddr also equals the slope of the tangent line of an isocontour (in standardized coordinates) at the point the contour crosses the vertical axis.

  12. A Function of Test Statistics from Designed Experiments,

    r=tt2+n2

    where t is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1) and n is the combined total number of observations in the two treatment groups.

  13. The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large value Xc of X. Then

    r=E(Y|X>Xc)E(X|X>Xc).

(Most of this is verbatim, with very slight changes in some of the notation.)

Some other methods (perhaps original to this site) are

  • Via circles. r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.

  • By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--is r.

whuber
fuente
2
Thank you, @Avraham, for trying to bring this unanswered thread to some closure by posting an answer here.
whuber