¿Alguien puede ayudarme a entender la fórmula de correlación de Pearson? la muestra = la media de los productos de las calificaciones de las variables y .
Entiendo por qué necesitan estandarizar e , pero ¿cómo entender los productos de ambas puntuaciones z?
Esta fórmula también se llama "coeficiente de correlación producto-momento", pero ¿cuál es el fundamento de la acción del producto? No estoy seguro de haber aclarado mi pregunta, pero solo quiero recordar la fórmula intuitivamente.
correlation
descriptive-statistics
pearson-r
Aaron Lu
fuente
fuente
Respuestas:
En los comentarios, se sugirieron 15 formas de entender el coeficiente de correlación:
Las 13 formas discutidas en el artículo de Rodgers y Nicewander (The American Statistician, febrero de 1988) son
Una función de puntajes y medias en bruto,
Covarianza estandarizada
donde es covarianza de muestra y s X y s Y son desviaciones estándar de muestra.sXY sX sY
Pendiente estandarizada de la línea de regresión,
donde y b X ⋅ Y son las pendientes de las líneas de regresión.bY⋅X bX⋅Y
La media geométrica de las dos pendientes de regresión,
La raíz cuadrada de la razón de dos variaciones (proporción de variabilidad contabilizada),
El producto cruzado medio de variables estandarizadas,
Una función del ángulo entre las dos líneas de regresión estandarizadas. Las dos líneas de regresión (de vs. X y X vs. Y ) son simétricas respecto a la diagonal. Deje que el ángulo entre las dos líneas sea β . LuegoY X X Y β
Una función del ángulo entre los dos vectores variables,
Una variación reescalada de la diferencia entre los puntajes estandarizados. Dejar que sea la diferencia entre estandarizados X y Y variables para cada observación,zY−zX X Y
Estimado a partir de la regla del "globo",
En relación a las elipses bivariadas de isoconcentración,
A Function of Test Statistics from Designed Experiments,
wheret is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1 ) and n is the combined total number of observations in the two treatment groups.
The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large valueXc of X . Then
(Most of this is verbatim, with very slight changes in some of the notation.)
Some other methods (perhaps original to this site) are
Via circles.r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.
By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--isr .
fuente