El coeficiente de correlación de Pearson se calcula utilizando la fórmula . ¿Cómo contiene esta fórmula la información de que las dos variantes e están correlacionadas o no? O, ¿cómo obtenemos esta fórmula para el coeficiente de correlación?
fuente
El coeficiente de correlación de Pearson se calcula utilizando la fórmula . ¿Cómo contiene esta fórmula la información de que las dos variantes e están correlacionadas o no? O, ¿cómo obtenemos esta fórmula para el coeficiente de correlación?
Lo que importa es . Denominador es para deshacerse de las unidades de medida (si digamos que se mide en metros e en kilogramos, entonces se mide en metros-kilogramos, lo cual es difícil de comprender) y para la estandarización ( encuentra entre -1 y 1 cualesquiera valores variables que tenga).
Ahora de vuelta a . Esto muestra cómo las variables varían juntas sobre sus medias, de ahí la covarianza . Pongamos un ejemplo.
Las líneas se dibujan en medias de la muestra y . Los puntos en la esquina superior derecha son donde e están por encima de sus medias, por lo que tanto como son positivos. Los puntos en la esquina inferior izquierda están debajo de sus medias. En ambos casos, el producto es positivo. Por el contrario, arriba a la izquierda y abajo a la derecha son áreas donde este producto es negativo.
Ahora cuando se calcula la covarianza en este ejemplo, puntos que dan productos positivos dominar, resultante covarianza positiva. Esta covarianza es mayor cuando los puntos se alinean más cerca de una línea imaginable que cruza el punto.
Como última nota, la covarianza muestra solo la fuerza de una relación lineal . Si la relación no es lineal, la covarianza no puede detectarla.
covariance shows only the strength of a linear relationship
Esto no es verdad. Cov es sensible tanto a la fuerza de la linealidad como a la magnitud de la variación. Tome X e Y, estrictamente relacionadas linealmente. Luego separe dos puntos extremos en X, para agrandar var (X). La nube bivariada ya no es lineal, solo es monotónica; aún así, cov (X, Y) se hizo mayor! Sin embargo, si ahora recuperamos la suma var (X) + var (Y) a su cantidad inicial, cov (X, Y) caerá por debajo y por debajo de su valor inicial, lo que refleja el hecho de que anteriormente perturbamos la linealidad.Si, en la fórmula que muestra, elimina la 'división' de los tres términos, cov (X, Y) , var (X) y var (Y) por n-1 , obtendrá una fórmula aún más básica para r :SCPAGS( X,Y)SS( X)√SS( Y)√ , donde SCP es "suma de productos cruzados" y SS es "suma de cuadrados". En general, esta es la fórmula para el coseno . Pero dado que X e Y están centrados ("suma de productos cruzados de desviaciones" y "suma de cuadrados de desviaciones") se convierte en la fórmula para r , - r es el coseno entre variables centradas.
Ahora, el coseno es la medida de la proporcionalidad ; cos (X, Y) = 1 cuando y solo cuando Xi = kYi , es decir, cuando todos los puntos ( i ) se encuentran en una línea recta que proviene del origen del sistema de coordenadas X vs Y. Si la línea no pasa por el origen o los puntos se alejan de la línea recta, el cos será más pequeño. Como Pearson r es el cos de la nube que se ha centrado en los ejes X e Y, la línea inevitablemente pasa por el origen; y, por lo tanto, solo la desviación de los puntos de la línea recta puede disminuir r : r es la medida delinealidad .
fuente
Si r = 1, hay una correlación lineal perfecta, si r = -1 hay una correlación lineal negativa perfecta, si r = 0, no hay correlación lineal. La razón por la que dividimos entre las desviaciones estándar de X e Y es para obtener una medida que no depende de la escala.
Vea este hilo para obtener respuestas más detalladas.
fuente