¿Cómo difiere el coeficiente de correlación de la pendiente de regresión?

69

Hubiera esperado que el coeficiente de correlación fuera el mismo que una pendiente de regresión (beta), sin embargo, al comparar los dos, son diferentes. ¿Cómo difieren? ¿Qué información diferente dan?

regression correlation luciano
fuente

3

si están normalizados, son lo mismo. pensar en lo que sucederá cuando se hace el cambio de unidades ...

Nicolas

Creo que la puntuación más alta responde a esta Q (y tal vez incluso mi A , donde muestro que el coeficiente de correlación se puede ver como el valor absoluto de la media geométrica de las dos pendientes que obtenemos si retrocedemos y en x y x en y, respectivamente) también son relevantes aquí

statmerkur

82

Suponiendo que está hablando de un modelo de regresión simple estimado por mínimos cuadrados, sabemos por wikipedia que Por lo tanto, los dos solo coinciden cuando . Es decir, solo coinciden cuando las dos variables están en la misma escala, en algún sentido. La forma más común de lograr esto es a través de la estandarización, como lo indica @gung.

Y_{i} = α + β X_{i} + ε_{i}

$Y_i = \alpha + \beta X_i + \varepsilon_i$

\hat{β} = c o r (Y_{i}, X_{i}) \cdot \frac{S D (Y_{i})}{S D (X_{i})}

$\hat {\beta} = {\rm cor}(Y_i, X_i) \cdot \frac{ {\rm SD}(Y_i) }{ {\rm SD}(X_i) }$

S D (Y_{i}) = S D (X_{i})

${\rm SD}(Y_i) = {\rm SD}(X_i)$

Los dos, en cierto sentido, le dan la misma información: cada uno le dice la fuerza de la relación lineal entre e . Pero, cada uno le brinda información distinta (excepto, por supuesto, cuando son exactamente iguales): $X_i$ $Y_i$

La correlación le brinda una medición acotada que puede interpretarse independientemente de la escala de las dos variables. Cuanto más cerca esté la correlación estimada de , más cerca están los dos de una relación lineal perfecta . La pendiente de regresión, aisladamente, no le dice esa información. $\pm 1$
La pendiente de regresión da una cantidad útil interpretada como el cambio estimado en el valor esperado de para un valor dado de . Específicamente, le dice el cambio en el valor esperado de correspondiente a un aumento de 1 unidad en . Esta información no puede deducirse solo del coeficiente de correlación. $Y_i$ $X_i$ $\hat \beta$ $Y_i$ $X_i$

Macro
fuente

Como corolario de esta respuesta, ¡observe que retroceder x contra y no es lo contrario de retroceder y contra x!

aginensky

23

Con una regresión lineal simple (es decir, solo 1 covariable), la pendiente es la misma que la de Pearson si ambas variables se estandarizaron primero. (Para obtener más información, puede encontrar útil mi respuesta aquí .) Cuando realiza una regresión múltiple, esto puede ser más complicado debido a la multicolinealidad , etc. $\beta_1$ $r$

gung - Restablece a Monica
fuente

14

El coeficiente de correlación mide la "tensión" de la relación lineal entre dos variables y está limitado entre -1 y 1, inclusive. Las correlaciones cercanas a cero no representan una asociación lineal entre las variables, mientras que las correlaciones cercanas a -1 o +1 indican una fuerte relación lineal. Intuitivamente, cuanto más fácil sea para usted dibujar una línea de mejor ajuste a través de un diagrama de dispersión, más correlacionados estarán.

La pendiente de regresión mide la "inclinación" de la relación lineal entre dos variables y puede tomar cualquier valor de a . Las pendientes cercanas a cero significan que la variable de respuesta (Y) cambia lentamente a medida que cambia la variable predictora (X). Las pendientes que están más lejos de cero (ya sea en dirección negativa o positiva) significan que la respuesta cambia más rápidamente a medida que cambia el predictor. Intuitivamente, si dibujara una línea de mejor ajuste a través de un diagrama de dispersión, cuanto más empinada sea, más se alejará su pendiente de cero. $-\infty$ $+\infty$

Por lo tanto, el coeficiente de correlación y la pendiente de regresión DEBEN tener el mismo signo (+ o -), pero casi nunca tendrán el mismo valor.

Para simplificar, esta respuesta supone una regresión lineal simple.

Socavador
fuente

Usted indica que la beta puede estar en , pero ¿no hay un caso por caso vinculado a beta implicado por la relación de varianza de x e y?

- inf, inf

$-\inf, \inf$

Matifou

1

El coeficiente de correlación de Pearson no tiene dimensiones y se escala entre -1 y 1, independientemente de la dimensión y la escala de las variables de entrada.

Si (por ejemplo) ingresa una masa en gramos o kilogramos, no hay diferencia en el valor de , mientras que esto hará una gran diferencia en el gradiente / pendiente (que tiene dimensión y se escala en consecuencia ... del mismo modo, no habría diferencia para si la escala se ajusta de alguna manera, incluido el uso de libras o toneladas en su lugar). $r$ $r$

Una demostración simple (¡disculpas por usar Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

muestra que a pesar de que la pendiente se ha incrementado en un factor de 10. $r = 0.969363$

Debo confesar que es un buen truco que se escala entre -1 y 1 (uno de esos casos en los que el numerador nunca puede tener un valor absoluto mayor que el denominador). $r$

Como @Macro ha detallado anteriormente, la pendiente , por lo que tiene razón al intuir que la de Pearson está relacionada con la pendiente, pero solo cuando se ajusta de acuerdo con a las desviaciones estándar (que efectivamente restaura las dimensiones y escalas!). $b = r(\frac{\sigma_{y}}{\sigma_{x}})$ $r$

Al principio, pensé que era extraño que la fórmula pareciera sugerir que una línea ajustada ( baja ) da como resultado un gradiente más bajo; luego tracé un ejemplo y me di cuenta de que dado un gradiente, al variar la "flojedad", disminuye, pero esto se compensa con un aumento proporcional en . $r$ $r$ $\sigma_{y}$

En el cuadro a continuación, se trazan cuatro conjuntos de datos : $x,y$

los resultados de (entonces gradiente , , , ) ... tenga en cuenta que $y=3x$ $b=3$ $r=1$ $\sigma_{x}=2.89$ $\sigma_{y}=8.66$ $\frac{\sigma_{y}}{\sigma_{x}}=3$
lo mismo pero variado por un número aleatorio, con , , , a partir del cual podemos calcular $r = 0.2447$ $\sigma_{x}=2.89$ $\sigma_{y}=34.69$ $b= 2.94$
$y=15x$ (entonces y , , ) $b=15$ $r=1$ $\sigma_{x}=0.58$ $\sigma_{y}=8.66$
lo mismo que (2) pero con rango reducido entonces (y aún , , ) $x$ $b= 14.70$ $r = 0.2447$ $\sigma_{x}=0.58$ $\sigma_{y}=34.69$

Se puede ver que la varianza afecta a sin necesariamente afectar a , y las unidades de medida pueden afectar a la escala y, por lo tanto, sin afectar a $r$ $b$ $b$ $r$

James
fuente

¿Cómo difiere el coeficiente de correlación de la pendiente de regresión?

Respuestas: