¿Cuál es la diferencia entre correlación y regresión lineal simple?

Respuestas:

114

¿Cuál es la diferencia entre la correlación entre e Y y una regresión lineal que predice Y a partir de XXYYX ?

Primero, algunas similitudes :

  • el coeficiente de regresión estandarizado es el mismo que el coeficiente de correlación de Pearson
  • El cuadrado del coeficiente de correlación de Pearson es el mismo que el R2 en regresión lineal simple
  • Ni la regresión lineal simple ni la correlación responden preguntas de causalidad directamente. Este punto es importante, porque me he encontrado con personas que piensan que la regresión simple puede permitir que mágicamente una inferencia de que causa Y .XY

Segundo, algunas diferencias :

  • La ecuación de regresión (es decir, ) se puede usar para hacer predicciones sobre Y basadas en valores de Xuna+siXYX
  • Si bien la correlación generalmente se refiere a la relación lineal, puede referirse a otras formas de dependencia, como las relaciones polinómicas o verdaderamente no lineales.
  • Si bien la correlación generalmente se refiere al coeficiente de correlación de Pearson, existen otros tipos de correlación, como la de Spearman.
Jeromy Anglim
fuente
Hola Jeromy, gracias por tu explicación, pero aún tengo una pregunta aquí: ¿qué pasa si no necesito hacer predicciones y solo quiero saber qué tan cerca están dos variables y en qué dirección / fuerza? ¿Sigue habiendo un uso diferente de estas dos técnicas?
yue86231
3
@ yue86231 Entonces parece que una medida de correlación sería más apropiada.
Jeromy Anglim
55
(+1) A las similitudes podría ser útil agregar que las pruebas estándar de la hipótesis "correlación = 0" o, de manera equivalente, "pendiente = 0" (para la regresión en cualquier orden), como las realizadas por lmy cor.testen R, producirá valores p idénticos.
whuber
3
Estoy de acuerdo en que se debe agregar la sugerencia de @whuber, pero a un nivel muy básico, creo que vale la pena señalar que el signo de la pendiente de regresión y el coeficiente de correlación son iguales. Esta es probablemente una de las primeras cosas que la mayoría de la gente aprende acerca de la relación entre la correlación y una "línea de mejor ajuste" (incluso si todavía no la llaman "regresión"), pero creo que vale la pena señalarla. En cuanto a las diferencias, el hecho de que obtenga la misma correlación de respuesta X con Y o viceversa, pero que la regresión de Y en X es diferente a la de X en Y, también podría merecer una mención.
Silverfish
36

Aquí hay una respuesta que publiqué en el sitio web graphpad.com :

La correlación y la regresión lineal no son lo mismo. Considere estas diferencias:

  • La correlación cuantifica el grado en que dos variables están relacionadas. La correlación no se ajusta a una línea a través de los datos.
  • Con la correlación no tiene que pensar en causa y efecto. Simplemente cuantifica qué tan bien se relacionan dos variables entre sí. Con la regresión, debe pensar en la causa y el efecto, ya que la línea de regresión se determina como la mejor manera de predecir Y a partir de X.
  • Con la correlación, no importa cuál de las dos variables llame "X" y cuál llame "Y". Obtendrá el mismo coeficiente de correlación si intercambia los dos. Con la regresión lineal, la decisión de qué variable llama "X" y cuál llama "Y" es muy importante, ya que obtendrá una línea de mejor ajuste diferente si intercambia las dos. La línea que mejor predice Y a partir de X no es la misma que la línea que predice X a partir de Y (a menos que tenga datos perfectos sin dispersión).
  • La correlación casi siempre se usa cuando se miden ambas variables. Raramente es apropiado cuando una variable es algo que manipulas experimentalmente. Con la regresión lineal, la variable X suele ser algo que manipulas experimentalmente (tiempo, concentración ...) y la variable Y es algo que mides.
Harvey Motulsky
fuente
13
"La mejor manera de predecir Y a partir de X" no tiene nada que ver con causa y efecto: X podría ser la causa de Y o viceversa. Uno puede razonar de causas a efectos (deducción) o de efectos a causas (abducción).
Neil G
44
"obtendrás una línea diferente de mejor ajuste si cambias las dos" es un poco engañoso; las pendientes estandarizadas serán las mismas en ambos casos.
xenocyon 01 de
26

En el caso del predictor único de regresión lineal, la pendiente estandarizada tiene el mismo valor que el coeficiente de correlación. La ventaja de la regresión lineal es que la relación puede describirse de tal manera que pueda predecir (en función de la relación entre las dos variables) el puntaje en la variable predicha dado cualquier valor particular de la variable predictora. En particular, una información que una regresión lineal le da que una correlación no es la intercepción, el valor de la variable predicha cuando el predictor es 0.

En resumen: producen resultados idénticos computacionalmente, pero hay más elementos que pueden interpretarse en la regresión lineal simple. Si está interesado en caracterizar simplemente la magnitud de la relación entre dos variables, utilice la correlación; si está interesado en predecir o explicar sus resultados en términos de valores particulares, probablemente desee una regresión.

russellpierce
fuente
"En particular, una pieza de información que una regresión lineal le da que una correlación no es la intercepción" ... ¡Mucha diferencia!
SIslam
Bueno, mirando hacia atrás, solo es cierto que la regresión proporciona una intercepción porque es el valor predeterminado para muchos paquetes de estadísticas para hacerlo. Uno podría calcular fácilmente una regresión sin una intercepción.
russellpierce
Sí, uno podría calcular fácilmente una regresión sin una intercepción, pero rara vez tendría sentido: stats.stackexchange.com/questions/102709/…
kjetil b halvorsen
@kjetilbhalvorsen Excepto como en el caso que describí cuando está ajustando una pendiente estandarizada. El término de intercepción en una ecuación de regresión estandarizada es siempre 0. ¿Por qué? Debido a que tanto el IV como el DV se han estandarizado a puntajes unitarios, como resultado, la intercepción es definitivamente 0. Exactamente el tipo de caso que usted describe en su respuesta. (el equivalente a estandarizar el IV y el DV). Cuando tanto IV como DV se han estandarizado a 0, la intercepción es definitivamente 0.
russellpierce
11

El análisis de correlación solo cuantifica la relación entre dos variables ignorando cuál es la variable dependiente y cuál es independiente. Pero antes de aplicar la regresión, debe calcular el impacto de la variable que desea verificar en la otra variable.


fuente
9

Todas las respuestas dadas hasta ahora proporcionan información importante, pero no debe olvidarse que puede transformar los parámetros de uno en otro:

y=metroX+si

metro=Cov(y,X)Vunar(X)=Cor(y,X)Sre(y)Sre(X)
si=y¯-metroX¯

Por lo tanto, puede transformar ambos entre sí escalando y cambiando sus parámetros.

Un ejemplo en R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196
vonjd
fuente
3

De la correlación solo podemos obtener un índice que describa la relación lineal entre dos variables; En la regresión podemos predecir la relación entre más de dos variables y usarla para identificar qué variables x pueden predecir la variable de resultado y .

radia
fuente
3

Citando a Altman DG, "Estadísticas prácticas para la investigación médica" Chapman & Hall, 1991, página 321: "La correlación reduce un conjunto de datos a un solo número que no guarda relación directa con los datos reales. La regresión es un método mucho más útil, con resultados que están claramente relacionados con la medición obtenida. La fuerza de la relación es explícita, y la incertidumbre se puede ver claramente a partir de intervalos de confianza o intervalos de predicción "

Carlo Lazzaro
fuente
3
Aunque simpatizo con Altman, los métodos de regresión a menudo son más adecuados que la correlación en muchos casos, esta cita está configurando un argumento de hombre de paja. En la regresión OLS, la información producida es equivalente a la que proporciona la información que entra en un cálculo de correlación (todos los momentos bivariados primero y segundo y sus errores estándar) y el coeficiente de correlación proporciona la misma información que la pendiente de regresión. Los dos enfoques difieren un poco en los modelos de datos subyacentes que asumen y en su interpretación, pero no en las formas afirmadas por Altman.
whuber
1

El análisis de regresión es una técnica para estudiar la causa del efecto de una relación entre dos variables. mientras que, el análisis de correlación es una técnica para estudiar la cuantificación de la relación entre dos variables.

Kanon Das Zinku
fuente
66
Bienvenido a CV! Dado que ya hay tantas respuestas a esta pregunta, ¿quiere echarles un vistazo y ver si la suya agrega algo nuevo? Si tiene más que decir, puede editarlo para hacerlo.
Scortchi
0

La correlación es un índice (solo un número) de la fuerza de una relación. La regresión es un análisis (estimación de parámetros de un modelo y prueba estadística de su importancia) de la adecuación de una relación funcional particular. El tamaño de la correlación está relacionado con la precisión de las predicciones de la regresión.

Jdub
fuente
1
No, no es. La correlación nos da una relación limitada, pero no se relaciona con la precisión de las predicciones. R2 da eso.
SmallChess
-3

Correlación es un término en una estadística que determina si existe una relación entre dos y luego el grado de relación. Su rango es de -1 a +1. Mientras que la regresión significa volver al promedio. A partir de la regresión, predecimos el valor manteniendo una variable dependiente y otra independiente, pero debe aclararse el valor de qué variable queremos predecir.

Shakir Sabir
fuente
66
¡Hola, @shakir, y bienvenido a Cross Validated! Probablemente haya notado que esta es una pregunta antigua (de 2010) y que ya se le han dado siete (!) Respuestas. Sería una buena idea asegurarse de que su nueva respuesta agregue algo importante a la discusión que no se haya cubierto antes. Por el momento no estoy seguro de que sea así.
ameba