Mi pregunta surgió de una discusión con @whuber en los comentarios de una pregunta diferente .
Específicamente, el comentario de @whuber fue el siguiente:
Una razón por la que puede sorprenderle es que los supuestos subyacentes a una prueba de correlación y una prueba de pendiente de regresión son diferentes, por lo que incluso cuando comprendemos que la correlación y la pendiente realmente miden lo mismo, ¿por qué sus valores p deberían ser los mismos? Eso muestra cómo estos problemas son más profundos que simplemente si y deberían ser numéricamente iguales.β
Esto me hizo pensar al respecto y me encontré con una variedad de respuestas interesantes. Por ejemplo, encontré esta pregunta " Suposiciones del coeficiente de correlación " pero no puedo ver cómo esto aclararía el comentario anterior.
Encontré respuestas más interesantes sobre la relación de de Pearson y la pendiente en una regresión lineal simple (ver aquí y aquí, por ejemplo), pero ninguna de ellas parece responder a lo que @whuber se refería en su comentario (al menos no aparente a mi).β
Pregunta 1: ¿Cuáles son los supuestos subyacentes a una prueba de correlación y una prueba de pendiente de regresión?
Para mi segunda pregunta, considere los siguientes resultados en R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
Y la salida de la cor.test()
función:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
Como puede verse por la lm()
y cov.test()
de salida, de Pearson coeficiente de correlación y la estimación de la pendiente ( ) son en gran medida diferente, 0,96 vs. 0,485, respectivamente, pero el valor de t y los valores de p son los mismos.β 1
Luego también intenté ver si soy capaz de calcular el valor t para y , que son los mismos a pesar de que y son diferentes. Y ahí es donde me quedo atascado, al menos para :β 1 r β 1 r
Calcule la pendiente ( ) en una regresión lineal simple usando las sumas totales de cuadrados de e : x y
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
Calcule la estimación de mínimos cuadrados de la pendiente de regresión, (hay una prueba de esto en Crawley's R Book 1st edition , página 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
Calcule el error estándar para :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
Y el valor t y el valor p para :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
Lo que no sé en este momento, y esta es la pregunta 2 , ¿cómo calcular el mismo valor t usando lugar de (quizás en pasos de bebé)?β 1
Supongo que, dado que cor.test()
la hipótesis alternativa es si la correlación verdadera no es igual a 0 (véase el cor.test()
resultado anterior), esperaría algo así como el coeficiente de correlación de Pearson dividido por el "error estándar del coeficiente de correlación de Pearson" (similar al encima)?! Pero, ¿cuál sería ese error estándar y por qué?b1/se.b1
¿Quizás esto tiene algo que ver con los supuestos antes mencionados subyacentes a una prueba de correlación y una prueba de pendiente de regresión ?
EDITAR (27-jul-2017): Si bien @whuber proporcionó una explicación muy detallada para la pregunta 1 (y en parte la pregunta 2 , vea los comentarios bajo su respuesta), investigué un poco más y descubrí que estas dos publicaciones ( aquí y aquí ) sí muestra un error estándar específico para , que funciona bien para responder la pregunta 2 , es decir, reproducir el valor t dado :r
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Respuestas:
Introducción
Esta respuesta aborda la motivación subyacente para este conjunto de preguntas:
Sin embargo, a la luz de los antecedentes proporcionados en la pregunta, me gustaría sugerir expandir un poco esta pregunta: exploremos los diferentes propósitos y concepciones de correlación y regresión.
La correlación generalmente se invoca en situaciones donde
Los datos son bivariados: exactamente dos valores distintos de interés están asociados con cada "sujeto" u "observación".
Los datos son observacionales: ninguno de los valores fue establecido por el experimentador. Ambos fueron observados o medidos.
El interés radica en identificar, cuantificar y probar algún tipo de relación entre las variables.
La regresión se usa donde
Los datos son bivariados o multivariados: puede haber más de dos valores distintos de interés.
El interés se centra en comprender lo que se puede decir sobre un subconjunto de las variables, las variables "dependientes" o "respuestas", en función de lo que se podría saber sobre el otro subconjunto, las variables "independientes" o "regresores".
Los valores específicos de los regresores pueden haber sido establecidos por el experimentador.
Estos objetivos y situaciones diferentes conducen a enfoques distintos. Debido a que este hilo está preocupado por sus similitudes, centrémonos en el caso en que son más similares: datos bivariados. En cualquier caso, esos datos generalmente se modelarán como realizaciones de una variable aleatoria . Muy en general, ambas formas de análisis buscan caracterizaciones relativamente simples de esta variable.( X, Y)
Correlación
Creo que el "análisis de correlación" nunca se ha definido en general. ¿Debería limitarse a calcular los coeficientes de correlación, o podría considerarse más ampliamente como PCA, análisis de conglomerados y otras formas de análisis que relacionan dos variables? Ya sea que su punto de vista sea limitado o amplio, quizás acepte que se aplique la siguiente descripción:
Por ejemplo, puede comenzar asumiendo que tiene una distribución Normal bivariada y usar el coeficiente de correlación de Pearson de los datos para estimar uno de los parámetros de esa distribución. Esta es una de las concepciones más estrechas (y más antiguas) de correlación.( X, Y)
Como otro ejemplo, podría estar suponiendo que podría tener alguna distribución y utilizar un análisis de conglomerados para identificar k "centros". Uno podría interpretar eso como el comienzo de una resolución de la distribución de ( X , Y ) en una mezcla de distribuciones bivariadas unimodales, una para cada grupo.( X, Y) k ( X, Y)
Una cosa común a todos estos enfoques es un tratamiento simétrico de e Y : ninguno es privilegiado sobre el otro. Ambos juegan roles equivalentes.X Y
Regresión
La regresión disfruta de una definición clara y universalmente entendida:
Históricamente, la regresión tiene sus raíces en el descubrimiento de Galton (c 1,885.) Que los datos normal bivariada disfrutan de una lineal de regresión: la expectativa condicional de Y es una función lineal de X . En un polo del espectro especial-general es mínimos cuadrados ordinarios (OLS) de regresión donde la distribución condicional de Y se supone que es normal ( β 0 + β 1 X , sigma 2 ) para parámetros fijos β 0 , β 1 , y σ( X, Y) Y X Y ( β0 0+ β1X, σ2) β0 0, β1, σ a estimar a partir de los datos.
En el extremo extremadamente general de este espectro se encuentran los modelos lineales generalizados, los modelos aditivos generalizados y otros de su tipo que relajan todos los aspectos de OLS: la expectativa, la varianza e incluso la forma de la distribución condicional de pueden variar de forma no lineal. con X . El concepto de que sobrevive a todo esto generalización es que los restos de interés se centró en la comprensión de cómo Y depende de X . Esa asimetría fundamental sigue ahí.Y X Y X
Correlación y regresión
Una situación muy especial es común a ambos enfoques y se encuentra con frecuencia: el modelo normal bivariado. En este modelo, un diagrama de dispersión de datos asumirá una forma clásica de "fútbol", óvalo o cigarro: los datos se distribuyen elípticamente alrededor de un par de ejes ortogonales.
Un análisis de correlación se centra en la "fuerza" de esta relación, en el sentido de que una extensión relativamente pequeña alrededor del eje mayor es "fuerte".
(Vale la pena considerar las claras diferencias geométricas entre estas dos descripciones: iluminan las diferencias estadísticas subyacentes).
Esta aplicación común, que es la primera que se aprende, puede dificultar reconocer cuán diferentes son la correlación y la regresión en sus conceptos y objetivos. Solo cuando nos enteramos de sus generalizaciones se exponen las diferencias subyacentes. Sería difícil interpretar que un GAM proporciona mucha información sobre la "correlación", así como sería difícil enmarcar un análisis de conglomerados como una forma de "regresión". Los dos son diferentes familias de procedimientos con diferentes objetivos, cada uno útil por derecho propio cuando se aplica adecuadamente.
fuente
Como sugiere la respuesta de @ whuber, hay una serie de modelos y técnicas que pueden estar bajo el paraguas de correlación que no tienen análogos claros en un mundo de regresión y viceversa. Sin embargo, en general, cuando las personas piensan, comparan y contrastan la regresión y la correlación, de hecho están considerando dos caras de la misma moneda matemática (generalmente una regresión lineal y una correlación de Pearson). Si deberían tener una visión más amplia de ambas familias de análisis es algo de un debate separado, y uno con el que los investigadores deberían luchar al menos mínimamente.
En esta visión estrecha de la regresión y la correlación, las siguientes explicaciones deberían ayudar a dilucidar cómo y por qué sus estimaciones, errores estándar y valores de p son esencialmente variantes entre sí.
Con la trama de datos
dat
es ellongley
conjunto de datos de referencia más arriba obtenemos lo siguiente para el cor.test. (No hay nada nuevo aquí a menos que omita la pregunta anterior y lea las respuestas):Y lo siguiente para el modelo lineal (también igual que el anterior):
Ahora para el nuevo componente de esta respuesta. Primero, cree dos nuevas versiones estandarizadas de las variables
Employed
yPopulation
:Segundo, vuelva a ejecutar la regresión:
Voila! La pendiente de regresión es igual al coeficiente de correlación de arriba. La respuesta a la pregunta 1 es que los supuestos para ambas pruebas son esencialmente los mismos:
Para la pregunta 2 , comencemos con el error estándar de la fórmula de la pendiente de regresión utilizada anteriormente (implícita en el código R, pero que se indica a continuación):
De esa fórmula puede obtener la siguiente expresión condensada y más útil ( consulte este enlace paso a paso ):
Creo que encontrará que si resuelve esta ecuación para los modelos lineales no estandarizados y estandarizados (es decir, de correlación) obtendrá los mismos valores pyt para sus pendientes. Ambas pruebas se basan en la estimación de mínimos cuadrados ordinarios y hacen los mismos supuestos. En la práctica, muchos investigadores omiten la verificación de suposiciones tanto para los modelos de regresión lineal simples como para las correlaciones, aunque creo que es aún más frecuente hacerlo para las correlaciones, ya que muchas personas no las reconocen como casos especiales de regresiones lineales simples. (Nota: esta no es una buena práctica para adoptar)
fuente
r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
Aquí hay una explicación de la equivalencia de la prueba, que también muestra cómo se relacionan r y b.
http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/
Para realizar OLS, debe hacer https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions
Además, OLS y corr requieren suponer un muestreo aleatorio.
La construcción de una prueba de corr supone:
Tenemos una "muestra aleatoria y suficientemente grande" de la población de (x, y).
fuente
Sobre la pregunta 2
Con la restricción de que
Fuente: Prueba de hipótesis en el modelo de regresión múltiple.
fuente