Diferencia entre los supuestos subyacentes a una correlación y una prueba de regresión de las pruebas de significación

21

Mi pregunta surgió de una discusión con @whuber en los comentarios de una pregunta diferente .

Específicamente, el comentario de @whuber fue el siguiente:

Una razón por la que puede sorprenderle es que los supuestos subyacentes a una prueba de correlación y una prueba de pendiente de regresión son diferentes, por lo que incluso cuando comprendemos que la correlación y la pendiente realmente miden lo mismo, ¿por qué sus valores p deberían ser los mismos? Eso muestra cómo estos problemas son más profundos que simplemente si y deberían ser numéricamente iguales. $r$ $\beta$

Esto me hizo pensar al respecto y me encontré con una variedad de respuestas interesantes. Por ejemplo, encontré esta pregunta " Suposiciones del coeficiente de correlación " pero no puedo ver cómo esto aclararía el comentario anterior.

Encontré respuestas más interesantes sobre la relación de de Pearson y la pendiente en una regresión lineal simple (ver aquí y aquí, por ejemplo), pero ninguna de ellas parece responder a lo que @whuber se refería en su comentario (al menos no aparente a mi). $r$ $\beta$

Pregunta 1: ¿Cuáles son los supuestos subyacentes a una prueba de correlación y una prueba de pendiente de regresión?

Para mi segunda pregunta, considere los siguientes resultados en R:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Y la salida de la cor.test()función:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906

Como puede verse por la lm()y cov.test()de salida, de Pearson coeficiente de correlación y la estimación de la pendiente ( ) son en gran medida diferente, 0,96 vs. 0,485, respectivamente, pero el valor de t y los valores de p son los mismos. $r$ $\beta_1$

Luego también intenté ver si soy capaz de calcular el valor t para y , que son los mismos a pesar de que y son diferentes. Y ahí es donde me quedo atascado, al menos para : $r$ $\beta_1$ $r$ $\beta_1$ $r$

Calcule la pendiente ( ) en una regresión lineal simple usando las sumas totales de cuadrados de e : $\beta_1$ $x$ $y$

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Calcule la estimación de mínimos cuadrados de la pendiente de regresión, (hay una prueba de esto en Crawley's R Book 1st edition , página 393): $\beta_{1}$

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Calcule el error estándar para : $\beta_1$

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

Y el valor t y el valor p para : $\beta_1$

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

Lo que no sé en este momento, y esta es la pregunta 2 , ¿cómo calcular el mismo valor t usando lugar de (quizás en pasos de bebé)? $r$ $\beta_1$

Supongo que, dado que cor.test()la hipótesis alternativa es si la correlación verdadera no es igual a 0 (véase el cor.test()resultado anterior), esperaría algo así como el coeficiente de correlación de Pearson dividido por el "error estándar del coeficiente de correlación de Pearson" (similar al encima)?! Pero, ¿cuál sería ese error estándar y por qué? $r$ b1/se.b1

¿Quizás esto tiene algo que ver con los supuestos antes mencionados subyacentes a una prueba de correlación y una prueba de pendiente de regresión ?

EDITAR (27-jul-2017): Si bien @whuber proporcionó una explicación muy detallada para la pregunta 1 (y en parte la pregunta 2 , vea los comentarios bajo su respuesta), investigué un poco más y descubrí que estas dos publicaciones ( aquí y aquí ) sí muestra un error estándar específico para , que funciona bien para responder la pregunta 2 , es decir, reproducir el valor t dado : $r$ $r$

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

regression correlation p-value assumptions Stefan
fuente

2

Es la misma prueba o al menos una prueba equivalente. Si rechaza la hipótesis de que la correlación no es cero, la prueba también rechaza la hipótesis de que la pendiente no es cero.

Michael R. Chernick

66

@Michael Right, pero hay muchos modelos potenciales aquí, y son sorprendentemente diferentes. Uno de ellos es un modelo estándar de correlación, de los cuales el más simple es que los datos son una muestra de alguna distribución normal bivariada desconocida. Otra es alguna versión de un modelo OLS para la regresión de contra dos sabores, regresores fijos y regresores aleatorios. Otra invierte las funciones de y . Si tiene la sensación de que estos deberían producir los mismos valores de p para pruebas de hipótesis comparables, probablemente sea solo a través de una amplia familiaridad, ¡pero no es intuitivamente obvio!

Y

$Y$

X

$X$

X

$X$

Y

$Y$

whuber

1

@whuber Al ver que esta Q está tan bien votada pero carece de una respuesta satisfactoria, comencé una recompensa que terminó hoy; Está en el período de gracia ahora. Se publicó una nueva respuesta y explica bien los cálculos de correlación como pendiente, pero afirma que no hay diferencias en los supuestos, al contrario de su declaración citada. Mi recompensa se otorgará automáticamente a esta nueva respuesta a menos que aparezca otra. Te estoy informando en caso de que consideres publicar tu propia respuesta también.

ameba dice Reinstate Monica

1

@amoeba Gracias; No me había dado cuenta de la recompensa. He publicado una cuenta parcial de lo que tenía en mente cuando escribí el comentario que provocó esta pregunta. Espero que represente algún progreso en la dirección que ha sugerido.

whuber

5

Introducción

Esta respuesta aborda la motivación subyacente para este conjunto de preguntas:

¿Cuáles son los supuestos subyacentes a una prueba de correlación y una prueba de pendiente de regresión?

Sin embargo, a la luz de los antecedentes proporcionados en la pregunta, me gustaría sugerir expandir un poco esta pregunta: exploremos los diferentes propósitos y concepciones de correlación y regresión.

La correlación generalmente se invoca en situaciones donde

Los datos son bivariados: exactamente dos valores distintos de interés están asociados con cada "sujeto" u "observación".
Los datos son observacionales: ninguno de los valores fue establecido por el experimentador. Ambos fueron observados o medidos.
El interés radica en identificar, cuantificar y probar algún tipo de relación entre las variables.

La regresión se usa donde

Los datos son bivariados o multivariados: puede haber más de dos valores distintos de interés.
El interés se centra en comprender lo que se puede decir sobre un subconjunto de las variables, las variables "dependientes" o "respuestas", en función de lo que se podría saber sobre el otro subconjunto, las variables "independientes" o "regresores".
Los valores específicos de los regresores pueden haber sido establecidos por el experimentador.

Estos objetivos y situaciones diferentes conducen a enfoques distintos. Debido a que este hilo está preocupado por sus similitudes, centrémonos en el caso en que son más similares: datos bivariados. En cualquier caso, esos datos generalmente se modelarán como realizaciones de una variable aleatoria . Muy en general, ambas formas de análisis buscan caracterizaciones relativamente simples de esta variable. $(X,Y)$

Correlación

Creo que el "análisis de correlación" nunca se ha definido en general. ¿Debería limitarse a calcular los coeficientes de correlación, o podría considerarse más ampliamente como PCA, análisis de conglomerados y otras formas de análisis que relacionan dos variables? Ya sea que su punto de vista sea limitado o amplio, quizás acepte que se aplique la siguiente descripción:

La correlación es un análisis que hace suposiciones sobre la distribución de , sin privilegiar ninguna de las variables, y utiliza los datos para sacar conclusiones más específicas sobre esa distribución. $(X,Y)$

Por ejemplo, puede comenzar asumiendo que tiene una distribución Normal bivariada y usar el coeficiente de correlación de Pearson de los datos para estimar uno de los parámetros de esa distribución. Esta es una de las concepciones más estrechas (y más antiguas) de correlación. $(X,Y)$

Como otro ejemplo, podría estar suponiendo que podría tener alguna distribución y utilizar un análisis de conglomerados para identificar "centros". Uno podría interpretar eso como el comienzo de una resolución de la distribución de en una mezcla de distribuciones bivariadas unimodales, una para cada grupo. $(X,Y)$ $k$ $(X,Y)$

Una cosa común a todos estos enfoques es un tratamiento simétrico de e : ninguno es privilegiado sobre el otro. Ambos juegan roles equivalentes. $X$ $Y$

Regresión

La regresión disfruta de una definición clara y universalmente entendida:

La regresión caracteriza la distribución condicional de (la respuesta) dada (el regresor). $Y$ $X$

Históricamente, la regresión tiene sus raíces en el descubrimiento de Galton (c 1,885.) Que los datos normal bivariada disfrutan de una lineal de regresión: la expectativa condicional de es una función lineal de . En un polo del espectro especial-general es mínimos cuadrados ordinarios (OLS) de regresión donde la distribución condicional de se supone que es normal para parámetros fijos y $(X,Y)$ $Y$ $X$ $Y$ $(\beta_0+\beta_1 X, \sigma^2)$ $\beta_0, \beta_1,$ $\sigma$ a estimar a partir de los datos.

En el extremo extremadamente general de este espectro se encuentran los modelos lineales generalizados, los modelos aditivos generalizados y otros de su tipo que relajan todos los aspectos de OLS: la expectativa, la varianza e incluso la forma de la distribución condicional de pueden variar de forma no lineal. con . El concepto de que sobrevive a todo esto generalización es que los restos de interés se centró en la comprensión de cómo depende de . Esa asimetría fundamental sigue ahí. $Y$ $X$ $Y$ $X$

Correlación y regresión

Una situación muy especial es común a ambos enfoques y se encuentra con frecuencia: el modelo normal bivariado. En este modelo, un diagrama de dispersión de datos asumirá una forma clásica de "fútbol", óvalo o cigarro: los datos se distribuyen elípticamente alrededor de un par de ejes ortogonales.

Un análisis de correlación se centra en la "fuerza" de esta relación, en el sentido de que una extensión relativamente pequeña alrededor del eje mayor es "fuerte".
$Y$ $X$ $X$ $Y$

(Vale la pena considerar las claras diferencias geométricas entre estas dos descripciones: iluminan las diferencias estadísticas subyacentes).

$\rho$

$X$ $Y$ $X$
$Y$ $X$ $Y$
$(1)$ $(2)$
$(X,Y)$

$(4)$ $X$ $Y$

$(1)$ $(3)$

$H_0: \rho=0$ $Y$ $X$ $r$ $\hat\beta$

Esta aplicación común, que es la primera que se aprende, puede dificultar reconocer cuán diferentes son la correlación y la regresión en sus conceptos y objetivos. Solo cuando nos enteramos de sus generalizaciones se exponen las diferencias subyacentes. Sería difícil interpretar que un GAM proporciona mucha información sobre la "correlación", así como sería difícil enmarcar un análisis de conglomerados como una forma de "regresión". Los dos son diferentes familias de procedimientos con diferentes objetivos, cada uno útil por derecho propio cuando se aplica adecuadamente.

$r$ $\hat\beta$

whuber
fuente

r

$r$

1

r

$r$

(X, Y)

$(X,Y)$

r

$r$

Dejaré esta lata de gusanos en otro momento :) ¡Gracias por tu comentario @whuber!

Stefan

3

Como sugiere la respuesta de @ whuber, hay una serie de modelos y técnicas que pueden estar bajo el paraguas de correlación que no tienen análogos claros en un mundo de regresión y viceversa. Sin embargo, en general, cuando las personas piensan, comparan y contrastan la regresión y la correlación, de hecho están considerando dos caras de la misma moneda matemática (generalmente una regresión lineal y una correlación de Pearson). Si deberían tener una visión más amplia de ambas familias de análisis es algo de un debate separado, y uno con el que los investigadores deberían luchar al menos mínimamente.

$x$ $y$ $(x,y)$

En esta visión estrecha de la regresión y la correlación, las siguientes explicaciones deberían ayudar a dilucidar cómo y por qué sus estimaciones, errores estándar y valores de p son esencialmente variantes entre sí.

Con la trama de datos dates el longleyconjunto de datos de referencia más arriba obtenemos lo siguiente para el cor.test. (No hay nada nuevo aquí a menos que omita la pregunta anterior y lea las respuestas):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906

Y lo siguiente para el modelo lineal (también igual que el anterior):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Ahora para el nuevo componente de esta respuesta. Primero, cree dos nuevas versiones estandarizadas de las variables Employedy Population:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Segundo, vuelva a ejecutar la regresión:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Voila! La pendiente de regresión es igual al coeficiente de correlación de arriba. La respuesta a la pregunta 1 es que los supuestos para ambas pruebas son esencialmente los mismos:

Independencia de observaciones
$x$ $y$
$e\backsim N(0,\sigma_e^2)$
Los términos de error se distribuyen de manera similar en cada valor predicho de la línea de regresión (es decir, homogeneidad de la varianza del error)

$x$ $y$

Para la pregunta 2 , comencemos con el error estándar de la fórmula de la pendiente de regresión utilizada anteriormente (implícita en el código R, pero que se indica a continuación):

b = \frac{\sum (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sum (X_{i} - \bar{X})^{2}}

$b=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2}$

$b$ $Var(b)$ $\mathbf{X_i}=(X_i-\bar{X})$ $\mathbf{Y_i}=(Y_i-\bar{Y})$

V a r (b) = V a r (\frac{\sum (X_{i} Y_{i})}{\sum ({X_{i}}^{2})})

$Var(b)=Var(\frac{\sum(\mathbf{X_i}\mathbf{Y_i})}{\sum(\mathbf{X_i}^2)})$

De esa fórmula puede obtener la siguiente expresión condensada y más útil ( consulte este enlace paso a paso ):

V a r (b) = \frac{σ_{e}^{2}}{\sum (X_{i} - \bar{X})^{2}}

$Var(b)=\frac{\sigma_e^2}{\sum(X_i-\bar{X})^2}$

S E (b) = \sqrt{V a r (b)} = \sqrt{\frac{σ_{e}^{2}}{\sum (X_{i} - \bar{X})^{2}}}

$SE(b) =\sqrt{Var(b)}=\sqrt{\frac{\sigma_e^2}{\sum(X_i-\bar{X})^2}}$

$\sigma_e^2$

Creo que encontrará que si resuelve esta ecuación para los modelos lineales no estandarizados y estandarizados (es decir, de correlación) obtendrá los mismos valores pyt para sus pendientes. Ambas pruebas se basan en la estimación de mínimos cuadrados ordinarios y hacen los mismos supuestos. En la práctica, muchos investigadores omiten la verificación de suposiciones tanto para los modelos de regresión lineal simples como para las correlaciones, aunque creo que es aún más frecuente hacerlo para las correlaciones, ya que muchas personas no las reconocen como casos especiales de regresiones lineales simples. (Nota: esta no es una buena práctica para adoptar)

Matt Barstead
fuente

2

Esta respuesta no aborda la cita de @whuber reproducida en la pregunta, donde afirma que los supuestos son diferentes. ¿Quiere decir que esta afirmación fue incorrecta?

ameba dice Reinstate Monica

Si sigue estas ecuaciones, la correlación de Pearson tiene los mismos supuestos básicos de una regresión lineal simple. Puedo enmendar mi respuesta para indicarlo más claramente.

Matt Barstead

1

Gracias por tu respuesta! Sabía que el coeficiente de correlación es igual a la pendiente de regresión cuando se estandariza. Esto se mostró en el enlace 3 y 4 en mi pregunta. También estaba al tanto de las suposiciones generales que enumeró y es por eso que el comentario de @whuber me hizo pensar, por lo tanto, me llevó a esta pregunta. Debería haber declarado explícitamente de qué supuestos estoy al tanto: mis disculpas.

Stefan

1

r

$r$

r

$r$ r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956

0

Aquí hay una explicación de la equivalencia de la prueba, que también muestra cómo se relacionan r y b.

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

Para realizar OLS, debe hacer https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions

Además, OLS y corr requieren suponer un muestreo aleatorio.

La construcción de una prueba de corr supone:

Tenemos una "muestra aleatoria y suficientemente grande" de la población de (x, y).

ivankomarov
fuente

0

Sobre la pregunta 2

Cómo calcular el mismo valor t usando r en lugar de β1

$t$ $r$ $F$ $r$

F = \frac{r^{2} / k}{(1 - r^{2}) / (n - k)}

$F = \frac{r^2/k}{(1-r^2)/(n-k)}$

$k=2$ $n=datapoints$

Con la restricción de que

... la relación F no se puede usar cuando el modelo no tiene intercepción

Fuente: Prueba de hipótesis en el modelo de regresión múltiple.

Harry Salmon
fuente

1

Volví a mirar la publicación original para identificar a qué pregunta podría estar respondiendo. Encontré dos, numerados 1 (sobre suposiciones) y 2 (sobre el cálculo de un valor t), pero esta respuesta no parece abordar ninguno de los dos. ¿Podría decirnos más explícitamente qué pregunta está respondiendo?

whuber

1

r

$r$

1

Creo que entiendo, tal vez estaba respondiendo la pregunta en el caso específico en lugar del general. Creo que sería útil poder formular la pregunta en términos de una hipótesis nula y alternativa general para poder considerar este caso general, ya que estoy luchando por hacerlo.

Harry Salmon

Estoy de acuerdo: exhibir modelos claros y criterios de decisión para los análisis de correlación y regresión sería de gran ayuda para distinguirlos. A veces, una buena respuesta consiste en poco más que reformular o aclarar la pregunta, y a menudo las mejores respuestas comienzan con reformulaciones efectivas de la pregunta, así que no tenga miedo de ir en esa dirección.

whuber

Diferencia entre los supuestos subyacentes a una correlación y una prueba de regresión de las pruebas de significación

Respuestas:

Introducción

Correlación

Regresión

Correlación y regresión