¿Correlación significativa en cada grupo pero no significativa sobre todos?

9

Supongamos que prueba la correlación de Pearson entre la variable y y en los grupos A y B . ¿Es posible que la correlación ( x , y ) sea ​​significativa en cada uno de A y B , pero no significativa cuando se combinan los datos de ambos grupos? En este caso, ¿podría darnos una explicación?XyAB(x,y)Asi

qed
fuente

Respuestas:

21

Sí, es posible y podría suceder de muchas maneras. Un ejemplo obvio es cuando la membresía de A y B se elige de alguna manera que refleje los valores de x e y. Son posibles otros ejemplos, por ejemplo, el comentario de @ Macro sugiere una posibilidad alternativa.

Considere el siguiente ejemplo, escrito en R. x e y son variables normales estándar iid, pero si las asigno a grupos basados ​​en los valores relativos de x e y obtengo la ubicación que usted nombre. Dentro del grupo A y el grupo B existe una fuerte correlación estadísticamente significativa entre x e y, pero si ignora la estructura de agrupación no hay correlación.

ingrese la descripción de la imagen aquí

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)
Peter Ellis
fuente
+1. Este es un ejemplo muy inteligente que no se me había ocurrido.
Macro
13

Una posibilidad es que los efectos puedan ir en diferentes direcciones en cada grupo y se cancelen cuando los agregue . Esto también está relacionado con cómo, cuando se omite un término de interacción importante en un modelo de regresión, los efectos principales pueden ser engañosos.

UNAyyoXyo

mi(yyoEl |Xyo,solrotupag UNA)=1+Xyo

si

mi(yyoEl |Xyo,solrotupag si)=1-Xyo

PAG(solrotupag UNA)=1-PAG(solrotupag si)=pag
mi(yyoEl |Xyo)

mi(yyoEl |Xyo)=mi(mi(yyoEl |Xyo,solrotupag))=pag(1+Xyo)+(1-pag)(1-Xyo)=pag+pagXyo+1-Xyo-pag+pagXyo=1-Xyo(2pag-1)

pag=1/ /2mi(yyoEl |Xyo)=1XyoXyoyyo

pag

Nota: con errores normales, la importancia de un coeficiente de regresión lineal es equivalente a la importancia de la correlación de Pearson, por lo que este ejemplo resalta una explicación de lo que está viendo.

Macro
fuente