¿Por qué la independencia implica correlación cero?

16

En primer lugar, no estoy preguntando esto:

¿Por qué la correlación cero no implica independencia?

Esto se aborda (bastante bien) aquí: /math/444408/why-does-zero-correlation-not-imply-independence

Lo que pregunto es lo contrario ... digamos que dos variables son completamente independientes entre sí.

¿No podrían tener una pequeña correlación por accidente?

¿No debería ser ... la independencia implica muy poca correlación?

correlation mathematical-statistics covariance independence Joshua Ronis
fuente

55

Incluso las variables independientes casi siempre tendrán una correlación SAMPLE distinta de cero, aunque probablemente seguirá siendo cercana a cero.

jsk

10

Como señaló @jsk, puede estar confundiendo la correlación de la muestra con la correlación esperada

David

1

@David, ¿podrías explicarlo? Todavía soy un principiante en estadística.

Joshua Ronis

3

@JoshuaRonis La correlación de muestra es la correlación que observa cuando trabaja con un conjunto de datos. Usas eso para tener una idea de cuál es la correlación "verdadera" entre dos variables. Cuanto más grande sea la muestra, mejor será la estimación que obtenga. Por ejemplo, la correlación entre los resultados de dos dados es independiente, por lo tanto, no correlacionados, aunque si los junta diez veces, puede obtener correlación (debido a la posibilidad aleatoria) Pero tenga en cuenta que no hay preferencia por la correlación positiva o negativa (es decir, tiene la misma oportunidad de cada uno)

David

1

No es un engaño, sino una discusión relacionada: ¿La correlación distinta de cero implica dependencia?

SecretAgentMan

36

Según la definición del coeficiente de correlación, si dos variables son independientes, su correlación es cero. Por lo tanto, no podría tener ninguna correlación por accidente.

ρ_{X, Y} = \frac{E [X Y] - E [X] E [Y]}{\sqrt{E [X^{2}] - [E [X]]^{2}} \sqrt{E [Y^{2}] - [E [Y]]^{2}}}

$\rho_{X,Y}=\frac{\operatorname{E}[XY]-\operatorname{E}[X]\operatorname{E}[Y]}{\sqrt{\operatorname{E}[X^2]-[\operatorname{E}[X]]^2}~\sqrt{\operatorname{E}[Y^2]- [\operatorname{E}[Y]]^2}}$

Si $X$ e $Y$ son independientes, significa $\operatorname{E}[XY]= \operatorname{E}[X]\operatorname{E}[Y]$ . Por lo tanto, el numerador de $\rho_{X,Y}$ es cero en este caso.

Entonces, si no cambia el significado de la correlación, como se menciona aquí, no es posible. A menos que, aclare su definición de cuál es la correlación.

Dios mio
fuente

2

Y, sin embargo, tenemos gráficos que muestran claramente una correlación (inversa) entre el número de piratas y la temperatura media global. Como otros comentarios señalan, uno debe tener cuidado con los tamaños de muestra, sin mencionar las "apariciones accidentales"

Carl Witthoft

@OmG "si no cambia el significado de la correlación, como se menciona aquí" Cuando leí la pregunta de OP, obtuve un significado muy diferente de "correlación". Para mí: "¿No podrían tener una pequeña correlación por accidente?" implica muy fuertemente "medir la correlación", y cuando mides la correlación en la realidad, a menudo encontrarás "un poco de correlación por accidente".

industry7

1

@ industria7 Ya veo. Pero debe definirse en un método formal. Es cualitativo y no podemos hablar de eso aquí.

OmG

@CarlWitthoft El número de piratas y la temperatura media global no son independientes. Tienen una causa común (es decir, tiempo, desarrollo, modernización, etc.) que crea una dependencia entre ellos. "Independencia" no significa "no causa"; significa "no asociado", y claramente esos cuadros demuestran asociación.

Noah

@Noah, temo que haya ocurrido un WHOOSH. venganza.org

Carl Witthoft

19

$r = 0.$ $\rho.]$

$n = 5$ $1.$

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

$5,$ $r = -0.5716.$

No hay nada especial en la distribución exponencial a este respecto. Cambiar la distribución principal a normal estándar dio los siguientes resultados.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

$n = 20.$

$r$ con más detalle; uno de ellos es este Q & A .

BruceET
fuente

66

Para un tamaño de muestra pequeño, es probable que encuentre correlaciones de muestra que sean "notablemente" diferentes de cero, pero ya no es probable que encuentre correlaciones que sean significativamente diferentes de cero. Aunque su estimación puntual está lejos de ser cero, tiene muy pocos datos para afirmar con confianza que está viendo una correlación distinta de cero debido a cualquier cosa menos casual. Con solo 5 pares, incluso los coeficientes de correlación mayores de 0.8 pueden no ser significativamente diferentes de 0.

Nuclear Wang

11

Respuesta simple: si 2 variables son independientes, entonces la correlación de la población es cero, mientras que la correlación de la muestra generalmente será pequeña, pero no nula.

Esto se debe a que la muestra no es una representación perfecta de la población.

Cuanto más grande sea la muestra, mejor representa a la población, por lo que menor será la correlación que tendrá. Para una muestra infinita , la correlación sería cero.

Dave
fuente

1

La formulación precisa sería la de cualquier

p

$p$ y

ϵ

$\epsilon$ hay algunos

n

$n$ tal que si el tamaño de la muestra es mayor que

n

$n$ , entonces la probabilidad de que la correlación sea mayor que

ϵ

$\epsilon$ es menos que

p

$p$ .

Acumulación

Sí, absolutamente correcto! Traté de mantener mi respuesta lo más simple y conceptual posible.

Dave

1

Tal vez esto sea útil para algunas personas que comparten la misma comprensión intuitiva. Todos hemos visto algo como esto:

Estos datos son presumiblemente independientes pero exhiben claramente una correlación ( $r = 0.66$ ) "¡Pensé que la independencia implica una correlación cero!" dice el estudiante

Como otros ya han señalado, los valores de la muestra están correlacionados, pero eso no significa que la población tenga una correlación distinta de cero.

Por supuesto, estos dos deberían ser independientes: dado que Nicolas Cage apareció en un récord de 10 películas este año, no deberíamos cerrar la piscina local durante el verano por motivos de seguridad.

Pero cuando verificamos cuántas personas se ahogan este año, hay una pequeña posibilidad de que un récord de 1000 personas se ahogue este año.

Obtener tal correlación es poco probable. Tal vez uno de cada mil. Pero es posible, a pesar de que los dos son independientes. Pero este es solo un caso. Considere que hay millones de eventos posibles para medir por ahí, y puede ver la posibilidad de que las probabilidades de que ocurran algunos dos para dar una alta correlación es bastante alta (de ahí la existencia de gráficos como el anterior).

Otra forma de verlo es que garantizar que dos eventos independientes siempre den valores no correlacionados es en sí mismo restrictivo. Dados dos dados independientes, y los resultados del primero, hay un cierto conjunto (considerable) de resultados para el segundo dado que dará una correlación distinta de cero. Restringir los resultados del segundo dado para dar una correlación cero con el primero es una clara violación de la independencia, ya que las tiradas del primer dado ahora están afectando la distribución de los resultados.

Simon Alford
fuente

¿Por qué la independencia implica correlación cero?

Respuestas: