En primer lugar, no estoy preguntando esto:
¿Por qué la correlación cero no implica independencia?
Esto se aborda (bastante bien) aquí: /math/444408/why-does-zero-correlation-not-imply-independence
Lo que pregunto es lo contrario ... digamos que dos variables son completamente independientes entre sí.
¿No podrían tener una pequeña correlación por accidente?
¿No debería ser ... la independencia implica muy poca correlación?
correlation
mathematical-statistics
covariance
independence
Joshua Ronis
fuente
fuente
Respuestas:
Según la definición del coeficiente de correlación, si dos variables son independientes, su correlación es cero. Por lo tanto, no podría tener ninguna correlación por accidente.
SiX e Y son independientes, significa E[XY]=E[X]E[Y] . Por lo tanto, el numerador de ρX,Y es cero en este caso.
Entonces, si no cambia el significado de la correlación, como se menciona aquí, no es posible. A menos que, aclare su definición de cuál es la correlación.
fuente
No hay nada especial en la distribución exponencial a este respecto. Cambiar la distribución principal a normal estándar dio los siguientes resultados.
fuente
Respuesta simple: si 2 variables son independientes, entonces la correlación de la población es cero, mientras que la correlación de la muestra generalmente será pequeña, pero no nula.
Esto se debe a que la muestra no es una representación perfecta de la población.
Cuanto más grande sea la muestra, mejor representa a la población, por lo que menor será la correlación que tendrá. Para una muestra infinita , la correlación sería cero.
fuente
Tal vez esto sea útil para algunas personas que comparten la misma comprensión intuitiva. Todos hemos visto algo como esto:
Estos datos son presumiblemente independientes pero exhiben claramente una correlación (r = 0,66 ) "¡Pensé que la independencia implica una correlación cero!" dice el estudiante
Como otros ya han señalado, los valores de la muestra están correlacionados, pero eso no significa que la población tenga una correlación distinta de cero.
Por supuesto, estos dos deberían ser independientes: dado que Nicolas Cage apareció en un récord de 10 películas este año, no deberíamos cerrar la piscina local durante el verano por motivos de seguridad.
Pero cuando verificamos cuántas personas se ahogan este año, hay una pequeña posibilidad de que un récord de 1000 personas se ahogue este año.
Obtener tal correlación es poco probable. Tal vez uno de cada mil. Pero es posible, a pesar de que los dos son independientes. Pero este es solo un caso. Considere que hay millones de eventos posibles para medir por ahí, y puede ver la posibilidad de que las probabilidades de que ocurran algunos dos para dar una alta correlación es bastante alta (de ahí la existencia de gráficos como el anterior).
Otra forma de verlo es que garantizar que dos eventos independientes siempre den valores no correlacionados es en sí mismo restrictivo. Dados dos dados independientes, y los resultados del primero, hay un cierto conjunto (considerable) de resultados para el segundo dado que dará una correlación distinta de cero. Restringir los resultados del segundo dado para dar una correlación cero con el primero es una clara violación de la independencia, ya que las tiradas del primer dado ahora están afectando la distribución de los resultados.
fuente