Distribución de la correlación muestral

8

Supongamos que tengo una gran población de puntos de datos y que la correlación de Pearson es(X,y)

corr(X,Y)=ρ

¿Qué puedo decir razonablemente sobre la correlación que espero observar en una muestra de tamaño ? Si la correlación de la muestra es , ¿cuál es aproximadamente la extensión es ? ¿ sesgado?norteρsρsρs

Si hacemos algunas suposiciones como la normalidad, ¿podemos calcular la función de probabilidad exacta de como una función de ?ρsρ

(En última instancia, me pregunto sobre el problema de si una alta correlación observada es una casualidad o no, y todo lo que tengo es el tamaño de la muestra y la correlación).

Mark Eichenlaub
fuente
2
onestop proporcionó una respuesta que con suerte le dará lo suficiente para continuar. Si realmente quiere saber acerca de la distribución del coeficiente de correlación de la muestra en sí, entonces la referencia definitiva es: Hotelling, H. (1953). Nueva luz sobre el coeficiente de correlación y sus transformaciones. Revista de la Royal Statistical Society, Serie B, 15, 193-232. Tenga en cuenta que esto no es una lectura ligera.
Wolfgang
No creo que tus gráficos sean correctos. Acabo de dibujar algunos gráficos de la distribución derivados de la fórmula de Fisher que muestran que está correctamente centrada. De hecho, es bastante obvio por la fórmula que debe ser asintóticamente imparcial para . ¿Podría publicar el núcleo matemático de su código? norte
parada
@onestop Seguro. Se agregó código de Mathematica.
Mark Eichenlaub
No es así como se transforman los archivos PDF, es un poco más complicado. Ver en.wikipedia.org/wiki/…
para
@onestop Por supuesto. Gracias. Me di cuenta de que había un problema después de publicar el código, pero me habría llevado un tiempo descubrir cómo solucionarlo.
Mark Eichenlaub

Respuestas:

7

Para citar el artículo de Wikipedia sobre la transformación de Fisher :

Si tiene una distribución normal bivariada, y si los pares ( X i , Y i ) utilizados para formar el coeficiente de correlación de la muestra r son independientes para i = 1 , ... , n , entonces z = 1(X,Y)(Xyo,Yyo)ryo=1,...,norte,se distribuye aproximadamente normalmente con la media 1

z=12En1+r1-r=arctanh(r)
y error estándar 112En1+ρ1-ρ, dondeNes el tamaño de la muestra.1norte-3,norte
una parada
fuente
Lamento no aceptar. Cuando intenté usar esta respuesta, descubrí que no funcionaba para la situación que me interesa (coeficientes de correlación altos).
Mark Eichenlaub
@ Mark, hice algunas simulaciones con R, todo tiene bastante buena correlación 0.75
mpiktas
@mpiktas Sí, tienes razón, gracias. Cometí un error en mi cuaderno.
Mark Eichenlaub
1
La distribución exacta es conocida: está dada por una función hipergeométrica .
whuber