Dibujamos muestras, cada una de tamaño , independientemente de una distribución Normal .n ( μ , σ 2 )
De las muestras, elegimos las 2 muestras que tienen la correlación de Pearson más alta (absoluta) entre sí.
¿Cuál es el valor esperado de esta correlación?
Gracias [PD Esto no es tarea]
Respuestas:
Encontré el siguiente artículo, que aborda este problema: Jiang, Tiefeng (2004). Las distribuciones asintóticas de las entradas más grandes de las matrices de correlación de muestras. Los Anales de Probabilidad Aplicada, 14 (2), 865-880
Jiang muestra la distribución asintótica de la estadística, donde es la correlación entre los vectores aleatorios th y th de longitud (con ), esLn=max1≤i<j≤N|ρij| ρij i j n i≠j
Aparentemente, este resultado es válido para
cualquier distribución dedistribución con un número suficiente de momentos finitos ( Editar: Ver el comentario de @ cardinal a continuación). Jiang señala que esta es una distribución de valor extremo Tipo I. La ubicación y la escala sonEl valor esperado de la distribución EV Tipo-I es , donde denota la constante de Euler. Sin embargo, como se señaló en los comentarios, la convergencia en la distribución no garantiza, en sí misma, la convergencia de los medios con la de la distribución limitante.μ+σγ γ
Si pudiéramos mostrar tal resultado en este caso, entonces el valor asintótico esperado deseríanL2n−4logn+log(log(n))
Tenga en cuenta que esto daría el valor asintótico esperado de la correlación cuadrada más grande, mientras que la pregunta solicitó el valor esperado de la correlación absoluta más grande. Así que no está 100% allí, pero cerca.
Hice algunas simulaciones breves que me llevaron a pensar: 1) hay un problema con mi simulación (probable), 2) hay un problema con mi transcripción / álgebra (también probable), o 3) la aproximación no es válida para valores de y I usado. ¿Quizás el OP puede influir en algunos resultados de simulación utilizando esta aproximación?n N
fuente
Además de la respuesta proporcionada por @jmtroos, a continuación están los detalles de mi simulación, y una comparación con la derivación de @ jmtroos de la expectativa de Jiang (2004) , es decir:
Los valores de esta expectativa parecen estar por encima de los valores simulados para pequeño y por debajo para grande y parecen divergir ligeramente a medida que aumenta. Sin embargo, las diferencias disminuyen al aumentar , como cabría esperar ya que el artículo afirma que la distribución es asintótica. He intentado varios . La siguiente simulación usa . Soy bastante nuevo en R, por lo que cualquier sugerencia o sugerencia para mejorar mi código sería bienvenida.N N N n n∈[100,500] n=200
fuente