¿Por qué mi réplica de Silver & Dunlap 1987 no funciona?

8

Estoy tratando de replicar Silver y Dunlap (1987) . Solo estoy comparando el promedio de correlaciones o el promedio de correlaciones de transformación z y la transformación inversa. Parece que no estoy replicando la asimetría en el sesgo que encuentran (las z transformadas de nuevo no están más cerca del valor de la población para mí que rs). ¿Alguna idea? ¿Es posible que la potencia informática de 1987 no haya explorado el espacio lo suficiente?

# Fisher's r2z
fr2z <- atanh
# and back
fz2r <- tanh

# a function that generates a matrix of two correlated variables
rcor <- function(n, m1, m2, var1, var2, corr12){
    require(MASS)
    Sigma <- c(var1, sqrt(var1*var2)*corr12, sqrt(var1*var2)*corr12, var2)
    Sigma <- matrix(Sigma, 2, 2)
    return( mvrnorm(n, c(m1,m2), Sigma, empirical=FALSE) )
    }

Con esta función, es fácil observar un montón de correlaciones (básicamente replicar silver y dunlap 1987) y ver la diferencia entre promediar correlaciones y promediar puntajes z y volver a transformar. Aquí hay solo uno.

r <- 0.9
Y <- replicate(20000, rcor(10, 0, 0, 1, 1, r))
rs <- apply(Y, 3, function(x) cor(x[,1], x[,2]))
mean(rs) - r
zs <- fr2z(rs)
fz2r( mean(zs) ) - r

Simplemente observando el tamaño de la muestra de 10 y las correlaciones de 0.1, 0.5 y 0.9, estos son los resultados.

     rho  r bias   z bias
     0.1  -0.006   0.006
     0.5  -0.024   0.021
     0.9  -0.011   0.011

Y estos se derivan de la Tabla 1 de Silver & Dunlap.

     rho  r bias   z bias
     0.1  -0.007   0.003
     0.5  -0.025   0.001
     0.9  -0.011  -0.007

Estos son resultados bastante diferentes. Desde mi prueba, veo que es solo una cuestión de dirección de sesgo, no de magnitud. Pero, en el artículo publicado, están encontrando mucha menos magnitud con z. No pude encontrar una no replicación publicada.

Juan
fuente
Estoy atrapado en tus dos primeras líneas. No parecen ser la sintaxis correcta de R. También parecen suponer que atanh es su propio inverso, pero no lo es: tanh es el inverso de atanh.
whuber
Son solo errores tipográficos en la pregunta ... corregidos.
Juan
1
Para mí, solo a simple vista, el r biasfor rhode 0.5 en la tabla Silver & Dunlap me parece un valor atípico. Ciertamente no puedo garantizar la calidad de la revista, que parece bastante nueva y un poco áspera, pero encontré este artículo reciente con una búsqueda en Google. Vea, en particular, su Tabla 3 que, nuevamente, a simple vista, parece corroborar sus resultados.
cardenal
1
@whuber: Muy cierto. Sin embargo, el UMVUE de en el caso normal bivariado --- como bien sabrás --- es (bastante) bien conocido por serAquí es el MLE. Algunas veces este estimador aparece bajo la notación . ρ
rΓ((n2)/2)Γ(1/2)Γ((n3)/2)01u1/2(1u)(n5)/21u(1r2)du.
rG(r)
cardenal
1
@whuber: Usted plantea buenos puntos. Tampoco tenía acceso inmediato al documento de S&D, por lo que mis comentarios se han reducido a conjeturas. Si alguna vez nos encontramos en persona, intercambiaré una o dos historias contigo por una cerveza sobre las frustraciones de tratar con aquellos que insisten en promediar correlaciones. Estoy totalmente de acuerdo con sus comentarios al respecto. Dicho esto, puede tener sentido en algunos entornos con los que generalmente estoy menos familiarizado. :)
cardenal

Respuestas:

9

Para mí, la r biasentrada rhode 0.5 en la tabla Silver & Dunlap me parece la más sospechosamente diferente. Sin embargo, dicho esto, no coincide con el valor estimado muy de cerca.

Desafortunadamente, no tengo acceso al artículo de Silver & Dunlap en este momento, pero una búsqueda en Google arrojó un artículo reciente que realiza un estudio similar al que usted ha realizado. Está

RL Gorsuch y CS Lehmann (2010), Coeficientes de correlación: sesgo medio y distorsiones del intervalo de confianza , Journal of Methods and Measurement in the Social Sciences , vol. 1, no. 2, 52-65.

Vea, en particular, su Tabla 3 que, al menos a simple vista, parece corroborar sus resultados.

Ciertamente, no puedo responder por la calidad de la revista (o el artículo completo), que se ve bastante nuevo y un poco áspero en los bordes, en mi opinión. Advertencia lector.

Para un tratamiento en profundidad, más teórico, de la inferencia sobre la correlación (simple, parcial y múltiple) principalmente en un marco normal multivariado, una buena referencia es

FA Graybill, Teoría y aplicación del modelo lineal , Duxbury Press, 1976, Capítulo 11 .

Sin embargo, no se preocupa mucho por el rendimiento de muestras pequeñas o los aspectos aplicados.

cardenal
fuente