¿Cuándo es apropiada la transformación z de Fisher?

13

Quiero probar una correlación de muestra r para significancia, usando valores p, es decir

H0:ρ=0,H1:ρ0.

He entendido que puedo usar la transformación z de Fisher para calcular esto

zobs=n32ln(1+r1r)

y encontrar el valor p por

p=2P(Z>zobs)

utilizando la distribución normal estándar.

Mi pregunta es: ¿qué tan grande debería ser n para que esta sea una transformación apropiada? Obviamente, n debe ser mayor que 3. Mi libro de texto no menciona ninguna restricción, pero en la diapositiva 29 de esta presentación dice que n debe ser mayor que 10. Para los datos que consideraré, tendré algo como 5n10 .

Gunnhild
fuente
2
La página de Wikipedia enumera el error estándar de que viene dado por 1 / zobs dondeNes el tamaño de la muestra. Por lo tanto, necesitará al menos 4 pares completos. No conozco ninguna restricción más allá de eso con respecto al tamaño de la muestra. 1/N3N
COOLSerdash
8
No estoy seguro de cuánto confiar en una presentación de alguien que no puede deletrear su propio nombre universitario. Más en serio, tenga cuidado con todos los consejos que implican que las cosas están bien por encima de un determinado tamaño de muestra y de lo contrario. Es una cuestión de calidad de aproximación que aumenta suavemente con el tamaño de la muestra y también dependiendo de la distribución de los datos. Un consejo simple es ser muy cauteloso, trazar todo y verificar con intervalos de confianza bootstrap.
Nick Cox
1
La diapositiva 17 describe una prueba t para el caso especial . ρ=0
whuber

Respuestas:

8

Para preguntas como estas, simplemente ejecutaría una simulación y vería si los valores comportan como espero. El valor p es la probabilidad de extraer aleatoriamente una muestra que se desvía al menos tanto de la hipótesis nula como de los datos que observó si la hipótesis nula es verdadera. Entonces, si tuviéramos muchas de esas muestras, y una de ellas tuviera un valor p de .04, entonces esperaríamos que el 4% de esas muestras tuvieran un valor inferior a .04. Lo mismo es cierto para todos los demás valores p posibles .pppp

A continuación se muestra una simulación en Stata. Los gráficos verifican si los valores miden lo que se supone que miden, es decir, muestran cuánto se desvía la proporción de muestras con valores p inferiores al valor p nominal del valor p nominal . Como puede ver, esa prueba es algo problemática con un número tan pequeño de observaciones. Si es o no demasiado problemático para su investigación es su decisión.pppp

clear all
set more off

program define sim, rclass
    tempname z se
    foreach i of numlist 5/10 20(10)50 {
        drop _all
        set obs `i'
        gen x = rnormal()
        gen y = rnormal()
        corr x y 
        scalar `z'  = atanh(r(rho))
        scalar `se' = 1/sqrt(r(N)-3)
        return scalar p`i' = 2*normal(-abs(`z'/`se'))
    }
end

simulate p5 =r(p5)  p6 =r(p6)  p7  =r(p7)     ///
         p8 =r(p8)  p9 =r(p9)  p10 =r(p10)    ///
         p20=r(p20) p30=r(p30) p40 =r(p40)    ///
         p50=r(p50), reps(200000) nodots: sim 

simpplot p5 p6 p7 p8 p9 p10, name(small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal)) 

enter image description here

simpplot p20 p30 p40 p50 , name(less_small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal)) 

enter image description here

Maarten Buis
fuente
1
Intenta restar 2.5 en lugar de 3 de :-). n
whuber
5

FWIW Veo la recomendación en Myers & Well (diseño de investigación y análisis estadísticos, segunda edición, 2003, p. 492). La nota al pie dice:N10

Estrictamente hablando, la transformación está sesgada por una cantidad r / ( 2 ( N - 1 ) ) : ver Pearson y Hartley (1954, p. 29). Este sesgo generalmente será insignificante a menos que N sea ​​pequeño y ρ sea ​​grande, y lo ignoramos aquí.Zr/(2(N1))Nρ

Burak Aydin
fuente
3
Esto parece ser una respuesta para mí.
gung - Restablece a Monica
1

No estoy seguro si una transformación de Fisher es apropiada aquí. Para H 0 : ρ = 0 (NB: la hipótesis nula es para la población ρ , no la muestra r ), la distribución de muestreo del coeficiente de correlación ya es simétrica, por lo que no es necesario reducir la asimetría, que es lo que pretende hacer z de Fisher , y puedes usar la aproximación t de Student .zH0:ρ=0ρrzt

Suponiendo que quiere decir , entonces la asimetría de ese PDF dependerá del valor propuesto de ρ 0 , por lo que no habría una respuesta general de cuán grande debería ser n . Además, los valores mínimos de n dependerán del nivel de significancia α hacia el que esté trabajando. No mencionaste su valor.H0:ρ=ρ00ρ0nnα

El punto de Nick es justo: las aproximaciones y recomendaciones siempre están operando en alguna área gris.

n(tα/2s/ϵ)2tsn(1.96s/ϵ)2

Lucozade
fuente
44
zzz
1
zH0:ρ=ρ00t distribution?
Gunnhild
3
Question is the wrong way round, I think. Fisher's z is a better method for confidence intervals and for inference generally. Most software, I guess, uses a t-based calculation for testing ρ=0. If in doubt it could be really important to show whether using one method makes a difference for your data. So, if methods agree, there is no problem.
Nick Cox
1
You can read more about Fisher's z transformation here: stata-journal.com/article.html?article=pr0041
Maarten Buis
Ok, thank you @NickCox! @Lucozade, what is the ϵ in the bound on n ?
Gunnhild