¿Cuándo es apropiada la transformación z de Fisher?

Quiero probar una correlación de muestra $r$ para significancia, usando valores p, es decir

$H_0: \rho = 0, \; H_1: \rho \neq 0.$

He entendido que puedo usar la transformación z de Fisher para calcular esto

$z_{obs}= \displaystyle\frac{\sqrt{n-3}}{2}\ln\left(\displaystyle\frac{1+r}{1-r}\right)$

y encontrar el valor p por

$p = 2P\left(Z>z_{obs}\right)$

utilizando la distribución normal estándar.

Mi pregunta es: ¿qué tan grande debería ser $n$ para que esta sea una transformación apropiada? Obviamente, $n$ debe ser mayor que 3. Mi libro de texto no menciona ninguna restricción, pero en la diapositiva 29 de esta presentación dice que $n$ debe ser mayor que 10. Para los datos que consideraré, tendré algo como $5 \leq n \leq 10$ .

correlation sample-size fisher-transform Gunnhild
fuente

La página de Wikipedia enumera el error estándar de

que viene dado por

z_{o b s}

$z_{obs}$

donde

es el tamaño de la muestra. Por lo tanto, necesitará al menos 4 pares completos. No conozco ninguna restricción más allá de eso con respecto al tamaño de la muestra.

1 / \sqrt{N - 3}

$1/\sqrt{N-3}$

N

$N$

COOLSerdash

No estoy seguro de cuánto confiar en una presentación de alguien que no puede deletrear su propio nombre universitario. Más en serio, tenga cuidado con todos los consejos que implican que las cosas están bien por encima de un determinado tamaño de muestra y de lo contrario. Es una cuestión de calidad de aproximación que aumenta suavemente con el tamaño de la muestra y también dependiendo de la distribución de los datos. Un consejo simple es ser muy cauteloso, trazar todo y verificar con intervalos de confianza bootstrap.

Nick Cox

La diapositiva 17 describe una prueba t para el caso especial

ρ = 0

$\rho=0$

whuber

Respuestas:

Para preguntas como estas, simplemente ejecutaría una simulación y vería si los valores comportan como espero. El valor es la probabilidad de extraer aleatoriamente una muestra que se desvía al menos tanto de la hipótesis nula como de los datos que observó si la hipótesis nula es verdadera. Entonces, si tuviéramos muchas de esas muestras, y una de ellas tuviera un valor de .04, entonces esperaríamos que el 4% de esas muestras tuvieran un valor inferior a .04. Lo mismo es cierto para todos los demás valores posibles . $p$ $p$ $p$ $p$

A continuación se muestra una simulación en Stata. Los gráficos verifican si los valores miden lo que se supone que miden, es decir, muestran cuánto se desvía la proporción de muestras con valores inferiores al valor nominal del valor nominal . Como puede ver, esa prueba es algo problemática con un número tan pequeño de observaciones. Si es o no demasiado problemático para su investigación es su decisión. $p$ $p$ $p$ $p$

clear all
set more off

program define sim, rclass
    tempname z se
    foreach i of numlist 5/10 20(10)50 {
        drop _all
        set obs `i'
        gen x = rnormal()
        gen y = rnormal()
        corr x y 
        scalar `z'  = atanh(r(rho))
        scalar `se' = 1/sqrt(r(N)-3)
        return scalar p`i' = 2*normal(-abs(`z'/`se'))
    }
end

simulate p5 =r(p5)  p6 =r(p6)  p7  =r(p7)     ///
         p8 =r(p8)  p9 =r(p9)  p10 =r(p10)    ///
         p20=r(p20) p30=r(p30) p40 =r(p40)    ///
         p50=r(p50), reps(200000) nodots: sim 

simpplot p5 p6 p7 p8 p9 p10, name(small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal))

enter image description here

simpplot p20 p30 p40 p50 , name(less_small, replace) ///
    scheme(s2color) ylabel(,angle(horizontal))

enter image description here

Maarten Buis
fuente

Intenta restar 2.5 en lugar de 3 de

:-).

n

$n$

whuber

FWIW Veo la recomendación en Myers & Well (diseño de investigación y análisis estadísticos, segunda edición, 2003, p. 492). La nota al pie dice: $N\ge 10$

Estrictamente hablando, la transformación está sesgada por una cantidad : ver Pearson y Hartley (1954, p. 29). Este sesgo generalmente será insignificante a menos que sea pequeño y sea grande, y lo ignoramos aquí. $Z$ $r/(2(N-1))$ $N$ $\rho$

Burak Aydin
fuente

Esto parece ser una respuesta para mí.

gung - Restablece a Monica

No estoy seguro si una transformación de Fisher es apropiada aquí. Para (NB: la hipótesis nula es para la población , no la muestra ), la distribución de muestreo del coeficiente de correlación ya es simétrica, por lo que no es necesario reducir la asimetría, que es lo que pretende hacer de Fisher , y puedes usar la aproximación de Student . $z$ $H_0: \rho=0$ $\rho$ $r$ $z$ $t$

Suponiendo que quiere decir , entonces la asimetría de ese PDF dependerá del valor propuesto de , por lo que no habría una respuesta general de cuán grande debería ser . Además, los valores mínimos de dependerán del nivel de significancia que esté trabajando. No mencionaste su valor. $H_0: \rho = \rho_0 \not = 0$ $\rho_0$ $n$ $n$ $\alpha$

El punto de Nick es justo: las aproximaciones y recomendaciones siempre están operando en alguna área gris.

$n\geq (t_{\alpha/2} s/\epsilon)^2$ $t$ $s$ $n \geq (1.96 s/\epsilon)^2$

Lucozade
fuente

z

$z$

z

$z$

z

$z$

z

$z$

H_{0} : ρ = ρ_{0} \neq 0

$H_0: \rho = \rho_0 \neq 0$

t

$t$ distribution?

Gunnhild

Question is the wrong way round, I think. Fisher's

z

$z$ is a better method for confidence intervals and for inference generally. Most software, I guess, uses a

t

$t$ -based calculation for testing

ρ = 0

$\rho = 0$ . If in doubt it could be really important to show whether using one method makes a difference for your data. So, if methods agree, there is no problem.

Nick Cox

You can read more about Fisher's

z

$z$ transformation here: stata-journal.com/article.html?article=pr0041

Maarten Buis

Ok, thank you @NickCox! @Lucozade, what is the

ϵ

$\epsilon$ in the bound on

n

$n$ ?

Gunnhild