Número requerido de permutaciones para un valor p basado en permutación

8

Si necesito calcular un valor basado en permutación con nivel de significancia , ¿cuántas permutaciones necesito?pα

Del artículo "Pruebas de permutación para estudiar el rendimiento del clasificador" , página 5:

En la práctica, el límite superior se usa típicamente para determinar el número de muestras requeridas para lograr la precisión deseada de la prueba.1/(2k)

... donde es el número de permutaciones.k

¿Cómo calculo el número de permutaciones requeridas a partir de esta fórmula?

Neptuno
fuente

Respuestas:

12

Admito que el párrafo puede ser confuso.

Al realizar una prueba de permutación, usted estima un valor p. El problema es que la estimación del valor p tiene un error en sí mismo que se calcula como . Si el error es demasiado grande, el valor p no es confiable.p(1p)k

Entonces, ¿cuántas permutaciones k necesita uno para obtener una estimación confiable?

Primero defina su error máximo permitido, también conocido como precisión. Que esta sea . Entonces, un valor p estimado debe estar en el intervalo (ya que p es aproximadamente normal distribuido )P[p3P,p+3P]

Usando el límite superior

El párrafo citado del artículo sugiere utilizar como una estimación del límite superior del error en lugar de . Esto corresponde a un valor p desconocido de p = 0.5 (donde el error es máximo entre todos los ps para una k fija).12kp(1p)k

Por lo tanto: ¿Quieres saber donde k .12kP

<=>14P2k

Pero dado que la fórmula citada representa un límite superior, este enfoque es muy aproximado.

Usando el error en el nivel de significancia

Otro enfoque utiliza el nivel de significancia deseado como p para calcular la precisión requerida. Esto es correcto, porque el error de la p estimada es más importante si estamos cerca del umbral de decisión (que es el nivel de significancia).α

En este caso se quiere saber donde k .α(1α)kP

<=>(α(1α))P2k

Tenga en cuenta que si el verdadero valor p desconocido es claramente mayor que , entonces el error es realmente mayor, por lo que p en ya no se mantiene.α[p3P,p+3P]

Extendiendo el intervalo de confianza

Este enfoque corresponde con el centro del intervalo de confianza justo en el umbral de decisión. Para forzar el límite superior del intervalo de confianza de la p estimada por debajo del umbral de decisión (que es más correcto), uno necesita ...

lα(1α)kP

<=>(l)2(α(1α))P2k

donde l corresponde a (ver de nuevo el gráfico )

| l | confidence interval |
| 1 | ~68 % |
| 2 | ~95 % |
| 3 | ~99 % |

Ejemplos: Sea la precisión deseada P 0.005.

Luego, utilizando el límite superior aproximado, se obtiene .k>=10000

Usando P en y solicitando un intervalo de confianza del 95%, se obtiene .α=0.05k>=7600

Para P = 0.01 en y un intervalo de confianza del 95% se obtiene k> = 396.α=0.01

Finalmente : sugiero sumergirse más profundamente en las simulaciones de Montecarlo. La wikipedia proporciona un comienzo.

steffen
fuente
Gracias, he leído esto: epibiostat.ucsf.edu/biostat/sen/statgen/… y estoy tratando de compararlo con el método escrito por usted. ¿Cuáles son las diferencias en tu opinión?
Neptuno
@Neptuno He actualizado mi respuesta para crear el enlace. La versión extendida ahora es equivalente (dejando de lado , que es una simplificación innecesaria en mi humilde opinión). (1α))
steffen