Bootstrap vs. prueba de hipótesis de permutación

37

Existen varias técnicas populares de remuestreo, que a menudo se usan en la práctica, como bootstrapping, permutation test, jackknife, etc. Hay numerosos artículos y libros que analizan estas técnicas, por ejemplo Philip I Good (2010) Permutation, Parametric y Bootstrap Tests de hipótesis

Mi pregunta es qué técnica de remuestreo ha ganado más popularidad y es más fácil de implementar. ¿Pruebas de bootstrapping o permutación?

Tu.2
fuente
8
La popularidad no es una buena medida de calidad. A juzgar por la cantidad de citas (clientes), McDonalds es un restaurante mucho más popular (¿mejor?) Que cualquier establecimiento de tres estrellas Michelin. Entonces, ¿llevarás a tu próximo orador del seminario a McDonalds?
StasK

Respuestas:

68

Ambos son populares y útiles, pero principalmente para diferentes usos. La prueba de permutación es mejor para probar hipótesis y el bootstrapping es mejor para estimar intervalos de confianza.

Las pruebas de permutación prueban una hipótesis nula específica de intercambiabilidad, es decir, que solo el muestreo aleatorio / aleatorización explica la diferencia observada. Este es el caso común de cosas como las pruebas t y ANOVA. También se puede ampliar a cosas como series de tiempo (hipótesis nula de que no hay correlación serial) o regresión (hipótesis nula de no relación). Las pruebas de permutación pueden usarse para crear intervalos de confianza, pero requieren muchos más supuestos, que pueden ser razonables o no (por lo que se prefieren otros métodos). La prueba de Mann-Whitney / Wilcoxon es en realidad un caso especial de una prueba de permutación, por lo que son mucho más populares de lo que algunos creen.

El bootstrap estima la variabilidad del proceso de muestreo y funciona bien para estimar los intervalos de confianza. Puede hacer una prueba de hipótesis de esta manera, pero tiende a ser menos potente que la prueba de permutación para los casos en los que se cumplen los supuestos de la prueba de permutación.

Greg Snow
fuente
2
Gracias por la respuesta. ¿Por qué el intervalo de confianza de bootstrap es menos poderoso que la prueba de permutación? Cuanto? ¿Se puede caracterizar las situaciones bajo las cuales es significativamente menos poderoso? Parece una ventaja poder mostrar un intervalo de confianza, por lo que, en ese sentido, el bootstrap parece más valioso.
dfrankow
2
@dfrankow, los 2 métodos usan diferentes supuestos. Para muestras grandes y diferencias, ambas estarán bien, pero con muestras / diferencias más pequeñas es más probable que la prueba de permutación encuentre diferencias y sea apropiada. Consulte esta respuesta: stats.stackexchange.com/questions/112147/… para ver ejemplos en los que el bootstrap ni siquiera tiene el tamaño correcto (se rechaza con demasiada frecuencia cuando el valor nulo es verdadero).
Greg Snow
¿No es una prueba de permutación una variación de bootstrapping?
Vicki B
Las pruebas de @VickiB, Bootstrapping y Permutation a menudo se mencionan juntas, pero las muestras de refuerzo con muestras de reemplazo y permutación sin reemplazo, lo que hace una diferencia en lo que pueden hacer y cuán poderosos son.
Greg Snow
8

Mi pregunta es qué técnica de remuestreo ha ganado más popularidad en
Bootstrapping o pruebas de permutación.

  1. Bootstrapping se trata principalmente de generar grandes errores estándar de muestra o intervalos de confianza; Las pruebas de permutación, como su nombre indica, son principalmente sobre pruebas. (Sin embargo, cada uno puede adaptarse para ser utilizado para la otra tarea).

  2. ¿Cómo juzgaríamos la popularidad? Si observamos campos como la psicología y la educación, podemos encontrar un gran uso de pruebas basadas en rangos como Wilcoxon-Mann-Whitney, la prueba de rango firmada, las pruebas de correlación de rango, etc. Estas son todas las pruebas de permutación (por otro lado, hay muchos casos en los que las pruebas de permutación de los datos originales podrían usarse en su lugar, pero generalmente no lo son). En algunas otras áreas de aplicación, las pruebas de permutación rara vez se usarían, pero la popularidad variable en todas las áreas de aplicación a veces dice más sobre la cultura local de cualquier área que sobre la utilidad.

más fácil de implementar?

En muchos casos, especialmente los más simples, son casi exactamente igual de fáciles: es esencialmente la diferencia entre el muestreo con reemplazo y el muestreo sin reemplazo.

En algunos de los casos más complejos, el arranque es más fácil de hacer porque (mirándolo desde el punto de vista de la prueba) funciona bajo la alternativa en lugar de la nula (al menos las implementaciones ingenuas lo serán, haciéndolo para que funcione bien puede ser mucho más complicado)

Las pruebas de permutación exactas pueden ser difíciles en los casos más complejos porque una cantidad intercambiable adecuada puede no ser observable; a menudo, una cantidad casi intercambiable puede sustituirse al precio de exactitud (y de ser verdaderamente libre de distribución).

El bootstrapping esencialmente abandona el criterio de exactitud correspondiente (cobertura exacta de los intervalos) desde el principio, y en su lugar se enfoca en tratar de obtener una cobertura razonablemente buena en muestras grandes (a veces con menos éxito del que puede entenderse; si no lo ha verificado, don no asuma que su bootstrap le da la cobertura que espera).

Las pruebas de permutación pueden funcionar en muestras pequeñas (aunque la elección limitada de los niveles de significancia a veces puede ser un problema con muestras muy pequeñas), mientras que el bootstrap es una técnica de muestra grande (si la usa con muestras pequeñas, en muchos casos los resultados pueden no Ser muy útil).

Raramente los veo como competidores en el mismo problema, y ​​los he usado en problemas reales (diferentes), a menudo habrá una elección natural a la que mirar.

Hay beneficios para ambos, pero ninguno en una panacea. Si espera reducir el esfuerzo de aprendizaje al centrarse en uno solo de ellos, es probable que se decepcione: ambos son partes esenciales de la caja de herramientas de remuestreo.

Glen_b -Reinstate a Monica
fuente
1
¿Podría aclarar qué significa " una cantidad intercambiable adecuada puede ser inobservable "? (+1 obviamente)
usεr11852 dice Reinstate Monic
1
Considere intentar realizar una prueba de permutación en un experimento con dos factores y una covariable (o simplemente considere una regresión con varios predictores). Con independencia y bajo ningún efecto nulo, las observaciones son intercambiables y, por lo tanto, puede probar esa hipótesis, pero no tiene una manera de construir una prueba de permutación de solo los factores (ya que espera que la covariable tenga un efecto y probar que es nulo no es interesante); de manera similar, no puede construir una prueba de permutación de solo uno de los dos factores. ...
ctd
1
ctd ... Hay una cantidad intercambiable obvia si conoce los coeficientes de población que no está probando (y los errores siempre serían intercambiables) pero no puede observar esas cosas. Si sustituye las estimaciones de los coeficientes o de los errores (es decir, los residuos), las cantidades son más intercambiables. Sin embargo, en algunas condiciones particulares, serían aproximadamente intercambiables (algunas personas abogan por hacer precisamente esto) ... y si lo hace, terminará con algo similar a un bootstrap pero con muestreo sin reemplazo en lugar de muestreo con reemplazo.
Glen_b -Reinstala a Monica el
Gracias; Pensaré en esto cuidadosamente. Sospecho que hay algo más profundo para que yo aprenda aquí. :)
usεr11852 dice Reinstate Monic
1
@NULL por alguna razón, perdí su solicitud de referencia. Para un punto de partida, algunas de las referencias aquí deben hacer: davegiles.blogspot.com/2019/04/…
Glen_b -Reinstale a Monica el