Existen varias técnicas populares de remuestreo, que a menudo se usan en la práctica, como bootstrapping, permutation test, jackknife, etc. Hay numerosos artículos y libros que analizan estas técnicas, por ejemplo Philip I Good (2010) Permutation, Parametric y Bootstrap Tests de hipótesis
Mi pregunta es qué técnica de remuestreo ha ganado más popularidad y es más fácil de implementar. ¿Pruebas de bootstrapping o permutación?
Respuestas:
Ambos son populares y útiles, pero principalmente para diferentes usos. La prueba de permutación es mejor para probar hipótesis y el bootstrapping es mejor para estimar intervalos de confianza.
Las pruebas de permutación prueban una hipótesis nula específica de intercambiabilidad, es decir, que solo el muestreo aleatorio / aleatorización explica la diferencia observada. Este es el caso común de cosas como las pruebas t y ANOVA. También se puede ampliar a cosas como series de tiempo (hipótesis nula de que no hay correlación serial) o regresión (hipótesis nula de no relación). Las pruebas de permutación pueden usarse para crear intervalos de confianza, pero requieren muchos más supuestos, que pueden ser razonables o no (por lo que se prefieren otros métodos). La prueba de Mann-Whitney / Wilcoxon es en realidad un caso especial de una prueba de permutación, por lo que son mucho más populares de lo que algunos creen.
El bootstrap estima la variabilidad del proceso de muestreo y funciona bien para estimar los intervalos de confianza. Puede hacer una prueba de hipótesis de esta manera, pero tiende a ser menos potente que la prueba de permutación para los casos en los que se cumplen los supuestos de la prueba de permutación.
fuente
Si está utilizando R, entonces todos son fáciles de implementar. Ver, por ejemplo, http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
Diría que hay una tercera técnica importante: la validación cruzada. Esto se utiliza para probar el poder predictivo de los modelos.
fuente
Bootstrapping se trata principalmente de generar grandes errores estándar de muestra o intervalos de confianza; Las pruebas de permutación, como su nombre indica, son principalmente sobre pruebas. (Sin embargo, cada uno puede adaptarse para ser utilizado para la otra tarea).
¿Cómo juzgaríamos la popularidad? Si observamos campos como la psicología y la educación, podemos encontrar un gran uso de pruebas basadas en rangos como Wilcoxon-Mann-Whitney, la prueba de rango firmada, las pruebas de correlación de rango, etc. Estas son todas las pruebas de permutación (por otro lado, hay muchos casos en los que las pruebas de permutación de los datos originales podrían usarse en su lugar, pero generalmente no lo son). En algunas otras áreas de aplicación, las pruebas de permutación rara vez se usarían, pero la popularidad variable en todas las áreas de aplicación a veces dice más sobre la cultura local de cualquier área que sobre la utilidad.
En muchos casos, especialmente los más simples, son casi exactamente igual de fáciles: es esencialmente la diferencia entre el muestreo con reemplazo y el muestreo sin reemplazo.
En algunos de los casos más complejos, el arranque es más fácil de hacer porque (mirándolo desde el punto de vista de la prueba) funciona bajo la alternativa en lugar de la nula (al menos las implementaciones ingenuas lo serán, haciéndolo para que funcione bien puede ser mucho más complicado)
Las pruebas de permutación exactas pueden ser difíciles en los casos más complejos porque una cantidad intercambiable adecuada puede no ser observable; a menudo, una cantidad casi intercambiable puede sustituirse al precio de exactitud (y de ser verdaderamente libre de distribución).
El bootstrapping esencialmente abandona el criterio de exactitud correspondiente (cobertura exacta de los intervalos) desde el principio, y en su lugar se enfoca en tratar de obtener una cobertura razonablemente buena en muestras grandes (a veces con menos éxito del que puede entenderse; si no lo ha verificado, don no asuma que su bootstrap le da la cobertura que espera).
Las pruebas de permutación pueden funcionar en muestras pequeñas (aunque la elección limitada de los niveles de significancia a veces puede ser un problema con muestras muy pequeñas), mientras que el bootstrap es una técnica de muestra grande (si la usa con muestras pequeñas, en muchos casos los resultados pueden no Ser muy útil).
Raramente los veo como competidores en el mismo problema, y los he usado en problemas reales (diferentes), a menudo habrá una elección natural a la que mirar.
Hay beneficios para ambos, pero ninguno en una panacea. Si espera reducir el esfuerzo de aprendizaje al centrarse en uno solo de ellos, es probable que se decepcione: ambos son partes esenciales de la caja de herramientas de remuestreo.
fuente