Las pruebas de permutación son pruebas de significación basadas en muestras de permutación extraídas al azar de los datos originales. Las muestras de permutación se extraen sin reemplazo, en contraste con las muestras de bootstrap, que se extraen con reemplazo. Aquí hay un ejemplo que hice en R de una prueba de permutación simple. (Sus comentarios son bienvenidos)
Las pruebas de permutación tienen grandes ventajas. No requieren formas de población específicas como la normalidad. Se aplican a una variedad de estadísticas, no solo a estadísticas que tienen una distribución simple bajo la hipótesis nula. Pueden dar valores p muy precisos, independientemente de la forma y el tamaño de la población (si se usan suficientes permutaciones).
También he leído que a menudo es útil dar un intervalo de confianza junto con una prueba, que se crea utilizando el remuestreo de arranque en lugar del muestreo de permutación.
¿Podría explicar (o simplemente dar el código R) cómo se construye un intervalo de confianza (es decir, la diferencia entre las medias de las dos muestras en el ejemplo anterior)?
EDITAR
Después de buscar en Google, encontré esta lectura interesante .
fuente
sample
yreplace=TRUE
? ¿Hay alguna razón para usar un paquete comoboot
?sum(b$t>=b$t0)/b$R
Como una prueba de permutación es una prueba exacta , le da un valor p exacto. Arrancar una prueba de permutación no tiene sentido.
Además de eso, determinar un intervalo de confianza alrededor de una estadística de prueba tampoco tiene sentido, ya que se calcula en función de su muestra y no de una estimación. Usted determina los intervalos de confianza en torno a estimaciones como medias y me gusta, pero no alrededor de estadísticas de prueba.
Las pruebas de permutación no deben usarse en conjuntos de datos que sean tan grandes que ya no pueda calcular todas las permutaciones posibles. Si ese es el caso, utilice un procedimiento de arranque para determinar el límite para la estadística de prueba que utiliza. Pero, de nuevo, esto tiene poco que ver con un intervalo de confianza del 95%.
Un ejemplo: utilizo aquí la estadística T clásica, pero utilizo un enfoque simple de arranque para el cálculo de la distribución empírica de mi estadística. Basado en eso, calculo un valor p empírico:
Tenga en cuenta que esta prueba de 2 lados solo funciona para distribuciones simétricas. Las distribuciones no simétricas generalmente solo se prueban de un lado.
EDITAR:
OK, entendí mal la pregunta. Si desea calcular un intervalo de confianza en la estimación de la diferencia, puede usar el código mencionado aquí para el arranque dentro de cada muestra. Eso sí, esta es una estimación sesgada: generalmente esto da un IC que es demasiado pequeño. También vea el ejemplo dado allí como una razón por la que tiene que usar un enfoque diferente para el intervalo de confianza y el valor p.
fuente
x[6:11]
refiere al argumentox
de la función anónima dentro de la aplicación. Puede ser confuso, pero su edición dio resultados muy incorrectos. Comente sobre lo que cree que debería ser antes de editar el código. Me ahorra una reversión. Para evitar más confusión, cambié esox
ai
Del código de Joris Meys en las respuestas, pero con modificaciones para permitir que se aplique en más de una situación:
Intenté editar el otro pero no tuve tiempo de terminar y por alguna razón no puedo comentar (tal vez porque esta es una pregunta vieja).
fuente