Usando bootstrap calculo p valores de pruebas de significación usando dos métodos:
- remuestreo bajo la hipótesis nula y contando los resultados al menos tan extremos como el resultado proveniente de los datos originales
- remuestreo bajo la hipótesis alternativa y contando los resultados al menos tan distantes del resultado original como el valor correspondiente a la hipótesis nula
Creo que el primer enfoque es completamente correcto ya que sigue la definición del valor p. Estoy menos seguro sobre el segundo, pero generalmente da resultados muy similares y me recuerda una prueba de Wald.
Estoy en lo cierto? ¿Son correctos ambos métodos? ¿Son idénticos (para muestras grandes)?
Ejemplos para los dos métodos (ediciones después de las preguntas de DWin y la respuesta de Erik):
Ejemplo 1. Construyamos una prueba bootstrap similar a la prueba T de dos muestras. El método 1 volverá a muestrear a partir de una muestra (obtenida combinando los dos originales). El método 2 volverá a tomar muestras de ambas muestras de forma independiente.Ejemplo 2. Construyamos una prueba bootstrap de correlación entre x₁ ... xₐ e y₁ ... yₐ. El método 1 supondrá que no hay correlación y remuestreo permitiendo pares (xₑ, yₔ) donde e ≠ ə. El Método 2 compilará una muestra de bootstrap de los pares originales (x, y).
Ejemplo 3. Construyamos una prueba de arranque para verificar si una moneda es justa. El Método 1 creará muestras aleatorias configurando Pr (cabeza) = Pr (cola) = ½. El Método 2 volverá a muestrear la muestra de valores experimentales de cabeza / cola y comparará las proporciones con ½.
Respuestas:
El primer enfoque es clásico y confiable, pero no siempre se puede utilizar. Para obtener muestras de arranque asumiendo la hipótesis nula, debe estar dispuesto a asumir una distribución teórica ( esta es su primera opción ) o asumir que su estadística de interés tiene la misma forma de distribución cuando se cambia a la hipótesis nula ( su segunda opción ) Por ejemplo, bajo el supuesto habitual, la distribución t tiene la misma forma cuando se cambia a otra media. Sin embargo, al cambiar la frecuencia nula de 0.5 de una distribución binomial a 0.025 también cambiará la forma.
En mi experiencia, de lo contrario, en el caso de que esté dispuesto a hacer estas suposiciones, a menudo también tiene otras opciones. En su ejemplo 1) donde parece suponer que ambas muestras podrían haber venido de la misma población base, una prueba de permutación sería mejor en mi opinión.
Este es un método muy flexible y aplicable para muchas pruebas. Sin embargo, es muy importante construir buenos intervalos de confianza de arranque y no simplemente usar aproximaciones de Wald o el método de percentil. Alguna información está aquí: intervalo de confianza basado en Bootstrap
fuente