¿Por qué los datos deben ser muestreados bajo hipótesis nula en la prueba de hipótesis bootstrap?

11

La aplicación directa de los métodos de bootstrap a la prueba de hipótesis es estimar el intervalo de confianza del estadístico de prueba al calcularlo repetidamente en las muestras de bootstrap (deje que el estadístico muestreado de bootstrap se llame ). Rechazamos si el parámetro hipotético (que generalmente es igual a 0) se encuentra fuera del intervalo de confianza de . $\hat{\theta}$ $\hat{\theta}$ $\hat{\theta^*}$ $H_0$ $\theta_0$ $\hat{\theta^*}$

He leído que este método carece de poder. En el artículo de Hall P. y Wilson SR "Dos pautas para la prueba de hipótesis Bootstrap" (1992) está escrito como la primera pauta, que uno debería volver a muestrear , no the . Y esta es la parte que no entiendo. $\hat{\theta^*} - \hat{\theta}$ $\hat{\theta^*} - \theta_0$

¿No es que el mide solo el sesgo del estimador ? Para estimadores imparciales, los intervalos de confianza de esta expresión siempre deben ser más pequeños que , pero no puedo ver, ¿qué tiene que ver con las pruebas para ? No hay ningún lugar donde pueda ver que ponemos información sobre el . $\hat{\theta^*} - \hat{\theta}$ $\hat{\theta^*}$ $\hat{\theta^*} - \theta_0$ $\hat{\theta}=\theta_0$ $\theta_0$

Para aquellos de ustedes que no tienen acceso a este artículo, esta es una cita del párrafo relevante que viene inmediatamente después de la tesis:

Para apreciar por qué esto es importante, observe que la prueba implicará rechazar si está en Es demasiado largo." Si está muy lejos del valor verdadero de (es decir, si es groseramente el error), entonces la diferencia nunca se verá demasiado grande en comparación con la distribución de arranque no paramétrica de. Una comparación más significativa es con la distribución de. De hecho, si el verdadero valor de es $H_0$ $\left| \hat{\theta} - \theta_0\right|$ $\theta_0$ $\theta$ $H_0$ $\left|\hat{\theta} - \theta_0 \right|$ $\left| \hat{\theta} - \theta_0\right|$ $\left| \hat{\theta^*} - \hat{\theta}\right|$ $\theta$ $\theta_1$ entonces el poder de la prueba de arranque aumenta a 1 comoaumenta, siempre que la prueba se base en remuestreo , pero la potencia disminuye al máximo al nivel de significancia (a medida que aumenta) si la prueba se basa en el remuestreo $\left|\theta_1 - \theta_0\right|$ $\left| \hat{\theta^*} - \hat{\theta}\right|$ $\left|\theta_1 - \theta_0\right|$ $\left|\hat{\theta} - \theta_0\right|$

hypothesis-testing bootstrap Adam Ryczkowski
fuente

7

Este es el principio de analogía bootstrap. La distribución verdadera subyacente (desconocida) produjo una muestra a mano con cdf , que a su vez produjo la estadística para algunos funcionales . Su idea de usar el bootstrap es hacer declaraciones sobre la distribución de muestreo basada en una distribución conocida , donde intenta usar un protocolo de muestreo idéntico (que es exactamente posible solo para datos iid; los datos dependientes siempre conducen a limitaciones en cómo se puede reproducir con precisión el proceso de muestreo) y aplicar la misma funcional . Lo demostré en otra publicación. $F$ $x_1, \ldots, x_n$ $F_n$ $\hat\theta=T(F_n)$ $T(\cdot)$ $\tilde F$ $T(\cdot)$ con (lo que creo que es) un diagrama ordenado. Entonces, el análogo de bootstrap de la desviación (muestreo + sistemática) , la cantidad de su interés central, es la desviación de la réplica de bootstrap de lo que se sabe que es cierto para la distribución , el proceso de muestreo que aplicó y el funcional , es decir, su medida de tendencia central es . Si usó la rutina de arranque no paramétrica estándar con reemplazo de los datos originales, su , por lo que su medida de la tendencia central debe ser función de los datos originales. $\hat\theta - \theta_0$ $\hat\theta^*$ $\tilde F$ $T(\cdot)$ $T(\tilde F)$ $\tilde F=F_n$ $T(F_n) \equiv \hat \theta$

Además de la traducción, hay problemas más sutiles en las pruebas de arranque que a veces son difíciles de superar. La distribución de un estadístico de prueba bajo nulo puede ser drásticamente diferente de la distribución del estadístico de prueba bajo la alternativa (por ejemplo, en pruebas en el límite del espacio de parámetros que fallan con el arranque ). Las pruebas simples que aprende en las clases de pregrado como test son invariables bajo shift, pero pensar, "Diablos, simplemente cambio todo" falla una vez que tiene que pasar al siguiente nivel de complejidad conceptual, las pruebas asintóticas . Piense en esto: está probando que , y su observado . Entonces cuando construyes un $t$ $\chi^2$ $\mu=0$ $\bar x=0.78$ $\chi^2$ prueba con el análogo bootstrap , entonces esta prueba tiene una no centralidad incorporada de desde el principio, en lugar de ser una prueba central como es de esperar. Para que la prueba de arranque sea central, realmente debes restar la estimación original. $(\bar x-\mu)^2/(s^2/n) \equiv \bar x^2/(s^2/n)$ $\bar x_*^2/(s_*^2/n)$ $n \bar x^2/s^2$

Las pruebas son inevitables en contextos multivariados, que van desde Pearson para tablas de contingencia hasta el arranque de Bollen-Stine del estadístico de prueba en modelos de ecuaciones estructurales. El concepto de desplazamiento de la distribución es extremadamente difícil de definir bien en estas situaciones ... aunque en el caso de las pruebas en las matrices de covarianza multivariadas, esto se puede hacer mediante una rotación adecuada . $\chi^2$ $\chi^2$

StasK
fuente

Gracias. Hay una cosa que todavía no entiendo: ¿dónde ponemos información sobre en el arranque? Donde es falso, podría estar considerablemente alejado de la distribución verdadera.

θ_{0}

$\theta_0$

H_{0}

$H_0$

θ_{0}

$\theta_0$

Adam Ryczkowski

Calcula el valor p bajo nulo, por lo que debería considerar el caso cuando ajusta al nulo. Por supuesto, vale la pena considerar la alternativa, pero eso es ... wow ... eso sería un uso avanzado de la metodología de prueba bootstrap.

θ_{0}

$\theta_0$

StasK el

3

OK, lo tengo Gracias, StasK, por tan buena respuesta. Lo mantendré aceptado para que otros lo aprendan, pero en mi caso particular me faltaba un hecho muy simple:

El procedimiento de bootstrap de acuerdo con las pautas de Hall & Wilson para la prueba de media simple de una muestra es el siguiente (en pseudocódigo inspirado en R):

1function(data, $\theta_0$ ) {
2 $\hat{\theta} \leftarrow$ t.test(data, mu = $\theta_0$ )$statistic
3 count $\leftarrow 0$
4for(i in 1:1000){
5 bdata $\leftarrow$ sample(data)
6 $\hat{\theta^*} \leftarrow$ t.test(bdata, mu = $\hat{\theta}$ )$statistic
7 if ( $\hat{\theta^*} \le \hat{\theta}$ ) count++
8 }
9 count/1000
10 }

La parte que me perdí fue que el se "usó" en línea (donde establecemos la referencia ). $\theta_0$ 2 $\hat{\theta}$

Es interesante notar que en la línea 2y 6podríamos usar igualmente fácilmente en p.valuelugar de statistic. En ese caso, también debemos cambiar el en en línea . $\le$ $\ge$ 7

Adam Ryczkowski
fuente

Voté antes, pero luego me di cuenta de que esto es realmente incorrecto. De acuerdo con Hall y Wilson (Sección 2, pág. 278), es un estimador de , no el estadístico de prueba como usted ha mostrado. La forma en que entra en juego es que formamos una distribución muestreada de , luego veremos si se ve "extremo" en comparación con la distribución muestreada.

\hat{θ}

$\widehat{\theta}$

θ

$\theta$

θ_{0}

$\theta_0$

({\hat{θ}}^{*} - \hat{θ})

$( \widehat{\theta}^{*} - \widehat{\theta} )$

(\hat{θ} - θ_{0})

$( \widehat{\theta} - \theta_0 )$

medio pase el

1

Quizás útil: Michael Chernick proporcionó una intuición sucinta en respuesta a mi pregunta relacionada aquí. stats.stackexchange.com/questions/289236/… )

medio pase el

¿Por qué los datos deben ser muestreados bajo hipótesis nula en la prueba de hipótesis bootstrap?

Respuestas: