Calcular el valor p en bootstrap emparejado

Me encontré con un nuevo artículo del grupo Berkeley PNL sobre pruebas estadísticas, Una investigación empírica de significación estadística en PNL .

Hay un seudocódigo para calcular un valor p en el documento, básicamente, la idea es que el conjunto de muestra de $x_1,x_2,...,x_N$ se muestrean con reemplazo de datos $x$ . Entonces

$\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ , dónde $\delta(x_i)$ Es una ganancia métrica.

Pude entender la fórmula para calcular el valor p en las pruebas de significación estadística en papel de Koehn para la evaluación de traducción automática , en la que:

$\text{p-value} = \text{count}(\delta_a(x_i) < \delta_b(x_i))/N$ , dónde $\delta_a$ y $\delta_b$ son la ganancia métrica para el sistema $a$ y $b$ respectivamente.

¿Hay alguna explicación o referencia para la fórmula? $\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ . Los autores también señalaron que si la media de $\delta(x_i)$ es $\delta(x)$ y $\delta(x_i)$ es simétrico, entonces ambas fórmulas anteriores son equivalentes.

hypothesis-testing bootstrap p-value Ke Tran
fuente

Respuestas:

Según tengo entendido al mirar la sección 2, los autores parecen explicar su justificación para la prueba de arranque de la siguiente manera:

"la $x_i$ fueron muestreados de $x$ y su promedio $\delta(x_i)$ no será cero como lo exige la hipótesis nula; el promedio en cambio estará alrededor $\delta(x)$ ... La solución es volver a centrar la media: queremos saber con qué frecuencia $A$ hace más que $\delta(x)$ mejor de lo esperado. Esperamos que venza $B$ por $\delta(x)$ . Por lo tanto, contamos cuántas de las $x_i$ tener $A$ golpeando $B$ por lo menos $\delta(x)$ ".

Los autores quieren probar si la ganancia no es cero, por lo que escriben el valor p $\delta(x_i) < 2\delta(x)$ , que podría reescribirse como $0 < 2\delta(x) - \delta(x_i)$ ; porque $E[\delta(x_i)]=\delta(x)$ el RHS de la desigualdad se convierte en $\delta(x)$ , Cuál es el $H_0$ estaban buscando rechazar.

Sameer
fuente