En el famoso experimento de degustación de té de dama por RA Fisher, se informa a la dama de cuántas tazas de leche primero / té primero hay (4 por cada una de las 8 tazas). Esto respeta el supuesto total marginal fijo de la prueba exacta de Fisher.
Estaba imaginando hacer esta prueba con mi amigo, pero la idea me sorprendió. Si la mujer realmente puede notar la diferencia entre las tazas de leche primero y té primero, debería ser capaz de calcular los totales marginales de las tazas de leche primero / té primero, así como cuáles son cuáles.
Así que aquí está la pregunta: ¿Qué prueba se podría haber utilizado si RA Fisher no hubiera informado a la señora del número total de tazas de leche y té primero?
Respuestas:
Algunos argumentarían que incluso si el segundo margen no está fijado por diseño, lleva poca información sobre la capacidad de la dama para discriminar (es decir, es aproximadamente auxiliar) y debería estar condicionado. La prueba incondicional exacta (propuesta por primera vez por Barnard ) es más complicada porque tiene que calcular el valor p máximo sobre todos los valores posibles de un parámetro molesto, es decir, la probabilidad común de Bernoulli bajo la hipótesis nula. Más recientemente, se ha propuesto maximizar el valor p sobre un intervalo de confianza para el parámetro molesto: ver Berger (1996), "Pruebas más potentes de los valores p del intervalo de confianza", The American Statistician , 50 , 4; Se pueden construir pruebas exactas con el tamaño correcto utilizando esta idea.
La prueba exacta de Fisher también surge como una prueba de aleatorización, en el sentido de Edgington: una asignación aleatoria de los tratamientos experimentales permite que la distribución del estadístico de prueba sobre las permutaciones de estas asignaciones se use para probar la hipótesis nula. En este enfoque, las determinaciones de la dama se consideran fijas (y los totales marginales de las tazas de leche primero y té primero, por supuesto, se conservan por permutación).
fuente
Barnard::barnardw.test()
puede usar aquí? ¿Qué diferencia en la complejidad computacional se puede esperar en la práctica?Exact
. En cuanto a la complejidad computacional, no lo sé, dependerá del algoritmo de maximización utilizado.Hoy, leí los primeros capítulos de "El diseño de experimentos" de RA Fisher, y uno de los párrafos me hizo darme cuenta de la falla fundamental en mi pregunta.
Es decir, incluso si la mujer realmente puede notar la diferencia entre las tazas de leche primero y de té , nunca puedo demostrar que tenga esa habilidad "por una cantidad finita de experimentación". Por esta razón, como experimentadora, debería comenzar asumiendo que ella no tiene una habilidad (hipótesis nula) e intentar desaprobarla. Y el diseño original del experimento (prueba exacta de Fisher) es un procedimiento suficiente, eficiente y justificable para hacerlo.
Aquí está el extracto de "El diseño de experimentos" de RA Fisher:
fuente
La prueba de Barnard se usa cuando el parámetro molesto es desconocido bajo la hipótesis nula.
Sin embargo, en la prueba de degustación de mujeres, se podría argumentar que el parámetro molesto se puede establecer en 0.5 bajo la hipótesis nula (la mujer no informada tiene un 50% de probabilidad de adivinar correctamente una taza).
Luego, el número de conjeturas correctas, bajo la hipótesis nula, se convierte en una distribución binomial: adivinar 8 tazas con un 50% de probabilidad para cada taza.
En otras ocasiones, es posible que no tenga esta probabilidad trivial del 50% para la hipótesis nula. Y sin márgenes fijos, es posible que no sepa cuál debería ser esa probabilidad. En ese caso necesitas la prueba de Barnard.
Incluso si hiciera la prueba de Barnard en la prueba del té de degustación de mujeres, se convertiría en un 50% de todos modos (si el resultado es una suposición correcta) ya que el parámetro molesto con el valor p más alto es 0.5 y daría como resultado la prueba trivial binomial ( en realidad es la combinación de dos pruebas binomiales, una para las cuatro primeras tazas de leche y otra para las cuatro primeras tazas de té).
A continuación se muestra cómo sería para un resultado más complicado (si no todas las suposiciones son correctas, por ejemplo, 2 frente a 4), entonces el conteo de lo que es y lo que no es extremo se vuelve un poco más difícil
(Tenga en cuenta también que la prueba de Barnard usa, en el caso de un resultado 4-2 un parámetro molesto p = 0.686 que podría argumentar que no es correcto, el valor p para una probabilidad del 50% de responder 'té primero' sería 0.08203125. Esto se vuelve aún más pequeño cuando considera una región diferente, en lugar de la basada en la estadística de Wald, aunque definir la región no es tan fácil )
fuente