En la prueba exacta de Fisher: ¿Qué prueba hubiera sido apropiada si la mujer no hubiera sabido el número de tazas de leche primero?

18

En el famoso experimento de degustación de té de dama por RA Fisher, se informa a la dama de cuántas tazas de leche primero / té primero hay (4 por cada una de las 8 tazas). Esto respeta el supuesto total marginal fijo de la prueba exacta de Fisher.

Estaba imaginando hacer esta prueba con mi amigo, pero la idea me sorprendió. Si la mujer realmente puede notar la diferencia entre las tazas de leche primero y té primero, debería ser capaz de calcular los totales marginales de las tazas de leche primero / té primero, así como cuáles son cuáles.

Así que aquí está la pregunta: ¿Qué prueba se podría haber utilizado si RA Fisher no hubiera informado a la señora del número total de tazas de leche y té primero?

Alby
fuente
44
Algunos argumentarían que incluso si el segundo margen no está fijado por diseño, lleva poca información sobre la capacidad de la dama de discriminar (es decir, es aproximadamente auxiliar) y debería estar condicionado. La prueba incondicional exacta (propuesta por primera vez por Barnard, creo) es más complicada porque hay que calcular el valor p máximo sobre todos los valores posibles de un parámetro molesto.
Scortchi - Restablece a Monica
44
De hecho, la prueba de Barnard tiene una página de Wikipedia.
Scortchi - Restablece a Monica
@Scortchi, ¿qué más hay para decir? No le agregaría nada (ni lograría decirlo tan clara y sucintamente). A través de sus dos comentarios, creo que tiene una buena respuesta allí.
Glen_b -Reinstale a Monica
1
Hay una discusión que vale la pena mirar (tanto en papel como en discusión) en Yates, F. (1984) "Pruebas de importancia para tablas de contingencia 2 × 2", Journal of the Royal Statistical Society. Serie A (General) , vol. 147, núm. 3, págs. 426-463.
Glen_b -Reinstate Monica
1
121212

Respuestas:

16

Algunos argumentarían que incluso si el segundo margen no está fijado por diseño, lleva poca información sobre la capacidad de la dama para discriminar (es decir, es aproximadamente auxiliar) y debería estar condicionado. La prueba incondicional exacta (propuesta por primera vez por Barnard ) es más complicada porque tiene que calcular el valor p máximo sobre todos los valores posibles de un parámetro molesto, es decir, la probabilidad común de Bernoulli bajo la hipótesis nula. Más recientemente, se ha propuesto maximizar el valor p sobre un intervalo de confianza para el parámetro molesto: ver Berger (1996), "Pruebas más potentes de los valores p del intervalo de confianza", The American Statistician , 50 , 4; Se pueden construir pruebas exactas con el tamaño correcto utilizando esta idea.

La prueba exacta de Fisher también surge como una prueba de aleatorización, en el sentido de Edgington: una asignación aleatoria de los tratamientos experimentales permite que la distribución del estadístico de prueba sobre las permutaciones de estas asignaciones se use para probar la hipótesis nula. En este enfoque, las determinaciones de la dama se consideran fijas (y los totales marginales de las tazas de leche primero y té primero, por supuesto, se conservan por permutación).

Scortchi - Restablece a Monica
fuente
¿Se Barnard::barnardw.test()puede usar aquí? ¿Qué diferencia en la complejidad computacional se puede esperar en la práctica?
krlmlr
No estoy familiarizado con ese paquete, pero la página de ayuda que vincula a referencias exactamente la prueba de la que estaba hablando. Ver también Exact. En cuanto a la complejidad computacional, no lo sé, dependerá del algoritmo de maximización utilizado.
Scortchi - Restablece a Monica
2

Hoy, leí los primeros capítulos de "El diseño de experimentos" de RA Fisher, y uno de los párrafos me hizo darme cuenta de la falla fundamental en mi pregunta.

Es decir, incluso si la mujer realmente puede notar la diferencia entre las tazas de leche primero y de té , nunca puedo demostrar que tenga esa habilidad "por una cantidad finita de experimentación". Por esta razón, como experimentadora, debería comenzar asumiendo que ella no tiene una habilidad (hipótesis nula) e intentar desaprobarla. Y el diseño original del experimento (prueba exacta de Fisher) es un procedimiento suficiente, eficiente y justificable para hacerlo.

Aquí está el extracto de "El diseño de experimentos" de RA Fisher:

Se podría argumentar que si un experimento puede refutar la hipótesis de que el sujeto no posee discriminación sensorial entre dos tipos diferentes de objeto, por lo tanto, debe ser capaz de probar la hipótesis opuesta, de que puede hacer algo de esa discriminación. Pero esta última hipótesis, por razonable o verdadera que sea, no es elegible como una hipótesis nula para ser probada por experimento, porque es inexacta. Si se afirmara que el sujeto nunca se equivocaría en sus juicios, tenemos una hipótesis exacta, y es fácil ver que esta hipótesis podría ser refutada por una sola falla, pero nunca podría ser probada por una cantidad finita de experimentación. .

Alby
fuente
1

La prueba de Barnard se usa cuando el parámetro molesto es desconocido bajo la hipótesis nula.

Sin embargo, en la prueba de degustación de mujeres, se podría argumentar que el parámetro molesto se puede establecer en 0.5 bajo la hipótesis nula (la mujer no informada tiene un 50% de probabilidad de adivinar correctamente una taza).

Luego, el número de conjeturas correctas, bajo la hipótesis nula, se convierte en una distribución binomial: adivinar 8 tazas con un 50% de probabilidad para cada taza.


En otras ocasiones, es posible que no tenga esta probabilidad trivial del 50% para la hipótesis nula. Y sin márgenes fijos, es posible que no sepa cuál debería ser esa probabilidad. En ese caso necesitas la prueba de Barnard.


Incluso si hiciera la prueba de Barnard en la prueba del té de degustación de mujeres, se convertiría en un 50% de todos modos (si el resultado es una suposición correcta) ya que el parámetro molesto con el valor p más alto es 0.5 y daría como resultado la prueba trivial binomial ( en realidad es la combinación de dos pruebas binomiales, una para las cuatro primeras tazas de leche y otra para las cuatro primeras tazas de té).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

A continuación se muestra cómo sería para un resultado más complicado (si no todas las suposiciones son correctas, por ejemplo, 2 frente a 4), entonces el conteo de lo que es y lo que no es extremo se vuelve un poco más difícil

(Tenga en cuenta también que la prueba de Barnard usa, en el caso de un resultado 4-2 un parámetro molesto p = 0.686 que podría argumentar que no es correcto, el valor p para una probabilidad del 50% de responder 'té primero' sería 0.08203125. Esto se vuelve aún más pequeño cuando considera una región diferente, en lugar de la basada en la estadística de Wald, aunque definir la región no es tan fácil )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
Sexto Empírico
fuente