Prueba exacta de Fisher y distribución hipergeométrica

Quería entender mejor la prueba exacta del pescador, así que ideé el siguiente ejemplo de juguete, donde f y m corresponde a machos y hembras, y n e y corresponden a "consumo de refrescos" de esta manera:

> soda_gender

    f m
  n 0 5
  y 5 0

Obviamente, esta es una simplificación drástica, pero no quería que el contexto se interpusiera. Aquí supuse que los hombres no beben refrescos y las mujeres beben refrescos, y quería ver si los procedimientos estadísticos llegan a la misma conclusión.

Cuando ejecuto la prueba exacta de Fisher en R, obtengo los siguientes resultados:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0

Aquí, dado que el valor p es 0.007937, concluiríamos que el consumo de géneros y gaseosas están asociados.

Sé que la prueba exacta de Fisher está relacionada con la distribución hipergeomterica. Así que quería obtener resultados similares usando eso. En otras palabras, puede ver estos problemas de la siguiente manera: hay 10 bolas, donde 5 están etiquetadas como "masculinas", y 5 están etiquetadas como "femeninas", y usted saca 5 bolas al azar sin reemplazo, y ve 0 bolas masculinas . ¿Cuál es la posibilidad de esta observación? Para responder a esta pregunta, utilicé el siguiente comando:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

Mis preguntas son: 1) ¿Cómo es que los dos resultados son diferentes? 2) ¿Hay algo incorrecto o no riguroso en mi razonamiento anterior?

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling Alby
fuente

La prueba exacta de Fisher funciona acondicionando los márgenes de la mesa (en este caso, 5 machos y hembras y 5 bebedores y no bebedores de refrescos). Bajo los supuestos de la hipótesis nula, las probabilidades de las celdas para observar a un bebedor de refresco masculino, un bebedor de refresco masculino, un bebedor de refresco femenino o un bebedor de refresco femenino son igualmente probables (0.25) debido a los márgenes totales.

La tabla particular que usó para el FET no tiene una tabla aparte de su inverso, 5 bebedores de refrescos femeninos y 5 bebedores de refrescos masculinos, que es "al menos tan improbable" bajo la hipótesis nula. Entonces notará que duplicar la probabilidad que obtuvo en su densidad hipergeométrica le da el valor p FET.

AdamO
fuente

Las notas de Meng sobre phyper y fisher.test (que hacen lo mismo, pero tienen una interfaz muy diferente) son muy útiles: mengnote.blogspot.qa/2012/12/…

Aditya

Prueba exacta de Fisher y distribución hipergeométrica

Respuestas: