Me gustaría ver una extensión de esta discusión sobre el antiguo debate de chi-sq vs. prueba exacta de Fisher, ampliando un poco el alcance. Hay muchas pruebas de interacciones en una tabla de contingencia, suficientes para hacer que mi cabeza gire. Espero obtener una explicación de qué prueba debo usar y cuándo, y, por supuesto, una explicación de por qué una prueba debe preferirse a otra.
Mi problema actual es el clásico caso , pero las respuestas con respecto a una mayor dimensionalidad son bienvenidas, al igual que los consejos para implementar las diversas soluciones en R, al menos, en los casos en que no es obvio cómo proceder.
A continuación he enumerado todas las pruebas que conozco; Espero que al exponer mis errores puedan corregirse.
. El viejo en espera. Aquí hay tres opciones principales:
- La corrección incorporada en R para tablas 2x2: "la mitad se resta de todas las diferencias ." ¿Debería estar siempre haciendo esto?
- " " Prueba, no estoy seguro de cómo hacer esto en R.
- Simulación del Monte Carlo. ¿Esto es siempre lo mejor? ¿Por qué R no me da df cuando hago esto?
-
- Tradicionalmente se aconseja cuando se espera que cualquier celda sea <4, pero aparentemente algunos disputan este consejo.
- ¿Es la suposición (generalmente falsa) de que los marginales están arreglados realmente el mayor problema con esta prueba?
-
- Otra prueba exacta, excepto que nunca he oído hablar de ella.
Regresión de Poisson
- Una cosa que siempre me confunde acerca de glms es exactamente cómo hacer estas pruebas de significación, por lo que agradecería su ayuda. ¿Es mejor hacer una comparación de modelos anidados? ¿Qué pasa con una prueba de Wald para un predictor particular?
- ¿Realmente debería estar siempre haciendo regresión de Poisson? ¿Cuál es la diferencia práctica entre esto y una ?
fuente
Trataré de abordar algunas de sus preguntas lo mejor que pueda desde mi perspectiva. Primero, la prueba Fisher-Irwin es solo otro nombre para la prueba exacta de Fisher. Excepto por el hecho de que a veces es computacionalmente intenso, generalmente prefiero usar la prueba de Fisher. Si hay algún problema con esta prueba, está condicionando los totales marginales. La belleza de la prueba es que, bajo la hipótesis nula, el conjunto de tablas de contingencia con los mismos totales marginales que la tabla observada tiene una distribución hipergeométrica. Algunas personas argumentan que no ven la razón para restringir la consideración a tablas con los mismos totales marginales.
La prueba de chi-cuadrado de Pearson se usa muy comúnmente para evaluar la asociación en tablas de contingencia. Como muchas otras pruebas, es aproximada y, por lo tanto, el nivel de significación no siempre es preciso. Cochran demostró que en muestras pequeñas cuando algunas células son muy escasas (por ejemplo, que contienen menos de 5 casos en algunas células) la aproximación será pobre.
Hay muchas otras pruebas aproximadas. Por lo general, cuando aplico la prueba de Fisher con SAS obtengo los resultados de todas estas pruebas y generalmente dan casi los mismos resultados. Pero la prueba de Fisher siempre está supeditada a los totales marginales.
Con respecto a la regresión de Poisson, ese es un modelo que relaciona las variables categóricas con los totales de las celdas. Como cualquier modelo, depende de un conjunto de supuestos. Lo más importante es que los recuentos de células siguen una distribución de Poisson, lo que significa que el número medio de recuentos es igual a su varianza. Esto no es generalmente cierto para las distribuciones de recuento celular. En el caso de sobredispersión (varianza mayor que la media), un modelo binomial negativo podría ser más apropiado.
fuente