Tablas de contingencia: ¿qué pruebas hacer y cuándo?

17

Me gustaría ver una extensión de esta discusión sobre el antiguo debate de chi-sq vs. prueba exacta de Fisher, ampliando un poco el alcance. Hay muchas pruebas de interacciones en una tabla de contingencia, suficientes para hacer que mi cabeza gire. Espero obtener una explicación de qué prueba debo usar y cuándo, y, por supuesto, una explicación de por qué una prueba debe preferirse a otra.

Mi problema actual es el clásico caso , pero las respuestas con respecto a una mayor dimensionalidad son bienvenidas, al igual que los consejos para implementar las diversas soluciones en R, al menos, en los casos en que no es obvio cómo proceder.norte×metro

A continuación he enumerado todas las pruebas que conozco; Espero que al exponer mis errores puedan corregirse.

  • χ2 . El viejo en espera. Aquí hay tres opciones principales:

    • La corrección incorporada en R para tablas 2x2: "la mitad se resta de todas las diferencias ." ¿Debería estar siempre haciendo esto?El |O-miEl |
    • " " Prueba, no estoy seguro de cómo hacer esto en R.norte-1χ2
    • Simulación del Monte Carlo. ¿Esto es siempre lo mejor? ¿Por qué R no me da df cuando hago esto?
  • Prueba exacta de Fisher .

    • Tradicionalmente se aconseja cuando se espera que cualquier celda sea <4, pero aparentemente algunos disputan este consejo.
    • ¿Es la suposición (generalmente falsa) de que los marginales están arreglados realmente el mayor problema con esta prueba?
  • Examen exacto de Barnard

    • Otra prueba exacta, excepto que nunca he oído hablar de ella.
  • Regresión de Poisson

    • Una cosa que siempre me confunde acerca de glms es exactamente cómo hacer estas pruebas de significación, por lo que agradecería su ayuda. ¿Es mejor hacer una comparación de modelos anidados? ¿Qué pasa con una prueba de Wald para un predictor particular?
    • ¿Realmente debería estar siempre haciendo regresión de Poisson? ¿Cuál es la diferencia práctica entre esto y una ?χ2
JVMcDonnell
fuente

Respuestas:

13

Esta es una buena pregunta, pero una gran pregunta. No creo que pueda dar una respuesta completa, pero arrojaré algo de comida para pensar.


χ2=(O-mi)2mi

χ2 (r-1)(C-1)

Irónicamente, el mismo problema subyacente (discrepancia discreta-continua) puede conducir a valores p que son demasiado altos . Específicamente, el valor p se define convencionalmente como la probabilidad de obtener datos que son tan extremos o másque los datos observados. Con datos continuos, se entiende que la probabilidad de obtener un valor exacto es muy pequeña y, por lo tanto, realmente tenemos la probabilidad de que los datos sean más extremos. Sin embargo, con datos discretos hay una probabilidad finita de obtener datos como los suyos. Solo calcular la probabilidad de obtener datos más extremos que los suyos produce valores p nominales que son demasiado bajos (lo que lleva a mayores errores de tipo I), pero incluir la probabilidad de obtener datos iguales a los suyos conduce a valores p nominales que son demasiado altos (lo que llevaría a un aumento de los errores de tipo II). Estos hechos provocan la idea del valor p medio . Bajo este enfoque, el valor p es la probabilidad de que los datos sean más extremos que los suyos más la mitad La probabilidad de que los datos sean iguales a los suyos.

Como señala, hay muchas posibilidades para probar los datos de la tabla de contingencia. El tratamiento más completo de los pros y los contras de los diversos enfoques está aquí . Ese documento es específico para tablas de 2x2, pero aún puede aprender mucho sobre las opciones de datos de tablas de contingencia al leerlo.

También creo que vale la pena considerar seriamente los modelos. Las pruebas más antiguas, como el chi-cuadrado, son rápidas, fáciles y muchas personas las entienden, pero no te dejan con una comprensión tan completa de tus datos como la que obtienes al construir un modelo apropiado. Si es razonable pensar en las filas [columnas] de su tabla de contingencia como una variable de respuesta, y las columnas [filas] como variables explicativas / predictoras, un enfoque de modelado sigue con bastante facilidad. Por ejemplo, si solo tuviera dos filas, puede construir un modelo de regresión logística ; Si hay varias columnas, puede utilizar la codificación de celda de referencia (codificación ficticia) para construir un modelo de tipo ANOVA. Por otro lado, si tiene más de dos filas, regresión logística multinomialse puede usar de la misma manera. Si sus filas tienen un orden intrínseco, la regresión logística ordinal produciría un rendimiento superior al multinomial. El modelo logarítmico lineal (regresión de Poisson) es probablemente menos relevante a menos que tenga tablas de contingencia con más de dos dimensiones, en mi opinión.

Para un tratamiento integral de temas como estos, las mejores fuentes son los libros de Agresti: ya sea su tratamiento a gran escala (más riguroso), su libro de introducción (más fácil pero aún completo y muy bueno), o posiblemente también su libro ordinal .

sol2-prueba

sol2=OEn(Omi)

gung - Restablece a Monica
fuente
1
Esa fue una gran explicación del problema subyacente, ¡gracias! También me han dicho en el pasado que el texto de Agresti es un gran recurso, así que lo revisaré.
JVMcDonnell
4

Trataré de abordar algunas de sus preguntas lo mejor que pueda desde mi perspectiva. Primero, la prueba Fisher-Irwin es solo otro nombre para la prueba exacta de Fisher. Excepto por el hecho de que a veces es computacionalmente intenso, generalmente prefiero usar la prueba de Fisher. Si hay algún problema con esta prueba, está condicionando los totales marginales. La belleza de la prueba es que, bajo la hipótesis nula, el conjunto de tablas de contingencia con los mismos totales marginales que la tabla observada tiene una distribución hipergeométrica. Algunas personas argumentan que no ven la razón para restringir la consideración a tablas con los mismos totales marginales.

La prueba de chi-cuadrado de Pearson se usa muy comúnmente para evaluar la asociación en tablas de contingencia. Como muchas otras pruebas, es aproximada y, por lo tanto, el nivel de significación no siempre es preciso. Cochran demostró que en muestras pequeñas cuando algunas células son muy escasas (por ejemplo, que contienen menos de 5 casos en algunas células) la aproximación será pobre.

Hay muchas otras pruebas aproximadas. Por lo general, cuando aplico la prueba de Fisher con SAS obtengo los resultados de todas estas pruebas y generalmente dan casi los mismos resultados. Pero la prueba de Fisher siempre está supeditada a los totales marginales.

Con respecto a la regresión de Poisson, ese es un modelo que relaciona las variables categóricas con los totales de las celdas. Como cualquier modelo, depende de un conjunto de supuestos. Lo más importante es que los recuentos de células siguen una distribución de Poisson, lo que significa que el número medio de recuentos es igual a su varianza. Esto no es generalmente cierto para las distribuciones de recuento celular. En el caso de sobredispersión (varianza mayor que la media), un modelo binomial negativo podría ser más apropiado.

Michael R. Chernick
fuente
"La prueba Fisher-Irwin es solo otro nombre para la prueba exacta de Fisher" ... ajá, esto hace que este comentario sea menos confuso para mí, ¡gracias!
JVMcDonnell
3
Su respuesta realmente no ha reducido mi confusión sobre cuándo hacer estas cosas. Supongo que una de las cosas que esperaba escuchar es en qué medida los problemas con chi ^ 2 se pueden resolver mediante la simulación o las correcciones de monte carlo, etc. o la medida en que puede ser reemplazado por glms. Así que voy a dejar esto abierto un poco para ver si puedo obtener más picaduras. Pero si nadie pesa después de un rato, aceptaré tu respuesta.
JVMcDonnell
Para Fisher y Chi-cuadrado, creo que te dije cuándo puedes usar chi cuadrado. Si acepta la idea de Fisher de que siempre debe condicionar los totales marginales, la prueba de Fisher siempre es aplicable. Pero si no acepta eso, entonces supongo que tendría que elegir una prueba incondicional. En cuanto a la otra batería de pruebas disponibles, no sé nada sobre sus propiedades y, por lo tanto, realmente no puedo aconsejarle cuándo usarlas. Experiencia de formulario He visto casos en los que importaba porque los resultados suelen estar muy de acuerdo.
Michael R. Chernick
¿Es realmente cierto que Fisher pensó que "siempre debes condicionar los totales marginales"? Este supuesto solo es válido cuando los totales marginales son fijos. En el ejemplo del té de degustación, la dama sabe que 5 son leche primero y 5 son leche última. Pero es más común en los experimentos que no hay fuerza que imponga a los marginales. Considere el caso de lanzar dos monedas 10 veces cada una. Cuando 5 caras ruedan alrededor, la moneda no comienza a dar colas para preservar los márgenes. En tales casos, se ha documentado que Fisher's es altamente conservador. Por eso me interesan las alternativas.
JVMcDonnell
Si. Tengo entendido que Fisher creía en la elección de las distribuciones de referencia que utilizan la información de los datos dados. Por lo tanto, pensaría que no importa cómo se obtuvieron los totales marginales, los datos observados solo deben compararse con los datos que habrían sucedido bajo la hipótesis nula que siguió a las restricciones en los datos, es decir, los totales marginales dados. Al igual que con otras ideas que Fisher tenía, esto fue controvertido.
Michael R. Chernick