Dado el poder de las computadoras en estos días, ¿hay alguna razón para hacer una prueba de ji cuadrado en lugar de la prueba exacta de Fisher?

86

Dado que el software puede hacer el cálculo exacto de la prueba de Fisher con tanta facilidad hoy en día , ¿hay alguna circunstancia en la que, teórica o prácticamente, la prueba de ji cuadrado sea realmente preferible a la prueba exacta de Fisher?

Las ventajas de la prueba exacta de Fisher incluyen:

  • escalar a tablas de contingencia mayores de 2x2 (es decir, cualquier tabla r x c )
  • da un valor p exacto
  • no necesita tener un recuento mínimo de células esperado para ser válido
pmgjones
fuente
10
Porque son buenos viejos clásicos. Pronto se convertirá en una exquisita cosecha. A partir de entonces, cuando la gente se levante contra las computadoras, vivirá su segunda juventud.
ttnphns
77
¿Alguna vez ha intentado calcular el estadístico de prueba exacto de Fisher en una tabla grande? (Tarda demasiado ...)
whuber
22
Además de los buenos comentarios y respuestas que ya ha recibido, creo que la mejor pregunta es "Dado el poder de las computadoras, ¿por qué no hacer pruebas de simulación / permutación todo el tiempo?".
Peter Flom
1
@whuber Hice una implementación (propietaria) sin (gran cantidad de) tablas, en C ++. Ejecuta miles de valores P para números de hasta 8 dígitos en segundos.
Michel de Ruiter
1
@Michel Me refería al número total de celdas en la tabla. El cálculo es fácil para tablas de 2 x 2, pero a medida que las tablas crecen, los cálculos se vuelven onerosos.
whuber

Respuestas:

61

Puedes cambiar la pregunta. Dado que la prueba ordinaria Pearson es casi siempre más precisa que la prueba exacta de Fisher y es mucho más rápida de calcular, ¿por qué alguien usa la prueba de Fisher?χ2

Tenga en cuenta que es una falacia que las frecuencias de celda esperadas tengan que exceder 5 para que el Pearson produzca valores precisos . La prueba es precisa siempre que las frecuencias de celda esperadas excedan 1.0 si se aplica una corrección muy simple a la estadística de prueba.χ2PN1N


De R-help, 2009 :

Campbell, I. Chi-cuadrado y Fisher-Irwin pruebas de tablas de dos por dos con pequeñas recomendaciones de muestra. Estadísticas en medicina 2007; 26 : 3661-3675. ( resumen )

  • ... la última edición del libro de Armitage recomienda que los ajustes de continuidad nunca se usen para las pruebas de chi-cuadrado de la tabla de contingencia;

  • E. Modificación de Pearson de la prueba de chi-cuadrado de Pearson, que difiere del original por un factor de (N-1) / N;

  • Cochran señaló que el número 5 en "frecuencia esperada inferior a 5" era arbitrario;

  • Los resultados de los estudios publicados se pueden resumir de la siguiente manera para los ensayos comparativos:

    1. La prueba de ji cuadrado de Yate tiene tasas de error tipo I menores que las nominales, a menudo menos de la mitad de las nominales;

    2. La prueba de Fisher-Irwin tiene tasas de error tipo I inferiores a las nominales;

    3. La versión de K Pearson de la prueba de chi-cuadrado tiene tasas de error tipo I más cercanas a la nominal que la prueba de chi-cuadrado de Yate y la prueba de Fisher-Irwin, pero en algunas situaciones da errores de tipo I apreciablemente más grandes que el valor nominal;

    4. La prueba de chi-cuadrado 'N-1' se comporta como la versión 'N' de K. Pearson, pero se reduce la tendencia a valores superiores a los nominales;

    5. La prueba de Fisher-Irwin de dos lados que usa la regla de Irwin es menos conservadora que el método que duplica la probabilidad unilateral;

    6. La prueba de Fisher-Irwin a mitad de P al duplicar la probabilidad unilateral se desempeña mejor que las versiones estándar de la prueba de Fisher-Irwin, y el método de P a mitad de la regla de Irwin funciona aún mejor al tener errores reales de tipo I más cercanos a los niveles nominales. ";

  • fuerte apoyo para la prueba 'N-1' siempre que las frecuencias esperadas excedan 1;

  • falla en la prueba de Fisher que se basó en la premisa de Fisher de que los totales marginales no contienen información útil;

  • demostración de su información útil en muestras muy pequeñas;

  • El ajuste de continuidad de Yate de N / 2 es una gran corrección excesiva y es inapropiado;

  • existen argumentos contrarios al uso de pruebas de aleatorización en ensayos aleatorizados;

  • cálculos de los peores casos;

  • recomendación general : use la prueba de chi-cuadrado 'N-1' cuando todas las frecuencias esperadas sean al menos 1, de lo contrario use la prueba de Fisher-Irwin usando la regla de Irwin para pruebas de dos lados, tomando tablas de la cola como sea probable, o menos, como eso observó; ver carta al editor de Antonio Andrés y respuesta del autor en 27: 1791-1796; 2008


Crans GG, Shuster JJ. ¿Cuán conservadora es la prueba exacta de Fisher? Una evaluación cuantitativa del ensayo binomial comparativo de dos muestras. Estadísticas en medicina 2008; 27 : 3598-3611. ( resumen )

  • ... primer artículo para cuantificar verdaderamente la conservaduría de la prueba de Fisher;

  • "el tamaño de la prueba de FET fue inferior a 0.035 para casi todos los tamaños de muestra antes de 50 y no se acercó a 0.05 incluso para tamaños de muestra superiores a 100".

  • conservadurismo de los métodos "exactos";

  • ver Stat en Med 28 : 173-179, 2009 para una crítica sin respuesta


Lydersen S, Fagerland MW, Laake P. Pruebas recomendadas para asociación en tablas . Estadísticas en medicina 2009; 28 : 1159-1175. ( resumen )2×2

  • ... La prueba exacta de Fisher nunca debe usarse a menos que se aplique la corrección de media ;P

  • valor de las pruebas incondicionales;

  • ver carta al editor 30: 890-891; 2011

Frank Harrell
fuente
1
¿Puede sugerir cómo aplicar la corrección (N-1) / N? ¿Hay alguna calculadora en línea que incorpore esta corrección? ¿Hay alguna manera fácil de ajustar manualmente los resultados de la prueba de ji cuadrado para hacer esta corrección usted mismo?
DW
Una de las referencias que enumeré arriba es su mejor apuesta.
Frank Harrell
1
¿Por qué dice que "casi siempre es más preciso que la prueba exacta de Fisher" ? Yo diría lo contrario, porque el no es una prueba "exacta". χ2 χ2
Stéphane Laurent
2
Etiquetar algo como "exacto" no lo hace así. Vea la maravillosa explicación a continuación de @suncoolsu que debe haberse perdido (también se perdió todas las explicaciones anteriores). La prueba de Pearson es aún más precisa de lo que Pearson pensó que era. Ver citeulike.org/user/harrelfe/article/13265687 y citeulike.org/user/harrelfe/article/13263676 por ejemplo. La prueba "exacta" de Fisher solo es exacta en el sentido de que el verdadero error de tipo I no es mayor de lo que se afirma. Pero resulta ser más pequeño de lo que se afirma, por lo que el error tipo II es mayor, lo que significa menos potencia.
Frank Harrell
Sé el significado de exactitud. El punto preciso que no me gusta con las pruebas inexactas es la posibilidad de que el error tipo I sea más alto que el nivel nominal. Pero tienes razón, leí mal tu respuesta y la otra (ambas son geniales)
Stéphane Laurent
47

Esta es una gran pregunta.

La prueba exacta de Fisher es uno de los grandes ejemplos del uso inteligente del diseño experimental de Fisher , junto con el condicionamiento de los datos (básicamente en tablas con la fila observada y los totales marginales) y su ingenio para encontrar distribuciones de probabilidad (aunque este no es el mejor ejemplo , para un mejor ejemplo ver aquí ). El uso de computadoras para calcular valores p "exactos" definitivamente ha ayudado a obtener respuestas precisas.

Sin embargo, es difícil justificar los supuestos de la prueba exacta de Fisher en la práctica. Debido a que el llamado "exacto" proviene del hecho de que en el "experimento de degustación de té" o en el caso de tablas de contingencia 2x2, el total de la fila y el total de la columna, es decir, los totales marginales se fijan por diseño. Esta suposición rara vez se justifica en la práctica. Para buenas referencias ver aquí .

El nombre "exacto" lleva a uno a creer que los valores p dados por esta prueba son exactos, lo que desafortunadamente en la mayoría de los casos no es correcto debido a estas razones.

  1. Si los marginales no están fijos por diseño (lo que ocurre casi siempre en la práctica), los valores p serán conservadores.
  2. Dado que la prueba utiliza una distribución de probabilidad discreta (específicamente, distribución hipergeométrica), para ciertos puntos de corte es imposible calcular las "probabilidades nulas exactas", es decir, el valor p.

En la mayoría de los casos prácticos, el uso de una prueba de razón de probabilidad o prueba de Chi-cuadrado no debería dar respuestas muy diferentes (valor p) de una prueba exacta de Fisher. Sí, cuando los márgenes son fijos, la prueba exacta de Fisher es una mejor opción, pero esto sucederá raramente. Por lo tanto, siempre se recomienda el uso de la prueba de Chi-cuadrado de la razón de probabilidad para las comprobaciones de consistencia.

Se aplican ideas similares cuando la prueba exacta de Fisher se generaliza a cualquier tabla, lo que básicamente equivale a calcular probabilidades hipergeométricas multivariadas. Por lo tanto, siempre se debe tratar de calcular los valores p basados ​​en la distribución de Chi-cuadrado y la razón de probabilidad, además de los valores p "exactos".

suncoolsu
fuente