Prueba de chi-cuadrado para la igualdad de distribuciones: ¿cuántos ceros tolera?

10

Estoy comparando dos grupos de mutantes, cada uno de los cuales puede tener solo uno de los 21 fenotipos diferentes. Me gustaría ver si la distribución de estos resultados es similar entre dos grupos. Encontré una prueba en línea que calcula la "prueba de Chi-cuadrado para la igualdad de distribuciones" y me da algunos resultados plausibles. Sin embargo, tengo bastantes ceros en esta tabla, ¿puedo usar chi-cuadrado en este caso?

Aquí está la tabla con dos grupos y recuentos de fenotipos particulares:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1
Membran
fuente
La mesa no salió bien. Cada número impar es un recuento del grupo 1 y cada número par es el recuento respectivo del grupo 2
Membran
He reformateado tu pregunta. ¿La tabla ahora es correcta?
csgillespie

Respuestas:

8

Perfectamente factible en estos días para hacer la prueba 'exacta' de Fisher en una mesa de este tipo. Acabo de obtener p = 0.087 usando Stata ( tabi 2 1 \ 2 3 \ .... , exact. La ejecución tomó 0.19 segundos).

EDITAR después del comentario de chl a continuación (intenté agregarlo como comentario pero no puedo formatear):

Funciona en R 2.12.0 para mí, aunque tuve que aumentar la opción 'espacio de trabajo' sobre su valor predeterminado de 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(El tiempo de ejecución es un poco más rápido que en Stata, pero eso es de dudosa relevancia dado el tiempo necesario para calcular el significado del mensaje de error, que usa 'espacio de trabajo' para significar algo diferente del significado habitual de R a pesar del hecho de que fisher.test es parte del paquete principal de 'estadísticas' de R.)

una parada
fuente
1
Interesante, la prueba de Fisher se estrelló en R.
chl
No puedo votar más, lo siento. Parece que no había aumentado el wksp lo suficiente :)
chl
¿No es que la prueba "exacta" de Fisher en realidad aborda una pregunta ligeramente diferente: "... se usa para examinar la importancia de la asociación (contingencia) entre los dos tipos de clasificación" (página wiki). En mi caso, intenté confirmar (o refutar) la hipótesis de que las distribuciones de fenotipos entre 2 grupos son similares (iguales). Cuando me encontré con que la prueba en línea (ver el primer mensaje) llamado "test de Chi-cuadrado para la igualdad de las distribuciones" pensé que era precisamente por mi problema ...
Membran
Además, si cree que la versión mencionada de la prueba de Fisher está bien para comparar dos distribuciones, ¿puede usarse también para verificar la uniformidad de distribución (es decir, para decir que los fenotipos dentro de un grupo se distribuyeron de manera no uniforme entre un número finito de posibles fenotipos) ? Uno puede hacer esto incluso en Excel usando la función CHITEST, pero ¿qué pasa si tengo una distribución similar a las anteriores, con muchos fenotipos observados menos de 5 veces?
Membran
@Membran # 1: es una pregunta ligeramente diferente a las condiciones exactas de prueba de Fisher en ambos conjuntos de totales marginales. Sin embargo, esto me parece una especie de sutileza estadística académica, y soy estadístico en la academia. (Por cierto, ¿podría aclarar a qué wiki se refiere?) @Membran # 2: No llamaría a la prueba exacta condicional "Prueba exacta de Fisher" en el caso de una tabla unidireccional, pero tal prueba debería ser posible. hubiera sido más sencillo para las tablas unidireccionales, pero actualmente no puedo encontrar software para ayudar y no tengo tiempo para realizar el cálculo sin él.
onestop
5

Las pautas habituales son que los recuentos esperados deben ser superiores a 5, pero puede ser algo relajado como se analiza en el siguiente artículo:

Pruebas de Campbell, I, Chi-cuadrado y Fisher-Irwin de tablas de dos por dos con pequeñas recomendaciones de muestra , Estadísticas en Medicina (2007) 26 (19): 3661-3675.

Ver también la página de inicio de Ian Campbell .

pagchisq.test(..., sim=TRUE)

En su caso, parece que aproximadamente el 80% de los recuentos esperados están por debajo de 5, y el 40% están por debajo de 1. ¿Tendría sentido agregar algunos de los fenotipos observados?

chl
fuente
Gracias por las sugerencias Lógicamente, no es posible fusionar fenotipos, ya que cada uno de ellos es una combinación única de tres parámetros registrados. Dado que cada uno de estos parámetros puede ir "hacia arriba", "hacia abajo" o permanecer "sin cambios" como resultado de una mutación, entonces puede haber 3 ^ 3 = 27 fenotipos distintos. En el ejemplo anterior, eliminé aquellos fenotipos para los que ambos grupos obtuvieron "0", por lo que solo había 21 de ellos. Veo la prevalencia de ciertos fenotipos, pero me gustaría tener alguna prueba estadística de que las distribuciones de tales fenotipos en varios grupos de mutantes son similares (o no). ¡Gracias!
Membran
1
@Membran Aggregation no tiene que ser significativo: puede combinar contenedores de la forma que desee. Sin embargo, un problema sutil es que la agregación post facto pone en duda los valores p; la agregación debería ser independiente de los datos.
whuber