¿Cómo llevar a cabo múltiples pruebas de chi-cuadrado post-hoc en una mesa de 2 X 3?

9

Mi conjunto de datos está compuesto por la mortalidad total o la supervivencia de un organismo en tres tipos de sitios, costero, medio canal y en alta mar. Los números en la tabla a continuación representan el número de sitios.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

Me gustaría saber si el número de sitios donde ocurrió el 100% de mortalidad es significativo según el tipo de sitio. Si ejecuto un chi-cuadrado de 2 x 3, obtengo un resultado significativo. ¿Existe una comparación por pares post-hoc que pueda ejecutar o debería usar un ANOVA logístico o una regresión con distribución binomial? ¡Gracias!

chl
fuente

Respuestas:

7

Una tabla de contingencia debe contener todas las categorías mutuamente excluyentes en ambos ejes. Costero / Medio canal / Costa afuera se ven bien, sin embargo, a menos que "menos del 100% de mortalidad" signifique "100% de supervivencia" en este entorno biológico, es posible que necesite construir tablas que tengan en cuenta todos los casos observados o explicar por qué restringe su análisis al extremo extremos de la muestra.

Como 100% de supervivencia significa 0% de mortalidad, podría tener una tabla con columnas 100% = mortalidad / 100%> mortalidad> 0% / mortalidad = 0%. En este caso, ya no compararía los porcentajes, sino las medidas de mortalidad ordinal en tres categorías de tipos de sitio. (¿Qué pasa con el uso de los valores porcentuales originales en lugar de categorías?) Una versión de la prueba de Kruskal-Wallis puede ser apropiada aquí que tenga en cuenta los lazos de manera apropiada (tal vez una prueba de permutación).

Existen pruebas post hoc establecidas para la prueba de Kruskal-Wallis: 1 , 2, 3 . (Un enfoque de remuestreo puede ayudar a abordar los lazos).

La regresión logística y la regresión binomial pueden ser aún mejores ya que no solo le dan valores de p, sino también estimaciones útiles e intervalos de confianza de los tamaños del efecto. Sin embargo, para configurar esos modelos, se necesitarían más detalles sobre los sitios 100%> mortalidad> 0%.

GaBorgulya
fuente
4

Asumiré que "100% de supervivencia" significa que sus sitios solo contenían un solo organismo. entonces 30 significa que 30 organismos murieron, y 31 significa que 31 organismos no lo hicieron. En base a esto, el chi-cuadrado debería estar bien, pero solo indicará qué hipótesis no son compatibles con los datos; no le dirá si dos hipótesis razonables son mejores o no. Presento un análisis de probabilidad que extrae esta información: está de acuerdo con la prueba de ji al cuadrado, pero le brinda más información que la prueba de ji al cuadrado y una mejor manera de presentar los resultados.

El modelo es un modelo de Bernouli para el indicador de "muerte", ( i denota la celda de la tabla 2 × 3 , y j denota la unidad individual dentro de la celda) .YijBin(1,θij)i2×3j

Hay dos supuestos globales subyacentes a la prueba de chi-cuadrado:

  1. dentro de una celda dada de la tabla, los son todos iguales, es decir, θ i j = θ i k = θ iθijθij=θik=θyo
  2. los son estadísticamente independientes, dado θ i . Esto significa que los parámetros de probabilidad le dicen todo acerca de Y i j ; toda otra información es irrelevante si sabe θ iYijθiYijθi

Denote como la suma de Y i j , (entonces X 1 = 30 , X 2 = 10 ,XiYij ) y sea N i el tamaño del grupo (entonces N 1 = 61 , N 2 = 30 , N 3 = 11 ). Ahora tenemos una hipótesis para probar:X1=30,X2=10,X3=1NiN1=61,N2=30,N3=11

HA:θ1=θ2,θ1=θ3,θ2=θ3

Pero cuales son las alternativas? Yo diría que las otras combinaciones posibles de igual o no igual.

H B 2 : θ 1θ 2 , θ 1 = θ 3 , θ 2θ 3 H B 3 : θ 1 = θ 2 , θ 1θ 3 , θ 2

HB1:θ1θ2,θ1θ3,θ2=θ3
HB2:θ1θ2,θ1=θ3,θ2θ3
HB3:θ1=θ2,θ1θ3,θ2θ3
HC:θ1θ2,θ1θ3,θ2θ3

HAI0

P(X1,X2,X3|N1,N2,N3,HA,I0)=01P(X1,X2,X3,θ|N1,N2,N3,HA,I0)dθ
=(N1X1)(N2X2)(N3X3)01θX1+X2+X3(1θ)N1+N2+N3X1X2X3dθ
=(N1X1)(N2X2)(N3X3)(N1+N2+N3+1)(N1+N2+N3X1+X2+X3)

HB1

P(X1,X2,X3|N1,N2,N3,HB1,I0)=01P(X1,X2,X3,θ1θ2El |norte1,norte2,norte3,HB1,yo0 0)reθ1reθ2
=(N2X2)(N3X3)(N1+1)(N2+N3+1)(norte2+norte3X2+X3)

HUNAvsHsi14 4HUNAHsi14 4

Hypagothmisyospagrosiunasiyolyoty(HUNAEl |re)0.018982265(Hsi1El |re)0.004790669(Hsi2El |re)0.051620022(Hsi3El |re)0.484155874(HCEl |re)0.440451171

UNA

probabilidadislogica
fuente
1

Aquí está el código para hacer las pruebas de chi cuadrado, así como generar una variedad de estadísticas de prueba. Sin embargo, las pruebas estadísticas de asociación de los márgenes de la tabla son inútiles aquí; La respuesta es obvia. Nadie hace una prueba estadística para ver si el verano es más caluroso que el invierno.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)
Patrick McCann
fuente
3
Sería interesante para el lector (y el OP) si pudiera proporcionar detalles sobre la diferente sintaxis R (y las pruebas subyacentes) que dio, y especialmente cómo una prueba de Kruskal-Wallis se compara con un modelo log-lineal.
chl
Puede ver esto copiando y pegando el código en la consola R.
Patrick McCann
1
Seguro. Las respuestas provienen de ellos mismos ejecutando el código, por supuesto.
chl
0

Creo que podría usar los "intervalos de confianza simultáneos" para hacer comparaciones múltiples. La referencia es Agresti et al. 2008 Intervalos de confianza simultáneos para comparar parámetros binomiales. Biometría 64 1270-1275.

Puede encontrar el código R correspondiente en http://www.stat.ufl.edu/~aa/cda/software.html

Tu.2
fuente