¿Existe una versión de muestra múltiple o una alternativa a la prueba de Kolmogorov-Smirnov?

12

Estoy comparando la distribución del tamaño de los árboles en seis pares de parcelas donde una parcela recibió un tratamiento y la otra un control. Usando una prueba de Kolmogorov-Smirnov en cada par de parcelas, encuentro que varía de 0.0003707 a 0.75 . ¿Existen métodos apropiados para tratar todas las réplicas juntas, como una extensión de múltiples muestras de la prueba KS, o hay una prueba de seguimiento adecuada? ¿O debería concluir algo como "La distribución del tamaño difiere significativamente ( p < 0.05 ) en 2 pares de parcelas y marginalmente ( p = 0.59 ) en un par de parcelas".p0.00037070.75(p<0.05p=0.59

N Brouwer
fuente
2
¿Qué es lo que quiere comparar acerca de estas distribuciones, que difieren en su tendencia central o que difieren en su forma? Tiendo a pensar que KS tiene más que ver con la forma / naturaleza de una distribución, pero algo como la prueba de Friedman puede determinar que las muestras difieren en la tendencia central.
gung - Restablece a Monica

Respuestas:

13

r2

Momo
fuente
55
Bueno, la desventaja de ese "hermoso" artículo de Böhm y Hornik es que, hasta donde puedo ver, no hay una implementación disponible públicamente. Las matemáticas son lo suficientemente complejas que no te gustaría implementarlas tú mismo. Envié un correo electrónico a los autores y les pregunté, pero no respondieron. Tenga en cuenta que Hornik es miembro del grupo R Core Developers ... Si alguien conoce una implementación, ¡por favor publique un enlace aquí!
Laryx Decidua
8

Hay un paquete R kSamples que le ofrece, entre otras cosas, una prueba Anderson-Darling no k paramétrica. La hipótesis nula es que todas las k muestras provienen de la misma distribución que no necesita ser especificada. Quizás puedas usar esto.

Pequeño ejemplo sobre la comparación de muestras distribuidas normal y gamma a escala para que tengan la misma media y varianza:

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"
Laryx Decidua
fuente
4

Un par de enfoques:

Use los valores p por pares, pero ajústelos para comparaciones múltiples usando algo como los ajustes de Bon Feroni o False Discovery Rate (el primero probablemente sea un poco conservador). Entonces puede estar seguro de que cualquiera que sea significativamente diferente probablemente no se deba a las pruebas múltiples.

Puede crear una prueba general en el sabor de KS al encontrar la mayor distancia entre cualquiera de las distribuciones, es decir, trazar todos los cdf empíricos y encontrar la mayor distancia desde la línea inferior hasta la línea superior, o tal vez la distancia promedio o alguna otra significativa medida. Luego puede encontrar si eso es significativo haciendo una prueba de permutación: agrupe todos los datos en 1 contenedor grande, luego divídalos al azar en grupos con los mismos tamaños de muestra que sus grupos originales, recalcule la estadística en los datos permutados y repita el proceso muchas veces (más o menos 999). Luego, vea cómo se comparan sus datos originales con los conjuntos de datos permutados. Si la estadística de datos original cae en el medio de las permutadas, entonces no se encuentran diferencias significativas, pero si está en el borde, o más allá de cualquiera de los permutados, entonces está sucediendo algo significativo (pero esto no te dice cuáles son diferentes). Probablemente deberías probar esto con datos simulados donde sabes que hay una diferencia que es lo suficientemente grande como para ser interesante solo para verificar el poder de esta prueba para encontrar las diferencias interesantes.

Greg Snow
fuente