Estoy comparando la distribución del tamaño de los árboles en seis pares de parcelas donde una parcela recibió un tratamiento y la otra un control. Usando una prueba de Kolmogorov-Smirnov en cada par de parcelas, encuentro que varía de 0.0003707 a 0.75 . ¿Existen métodos apropiados para tratar todas las réplicas juntas, como una extensión de múltiples muestras de la prueba KS, o hay una prueba de seguimiento adecuada? ¿O debería concluir algo como "La distribución del tamaño difiere significativamente ( p < 0.05 ) en 2 pares de parcelas y marginalmente ( p = 0.59 ) en un par de parcelas".
nonparametric
kolmogorov-smirnov
N Brouwer
fuente
fuente
Respuestas:
fuente
Hay un paquete R kSamples que le ofrece, entre otras cosas, una prueba Anderson-Darling no k paramétrica. La hipótesis nula es que todas las k muestras provienen de la misma distribución que no necesita ser especificada. Quizás puedas usar esto.
Pequeño ejemplo sobre la comparación de muestras distribuidas normal y gamma a escala para que tengan la misma media y varianza:
fuente
Un par de enfoques:
Use los valores p por pares, pero ajústelos para comparaciones múltiples usando algo como los ajustes de Bon Feroni o False Discovery Rate (el primero probablemente sea un poco conservador). Entonces puede estar seguro de que cualquiera que sea significativamente diferente probablemente no se deba a las pruebas múltiples.
Puede crear una prueba general en el sabor de KS al encontrar la mayor distancia entre cualquiera de las distribuciones, es decir, trazar todos los cdf empíricos y encontrar la mayor distancia desde la línea inferior hasta la línea superior, o tal vez la distancia promedio o alguna otra significativa medida. Luego puede encontrar si eso es significativo haciendo una prueba de permutación: agrupe todos los datos en 1 contenedor grande, luego divídalos al azar en grupos con los mismos tamaños de muestra que sus grupos originales, recalcule la estadística en los datos permutados y repita el proceso muchas veces (más o menos 999). Luego, vea cómo se comparan sus datos originales con los conjuntos de datos permutados. Si la estadística de datos original cae en el medio de las permutadas, entonces no se encuentran diferencias significativas, pero si está en el borde, o más allá de cualquiera de los permutados, entonces está sucediendo algo significativo (pero esto no te dice cuáles son diferentes). Probablemente deberías probar esto con datos simulados donde sabes que hay una diferencia que es lo suficientemente grande como para ser interesante solo para verificar el poder de esta prueba para encontrar las diferencias interesantes.
fuente