Suponga la siguiente situación:
tenemos un gran número (por ejemplo, 20) con grupos pequeños (por ejemplo, n = 3). Noté que si genero valores a partir de la distribución uniforme, los residuos se verán aproximadamente normales a pesar de que la distribución del error es uniforme. El siguiente código R demuestra este comportamiento:
n.group = 200
n.per.group = 3
x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)
Si miro el residuo de una muestra en un grupo de tres, la razón del comportamiento es clara:
Dado que es una suma de variables aleatorias con una desviación estándar no muy diferente, su distribución está bastante más cerca de la distribución normal que los términos individuales.
Ahora suponga que tengo la misma situación con datos reales en lugar de datos simulados. Quiero evaluar si se cumplen los supuestos de ANOVA con respecto a la normalidad. La mayoría de los procedimientos recomendados recomiendan la inspección visual de los residuos (por ejemplo, QQ-Plot) o una prueba de normalidad en los residuos. Como mi ejemplo anterior, esto no es realmente óptimo para grupos pequeños.
¿Existe una mejor alternativa cuando tengo muchos grupos de tamaños pequeños?
Respuestas:
Ahora, en lugar de levantar las manos frustrados, podemos aplicar la corrección de números pequeños para nuestras SD en condiciones normales. (¡Ja! Hay una solución a nuestra miseria).
Ahora, en el caso de que presente, también tiene varias otras cosas. De hecho, la mejor medida de ubicación de una distribución uniforme no es la media. Aunque tanto la media de la muestra como la mediana de la muestra son estimadores imparciales del punto medio, ninguno es tan eficiente como el rango medio de la muestra, es decir, la media aritmética del máximo de la muestra y el mínimo de la muestra, que es el estimador imparcial de varianza mínima UMVU estimador del punto medio (y también la estimación de máxima verosimilitud).
Ahora a la carne de la materia. Si usa el promedio de los valores extremos, la varianza de la medida de la ubicación será menor, siempre que sus datos estén realmente distribuidos de manera uniforme. Puede distribuirse normalmente porque una sola cola de valor extremo bien podría ser normal. Sin embargo, con solo 3 muestras, la desviación estándar necesitará corrección.
fuente